Голосовий AI в e-commerce: де він працює, а де ні

Останні 6 місяців ми в Aceverse будуємо голосових AI-агентів для інтернет-магазинів — і вхідних, і вихідних. За цей час склалася чітка карта: де голос реально знімає навантаження й приносить гроші, а де його впихають «бо модно», і він лише дратує клієнтів.

Ключове: цінність не в самій LLM, а в інтеграціях. Агент без CRM і трекінгу — це дорогий автовідповідач. Агент, під'єднаний до них, — оператор, що працює 24/7 і не йде на обід.

Вхідні сценарії (агент приймає дзвінки)

1. «Де моє замовлення?» — агент за номером тягне статус із CRM і трекінг із API доставки (Нова Пошта) і відповідає словами. Найчастіше звернення, однотипне, добре автоматизується.

2. Повернення й обмін — веде клієнта по сценарію й заводить заявку в CRM. Конфліктні випадки одразу ескалює на людину.

3. FAQ, наявність, доставка — RAG по каталогу й базі знань: миттєва відповідь без черги, з ваших актуальних даних.

4. AI-рецепціоніст з передачею оператору (HITL) — приймає 24/7, прості кейси закриває сам, складні передає живому оператору з контекстом. За нашими спостереженнями, близько 50% дзвінків у неробочий час раніше просто втрачались — це прямі недоотримані замовлення.

5. Прийом замовлення голосом — оформлення в розмові із занесенням у CRM, для аудиторії, що дзвонить.

Вихідні сценарії (агент дзвонить сам)

6. Повернення кинутих кошиків — голосовий дзвінок добиває там, де email ігнорять. Один дзвінок, ввічливо, з опцією «більше не турбувати».

7. Win-back сплячих клієнтів — персональна реактивація бази. Сегментація важливіша за скрипт.

8. Підтвердження замовлення — верифікація накладеного платежу знижує відсоток невикупів і економить на логістиці.

9. Нагадування про посилку на пошті — «лежить 2 дні, інакше поїде назад до відправника» → менше повернень через «забув забрати».

10. Антифрод — на високоризикових ордерах (особливо в US-мерчантів) зловмисники вказують телефон власника картки, щоб обійти антифрод Shopify або Stripe. Агент моментально телефонує на цей номер і з'ясовує, чи це він робив замовлення; за негативної відповіді — миттєвий рефанд і уникнення chargeback'ів та збитків.

11. NPS, відгуки, апсейл — зворотний зв'язок голосом після покупки; уся розмова — у транскрипті CRM для аналітики.

Як це побудувати: архітектура

Є два підходи, і вибір між ними визначає все інше. Realtime / speech-to-speech (S2S) — одна нейромережа слухає, думає й говорить (аудіо → аудіо): нижча затримка, природніше перебивання (barge-in), але менше контролю й вужчий вибір голосів/мов. Каскад (STT → LLM → TTS) — окремі компоненти: більше хопів, зате кожен шар замінний і тюниться під конкретну мову.

Правило: S2S — коли мова добре підтримана й критична затримка; каскад — коли потрібна якість і контроль під українську. Для нашого англомовного агента Anna ми взяли S2S (OpenAI Realtime на LiveKit) заради латентності; для україномовних контакт-центрів частіше йдемо в каскад.

Realtime-моделі (лише офіційні дані вендорів)

Модель	Тип	Мови (офіц.)	Латентність	Нотатка
OpenAI Realtime (gpt-realtime-2)	proprietary	мультимовна	«low latency» (числа нема)	function calling + MCP; WebRTC/WS/SIP; наш стек для Anna
xAI Grok Voice Agent	proprietary	20+	sub-second (заявл.)	сумісна з OpenAI Realtime API + офіц. LiveKit-плагін; $0.05/хв
Google Gemini Live	proprietary	70	не вказано	barge-in, affective dialog, Google Search
Amazon Nova 2 Sonic	proprietary	EN/FR/IT/DE/ES/PT/HI (UA нема)	«low-latency»	polyglot-голоси, RAG, через Bedrock
Kyutai Moshi	open-source	англійська	160 мс теор. / ~200 мс на L4	повністю self-host, ваги CC-BY 4.0

Каскад під українську: STT — Deepgram, Soniox, OpenAI Whisper, Mistral Voxtral (Whisper / Google Chirp / Azure покривають українську); TTS — ElevenLabs, Cartesia, Respeecher (тюнінг під UA). WER/MOS міряйте на своїх дзвінках — публічні бенчмарки на студійній мові не відображають суржик і телефонний канал.

Навіщо оркестрація: LiveKit / Pipecat

Між «моделлю» й «дзвінком» — купа реал-тайм-сантехніки: транспорт (WebRTC/SIP), VAD, детекція кінця репліки, перебивання, склейка компонентів, масштабування. Руками — місяці. Тому беруть фреймворк: LiveKit Agents (infra-first, нативні WebRTC + SIP — наш основний вибір) або Pipecat (pipeline-first, контроль кожного кроку конвеєра). Готові платформи — Vapi / Retell / Synthflow — дають швидкий старт ціною per-minute з націнкою й vendor lock-in.

Інтеграція з CRM / CMS

Цінність дають інструменти (function calling): модель кличе get_order_status(phone) → ваш бекенд → API CRM/CMS (Shopify Admin, WooCommerce, Нова Пошта, KeyCRM / NetHunt) → відповідь озвучується. Для стандартизованого доступу — MCP-сервери. Вихідні сценарії — вебхук на подію (кинутий кошик, «посилка на пошті», ризиковий ордер) → тригер дзвінка через той самий стек.

Бенефіти, якщо коротко й чесно

24/7 і пікова масштабованість — агент не захлинається в чорну п'ятницю.
Не втрачені дзвінки = не втрачені замовлення — найпряміший грошовий ефект.
Нижча вартість за контакт на рутинних зверненнях проти живого оператора.
Єдина транскрипція в CRM — аналітика, контроль якості й навчальні дані заразом.

Де голосовий AI НЕ варто ставити

Емоційно складні / конфліктні розмови — потрібна людина; завдання агента: гідно ескалювати.
Малий обсяг дзвінків — інтеграція не окупиться. Чесно: не робіть.
Брудні дані в CRM — голос лише гучніше озвучить ваш безлад.
Юридично/медично чутливі теми — без людини не можна.

Повна версія статті опублікована на DOU: dou.ua/forums/topic/60031.

Чи окупається голосовий AI для невеликого інтернет-магазину?

Окупається там, де є обсяг однотипних звернень (статуси, повернення, FAQ) і чисті дані в CRM. Якщо дзвінків кілька на день — інтеграція не окупиться, і ми чесно про це кажемо.

Яка модель найкраща для української мови?

Для української зазвичай виграє каскадний підхід (STT → LLM → TTS): сильний STT (Whisper, Google Chirp, Azure, Soniox покривають UA) + TTS із підтримкою української (ElevenLabs, Respeecher). Realtime-моделі поки не дають сильних нативних українських голосів.

Голосовий AI замінить операторів підтримки?

Ні. Правильний розподіл — рутину машині, складне людині: агент закриває типові звернення 24/7 і передає складні кейси оператору з уже зібраним контекстом (human-in-the-loop).

З чого почати впровадження?

З одного сценарію (зазвичай «статус замовлення»), пілот ~2 тижні на реальному трафіку з ескалацією на людину з першого дня. Міряєте deflection rate і CSAT — працює, розширюєте; ні, чесно згортаєте.