Останні 6 місяців ми в Aceverse будуємо голосових AI-агентів для інтернет-магазинів — і вхідних, і вихідних. За цей час склалася чітка карта: де голос реально знімає навантаження й приносить гроші, а де його впихають «бо модно», і він лише дратує клієнтів.
Ключове: цінність не в самій LLM, а в інтеграціях. Агент без CRM і трекінгу — це дорогий автовідповідач. Агент, під'єднаний до них, — оператор, що працює 24/7 і не йде на обід.
Вхідні сценарії (агент приймає дзвінки)
1. «Де моє замовлення?» — агент за номером тягне статус із CRM і трекінг із API доставки (Нова Пошта) і відповідає словами. Найчастіше звернення, однотипне, добре автоматизується.
2. Повернення й обмін — веде клієнта по сценарію й заводить заявку в CRM. Конфліктні випадки одразу ескалює на людину.
3. FAQ, наявність, доставка — RAG по каталогу й базі знань: миттєва відповідь без черги, з ваших актуальних даних.
4. AI-рецепціоніст з передачею оператору (HITL) — приймає 24/7, прості кейси закриває сам, складні передає живому оператору з контекстом. За нашими спостереженнями, близько 50% дзвінків у неробочий час раніше просто втрачались — це прямі недоотримані замовлення.
5. Прийом замовлення голосом — оформлення в розмові із занесенням у CRM, для аудиторії, що дзвонить.
Вихідні сценарії (агент дзвонить сам)
6. Повернення кинутих кошиків — голосовий дзвінок добиває там, де email ігнорять. Один дзвінок, ввічливо, з опцією «більше не турбувати».
7. Win-back сплячих клієнтів — персональна реактивація бази. Сегментація важливіша за скрипт.
8. Підтвердження замовлення — верифікація накладеного платежу знижує відсоток невикупів і економить на логістиці.
9. Нагадування про посилку на пошті — «лежить 2 дні, інакше поїде назад до відправника» → менше повернень через «забув забрати».
10. Антифрод — на високоризикових ордерах (особливо в US-мерчантів) зловмисники вказують телефон власника картки, щоб обійти антифрод Shopify або Stripe. Агент моментально телефонує на цей номер і з'ясовує, чи це він робив замовлення; за негативної відповіді — миттєвий рефанд і уникнення chargeback'ів та збитків.
11. NPS, відгуки, апсейл — зворотний зв'язок голосом після покупки; уся розмова — у транскрипті CRM для аналітики.
Як це побудувати: архітектура
Є два підходи, і вибір між ними визначає все інше. Realtime / speech-to-speech (S2S) — одна нейромережа слухає, думає й говорить (аудіо → аудіо): нижча затримка, природніше перебивання (barge-in), але менше контролю й вужчий вибір голосів/мов. Каскад (STT → LLM → TTS) — окремі компоненти: більше хопів, зате кожен шар замінний і тюниться під конкретну мову.
Правило: S2S — коли мова добре підтримана й критична затримка; каскад — коли потрібна якість і контроль під українську. Для нашого англомовного агента Anna ми взяли S2S (OpenAI Realtime на LiveKit) заради латентності; для україномовних контакт-центрів частіше йдемо в каскад.
Realtime-моделі (лише офіційні дані вендорів)
| Модель | Тип | Мови (офіц.) | Латентність | Нотатка |
|---|---|---|---|---|
| OpenAI Realtime (gpt-realtime-2) | proprietary | мультимовна | «low latency» (числа нема) | function calling + MCP; WebRTC/WS/SIP; наш стек для Anna |
| xAI Grok Voice Agent | proprietary | 20+ | sub-second (заявл.) | сумісна з OpenAI Realtime API + офіц. LiveKit-плагін; $0.05/хв |
| Google Gemini Live | proprietary | 70 | не вказано | barge-in, affective dialog, Google Search |
| Amazon Nova 2 Sonic | proprietary | EN/FR/IT/DE/ES/PT/HI (UA нема) | «low-latency» | polyglot-голоси, RAG, через Bedrock |
| Kyutai Moshi | open-source | англійська | 160 мс теор. / ~200 мс на L4 | повністю self-host, ваги CC-BY 4.0 |
Каскад під українську: STT — Deepgram, Soniox, OpenAI Whisper, Mistral Voxtral (Whisper / Google Chirp / Azure покривають українську); TTS — ElevenLabs, Cartesia, Respeecher (тюнінг під UA). WER/MOS міряйте на своїх дзвінках — публічні бенчмарки на студійній мові не відображають суржик і телефонний канал.
Навіщо оркестрація: LiveKit / Pipecat
Між «моделлю» й «дзвінком» — купа реал-тайм-сантехніки: транспорт (WebRTC/SIP), VAD, детекція кінця репліки, перебивання, склейка компонентів, масштабування. Руками — місяці. Тому беруть фреймворк: LiveKit Agents (infra-first, нативні WebRTC + SIP — наш основний вибір) або Pipecat (pipeline-first, контроль кожного кроку конвеєра). Готові платформи — Vapi / Retell / Synthflow — дають швидкий старт ціною per-minute з націнкою й vendor lock-in.
Інтеграція з CRM / CMS
Цінність дають інструменти (function calling): модель кличе get_order_status(phone) → ваш бекенд → API CRM/CMS (Shopify Admin, WooCommerce, Нова Пошта, KeyCRM / NetHunt) → відповідь озвучується. Для стандартизованого доступу — MCP-сервери. Вихідні сценарії — вебхук на подію (кинутий кошик, «посилка на пошті», ризиковий ордер) → тригер дзвінка через той самий стек.
Бенефіти, якщо коротко й чесно
- 24/7 і пікова масштабованість — агент не захлинається в чорну п'ятницю.
- Не втрачені дзвінки = не втрачені замовлення — найпряміший грошовий ефект.
- Нижча вартість за контакт на рутинних зверненнях проти живого оператора.
- Єдина транскрипція в CRM — аналітика, контроль якості й навчальні дані заразом.
Де голосовий AI НЕ варто ставити
- Емоційно складні / конфліктні розмови — потрібна людина; завдання агента: гідно ескалювати.
- Малий обсяг дзвінків — інтеграція не окупиться. Чесно: не робіть.
- Брудні дані в CRM — голос лише гучніше озвучить ваш безлад.
- Юридично/медично чутливі теми — без людини не можна.
Повна версія статті опублікована на DOU: dou.ua/forums/topic/60031.


