Голосовые агенты
Голосовые агенты -- это AI-ассистенты, которые общаются с пользователями в режиме реального времени через голос. В отличие от текстовых агентов, голосовые агенты принимают речь на вход, обрабатывают её и отвечают голосом, обеспечивая естественный разговорный опыт.
Ключевые концепции
Агент
Голосовой агент -- это сущность с типом voice, которая определяет поведение AI-ассистента: системный промпт, приветственное сообщение, выбор провайдеров для распознавания и синтеза речи, а также подключённые инструменты (функции, MCP-серверы, воркфлоу).
Режимы работы
Платформа поддерживает два режима обработки голоса:
| Режим | Описание | Когда использовать |
|---|---|---|
| Pipeline | Классический конвейер: STT → LLM → TTS | Максимальная гибкость в выборе провайдеров, контроль над каждым компонентом |
| Realtime | Audio-to-audio через API реального времени | Минимальная задержка, естественная интонация |
Подробнее о режимах -- в разделе Режимы работы.
Сессия
Каждый разговор с голосовым агентом создаёт сессию (VoiceSession). Сессия отслеживает:
- Статус разговора (
active,completed,failed,abandoned) - Длительность
- Канал связи (Web, SIP inbound/outbound, MMD)
- Транскрипт диалога (реплики пользователя и агента)
- Метрики производительности (задержки, количество токенов, время первого байта)
Каналы связи
Голосовые агенты могут принимать звонки через несколько каналов:
- Web -- встроенный виджет в интерфейсе платформы (WebRTC через LiveKit)
- SIP Inbound -- входящие телефонные звонки через SIP-транки
- SIP Outbound -- исходящие звонки, инициированные агентом
- MMD -- интеграция с внешними call-центрами через MMD Bridge
Создание голосового агента
Для создания голосового агента:
- Перейдите в проект и откройте раздел Голосовые агенты
- На вкладке Агенты нажмите Создать агента
- Укажите имя и описание агента
- Задайте системный промпт -- инструкции, определяющие поведение агента
- Опционально задайте приветственное сообщение -- фразу, которую агент произнесёт в начале разговора
- Выберите режим работы (Pipeline или Realtime) и настройте провайдеры
Начните с режима Pipeline и провайдеров по умолчанию (Deepgram STT + OpenAI LLM + Cartesia TTS). Это даст хороший баланс между качеством и скоростью. Переключайтесь на Realtime, если критична минимальная задержка.
Настройки голосового агента
Страница настроек агента состоит из нескольких разделов:
Основные настройки
- Имя агента -- отображаемое имя
- Системный промпт -- инструкции для AI-модели
- Приветствие -- первая фраза агента при начале разговора
- Режим -- Pipeline или Realtime
Конфигурация провайдеров
В зависимости от выбранного режима настраиваются различные провайдеры. Подробнее -- в разделе Настройка STT/TTS.
Общие настройки
Эти настройки доступны в обоих режимах:
- Обработка прерываний -- может ли пользователь перебивать агента
- Idle и повторное вовлечение -- поведение при молчании пользователя
- Фоновое аудио -- эмбиент-звуки, звуки ожидания, филлеры
Подробнее -- в разделе Филлеры и фоновое аудио.
Инструменты
Голосовой агент поддерживает подключение инструментов:
- Функции -- пользовательские функции (HTTP, JavaScript)
- MCP-серверы -- инструменты через Model Context Protocol
- Воркфлоу -- запуск воркфлоу как инструмент
- Суб-агенты -- делегирование задач другим агентам
Инструмент end_call добавляется автоматически ко всем голосовым агентам. Он позволяет агенту корректно завершить звонок, когда пользователь прощается.
Вкладки раздела "Голосовые агенты"
Раздел "Голосовые агенты" в интерфейсе проекта содержит три вкладки:
| Вкладка | Описание |
|---|---|
| Агенты | Список голосовых агентов, создание и настройка |
| Сессии | История звонков, транскрипты, метрики, аналитика |
| Номера | Управление телефонными номерами для SIP-интеграции |
Тестирование агента
Голосовой агент можно протестировать прямо в интерфейсе платформы:
- Откройте страницу настроек агента
- Нажмите кнопку тестирования (иконка микрофона)
- Разрешите доступ к микрофону в браузере
- Начните разговор
В тестовом режиме конфигурация агента сохраняется в Redis и используется для эфемерной сессии. Это позволяет быстро проверить изменения до публикации.
Для работы голосового агента необходимы API-ключи провайдеров (OpenAI, Deepgram, Cartesia и т.д.). Убедитесь, что ключи настроены в разделе Провайдеры вашей организации.
Смотрите подробную конфигурацию STT и TTS провайдеров и режимы работы голосовых агентов.