Голосовые агенты

Голосовые агенты -- это AI-ассистенты, которые общаются с пользователями в режиме реального времени через голос. В отличие от текстовых агентов, голосовые агенты принимают речь на вход, обрабатывают её и отвечают голосом, обеспечивая естественный разговорный опыт.

Ключевые концепции

Агент

Голосовой агент -- это сущность с типом voice, которая определяет поведение AI-ассистента: системный промпт, приветственное сообщение, выбор провайдеров для распознавания и синтеза речи, а также подключённые инструменты (функции, MCP-серверы, воркфлоу).

Режимы работы

Платформа поддерживает два режима обработки голоса:

Режим	Описание	Когда использовать
Pipeline	Классический конвейер: STT → LLM → TTS	Максимальная гибкость в выборе провайдеров, контроль над каждым компонентом
Realtime	Audio-to-audio через API реального времени	Минимальная задержка, естественная интонация

Подробнее о режимах -- в разделе Режимы работы.

Сессия

Каждый разговор с голосовым агентом создаёт сессию (VoiceSession). Сессия отслеживает:

Статус разговора (active, completed, failed, abandoned)
Длительность
Канал связи (Web, SIP inbound/outbound, MMD)
Транскрипт диалога (реплики пользователя и агента)
Метрики производительности (задержки, количество токенов, время первого байта)

Каналы связи

Голосовые агенты могут принимать звонки через несколько каналов:

Web -- встроенный виджет в интерфейсе платформы (WebRTC через LiveKit)
SIP Inbound -- входящие телефонные звонки через SIP-транки
SIP Outbound -- исходящие звонки, инициированные агентом
MMD -- интеграция с внешними call-центрами через MMD Bridge

Создание голосового агента

Для создания голосового агента:

Перейдите в проект и откройте раздел Голосовые агенты
На вкладке Агенты нажмите Создать агента
Укажите имя и описание агента
Задайте системный промпт -- инструкции, определяющие поведение агента
Опционально задайте приветственное сообщение -- фразу, которую агент произнесёт в начале разговора
Выберите режим работы (Pipeline или Realtime) и настройте провайдеры

Совет

Начните с режима Pipeline и провайдеров по умолчанию (Deepgram STT + OpenAI LLM + Cartesia TTS). Это даст хороший баланс между качеством и скоростью. Переключайтесь на Realtime, если критична минимальная задержка.

Настройки голосового агента

Страница настроек агента состоит из нескольких разделов:

Основные настройки

Имя агента -- отображаемое имя
Системный промпт -- инструкции для AI-модели
Приветствие -- первая фраза агента при начале разговора
Режим -- Pipeline или Realtime

Конфигурация провайдеров

В зависимости от выбранного режима настраиваются различные провайдеры. Подробнее -- в разделе Настройка STT/TTS.

Общие настройки

Эти настройки доступны в обоих режимах:

Обработка прерываний -- может ли пользователь перебивать агента
Idle и повторное вовлечение -- поведение при молчании пользователя
Фоновое аудио -- эмбиент-звуки, звуки ожидания, филлеры

Подробнее -- в разделе Филлеры и фоновое аудио.

Инструменты

Голосовой агент поддерживает подключение инструментов:

Функции -- пользовательские функции (HTTP, JavaScript)
MCP-серверы -- инструменты через Model Context Protocol
Воркфлоу -- запуск воркфлоу как инструмент
Суб-агенты -- делегирование задач другим агентам

Примечание

Инструмент end_call добавляется автоматически ко всем голосовым агентам. Он позволяет агенту корректно завершить звонок, когда пользователь прощается.

Вкладки раздела "Голосовые агенты"

Раздел "Голосовые агенты" в интерфейсе проекта содержит три вкладки:

Вкладка	Описание
Агенты	Список голосовых агентов, создание и настройка
Сессии	История звонков, транскрипты, метрики, аналитика
Номера	Управление телефонными номерами для SIP-интеграции

Тестирование агента

Голосовой агент можно протестировать прямо в интерфейсе платформы:

Откройте страницу настроек агента
Нажмите кнопку тестирования (иконка микрофона)
Разрешите доступ к микрофону в браузере
Начните разговор

В тестовом режиме конфигурация агента сохраняется в Redis и используется для эфемерной сессии. Это позволяет быстро проверить изменения до публикации.

Важно

Для работы голосового агента необходимы API-ключи провайдеров (OpenAI, Deepgram, Cartesia и т.д.). Убедитесь, что ключи настроены в разделе Провайдеры вашей организации.

Подробнее

Смотрите подробную конфигурацию STT и TTS провайдеров и режимы работы голосовых агентов.

Ключевые концепции​

Агент​

Режимы работы​

Сессия​

Каналы связи​

Создание голосового агента​

Настройки голосового агента​

Основные настройки​

Конфигурация провайдеров​

Общие настройки​

Инструменты​

Вкладки раздела "Голосовые агенты"​

Тестирование агента​