Перейти к основному содержимому

Голосовые агенты

Голосовые агенты -- это AI-ассистенты, которые общаются с пользователями в режиме реального времени через голос. В отличие от текстовых агентов, голосовые агенты принимают речь на вход, обрабатывают её и отвечают голосом, обеспечивая естественный разговорный опыт.

Ключевые концепции

Агент

Голосовой агент -- это сущность с типом voice, которая определяет поведение AI-ассистента: системный промпт, приветственное сообщение, выбор провайдеров для распознавания и синтеза речи, а также подключённые инструменты (функции, MCP-серверы, воркфлоу).

Режимы работы

Платформа поддерживает два режима обработки голоса:

РежимОписаниеКогда использовать
PipelineКлассический конвейер: STT → LLM → TTSМаксимальная гибкость в выборе провайдеров, контроль над каждым компонентом
RealtimeAudio-to-audio через API реального времениМинимальная задержка, естественная интонация

Подробнее о режимах -- в разделе Режимы работы.

Сессия

Каждый разговор с голосовым агентом создаёт сессию (VoiceSession). Сессия отслеживает:

  • Статус разговора (active, completed, failed, abandoned)
  • Длительность
  • Канал связи (Web, SIP inbound/outbound, MMD)
  • Транскрипт диалога (реплики пользователя и агента)
  • Метрики производительности (задержки, количество токенов, время первого байта)

Каналы связи

Голосовые агенты могут принимать звонки через несколько каналов:

  • Web -- встроенный виджет в интерфейсе платформы (WebRTC через LiveKit)
  • SIP Inbound -- входящие телефонные звонки через SIP-транки
  • SIP Outbound -- исходящие звонки, инициированные агентом
  • MMD -- интеграция с внешними call-центрами через MMD Bridge

Создание голосового агента

Для создания голосового агента:

  1. Перейдите в проект и откройте раздел Голосовые агенты
  2. На вкладке Агенты нажмите Создать агента
  3. Укажите имя и описание агента
  4. Задайте системный промпт -- инструкции, определяющие поведение агента
  5. Опционально задайте приветственное сообщение -- фразу, которую агент произнесёт в начале разговора
  6. Выберите режим работы (Pipeline или Realtime) и настройте провайдеры
Совет

Начните с режима Pipeline и провайдеров по умолчанию (Deepgram STT + OpenAI LLM + Cartesia TTS). Это даст хороший баланс между качеством и скоростью. Переключайтесь на Realtime, если критична минимальная задержка.

Настройки голосового агента

Страница настроек агента состоит из нескольких разделов:

Основные настройки

  • Имя агента -- отображаемое имя
  • Системный промпт -- инструкции для AI-модели
  • Приветствие -- первая фраза агента при начале разговора
  • Режим -- Pipeline или Realtime

Конфигурация провайдеров

В зависимости от выбранного режима настраиваются различные провайдеры. Подробнее -- в разделе Настройка STT/TTS.

Общие настройки

Эти настройки доступны в обоих режимах:

  • Обработка прерываний -- может ли пользователь перебивать агента
  • Idle и повторное вовлечение -- поведение при молчании пользователя
  • Фоновое аудио -- эмбиент-звуки, звуки ожидания, филлеры

Подробнее -- в разделе Филлеры и фоновое аудио.

Инструменты

Голосовой агент поддерживает подключение инструментов:

  • Функции -- пользовательские функции (HTTP, JavaScript)
  • MCP-серверы -- инструменты через Model Context Protocol
  • Воркфлоу -- запуск воркфлоу как инструмент
  • Суб-агенты -- делегирование задач другим агентам
Примечание

Инструмент end_call добавляется автоматически ко всем голосовым агентам. Он позволяет агенту корректно завершить звонок, когда пользователь прощается.

Вкладки раздела "Голосовые агенты"

Раздел "Голосовые агенты" в интерфейсе проекта содержит три вкладки:

ВкладкаОписание
АгентыСписок голосовых агентов, создание и настройка
СессииИстория звонков, транскрипты, метрики, аналитика
НомераУправление телефонными номерами для SIP-интеграции

Тестирование агента

Голосовой агент можно протестировать прямо в интерфейсе платформы:

  1. Откройте страницу настроек агента
  2. Нажмите кнопку тестирования (иконка микрофона)
  3. Разрешите доступ к микрофону в браузере
  4. Начните разговор

В тестовом режиме конфигурация агента сохраняется в Redis и используется для эфемерной сессии. Это позволяет быстро проверить изменения до публикации.

Важно

Для работы голосового агента необходимы API-ключи провайдеров (OpenAI, Deepgram, Cartesia и т.д.). Убедитесь, что ключи настроены в разделе Провайдеры вашей организации.

Подробнее

Смотрите подробную конфигурацию STT и TTS провайдеров и режимы работы голосовых агентов.