Перейти к основному содержимому

Режимы работы

Голосовые агенты поддерживают два фундаментально разных подхода к обработке голоса: Pipeline (конвейерный) и Realtime (прямой audio-to-audio).

Pipeline (Конвейерный режим)

В режиме Pipeline голос обрабатывается последовательно тремя независимыми компонентами:

Речь пользователя → [STT] → Текст → [LLM] → Ответ → [TTS] → Голос агента

Компоненты конвейера

КомпонентФункцияПровайдеры
STT (Speech-to-Text)Распознавание речиDeepgram, OpenAI Whisper, Cartesia
LLM (Language Model)Генерация ответаOpenAI (GPT-4o, GPT-4.1), Anthropic (Claude)
TTS (Text-to-Speech)Синтез речиCartesia, OpenAI, ElevenLabs, Deepgram, Inworld

Настройки Pipeline

Speech-to-Text (STT)

  • Provider -- выбор провайдера распознавания речи
  • Model -- модель провайдера (например, nova-3 для Deepgram)
  • Language -- язык распознавания. Значение Auto-detect (мультиязычный режим) автоматически определяет язык

Language Model (LLM)

  • Provider -- провайдер языковой модели
  • Model -- конкретная модель (GPT-4o, GPT-4.1 Mini, Claude Sonnet 4 и др.)
  • Temperature -- температура генерации (0 -- детерминированные ответы, 2 -- максимальная креативность). По умолчанию: 0.7

Text-to-Speech (TTS)

  • Provider -- провайдер синтеза речи
  • Voice -- голос для озвучивания. Для Cartesia доступен расширенный каталог голосов с фильтрацией по полу
  • Language -- язык синтеза
  • Emotion -- эмоциональная окраска голоса (нейтральная, радостная, грустная и др.)
  • Speed -- скорость речи (0.5x -- 2.0x)

Turn Detection (Определение конца фразы)

  • Min Endpointing Delay -- минимальная пауза (в секундах) для определения конца фразы пользователя, связана с обработкой прерываний
  • Max Endpointing Delay -- максимальная пауза перед ответом

Расширенные настройки Pipeline

  • Preemptive Generation -- начинать генерацию LLM до завершения фразы пользователя (снижает задержку, но может привести к неточным ответам)
  • Max Tool Steps -- максимальное количество последовательных вызовов инструментов (по умолчанию: 3)

Преимущества Pipeline

  • Полная свобода в выборе провайдеров для каждого компонента
  • Возможность использовать лучший STT с лучшим TTS от разных провайдеров
  • Поддержка расширенных голосов (Cartesia с эмоциями, ElevenLabs)
  • Возможность работы с любой LLM (включая Anthropic Claude)

Ограничения Pipeline

  • Суммарная задержка складывается из задержек всех трёх компонентов
  • Нет "живой" интонации -- TTS генерирует речь по тексту

Realtime (Режим реального времени)

В режиме Realtime голос обрабатывается напрямую моделью, которая принимает аудио и возвращает аудио:

Речь пользователя → [Realtime Model] → Голос агента

Поддерживаемые провайдеры

ПровайдерМоделиГолоса
OpenAIGPT Realtime Mini, GPT-4o Realtimealloy, ash, coral, echo, sage, shimmer, marin, cedar
GoogleGemini 2.0 Flash LivePuck, Charon, Kore, Fenrir, Aoede
xAIGrok 2Ara, Eve, Leo, Rex, Sal

Настройки Realtime

Модель и голос

  • Provider -- провайдер Realtime API
  • Model -- модель реального времени
  • Voice -- голос (каждый провайдер имеет свой набор голосов)
  • Language -- язык разговора

Внешний TTS

Для Realtime режима можно включить Use External TTS -- использование отдельного TTS-провайдера вместо встроенного голоса модели. Это полезно, когда нужен конкретный голос (например, Cartesia) с преимуществами Realtime-обработки.

При включении появляются дополнительные настройки:

  • External TTS Provider -- провайдер синтеза речи (Cartesia, OpenAI, ElevenLabs и др.)
  • External TTS Voice -- голос из каталога выбранного провайдера

Turn Detection (VAD)

В Realtime режиме определение конца фразы работает через VAD (Voice Activity Detection):

Server VAD -- классическое определение по тишине:

  • Threshold -- порог чувствительности (0 -- 1.0). Низкие значения фиксируют тихую речь, высокие -- только громкую
  • Prefix Padding -- количество миллисекунд аудио до начала речи, которое включается в распознавание (по умолчанию: 300 мс)
  • Silence Duration -- продолжительность тишины для определения конца фразы (по умолчанию: 500 мс)

Semantic VAD -- семантическое определение на основе понимания контекста:

  • Eagerness -- насколько быстро модель решает, что пользователь закончил фразу:
    • Low -- ждёт дольше (подходит для длинных монологов)
    • Medium -- сбалансированный режим
    • High -- отвечает быстро (подходит для коротких вопросов)
    • Auto -- модель сама выбирает

Подавление шума

  • Noise Reduction -- фильтрация фонового шума:
    • Near Field -- для наушников и близкого микрофона
    • Far Field -- для ноутбука, конференц-микрофона или комнатного режима

Преимущества Realtime

  • Минимальная задержка (один вызов API вместо трёх)
  • Естественная интонация и паузы
  • Семантическое определение конца фразы (Semantic VAD)
  • Встроенное подавление шума

Ограничения Realtime

  • Ограниченный набор голосов (только встроенные голоса провайдера, если не используется внешний TTS)
  • Поддерживается только несколько провайдеров (OpenAI, Google, xAI)
  • Нет возможности выбрать отдельную LLM (модель встроена)

Какой режим выбрать?

КритерийPipelineRealtime
ЗадержкаСредняя (сумма STT + LLM + TTS)Низкая
Качество голосаЗависит от TTS-провайдераХорошее, но ограниченный выбор
Кастомные голосаШирокий выбор (Cartesia, ElevenLabs)Ограниченный (или через внешний TTS)
Выбор LLMЛюбая (OpenAI, Anthropic)Только встроенная
ИнструментыПолная поддержкаПолная поддержка
МультиязычностьЗависит от STTВстроенная
Рекомендация
  • Используйте Pipeline для максимальной гибкости, кастомных голосов и работы с Claude
  • Используйте Realtime для минимальной задержки и естественного разговора
  • Начните с Pipeline и переключитесь на Realtime, если задержка критична
Подробнее

Смотрите конфигурацию STT и TTS для выбора провайдеров в режиме Pipeline.