Режимы работы

Голосовые агенты поддерживают два фундаментально разных подхода к обработке голоса: Pipeline (конвейерный) и Realtime (прямой audio-to-audio).

Pipeline (Конвейерный режим)

В режиме Pipeline голос обрабатывается последовательно тремя независимыми компонентами:

Речь пользователя → [STT] → Текст → [LLM] → Ответ → [TTS] → Голос агента

Компоненты конвейера

Компонент	Функция	Провайдеры
STT (Speech-to-Text)	Распознавание речи	Deepgram, OpenAI Whisper, Cartesia
LLM (Language Model)	Генерация ответа	OpenAI (GPT-4o, GPT-4.1), Anthropic (Claude)
TTS (Text-to-Speech)	Синтез речи	Cartesia, OpenAI, ElevenLabs, Deepgram, Inworld

Настройки Pipeline

Speech-to-Text (STT)

Provider -- выбор провайдера распознавания речи
Model -- модель провайдера (например, nova-3 для Deepgram)
Language -- язык распознавания. Значение Auto-detect (мультиязычный режим) автоматически определяет язык

Language Model (LLM)

Provider -- провайдер языковой модели
Model -- конкретная модель (GPT-4o, GPT-4.1 Mini, Claude Sonnet 4 и др.)
Temperature -- температура генерации (0 -- детерминированные ответы, 2 -- максимальная креативность). По умолчанию: 0.7

Text-to-Speech (TTS)

Provider -- провайдер синтеза речи
Voice -- голос для озвучивания. Для Cartesia доступен расширенный каталог голосов с фильтрацией по полу
Language -- язык синтеза
Emotion -- эмоциональная окраска голоса (нейтральная, радостная, грустная и др.)
Speed -- скорость речи (0.5x -- 2.0x)

Turn Detection (Определение конца фразы)

Min Endpointing Delay -- минимальная пауза (в секундах) для определения конца фразы пользователя, связана с обработкой прерываний
Max Endpointing Delay -- максимальная пауза перед ответом

Расширенные настройки Pipeline

Preemptive Generation -- начинать генерацию LLM до завершения фразы пользователя (снижает задержку, но может привести к неточным ответам)
Max Tool Steps -- максимальное количество последовательных вызовов инструментов (по умолчанию: 3)

Преимущества Pipeline

Полная свобода в выборе провайдеров для каждого компонента
Возможность использовать лучший STT с лучшим TTS от разных провайдеров
Поддержка расширенных голосов (Cartesia с эмоциями, ElevenLabs)
Возможность работы с любой LLM (включая Anthropic Claude)

Ограничения Pipeline

Суммарная задержка складывается из задержек всех трёх компонентов
Нет "живой" интонации -- TTS генерирует речь по тексту

Realtime (Режим реального времени)

В режиме Realtime голос обрабатывается напрямую моделью, которая принимает аудио и возвращает аудио:

Речь пользователя → [Realtime Model] → Голос агента

Поддерживаемые провайдеры

Провайдер	Модели	Голоса
OpenAI	GPT Realtime Mini, GPT-4o Realtime	alloy, ash, coral, echo, sage, shimmer, marin, cedar
Google	Gemini 2.0 Flash Live	Puck, Charon, Kore, Fenrir, Aoede
xAI	Grok 2	Ara, Eve, Leo, Rex, Sal

Настройки Realtime

Модель и голос

Provider -- провайдер Realtime API
Model -- модель реального времени
Voice -- голос (каждый провайдер имеет свой набор голосов)
Language -- язык разговора

Внешний TTS

Для Realtime режима можно включить Use External TTS -- использование отдельного TTS-провайдера вместо встроенного голоса модели. Это полезно, когда нужен конкретный голос (например, Cartesia) с преимуществами Realtime-обработки.

При включении появляются дополнительные настройки:

External TTS Provider -- провайдер синтеза речи (Cartesia, OpenAI, ElevenLabs и др.)
External TTS Voice -- голос из каталога выбранного провайдера

Turn Detection (VAD)

В Realtime режиме определение конца фразы работает через VAD (Voice Activity Detection):

Server VAD -- классическое определение по тишине:

Threshold -- порог чувствительности (0 -- 1.0). Низкие значения фиксируют тихую речь, высокие -- только громкую
Prefix Padding -- количество миллисекунд аудио до начала речи, которое включается в распознавание (по умолчанию: 300 мс)
Silence Duration -- продолжительность тишины для определения конца фразы (по умолчанию: 500 мс)

Semantic VAD -- семантическое определение на основе понимания контекста:

Eagerness -- насколько быстро модель решает, что пользователь закончил фразу:
- Low -- ждёт дольше (подходит для длинных монологов)
- Medium -- сбалансированный режим
- High -- отвечает быстро (подходит для коротких вопросов)
- Auto -- модель сама выбирает

Подавление шума

Noise Reduction -- фильтрация фонового шума:
- Near Field -- для наушников и близкого микрофона
- Far Field -- для ноутбука, конференц-микрофона или комнатного режима

Преимущества Realtime

Минимальная задержка (один вызов API вместо трёх)
Естественная интонация и паузы
Семантическое определение конца фразы (Semantic VAD)
Встроенное подавление шума

Ограничения Realtime

Ограниченный набор голосов (только встроенные голоса провайдера, если не используется внешний TTS)
Поддерживается только несколько провайдеров (OpenAI, Google, xAI)
Нет возможности выбрать отдельную LLM (модель встроена)

Какой режим выбрать?

Критерий	Pipeline	Realtime
Задержка	Средняя (сумма STT + LLM + TTS)	Низкая
Качество голоса	Зависит от TTS-провайдера	Хорошее, но ограниченный выбор
Кастомные голоса	Широкий выбор (Cartesia, ElevenLabs)	Ограниченный (или через внешний TTS)
Выбор LLM	Любая (OpenAI, Anthropic)	Только встроенная
Инструменты	Полная поддержка	Полная поддержка
Мультиязычность	Зависит от STT	Встроенная

Рекомендация

Используйте Pipeline для максимальной гибкости, кастомных голосов и работы с Claude
Используйте Realtime для минимальной задержки и естественного разговора
Начните с Pipeline и переключитесь на Realtime, если задержка критична

Подробнее

Смотрите конфигурацию STT и TTS для выбора провайдеров в режиме Pipeline.

Pipeline (Конвейерный режим)​

Компоненты конвейера​

Настройки Pipeline​

Speech-to-Text (STT)​

Language Model (LLM)​

Text-to-Speech (TTS)​

Turn Detection (Определение конца фразы)​

Расширенные настройки Pipeline​

Преимущества Pipeline​

Ограничения Pipeline​

Realtime (Режим реального времени)​

Поддерживаемые провайдеры​

Настройки Realtime​

Модель и голос​

Внешний TTS​

Turn Detection (VAD)​

Подавление шума​

Преимущества Realtime​

Ограничения Realtime​

Какой режим выбрать?​