Режимы работы
Голосовые агенты поддерживают два фундаментально разных подхода к обработке голоса: Pipeline (конвейерный) и Realtime (прямой audio-to-audio).
Pipeline (Конвейерный режим)
В режиме Pipeline голос обрабатывается последовательно тремя независимыми компонентами:
Речь пользователя → [STT] → Текст → [LLM] → Ответ → [TTS] → Голос агента
Компоненты конвейера
| Компонент | Функция | Провайдеры |
|---|---|---|
| STT (Speech-to-Text) | Распознавание речи | Deepgram, OpenAI Whisper, Cartesia |
| LLM (Language Model) | Генерация ответа | OpenAI (GPT-4o, GPT-4.1), Anthropic (Claude) |
| TTS (Text-to-Speech) | Синтез речи | Cartesia, OpenAI, ElevenLabs, Deepgram, Inworld |
Настройки Pipeline
Speech-to-Text (STT)
- Provider -- выбор провайдера распознавания речи
- Model -- модель провайдера (например,
nova-3для Deepgram) - Language -- язык распознавания. Значение
Auto-detect(мультиязычный режим) автоматически определяет язык
Language Model (LLM)
- Provider -- провайдер языковой модели
- Model -- конкретная модель (GPT-4o, GPT-4.1 Mini, Claude Sonnet 4 и др.)
- Temperature -- температура генерации (0 -- детерминированные ответы, 2 -- максимальная креативность). По умолчанию:
0.7
Text-to-Speech (TTS)
- Provider -- провайдер синтеза речи
- Voice -- голос для озвучивания. Для Cartesia доступен расширенный каталог голосов с фильтрацией по полу
- Language -- язык синтеза
- Emotion -- эмоциональная окраска голоса (нейтральная, радостная, грустная и др.)
- Speed -- скорость речи (0.5x -- 2.0x)
Turn Detection (Определение конца фразы)
- Min Endpointing Delay -- минимальная пауза (в секундах) для определения конца фразы пользователя, связана с обработкой прерываний
- Max Endpointing Delay -- максимальная пауза перед ответом
Расширенные настройки Pipeline
- Preemptive Generation -- начинать генерацию LLM до завершения фразы пользователя (снижает задержку, но может привести к неточным ответам)
- Max Tool Steps -- максимальное количество последовательных вызовов инструментов (по умолчанию: 3)
Преимущества Pipeline
- Полная свобода в выборе провайдеров для каждого компонента
- Возможность использовать лучший STT с лучшим TTS от разных провайдеров
- Поддержка расширенных голосов (Cartesia с эмоциями, ElevenLabs)
- Возможность работы с любой LLM (включая Anthropic Claude)
Ограничения Pipeline
- Суммарная задержка складывается из задержек всех трёх компонентов
- Нет "живой" интонации -- TTS генерирует речь по тексту
Realtime (Режим реального времени)
В режиме Realtime голос обрабатывается напрямую моделью, которая принимает аудио и возвращает аудио:
Речь пользователя → [Realtime Model] → Голос агента
Поддерживаемые провайдеры
| Провайдер | Модели | Голоса |
|---|---|---|
| OpenAI | GPT Realtime Mini, GPT-4o Realtime | alloy, ash, coral, echo, sage, shimmer, marin, cedar |
| Gemini 2.0 Flash Live | Puck, Charon, Kore, Fenrir, Aoede | |
| xAI | Grok 2 | Ara, Eve, Leo, Rex, Sal |
Настройки Realtime
Модель и голос
- Provider -- провайдер Realtime API
- Model -- модель реального времени
- Voice -- голос (каждый провайдер имеет свой набор голосов)
- Language -- язык разговора
Внешний TTS
Для Realtime режима можно включить Use External TTS -- использование отдельного TTS-провайдера вместо встроенного голоса модели. Это полезно, когда нужен конкретный голос (например, Cartesia) с преимуществами Realtime-обработки.
При включении появляются дополнительные настройки:
- External TTS Provider -- провайдер синтеза речи (Cartesia, OpenAI, ElevenLabs и др.)
- External TTS Voice -- голос из каталога выбранного провайдера
Turn Detection (VAD)
В Realtime режиме определение конца фразы работает через VAD (Voice Activity Detection):
Server VAD -- классическое определение по тишине:
- Threshold -- порог чувствительности (0 -- 1.0). Низкие значения фиксируют тихую речь, высокие -- только громкую
- Prefix Padding -- количество миллисекунд аудио до начала речи, которое включается в распознавание (по умолчанию: 300 мс)
- Silence Duration -- продолжительность тишины для определения конца фразы (по умолчанию: 500 мс)
Semantic VAD -- семантическое определение на основе понимания контекста:
- Eagerness -- насколько быстро модель решает, что пользователь закончил фразу:
Low-- ждёт дольше (подходит для длинных монологов)Medium-- сбалансированный режимHigh-- отвечает быстро (подходит для коротких вопросов)Auto-- модель сама выбирает
Подавление шума
- Noise Reduction -- фильтрация фонового шума:
Near Field-- для наушников и близкого микрофонаFar Field-- для ноутбука, конференц-микрофона или комнатного режима
Преимущества Realtime
- Минимальная задержка (один вызов API вместо трёх)
- Естественная интонация и паузы
- Семантическое определение конца фразы (Semantic VAD)
- Встроенное подавление шума
Ограничения Realtime
- Ограниченный набор голосов (только встроенные голоса провайдера, если не используется внешний TTS)
- Поддерживается только несколько провайдеров (OpenAI, Google, xAI)
- Нет возможности выбрать отдельную LLM (модель встроена)
Какой режим выбрать?
| Критерий | Pipeline | Realtime |
|---|---|---|
| Задержка | Средняя (сумма STT + LLM + TTS) | Низкая |
| Качество голоса | Зависит от TTS-провайдера | Хорошее, но ограниченный выбор |
| Кастомные голоса | Широкий выбор (Cartesia, ElevenLabs) | Ограниченный (или через внешний TTS) |
| Выбор LLM | Любая (OpenAI, Anthropic) | Только встроенная |
| Инструменты | Полная поддержка | Полная поддержка |
| Мультиязычность | Зависит от STT | Встроенная |
- Используйте Pipeline для максимальной гибкости, кастомных голосов и работы с Claude
- Используйте Realtime для минимальной задержки и естественного разговора
- Начните с Pipeline и переключитесь на Realtime, если задержка критична
Смотрите конфигурацию STT и TTS для выбора провайдеров в режиме Pipeline.