Настройка STT и TTS
В режиме Pipeline голосовой агент использует отдельные провайдеры для распознавания речи (STT) и синтеза речи (TTS). Правильный выбор провайдеров влияет на качество, задержку и стоимость разговоров.
Провайдеры STT (Speech-to-Text)
Deepgram
- Модели:
Nova 3(последняя, лучшая точность),Nova 2(быстрая и точная) - Особенности: низкая задержка, стриминговое распознавание, хорошая поддержка многих языков
- Рекомендуется для: большинства сценариев, особенно когда важна скорость
Deepgram Nova 3 -- рекомендуемый выбор по умолчанию. Он обеспечивает лучший баланс между скоростью и точностью.
OpenAI Whisper
- Модели:
Whisper - Особенности: отличная мультиязычная поддержка, высокая точность на редких языках
- Рекомендуется для: мультиязычных сценариев с редкими языками
Cartesia
- Модели:
Ink Whisper - Особенности: мультиязычная поддержка
- Ограничение: не поддерживает режим
Auto-detect(автоопределение языка). Если выбранAuto-detect, система автоматически переключается на английский
Yandex SpeechKit
- Модели:
general(универсальная),general:rc(release candidate с улучшениями) - Особенности: лучшее качество распознавания русской речи, низкая задержка для российского региона, поддержка телефонии (8 кГц)
- Рекомендуется для: русскоязычных сценариев, особенно при работе через SIP-телефонию
Настройка языка STT
Параметр Language определяет язык распознавания:
- Auto-detect (
multi) -- автоматическое определение языка. Поддерживается Deepgram и OpenAI - Конкретный язык (English, Русский, Deutsch и др.) -- фиксированный язык распознавания
Платформа поддерживает более 40 языков, включая: English, Русский, Deutsch, Francais, Espanol, Portugues, Italiano, Polski, Turkce, китайский, японский, корейский, арабский, хинди и многие другие.
В режиме Realtime язык STT также влияет на язык транскрипции входящего аудио через gpt-4o-transcribe. Если выбран Auto-detect, система использует английский как fallback.
Провайдеры TTS (Text-to-Speech)
Cartesia
- Модель:
Sonic 3 - Особенности:
- Расширенный каталог голосов с возможностью фильтрации по полу (мужской, женский, нейтральный)
- Поддержка эмоциональной окраски (happy, sad, angry, surprised и др.)
- Регулировка скорости речи
- Word timestamps для языков: английский, немецкий, испанский, французский
- Рекомендуется для: высокого качества голоса с кастомизацией
Cartesia -- рекомендуемый TTS-провайдер по умолчанию. Он обеспечивает быстрый синтез с поддержкой эмоций и широким выбором голосов.
OpenAI
- Модель:
TTS-1 - Голоса: Alloy, Ash, Coral, Echo, Sage, Shimmer
- Особенности: стабильное качество, хорошая мультиязычность
- Рекомендуется для: простых сценариев без необходимости кастомизации голоса
ElevenLabs
- Особенности: премиальные голоса, клонирование голоса, высокая естественность
- Рекомендуется для: сценариев, где критично качество голоса
Deepgram
- Голоса: Asteria (ж.), Luna (ж.), Orion (м.)
- Особенности: низкая задержка синтеза
- Рекомендуется для: сценариев с критичной задержкой
Inworld
- Голоса: Ashley, Hades, Zeus, Athena
- Особенности: экспрессивные AI-голоса
- Рекомендуется для: игровых и развлекательных сценариев
Yandex SpeechKit
- Голоса: Alena (ж.), Filipp (м.), Jane (ж.), Ermil (м.), Omazh (ж.), Zahar (м.), Madirus (м.), Lera (ж.), Masha (ж.), Marina (ж.), Dasha (ж.) и другие
- Особенности: естественное русское произношение, поддержка эмоций (
good,evil,neutral) и стилей (friendly,strict), регулировка скорости и громкости, телефонное качество (8 кГц) для SIP - Рекомендуется для: русскоязычных сценариев, особенно колл-центров и телефонии
Настройки TTS
Голос (Voice)
Каждый провайдер предлагает свой набор голосов. Для Cartesia доступен расширенный каталог с возможностью:
- Поиска голоса по имени
- Фильтрации по полу (Male, Female, Neutral)
Язык (Language)
Язык синтеза речи. Для Cartesia важно указать корректный язык, так как он влияет на произношение и поддержку word timestamps.
Параметр Auto-detect недоступен для TTS -- необходимо явно указать язык синтеза.
Эмоция (Emotion)
Доступные эмоциональные окраски (зависит от провайдера):
| Эмоция | Описание |
|---|---|
| Neutral | Нейтральный, деловой тон |
| Happy | Жизнерадостный, приподнятый |
| Sad | Грустный, сочувственный |
| Angry | Раздражённый, настойчивый |
| Fearful | Тревожный, обеспокоенный |
| Disgusted | Неодобрительный |
| Surprised | Удивлённый |
Скорость (Speed)
Регулировка скорости речи от 0.5x (медленная) до 2.0x (быстрая). По умолчанию: 1.0x.
API-ключи провайдеров
Для работы STT и TTS провайдеров необходимы API-ключи. Ключи могут быть:
- На уровне организации -- настраиваются в разделе "Провайдеры" (см. Аудио-провайдеры) и используются всеми агентами
- На уровне сессии -- передаются при запуске сессии для переопределения ключей организации
Система ищет API-ключ в следующем порядке:
- Ключ, специфичный для использования (например,
cartesia-ttsилиcartesia-stt) - Общий ключ провайдера (например,
cartesia) - Ключ из переменных окружения
Без корректных API-ключей голосовой агент не сможет функционировать. Убедитесь, что ключи настроены до первого тестирования.
Рекомендуемые конфигурации
Для русскоязычных агентов
| Компонент | Провайдер | Модель | Параметры |
|---|---|---|---|
| STT | Deepgram | Nova 3 | Language: Русский |
| LLM | OpenAI | GPT-4o | Temperature: 0.7 |
| TTS | Cartesia | Sonic 3 | Language: Русский, Speed: 1.0 |
Для русскоязычной телефонии (SIP)
| Компонент | Провайдер | Модель | Параметры |
|---|---|---|---|
| STT | Yandex SpeechKit | general:rc | Language: Русский |
| LLM | OpenAI | GPT-4o | Temperature: 0.7 |
| TTS | Yandex SpeechKit | — | Voice: Alena, Emotion: neutral |
Для мультиязычных агентов
| Компонент | Провайдер | Модель | Параметры |
|---|---|---|---|
| STT | Deepgram | Nova 3 | Language: Auto-detect |
| LLM | OpenAI | GPT-4o | Temperature: 0.7 |
| TTS | OpenAI | TTS-1 | Voice: Alloy |
Для минимальной задержки
| Компонент | Провайдер | Модель | Параметры |
|---|---|---|---|
| STT | Deepgram | Nova 2 | Language: по ситуации |
| LLM | OpenAI | GPT-4.1 Mini | Temperature: 0.7 |
| TTS | Deepgram | Aura | Voice: Asteria |