Настройка STT и TTS

В режиме Pipeline голосовой агент использует отдельные провайдеры для распознавания речи (STT) и синтеза речи (TTS). Правильный выбор провайдеров влияет на качество, задержку и стоимость разговоров.

Провайдеры STT (Speech-to-Text)

Deepgram

Модели: Nova 3 (последняя, лучшая точность), Nova 2 (быстрая и точная)
Особенности: низкая задержка, стриминговое распознавание, хорошая поддержка многих языков
Рекомендуется для: большинства сценариев, особенно когда важна скорость

Совет

Deepgram Nova 3 -- рекомендуемый выбор по умолчанию. Он обеспечивает лучший баланс между скоростью и точностью.

OpenAI Whisper

Модели: Whisper
Особенности: отличная мультиязычная поддержка, высокая точность на редких языках
Рекомендуется для: мультиязычных сценариев с редкими языками

Cartesia

Модели: Ink Whisper
Особенности: мультиязычная поддержка
Ограничение: не поддерживает режим Auto-detect (автоопределение языка). Если выбран Auto-detect, система автоматически переключается на английский

Yandex SpeechKit

Модели: general (универсальная), general:rc (release candidate с улучшениями)
Особенности: лучшее качество распознавания русской речи, низкая задержка для российского региона, поддержка телефонии (8 кГц)
Рекомендуется для: русскоязычных сценариев, особенно при работе через SIP-телефонию

Настройка языка STT

Параметр Language определяет язык распознавания:

Auto-detect (multi) -- автоматическое определение языка. Поддерживается Deepgram и OpenAI
Конкретный язык (English, Русский, Deutsch и др.) -- фиксированный язык распознавания

Платформа поддерживает более 40 языков, включая: English, Русский, Deutsch, Francais, Espanol, Portugues, Italiano, Polski, Turkce, китайский, японский, корейский, арабский, хинди и многие другие.

Примечание

В режиме Realtime язык STT также влияет на язык транскрипции входящего аудио через gpt-4o-transcribe. Если выбран Auto-detect, система использует английский как fallback.

Провайдеры TTS (Text-to-Speech)

Cartesia

Модель: Sonic 3
Особенности:
- Расширенный каталог голосов с возможностью фильтрации по полу (мужской, женский, нейтральный)
- Поддержка эмоциональной окраски (happy, sad, angry, surprised и др.)
- Регулировка скорости речи
- Word timestamps для языков: английский, немецкий, испанский, французский
Рекомендуется для: высокого качества голоса с кастомизацией

Совет

Cartesia -- рекомендуемый TTS-провайдер по умолчанию. Он обеспечивает быстрый синтез с поддержкой эмоций и широким выбором голосов.

OpenAI

Модель: TTS-1
Голоса: Alloy, Ash, Coral, Echo, Sage, Shimmer
Особенности: стабильное качество, хорошая мультиязычность
Рекомендуется для: простых сценариев без необходимости кастомизации голоса

ElevenLabs

Особенности: премиальные голоса, клонирование голоса, высокая естественность
Рекомендуется для: сценариев, где критично качество голоса

Deepgram

Голоса: Asteria (ж.), Luna (ж.), Orion (м.)
Особенности: низкая задержка синтеза
Рекомендуется для: сценариев с критичной задержкой

Inworld

Голоса: Ashley, Hades, Zeus, Athena
Особенности: экспрессивные AI-голоса
Рекомендуется для: игровых и развлекательных сценариев

Yandex SpeechKit

Голоса: Alena (ж.), Filipp (м.), Jane (ж.), Ermil (м.), Omazh (ж.), Zahar (м.), Madirus (м.), Lera (ж.), Masha (ж.), Marina (ж.), Dasha (ж.) и другие
Особенности: естественное русское произношение, поддержка эмоций (good, evil, neutral) и стилей (friendly, strict), регулировка скорости и громкости, телефонное качество (8 кГц) для SIP
Рекомендуется для: русскоязычных сценариев, особенно колл-центров и телефонии

Настройки TTS

Голос (Voice)

Каждый провайдер предлагает свой набор голосов. Для Cartesia доступен расширенный каталог с возможностью:

Поиска голоса по имени
Фильтрации по полу (Male, Female, Neutral)

Язык (Language)

Язык синтеза речи. Для Cartesia важно указать корректный язык, так как он влияет на произношение и поддержку word timestamps.

Важно

Параметр Auto-detect недоступен для TTS -- необходимо явно указать язык синтеза.

Эмоция (Emotion)

Доступные эмоциональные окраски (зависит от провайдера):

Эмоция	Описание
Neutral	Нейтральный, деловой тон
Happy	Жизнерадостный, приподнятый
Sad	Грустный, сочувственный
Angry	Раздражённый, настойчивый
Fearful	Тревожный, обеспокоенный
Disgusted	Неодобрительный
Surprised	Удивлённый

Скорость (Speed)

Регулировка скорости речи от 0.5x (медленная) до 2.0x (быстрая). По умолчанию: 1.0x.

API-ключи провайдеров

Для работы STT и TTS провайдеров необходимы API-ключи. Ключи могут быть:

На уровне организации -- настраиваются в разделе "Провайдеры" (см. Аудио-провайдеры) и используются всеми агентами
На уровне сессии -- передаются при запуске сессии для переопределения ключей организации

Система ищет API-ключ в следующем порядке:

Ключ, специфичный для использования (например, cartesia-tts или cartesia-stt)
Общий ключ провайдера (например, cartesia)
Ключ из переменных окружения

Важно

Без корректных API-ключей голосовой агент не сможет функционировать. Убедитесь, что ключи настроены до первого тестирования.

Настройка STT и TTS

Провайдеры STT (Speech-to-Text)

Deepgram

OpenAI Whisper

Cartesia

Yandex SpeechKit

Настройка языка STT

Провайдеры TTS (Text-to-Speech)

Cartesia

OpenAI

ElevenLabs

Deepgram

Inworld

Yandex SpeechKit

Настройки TTS

Голос (Voice)

Язык (Language)

Эмоция (Emotion)

Скорость (Speed)

API-ключи провайдеров

Рекомендуемые конфигурации

Для русскоязычных агентов

Для русскоязычной телефонии (SIP)

Для мультиязычных агентов

Для минимальной задержки

Компонент	Провайдер	Модель	Параметры
STT	Deepgram	Nova 3	Language: Русский
LLM	OpenAI	GPT-4o	Temperature: 0.7
TTS	Cartesia	Sonic 3	Language: Русский, Speed: 1.0

Компонент	Провайдер	Модель	Параметры
STT	Yandex SpeechKit	general:rc	Language: Русский
LLM	OpenAI	GPT-4o	Temperature: 0.7
TTS	Yandex SpeechKit	—	Voice: Alena, Emotion: neutral

Компонент	Провайдер	Модель	Параметры
STT	Deepgram	Nova 3	Language: Auto-detect
LLM	OpenAI	GPT-4o	Temperature: 0.7
TTS	OpenAI	TTS-1	Voice: Alloy

Компонент	Провайдер	Модель	Параметры
STT	Deepgram	Nova 2	Language: по ситуации
LLM	OpenAI	GPT-4.1 Mini	Temperature: 0.7
TTS	Deepgram	Aura	Voice: Asteria

Провайдеры STT (Speech-to-Text)​

Deepgram​

OpenAI Whisper​

Cartesia​

Yandex SpeechKit​

Настройка языка STT​

Провайдеры TTS (Text-to-Speech)​

Cartesia​

OpenAI​

ElevenLabs​

Deepgram​

Inworld​

Yandex SpeechKit​

Настройки TTS​

Голос (Voice)​

Язык (Language)​

Эмоция (Emotion)​

Скорость (Speed)​

API-ключи провайдеров​

Рекомендуемые конфигурации​

Для русскоязычных агентов​

Для русскоязычной телефонии (SIP)​

Для мультиязычных агентов​

Для минимальной задержки​

Провайдеры STT (Speech-to-Text)

Deepgram

OpenAI Whisper

Cartesia

Yandex SpeechKit

Настройка языка STT

Провайдеры TTS (Text-to-Speech)

Cartesia

OpenAI

ElevenLabs

Deepgram

Inworld

Yandex SpeechKit

Настройки TTS

Голос (Voice)

Язык (Language)

Эмоция (Emotion)

Скорость (Speed)

API-ключи провайдеров

Рекомендуемые конфигурации

Для русскоязычных агентов

Для русскоязычной телефонии (SIP)

Для мультиязычных агентов

Для минимальной задержки