Перейти к основному содержимому

Настройка STT и TTS

В режиме Pipeline голосовой агент использует отдельные провайдеры для распознавания речи (STT) и синтеза речи (TTS). Правильный выбор провайдеров влияет на качество, задержку и стоимость разговоров.

Провайдеры STT (Speech-to-Text)

Deepgram

  • Модели: Nova 3 (последняя, лучшая точность), Nova 2 (быстрая и точная)
  • Особенности: низкая задержка, стриминговое распознавание, хорошая поддержка многих языков
  • Рекомендуется для: большинства сценариев, особенно когда важна скорость
Совет

Deepgram Nova 3 -- рекомендуемый выбор по умолчанию. Он обеспечивает лучший баланс между скоростью и точностью.

OpenAI Whisper

  • Модели: Whisper
  • Особенности: отличная мультиязычная поддержка, высокая точность на редких языках
  • Рекомендуется для: мультиязычных сценариев с редкими языками

Cartesia

  • Модели: Ink Whisper
  • Особенности: мультиязычная поддержка
  • Ограничение: не поддерживает режим Auto-detect (автоопределение языка). Если выбран Auto-detect, система автоматически переключается на английский

Yandex SpeechKit

  • Модели: general (универсальная), general:rc (release candidate с улучшениями)
  • Особенности: лучшее качество распознавания русской речи, низкая задержка для российского региона, поддержка телефонии (8 кГц)
  • Рекомендуется для: русскоязычных сценариев, особенно при работе через SIP-телефонию

Настройка языка STT

Параметр Language определяет язык распознавания:

  • Auto-detect (multi) -- автоматическое определение языка. Поддерживается Deepgram и OpenAI
  • Конкретный язык (English, Русский, Deutsch и др.) -- фиксированный язык распознавания

Платформа поддерживает более 40 языков, включая: English, Русский, Deutsch, Francais, Espanol, Portugues, Italiano, Polski, Turkce, китайский, японский, корейский, арабский, хинди и многие другие.

Примечание

В режиме Realtime язык STT также влияет на язык транскрипции входящего аудио через gpt-4o-transcribe. Если выбран Auto-detect, система использует английский как fallback.


Провайдеры TTS (Text-to-Speech)

Cartesia

  • Модель: Sonic 3
  • Особенности:
    • Расширенный каталог голосов с возможностью фильтрации по полу (мужской, женский, нейтральный)
    • Поддержка эмоциональной окраски (happy, sad, angry, surprised и др.)
    • Регулировка скорости речи
    • Word timestamps для языков: английский, немецкий, испанский, французский
  • Рекомендуется для: высокого качества голоса с кастомизацией
Совет

Cartesia -- рекомендуемый TTS-провайдер по умолчанию. Он обеспечивает быстрый синтез с поддержкой эмоций и широким выбором голосов.

OpenAI

  • Модель: TTS-1
  • Голоса: Alloy, Ash, Coral, Echo, Sage, Shimmer
  • Особенности: стабильное качество, хорошая мультиязычность
  • Рекомендуется для: простых сценариев без необходимости кастомизации голоса

ElevenLabs

  • Особенности: премиальные голоса, клонирование голоса, высокая естественность
  • Рекомендуется для: сценариев, где критично качество голоса

Deepgram

  • Голоса: Asteria (ж.), Luna (ж.), Orion (м.)
  • Особенности: низкая задержка синтеза
  • Рекомендуется для: сценариев с критичной задержкой

Inworld

  • Голоса: Ashley, Hades, Zeus, Athena
  • Особенности: экспрессивные AI-голоса
  • Рекомендуется для: игровых и развлекательных сценариев

Yandex SpeechKit

  • Голоса: Alena (ж.), Filipp (м.), Jane (ж.), Ermil (м.), Omazh (ж.), Zahar (м.), Madirus (м.), Lera (ж.), Masha (ж.), Marina (ж.), Dasha (ж.) и другие
  • Особенности: естественное русское произношение, поддержка эмоций (good, evil, neutral) и стилей (friendly, strict), регулировка скорости и громкости, телефонное качество (8 кГц) для SIP
  • Рекомендуется для: русскоязычных сценариев, особенно колл-центров и телефонии

Настройки TTS

Голос (Voice)

Каждый провайдер предлагает свой набор голосов. Для Cartesia доступен расширенный каталог с возможностью:

  • Поиска голоса по имени
  • Фильтрации по полу (Male, Female, Neutral)

Язык (Language)

Язык синтеза речи. Для Cartesia важно указать корректный язык, так как он влияет на произношение и поддержку word timestamps.

Важно

Параметр Auto-detect недоступен для TTS -- необходимо явно указать язык синтеза.

Эмоция (Emotion)

Доступные эмоциональные окраски (зависит от провайдера):

ЭмоцияОписание
NeutralНейтральный, деловой тон
HappyЖизнерадостный, приподнятый
SadГрустный, сочувственный
AngryРаздражённый, настойчивый
FearfulТревожный, обеспокоенный
DisgustedНеодобрительный
SurprisedУдивлённый

Скорость (Speed)

Регулировка скорости речи от 0.5x (медленная) до 2.0x (быстрая). По умолчанию: 1.0x.


API-ключи провайдеров

Для работы STT и TTS провайдеров необходимы API-ключи. Ключи могут быть:

  1. На уровне организации -- настраиваются в разделе "Провайдеры" (см. Аудио-провайдеры) и используются всеми агентами
  2. На уровне сессии -- передаются при запуске сессии для переопределения ключей организации

Система ищет API-ключ в следующем порядке:

  1. Ключ, специфичный для использования (например, cartesia-tts или cartesia-stt)
  2. Общий ключ провайдера (например, cartesia)
  3. Ключ из переменных окружения
Важно

Без корректных API-ключей голосовой агент не сможет функционировать. Убедитесь, что ключи настроены до первого тестирования.

Рекомендуемые конфигурации

Для русскоязычных агентов

КомпонентПровайдерМодельПараметры
STTDeepgramNova 3Language: Русский
LLMOpenAIGPT-4oTemperature: 0.7
TTSCartesiaSonic 3Language: Русский, Speed: 1.0

Для русскоязычной телефонии (SIP)

КомпонентПровайдерМодельПараметры
STTYandex SpeechKitgeneral:rcLanguage: Русский
LLMOpenAIGPT-4oTemperature: 0.7
TTSYandex SpeechKitVoice: Alena, Emotion: neutral

Для мультиязычных агентов

КомпонентПровайдерМодельПараметры
STTDeepgramNova 3Language: Auto-detect
LLMOpenAIGPT-4oTemperature: 0.7
TTSOpenAITTS-1Voice: Alloy

Для минимальной задержки

КомпонентПровайдерМодельПараметры
STTDeepgramNova 2Language: по ситуации
LLMOpenAIGPT-4.1 MiniTemperature: 0.7
TTSDeepgramAuraVoice: Asteria