Перейти к основному содержимому

Аудио-провайдеры

Платформа поддерживает интеграцию с провайдерами распознавания речи (STT) и синтеза речи (TTS). Эти провайдеры используются голосовыми агентами и Telegram-ботами с включёнными голосовыми функциями.

Провайдеры распознавания речи (STT)

STT-провайдеры преобразуют голосовые сообщения и звонки в текст.

Deepgram

Высокоточное распознавание речи с поддержкой множества языков.

  • Модели для распознавания: Nova 3, Nova 2 — модели разных поколений с различной точностью и скоростью.
  • Модели для синтеза: Aura Asteria (EN), Aura Luna (EN), Aura Orion (EN).
  • API-ключ: получите на deepgram.com.
Примечание

Deepgram является универсальным провайдером — он предоставляет и STT, и TTS-модели. При подключении вы получаете доступ ко всем его возможностям.

Провайдеры синтеза речи (TTS)

TTS-провайдеры преобразуют текстовые ответы агента в голосовые сообщения.

Cartesia

Высококачественный синтез речи с естественным звучанием.

  • Модели: Sonic 3, Sonic 2, Ink Whisper.
  • API-ключ: получите на cartesia.ai.

ElevenLabs

Реалистичный синтез речи с поддержкой клонирования голоса.

  • Модели: Eleven Turbo v2.5, Eleven Multilingual v2.
  • API-ключ: получите на elevenlabs.io.

Inworld

Синтез речи для игровых и диалоговых персонажей.

  • Модели: Inworld TTS.
  • API-ключ: получите на inworld.ai.

Добавление аудио-провайдера

Аудио-провайдеры подключаются через ту же страницу API Keys, что и LLM-провайдеры:

  1. Перейдите в раздел API Keys в боковом меню.
  2. Нажмите Add Key.
  3. Выберите нужного провайдера из списка — аудио-провайдеры отображаются вместе с LLM-провайдерами.
  4. Введите API-ключ провайдера.
  5. При желании задайте Label для удобной идентификации.
  6. Нажмите Add.

В таблице ключей аудио-провайдеры обозначены типами:

ТипЦвет тегаОписание
STTЗелёныйПровайдер распознавания речи
TTSФиолетовыйПровайдер синтеза речи

Использование в агентах

После добавления API-ключа аудио-провайдера:

  • Голосовые агенты смогут использовать подключённые STT и TTS модели для обработки звонков.
  • Telegram-боты с включёнными голосовыми функциями (Voice In / Voice Out) будут использовать подключённые провайдеры для обработки голосовых сообщений.
Совет

Для полноценной работы голосового агента рекомендуется подключить хотя бы один STT-провайдер (для распознавания речи) и один TTS-провайдер (для синтеза ответов). Смотрите конфигурацию STT и TTS для получения рекомендаций.

Внимание

Без подключённого аудио-провайдера голосовые функции агентов и ботов работать не будут. Убедитесь, что ключ имеет статус Active.