Аудио-провайдеры
Платформа поддерживает интеграцию с провайдерами распознавания речи (STT) и синтеза речи (TTS). Эти провайдеры используются голосовыми агентами и Telegram-ботами с включёнными голосовыми функциями.
Провайдеры распознавания речи (STT)
STT-провайдеры преобразуют голосовые сообщения и звонки в текст.
Deepgram
Высокоточное распознавание речи с поддержкой множества языков.
- Модели для распознавания: Nova 3, Nova 2 — модели разных поколений с различной точностью и скоростью.
- Модели для синтеза: Aura Asteria (EN), Aura Luna (EN), Aura Orion (EN).
- API-ключ: получите на deepgram.com.
Deepgram является универсальным провайдером — он предоставляет и STT, и TTS-модели. При подключении вы получаете доступ ко всем его возможностям.
Провайдеры синтеза речи (TTS)
TTS-провайдеры преобразуют текстовые ответы агента в голосовые сообщения.
Cartesia
Высококачественный синтез речи с естественным звучанием.
- Модели: Sonic 3, Sonic 2, Ink Whisper.
- API-ключ: получите на cartesia.ai.
ElevenLabs
Реалистичный синтез речи с поддержкой клонирования голоса.
- Модели: Eleven Turbo v2.5, Eleven Multilingual v2.
- API-ключ: получите на elevenlabs.io.
Inworld
Синтез речи для игровых и диалоговых персонажей.
- Модели: Inworld TTS.
- API-ключ: получите на inworld.ai.
Добавление аудио-провайдера
Аудио-провайдеры подключаются через ту же страницу API Keys, что и LLM-провайдеры:
- Перейдите в раздел API Keys в боковом меню.
- Нажмите Add Key.
- Выберите нужного провайдера из списка — аудио-провайдеры отображаются вместе с LLM-провайдерами.
- Введите API-ключ провайдера.
- При желании задайте Label для удобной идентификации.
- Нажмите Add.
В таблице ключей аудио-провайдеры обозначены типами:
| Тип | Цвет тега | Описание |
|---|---|---|
| STT | Зелёный | Провайдер распознавания речи |
| TTS | Фиолетовый | Провайдер синтеза речи |
Использование в агентах
После добавления API-ключа аудио-провайдера:
- Голосовые агенты смогут использовать подключённые STT и TTS модели для обработки звонков.
- Telegram-боты с включёнными голосовыми функциями (Voice In / Voice Out) будут использовать подключённые провайдеры для обработки голосовых сообщений.
Для полноценной работы голосового агента рекомендуется подключить хотя бы один STT-провайдер (для распознавания речи) и один TTS-провайдер (для синтеза ответов). Смотрите конфигурацию STT и TTS для получения рекомендаций.
Без подключённого аудио-провайдера голосовые функции агентов и ботов работать не будут. Убедитесь, что ключ имеет статус Active.