Перейти к основному содержимому

Филлеры и фоновое аудио

Для создания естественного диалогового опыта голосовые агенты поддерживают голосовые филлеры (хезитации), фоновые звуки и тонкую настройку обработки прерываний.

Обработка прерываний

Настройки прерываний определяют, как агент реагирует, когда пользователь начинает говорить во время ответа агента.

Параметры

ПараметрОписаниеПо умолчанию
Allow InterruptionsРазрешить пользователю перебивать агентаВключено
Min Interruption DurationМинимальная длительность речи пользователя (в секундах) для распознавания как прерывание0.5 сек
Resume After False InterruptionПродолжить ответ агента, если прерывание оказалось ложным (короткий звук)Включено
False Interruption TimeoutВремя ожидания (в секундах) после прерывания -- если пользователь не продолжает говорить, агент возобновляет свой ответ2.0 сек
Совет

Для телефонных агентов рекомендуется увеличить Min Interruption Duration до 0.7-1.0 секунды, чтобы фоновые шумы телефонной линии не воспринимались как прерывания.

Как это работает

  1. Агент произносит ответ
  2. Пользователь начинает говорить
  3. Если речь пользователя длится дольше Min Interruption Duration:
    • Агент останавливается и начинает слушать
  4. Если речь короче порога (ложное прерывание):
    • Агент ждёт False Interruption Timeout
    • Если пользователь не продолжает -- агент возобновляет свой ответ

Idle и повторное вовлечение

Когда пользователь перестаёт говорить на длительное время, агент может попытаться возобновить разговор.

Параметры

ПараметрОписаниеПо умолчанию
User Away TimeoutВремя (в секундах) до определения пользователя как "отсутствующего"15 сек
Re-engagement AttemptsКоличество попыток повторного вовлечения перед завершением сессии3
Re-engagement MessageСообщение, которое агент произносит для вовлечения пользователя"Are you still there? Can I help you with anything?"

Логика работы

  1. Пользователь молчит User Away Timeout секунд
  2. Агент произносит Re-engagement Message
  3. Ожидает ещё User Away Timeout секунд
  4. Повторяет до Re-engagement Attempts раз
  5. Если пользователь так и не ответил -- сессия автоматически завершается
Примечание

В сообщении повторного вовлечения можно использовать плейсхолдеры {{key}} из метаданных сессии. Например, если в метаданных передано customer_name, можно написать: {{customer_name}}, вы ещё здесь?


Фоновое аудио

Фоновые звуки делают разговор более естественным и создают ощущение "живого" call-центра.

Фоновый шум (Ambient Sound)

ПараметрОписаниеПо умолчанию
Background noiseВключить фоновый звук офиса во время разговораВыключено
VolumeГромкость фонового звука (10% -- 70%)30%

При включении воспроизводится лёгкий офисный эмбиент, создающий ощущение рабочего пространства.

Звук обработки (Typing Sound)

ПараметрОписаниеПо умолчанию
Typing soundВоспроизводить звук при обработке запросаВыключено

Когда включен, пользователь слышит звук печати/обработки, пока агент "думает" над ответом.


Голосовые филлеры (Хезитации)

Филлеры -- это короткие звуковые фрагменты ("угу", "хмм", "так..."), которые агент воспроизводит во время разговора для имитации естественной речи.

Управление филлерами

Филлеры управляются через раздел Hesitation в настройках фонового аудио:

  1. Включите переключатель "Hesitation"
  2. Нажмите кнопку Generate для автоматической генерации набора филлеров
  3. Система сгенерирует набор аудио-фрагментов, адаптированных под голос вашего агента

Автоматическая генерация

При генерации филлеров система:

  • Берёт голос текущего TTS-провайдера агента (или голос Realtime-модели)
  • Генерирует набор фраз-филлеров на выбранном языке
  • Создаёт аудио-файлы и сохраняет их

Примеры филлеров:

  • Для английского: "...uh-huh...", "...mm-hmm...", "...hmm...", "...I see...", "...okay..."
  • Для русского: "Хм... дайте подумать..."

Управление списком филлеров

После генерации доступны следующие действия:

  • Прослушать -- нажмите на иконку воспроизведения рядом с филлером
  • Удалить -- удалите ненужный филлер
  • Перегенерировать -- нажмите "Re-generate" для создания нового набора

Настройки воспроизведения филлеров

Когда филлеры включены, появляются дополнительные параметры:

ПараметрОписаниеПо умолчанию
Thinking fillerВоспроизводить филлер во время ожидания ответа LLMВыключено
Backchannel delayДиапазон задержки перед воспроизведением филлера (мин -- макс)1.5с -- 3.5с
Backchannel volumeГромкость воспроизведения филлеров80%

Как работают филлеры

Филлеры воспроизводятся в двух ситуациях:

  1. Backchannel -- пока пользователь говорит длинную фразу, агент периодически "поддакивает" ("угу", "хмм"), чтобы показать, что слушает. Воспроизведение начинается после Backchannel delay от начала речи пользователя.

  2. Thinking filler -- когда агент ожидает ответ от LLM (режим Pipeline), он воспроизводит филлер, чтобы заполнить паузу. Работает только при включённом переключателе "Thinking filler".

Breakpoints (Точки прерывания)

Каждый филлер имеет точки прерывания (breakpoints) -- моменты в аудио, где можно естественно остановить воспроизведение. Например, для филлера "Хм... дайте подумать..." точка прерывания стоит после "Хм...", чтобы агент мог прервать филлер и начать говорить ответ.

Точки прерывания задаются при генерации с помощью символа | в тексте: "Хм...|дайте подумать...".

Совет

Включение филлеров значительно улучшает пользовательский опыт в телефонных разговорах. Пользователь чувствует, что агент "слушает" и "думает", а не просто молчит.

Важно

Филлеры генерируются на основе выбранного голоса агента. Если вы измените голос, рекомендуется перегенерировать филлеры кнопкой "Re-generate", чтобы они совпадали с новым голосом.