Филлеры и фоновое аудио
Для создания естественного диалогового опыта голосовые агенты поддерживают голосовые филлеры (хезитации), фоновые звуки и тонкую настройку обработки прерываний.
Обработка прерываний
Настройки прерываний определяют, как агент реагирует, когда пользователь начинает говорить во время ответа агента.
Параметры
| Параметр | Описание | По умолчанию |
|---|---|---|
| Allow Interruptions | Разрешить пользователю перебивать агента | Включено |
| Min Interruption Duration | Минимальная длительность речи пользователя (в секундах) для распознавания как прерывание | 0.5 сек |
| Resume After False Interruption | Продолжить ответ агента, если прерывание оказалось ложным (короткий звук) | Включено |
| False Interruption Timeout | Время ожидания (в секундах) после прерывания -- если пользователь не продолжает говорить, агент возобновляет свой ответ | 2.0 сек |
Для телефонных агентов рекомендуется увеличить Min Interruption Duration до 0.7-1.0 секунды, чтобы фоновые шумы телефонной линии не воспринимались как прерывания.
Как это работает
- Агент произносит ответ
- Пользователь начинает говорить
- Если речь пользователя длится дольше
Min Interruption Duration:- Агент останавливается и начинает слушать
- Если речь короче порога (ложное прерывание):
- Агент ждёт
False Interruption Timeout - Если пользователь не продолжает -- агент возобновляет свой ответ
- Агент ждёт
Idle и повторное вовлечение
Когда пользователь перестаёт говорить на длительное время, агент может попытаться возобновить разговор.
Параметры
| Параметр | Описание | По умолчанию |
|---|---|---|
| User Away Timeout | Время (в секундах) до определения пользователя как "отсутствующего" | 15 сек |
| Re-engagement Attempts | Количество попыток повторного вовлечения перед завершением сессии | 3 |
| Re-engagement Message | Сообщение, которое агент произносит для вовлечения пользователя | "Are you still there? Can I help you with anything?" |
Логика работы
- Пользователь молчит
User Away Timeoutсекунд - Агент произносит
Re-engagement Message - Ожидает ещё
User Away Timeoutсекунд - Повторяет до
Re-engagement Attemptsраз - Если пользователь так и не ответил -- сессия автоматически завершается
В сообщении повторного вовлечения можно использовать плейсхолдеры {{key}} из метаданных сессии. Например, если в метаданных передано customer_name, можно написать: {{customer_name}}, вы ещё здесь?
Фоновое аудио
Фоновые звуки делают разговор более естественным и создают ощущение "живого" call-центра.
Фоновый шум (Ambient Sound)
| Параметр | Описание | По умолчанию |
|---|---|---|
| Background noise | Включить фоновый звук офиса во время разговора | Выключено |
| Volume | Громкость фонового звука (10% -- 70%) | 30% |
При включении воспроизводится лёгкий офисный эмбиент, создающий ощущение рабочего пространства.
Звук обработки (Typing Sound)
| Параметр | Описание | По умолчанию |
|---|---|---|
| Typing sound | Воспроизводить звук при обработке запроса | Выключено |
Когда включен, пользователь слышит звук печати/обработки, пока агент "думает" над ответом.
Голосовые филлеры (Хезитации)
Филлеры -- это короткие звуковые фрагменты ("угу", "хмм", "так..."), которые агент воспроизводит во время разговора для имитации естественной речи.
Управление филлерами
Филлеры управляются через раздел Hesitation в настройках фонового аудио:
- Включите переключатель "Hesitation"
- Нажмите кнопку Generate для автоматической генерации набора филлеров
- Система сгенерирует набор аудио-фрагментов, адаптированных под голос вашего агента
Автоматическая генерация
При генерации филлеров система:
- Берёт голос текущего TTS-провайдера агента (или голос Realtime-модели)
- Генерирует набор фраз-филлеров на выбранном языке
- Создаёт аудио-файлы и сохраняет их
Примеры филлеров:
- Для английского: "...uh-huh...", "...mm-hmm...", "...hmm...", "...I see...", "...okay..."
- Для русского: "Хм... дайте подумать..."
Управление списком филлеров
После генерации доступны следующие действия:
- Прослушать -- нажмите на иконку воспроизведения рядом с филлером
- Удалить -- удалите ненужный филлер
- Перегенерировать -- нажмите "Re-generate" для создания нового набора
Настройки воспроизведения филлеров
Когда филлеры включены, появляются дополнительные параметры:
| Параметр | Описание | По умолчанию |
|---|---|---|
| Thinking filler | Воспроизводить филлер во время ожидания ответа LLM | Выключено |
| Backchannel delay | Диапазон задержки перед воспроизведением филлера (мин -- макс) | 1.5с -- 3.5с |
| Backchannel volume | Громкость воспроизведения филлеров | 80% |
Как работают филлеры
Филлеры воспроизводятся в двух ситуациях:
-
Backchannel -- пока пользователь говорит длинную фразу, агент периодически "поддакивает" ("угу", "хмм"), чтобы показать, что слушает. Воспроизведение начинается после
Backchannel delayот начала речи пользователя. -
Thinking filler -- когда агент ожидает ответ от LLM (режим Pipeline), он воспроизводит филлер, чтобы заполнить паузу. Работает только при включённом переключателе "Thinking filler".
Breakpoints (Точки прерывания)
Каждый филлер имеет точки прерывания (breakpoints) -- моменты в аудио, где можно естественно остановить воспроизведение. Например, для филлера "Хм... дайте подумать..." точка прерывания стоит после "Хм...", чтобы агент мог прервать филлер и начать говорить ответ.
Точки прерывания задаются при генерации с помощью символа | в тексте: "Хм...|дайте подумать...".
Включение филлеров значительно улучшает пользовательский опыт в телефонных разговорах. Пользователь чувствует, что агент "слушает" и "думает", а не просто молчит.
Филлеры генерируются на основе выбранного голоса агента. Если вы измените голос, рекомендуется перегенерировать филлеры кнопкой "Re-generate", чтобы они совпадали с новым голосом.