Вопросы и ответы

Каковы стратегии повышения метрики покрытия (coverage)?

Повышение покрытия достигается за счет комплексного подхода:

  • Разработка сценариев: Создание сценариев для наиболее частотных намерений.

  • Анализ нераспознанных запросов: Регулярный анализ и кластеризация нераспознанных фраз для выявления новых намерений и дообучения существующих.

  • Глубокая интеграция: Переход от статических сценариев (предоставление информации) к динамическим, которые используют API для взаимодействия с внешними системами. Чем больше бизнес-логики автоматизировано через API-интеграции, тем выше процент диалогов, завершенных без участия оператора.

Каково рекомендуемое количество обучающих фраз для одного намерения?

Для первоначального обучения намерения рекомендуется использовать 15-20 разнообразных фраз. Оптимальное количество фраз для стабильной работы намерения в production-среде — 200-300.

Важно отметить, что качество и вариативность обучающей выборки имеют более высокий приоритет, чем ее объем. Если намерение стабильно распознается на меньшем количестве фраз, дополнительное обучение не требуется.

Каков процесс дообучения NLU-модели?

Процесс дообучения основан на анализе кластеров — групп семантически близких нераспознанных запросов, которые система формирует автоматически (unsupervised clustering). Задача специалиста — проанализировать эти кластеры и вручную отнести их к существующим или новым намерениям. Этот этап контролируемого обучения (supervised learning) позволяет избежать погрешностей и гарантировать высокое качество модели.

Каков жизненный цикл обучающей фразы при удалении из намерения?

При удалении обучающая фраза безвозвратно удаляется из системы. Архив или "корзина" для удаленных фраз отсутствует. Если необходимо переместить фразу из одного намерения в другое, следует скопировать ее перед удалением.

Каковы рекомендации по составлению обучающих выборок: следует ли использовать целые фразы или отдельные ключевые слова?

NLU-модель платформы ориентирована на семантический анализ контекста всего предложения, а не на поиск по ключевым словам. Поэтому для обучения следует использовать полные, реальные фразы пользователей. Использование отдельных слов в качестве обучающих примеров является неэффективным и может привести к деградации качества модели.

Последнее обновление