Обучение
Лия не обладает способностью к самостоятельному обучению, и это сделано намеренно. Алгоритмы, которые обучаются самостоятельно, часто приводят к ухудшению качества ответа из-за накопления ошибок и включения нерелевантных данных. Без усиленного контроля такие системы могут обучаться на ошибочных примерах, становиться непредсказуемыми и даже некорректными в своих ответах.
Мы решаем эту задачу через полуавтоматический процесс разметки и дообучения. Система классифицирует и кластеризует нераспознанные запросы, а специалисты подтверждают их правильность, добавляют в существующие намерения или создают новые. Такой подход обеспечивает высокую точность и предсказуемость системы, что критически важно для её стабильной и корректной работы.
Далее приведены подробные рекомендации и инструкции по обучению, работе с нераспознанными сообщениями и кластеризацией данных.
Общие рекомендации
Фразы в намерениях должны быть единым предложением, без точек. Если в середине запроса (сообщения) пользователя встречаются точки, вопросительные или восклицательные знаки, их следует убрать и заменить на запятые либо разбить на две обучающие фразы (если получившиеся отдельные предложения достаточно большие и содержат определенный запрос). Точку, вопросительный или восклицательный знак в конце фразы можно оставить.
Из фраз следует убирать все цифры, символы (кроме точки, вопросительного или восклицательного знака в конце фразы), смайлики и даты. В каждом намерении можно оставить 5-6 фраз с цифрами, но не больше, так как символы имеют достаточно большой вес при распознавании, и их обилие может приводить к плохому распознаванию.
Если во фразе есть приветствие, которое оканчивается точкой, восклицательным знаком или смайликом, то следует удалить такое приветствие и добавить в намерение чистую фразу. Если во фразе есть приветствие через запятую, то такой вариант можно оставить, однако если в намерении и так достаточно фраз с приветствием через запятую, то лучше его убрать.
Обучающие фразы не должны быть слишком объемными. Если сообщение большое, то лучше его сократить или разделить на несколько обучающих фраз (без потери смысла).
Формировать новое намерение рекомендуется в том случае, если есть хотя бы 8-10 фраз, относящихся к нему.
Намерение «Символы» является системным и не подлежит обучению.
Last updated