Дообучение
Качество распознавания намерений напрямую зависит от качества обучающих данных. Этот документ содержит рекомендации по подготовке и форматированию обучающих фраз для дообучения модели, а также требования к датасету для первичной настройки проекта.
Подготовка обучающих фраз для дообучения
Этот раздел описывает лучшие практики для самостоятельного дообучения модели через добавление фраз в намерения.
- Структура и форматирование:
- Каждая обучающая фраза должна представлять собой законченное предложение.
- Избегайте использования точек в середине фразы. Если запрос пользователя содержит несколько предложений, разделите его на несколько отдельных обучающих фраз, сохраняя при этом исходный смысл.
- Длинные и сложные предложения рекомендуется упрощать или разбивать на более короткие и сфокусированные фразы.
Не рекомендуется добавлять более 100 обучающих фраз на одно намерение. Рекомендуется не более 50 обучающих фраз на одно намерение.
- Очистка данных:
- Символы и цифры: Удаляйте из фраз цифры и специальные символы. Они имеют высокий вес при распознавании и могут негативно повлиять на качество модели. Допускается оставить не более 5-6 примеров с цифрами на одно намерение, если они критически важны для контекста.
- Приветствия: Удаляйте из фраз отдельные приветствия (например, "Здравствуйте.", "Добрый день!"). Приветствия, являющиеся частью предложения (например, "Здравствуйте, подскажите..."), можно оставить, но не следует ими злоупотреблять.
- Формирование намерений:
Для создания намерения рекомендуется не менее 10 уникальных обучающих фраз.
Системное намерение “Символы” не подлежит редактированию или обучению.
Требования к датасету для первичной настройки
Этот раздел актуален для проектов, которые настраиваются при участии команды «Лия». Предоставление исторического датасета позволяет значительно ускорить запуск и повысить первоначальное качество распознавания.
- Формат данных:
- Предпочтительный формат —
JSON. - Каждая запись должна содержать как минимум текст обращения, а также, по возможности, метаданные: ID отправителя, дата и время, канал коммуникации.
- Предпочтительный формат —
- Объем данных:
- Рекомендуемый объем — от 30 000 обращений. Больший объем данных позволяет достичь более высокого качества первоначального обучения модели.
- Если датасет отсутствует:
- В случае отсутствия исторических данных, платформа «Лия» использует преднастроенные шаблоны намерений, релевантные для вашей бизнес-сферы, которые служат стартовой точкой для дальнейшего обучения.