Дообучение

Качество распознавания намерений напрямую зависит от качества обучающих данных. Этот документ содержит рекомендации по подготовке и форматированию обучающих фраз для дообучения модели, а также требования к датасету для первичной настройки проекта.

Подготовка обучающих фраз для дообучения

Этот раздел описывает лучшие практики для самостоятельного дообучения модели через добавление фраз в намерения.

Структура и форматирование:
- Каждая обучающая фраза должна представлять собой законченное предложение.
- Избегайте использования точек в середине фразы. Если запрос пользователя содержит несколько предложений, разделите его на несколько отдельных обучающих фраз, сохраняя при этом исходный смысл.
- Длинные и сложные предложения рекомендуется упрощать или разбивать на более короткие и сфокусированные фразы.

осторожно

Не рекомендуется добавлять более 100 обучающих фраз на одно намерение. Рекомендуется не более 50 обучающих фраз на одно намерение.

Очистка данных:
- Символы и цифры: Удаляйте из фраз цифры и специальные символы. Они имеют высокий вес при распознавании и могут негативно повлиять на качество модели. Допускается оставить не более 5-6 примеров с цифрами на одно намерение, если они критически важны для контекста.
- Приветствия: Удаляйте из фраз отдельные приветствия (например, "Здравствуйте.", "Добрый день!"). Приветствия, являющиеся частью предложения (например, "Здравствуйте, подскажите..."), можно оставить, но не следует ими злоупотреблять.
Формирование намерений:

warning

Для создания намерения рекомендуется не менее 10 уникальных обучающих фраз.

к сведению

Системное намерение “Символы” не подлежит редактированию или обучению.

Требования к датасету для первичной настройки

Этот раздел актуален для проектов, которые настраиваются при участии команды «Лия». Предоставление исторического датасета позволяет значительно ускорить запуск и повысить первоначальное качество распознавания.

Формат данных:
- Предпочтительный формат — JSON.
- Каждая запись должна содержать как минимум текст обращения, а также, по возможности, метаданные: ID отправителя, дата и время, канал коммуникации.
Объем данных:
- Рекомендуемый объем — от 30 000 обращений. Больший объем данных позволяет достичь более высокого качества первоначального обучения модели.
Если датасет отсутствует:
- В случае отсутствия исторических данных, платформа «Лия» использует преднастроенные шаблоны намерений, релевантные для вашей бизнес-сферы, которые служат стартовой точкой для дальнейшего обучения.

Подготовка обучающих фраз для дообучения​

Требования к датасету для первичной настройки​

Подготовка обучающих фраз для дообучения

Требования к датасету для первичной настройки