Дообучение

Качество распознавания намерений напрямую зависит от качества обучающих данных. Этот документ содержит рекомендации по подготовке и форматированию обучающих фраз для дообучения модели, а также требования к датасету для первичной настройки проекта.

Подготовка обучающих фраз для дообучения

Этот раздел описывает лучшие практики для самостоятельного дообучения модели через добавление фраз в намерения.

  • Структура и форматирование:

    • Каждая обучающая фраза должна представлять собой законченное предложение.

    • Избегайте использования точек в середине фразы. Если запрос пользователя содержит несколько предложений, разделите его на несколько отдельных обучающих фраз, сохраняя при этом исходный смысл.

    • Длинные и сложные предложения рекомендуется упрощать или разбивать на более короткие и сфокусированные фразы.

  • Очистка данных:

    • Символы и цифры: Удаляйте из фраз цифры и специальные символы. Они имеют высокий вес при распознавании и могут негативно повлиять на качество модели. Допускается оставить не более 5-6 примеров с цифрами на одно намерение, если они критически важны для контекста.

    • Приветствия: Удаляйте из фраз отдельные приветствия (например, "Здравствуйте.", "Добрый день!"). Приветствия, являющиеся частью предложения (например, "Здравствуйте, подскажите..."), можно оставить, но не следует ими злоупотреблять.

  • Формирование намерений:

Системное намерение “Символы” не подлежит редактированию или обучению.

Требования к датасету для первичной настройки

Этот раздел актуален для проектов, которые настраиваются при участии команды «Лия». Предоставление исторического датасета позволяет значительно ускорить запуск и повысить первоначальное качество распознавания.

  • Формат данных:

    • Предпочтительный формат — JSON.

    • Каждая запись должна содержать как минимум текст обращения, а также, по возможности, метаданные: ID отправителя, дата и время, канал коммуникации.

  • Объем данных:

    • Рекомендуемый объем — от 30 000 обращений. Больший объем данных позволяет достичь более высокого качества первоначального обучения модели.

  • Если датасет отсутствует:

    • В случае отсутствия исторических данных, платформа «Лия» использует преднастроенные шаблоны намерений, релевантные для вашей бизнес-сферы, которые служат стартовой точкой для дальнейшего обучения.

Последнее обновление