Дообучение
Качество распознавания намерений напрямую зависит от качества обучающих данных. Этот документ содержит рекомендации по подготовке и форматированию обучающих фраз для дообучения модели, а также требования к датасету для первичной настройки проекта.
Подготовка обучающих фраз для дообучения
Этот раздел описывает лучшие практики для самостоятельного дообучения модели через добавление фраз в намерения.
Структура и форматирование:
Каждая обучающая фраза должна представлять собой законченное предложение.
Избегайте использования точек в середине фразы. Если запрос пользователя содержит несколько предложений, разделите его на несколько отдельных обучающих фраз, сохраняя при этом исходный смысл.
Длинные и сложные предложения рекомендуется упрощать или разбивать на более короткие и сфокусированные фразы.
Не рекомендуется добавлять более 100 обучающих фраз на одно намерение. Рекомендуется не более 50 обучающих фраз на одно намерение.
Очистка данных:
Символы и цифры: Удаляйте из фраз цифры и специальные символы. Они имеют высокий вес при распознавании и могут негативно повлиять на качество модели. Допускается оставить не более 5-6 примеров с цифрами на одно намерение, если они критически важны для контекста.
Приветствия: Удаляйте из фраз отдельные приветствия (например, "Здравствуйте.", "Добрый день!"). Приветствия, являющиеся частью предложения (например, "Здравствуйте, подскажите..."), можно оставить, но не следует ими злоупотреблять.
Формирование намерений:
Для создания намерения рекомендуется не менее 10 уникальных обучающих фраз.
Требования к датасету для первичной настройки
Этот раздел актуален для проектов, которые настраиваются при участии команды «Лия». Предоставление исторического датасета позволяет значительно ускорить запуск и повысить первоначальное качество распознавания.
Формат данных:
Предпочтительный формат —
JSON
.Каждая запись должна содержать как минимум текст обращения, а также, по возможности, метаданные: ID отправителя, дата и время, канал коммуникации.
Объем данных:
Рекомендуемый объем — от 30 000 обращений. Больший объем данных позволяет достичь более высокого качества первоначального обучения модели.
Если датасет отсутствует:
В случае отсутствия исторических данных, платформа «Лия» использует преднастроенные шаблоны намерений, релевантные для вашей бизнес-сферы, которые служат стартовой точкой для дальнейшего обучения.
Последнее обновление