Перейти к основному содержимому

Индексация документов

Индексация -- это процесс загрузки и обработки документов для добавления их в базу знаний. После индексации документы становятся доступными для семантического поиска.

Источники данных

Вкладка Источники позволяет просматривать файлы в подключённых хранилищах и запускать индексацию.

Обзор файлов

  1. Перейдите на вкладку Источники
  2. Выберите коннектор из выпадающего списка в верхней части страницы
  3. В левой панели Обзор файлов отображается дерево файлов из подключённого хранилища
  4. Используйте чекбоксы для выбора файлов и папок для индексации
Предварительное условие

Если коннекторы ещё не созданы, на странице отобразится сообщение: "Сначала создайте коннектор на вкладке Коннекторы".

Настройки индексации

В правой панели Настройки индексации задаются параметры обработки:

Расписание

Определяет, как часто файлы будут синхронизироваться:

ЗначениеОписание
ВручнуюОднократная индексация, без автоматической синхронизации
Каждые 30 секундДля тестирования (не для продакшена)
Каждый часЕжечасная синхронизация
ЕжедневноСинхронизация раз в сутки
ЕженедельноСинхронизация раз в неделю

Рекурсивная индексация

Переключатель Рекурсивная индексация определяет, будут ли обрабатываться вложенные папки. По умолчанию: включено.

Pipeline

Выбор пайплайна обработки документов. Pipeline определяет:

  • Размер чанков (chunk size)
  • Перекрытие чанков (chunk overlap)
  • Модель эмбеддинга
  • Другие параметры обработки

Если не указан, используется пайплайн организации по умолчанию. Подробнее -- в разделе Пайплайны.

Паттерны включения и исключения

Glob-паттерны для фильтрации файлов:

Включить (Include Patterns) -- обрабатывать только файлы, соответствующие паттернам:

*.pdf
*.docx
*.txt

Исключить (Exclude Patterns) -- пропускать файлы, соответствующие паттернам:

**/node_modules/**
**/.git/**
**/temp/**
Совет

Используйте паттерны включения, чтобы обрабатывать только нужные типы файлов. Например, *.pdf для индексации только PDF-документов.

Запуск индексации

После выбора файлов и настройки параметров:

  1. Нажмите кнопку Начать индексацию (N), где N -- количество выбранных файлов
  2. Система создаст задачу индексации и запустит обработку в фоновом режиме
  3. Перейдите на вкладку Задачи для мониторинга

Поддерживаемые форматы файлов

ФорматРасширенияОписание
PDF.pdfПолная поддержка, включая извлечение текста из таблиц
Текст.txtПростой текст
Markdown.md, .markdownMarkdown-документы
Примечание

Файлы других форматов обрабатываются как текстовые (извлечение текста из байтов в кодировке UTF-8).


Типы источников

Платформа поддерживает несколько типов источников данных:

ТипОписание
S3Файлы из S3-совместимого хранилища (через коннектор)
TextПрямой ввод текста через API
URLЗагрузка по URL-адресу
FileПрямая загрузка файла

Мониторинг задач

Вкладка "Задачи"

Вкладка Задачи показывает все задачи индексации с возможностью мониторинга в реальном времени.

Колонки таблицы

КолонкаОписание
IDУникальный идентификатор задачи
ТипТип задачи: Индексация, Обновление, Удаление
СтатусТекущий статус выполнения
ПрогрессПрогресс-бар с количеством обработанных/всего чанков
СозданаДата и время создания задачи
ДлительностьВремя выполнения

Статусы задач

СтатусОписание
В очередиЗадача создана, ожидает обработки
ВыполняетсяЗадача обрабатывается воркером
ЗавершенаЗадача успешно завершена
ОшибкаЗадача завершилась с ошибкой
В ожиданииЗадача ожидает ресурсов
ОтмененаЗадача была отменена

Авто-обновление

Кнопка Авто-обновление включает автоматическое обновление таблицы каждые 3 секунды. Это удобно для мониторинга выполняющихся задач в реальном времени.

Детали задачи

Нажмите Детали для просмотра подробной информации:

  • Полный статус задачи
  • Сообщения об ошибках (если есть)
  • Возможность повторить неудавшуюся задачу
  • Возможность отменить выполняющуюся задачу

Управление документами

Вкладка "Документы в базе знаний"

После индексации документы отображаются на вкладке Документы в базе знаний.

Фильтрация и поиск

  • Поиск -- поиск документов по названию
  • Фильтр по статусу -- все, проиндексирован, обрабатывается, доступно обновление, ошибка
  • Фильтр по коннектору -- фильтрация по ID коннектора-источника

Колонки таблицы

КолонкаОписание
НазваниеИмя документа (обычно путь к файлу в S3)
Connector IDID коннектора-источника
ЧанковКоличество чанков (фрагментов), на которые разбит документ
ПроектыПроекты, к которым привязан документ
СтатусТекущий статус документа
ОбновленДата последнего обновления

Статусы документов

СтатусОписание
ПроиндексированДокумент успешно обработан и доступен для поиска
ОбрабатываетсяДокумент в процессе обработки
ОжиданиеДокумент ожидает обработки
На обновлениеОбнаружена новая версия файла
ОшибкаОшибка при обработке документа
Не обнаруженФайл-источник не найден в хранилище
УдаленДокумент удалён

Действия с документами

Привязка к проектам

Документы можно привязать к конкретным проектам:

  1. Выберите документы в таблице
  2. Нажмите Привязать (N) в панели действий
  3. В модальном окне выберите проекты
  4. Нажмите Сохранить

Привязка к проектам позволяет ограничить поиск по базе знаний документами конкретного проекта. Это полезно, когда разные проекты используют разную документацию.

Переиндексация

Для обновления документа (например, после изменения файла):

  1. Откройте детали документа
  2. Нажмите Re-ingest
  3. Система загрузит файл повторно и обновит индекс

Удаление

При удалении документа:

  • Удаляются все чанки из базы данных
  • Удаляются все векторы из Qdrant
  • Документ больше не участвует в поиске
Важно

Массовое удаление необратимо. Для восстановления потребуется повторная индексация файлов.