Индексация документов
Индексация -- это процесс загрузки и обработки документов для добавления их в базу знаний. После индексации документы становятся доступными для семантического поиска.
Источники данных
Вкладка Источники позволяет просматривать файлы в подключённых хранилищах и запускать индексацию.
Обзор файлов
- Перейдите на вкладку Источники
- Выберите коннектор из выпадающего списка в верхней части страницы
- В левой панели Обзор файлов отображается дерево файлов из подключённого хранилища
- Используйте чекбоксы для выбора файлов и папок для индексации
Если коннекторы ещё не созданы, на странице отобразится сообщение: "Сначала создайте коннектор на вкладке Коннекторы".
Настройки индексации
В правой панели Настройки индексации задаются параметры обработки:
Расписание
Определяет, как часто файлы будут синхронизироваться:
| Значение | Описание |
|---|---|
| Вручную | Однократная индексация, без автоматической синхронизации |
| Каждые 30 секунд | Для тестирования (не для продакшена) |
| Каждый час | Ежечасная синхронизация |
| Ежедневно | Синхронизация раз в сутки |
| Еженедельно | Синхронизация раз в неделю |
Рекурсивная индексация
Переключатель Рекурсивная индексация определяет, будут ли обрабатываться вложенные папки. По умолчанию: включено.
Pipeline
Выбор пайплайна обработки документов. Pipeline определяет:
- Размер чанков (chunk size)
- Перекрытие чанков (chunk overlap)
- Модель эмбеддинга
- Другие параметры обработки
Если не указан, используется пайплайн организации по умолчанию. Подробнее -- в разделе Пайплайны.
Паттерны включения и исключения
Glob-паттерны для фильтрации файлов:
Включить (Include Patterns) -- обрабатывать только файлы, соответствующие паттернам:
*.pdf
*.docx
*.txt
Исключить (Exclude Patterns) -- пропускать файлы, соответствующие паттернам:
**/node_modules/**
**/.git/**
**/temp/**
Используйте паттерны включения, чтобы обрабатывать только нужные типы файлов. Например, *.pdf для индексации только PDF-документов.
Запуск индексации
После выбора файлов и настройки параметров:
- Нажмите кнопку Начать индексацию (N), где N -- количество выбранных файлов
- Система создаст задачу индексации и запустит обработку в фоновом режиме
- Перейдите на вкладку Задачи для мониторинга
Поддерживаемые форматы файлов
| Формат | Расширения | Описание |
|---|---|---|
.pdf | Полная поддержка, включая извлечение текста из таблиц | |
| Текст | .txt | Простой текст |
| Markdown | .md, .markdown | Markdown-документы |
Файлы других форматов обрабатываются как текстовые (извлечение текста из байтов в кодировке UTF-8).
Типы источников
Платформа поддерживает несколько типов источников данных:
| Тип | Описание |
|---|---|
| S3 | Файлы из S3-совместимого хранилища (через коннектор) |
| Text | Прямой ввод текста через API |
| URL | Загрузка по URL-адресу |
| File | Прямая загрузка файла |
Мониторинг задач
Вкладка "Задачи"
Вкладка Задачи показывает все задачи индексации с возможностью мониторинга в реальном времени.
Колонки таблицы
| Колонка | Описание |
|---|---|
| ID | Уникальный идентификатор задачи |
| Тип | Тип задачи: Индексация, Обновление, Удаление |
| Статус | Текущий статус выполнения |
| Прогресс | Прогресс-бар с количеством обработанных/всего чанков |
| Создана | Дата и время создания задачи |
| Длительность | Время выполнения |
Статусы задач
| Статус | Описание |
|---|---|
| В очереди | Задача создана, ожидает обработки |
| Выполняется | Задача обрабатывается воркером |
| Завершена | Задача успешно завершена |
| Ошибка | Задача завершилась с ошибкой |
| В ожидании | Задача ожидает ресурсов |
| Отменена | Задача была отменена |
Авто-обновление
Кнопка Авто-обновление включает автоматическое обновление таблицы каждые 3 секунды. Это удобно для мониторинга выполняющихся задач в реальном времени.
Детали задачи
Нажмите Детали для просмотра подробной информации:
- Полный статус задачи
- Сообщения об ошибках (если есть)
- Возможность повторить неудавшуюся задачу
- Возможность отменить выполняющуюся задачу
Управление документами
Вкладка "Документы в базе знаний"
После индексации документы отображаются на вкладке Документы в базе знаний.
Фильтрация и поиск
- Поиск -- поиск документов по названию
- Фильтр по статусу -- все, проиндексирован, обрабатывается, доступно обновление, ошибка
- Фильтр по коннектору -- фильтрация по ID коннектора-источника
Колонки таблицы
| Колонка | Описание |
|---|---|
| Название | Имя документа (обычно путь к файлу в S3) |
| Connector ID | ID коннектора-источника |
| Чанков | Количество чанков (фрагментов), на которые разбит документ |
| Проекты | Проекты, к которым привязан документ |
| Статус | Текущий статус документа |
| Обновлен | Дата последнего обновления |
Статусы документов
| Статус | Описание |
|---|---|
| Проиндексирован | Документ успешно обработан и доступен для поиска |
| Обрабатывается | Документ в процессе обработки |
| Ожидание | Документ ожидает обработки |
| На обновление | Обнаружена новая версия файла |
| Ошибка | Ошибка при обработке документа |
| Не обнаружен | Файл-источник не найден в хранилище |
| Удален | Документ удалён |
Действия с документами
Привязка к проектам
Документы можно привязать к конкретным проектам:
- Выберите документы в таблице
- Нажмите Привязать (N) в панели действий
- В модальном окне выберите проекты
- Нажмите Сохранить
Привязка к проектам позволяет ограничить поиск по базе знаний документами конкретного проекта. Это полезно, когда разные проекты используют разную документацию.
Переиндексация
Для обновления документа (например, после изменения файла):
- Откройте детали документа
- Нажмите Re-ingest
- Система загрузит файл повторно и обновит индекс
Удаление
При удалении документа:
- Удаляются все чанки из базы данных
- Удаляются все векторы из Qdrant
- Документ больше не участвует в поиске
Массовое удаление необратимо. Для восстановления потребуется повторная индексация файлов.