Индексация документов

Индексация -- это процесс загрузки и обработки документов для добавления их в базу знаний. После индексации документы становятся доступными для семантического поиска.

Источники данных

Вкладка Источники позволяет просматривать файлы в подключённых хранилищах и запускать индексацию.

Обзор файлов

Перейдите на вкладку Источники
Выберите коннектор из выпадающего списка в верхней части страницы
В левой панели Обзор файлов отображается дерево файлов из подключённого хранилища
Используйте чекбоксы для выбора файлов и папок для индексации

Предварительное условие

Если коннекторы ещё не созданы, на странице отобразится сообщение: "Сначала создайте коннектор на вкладке Коннекторы".

Настройки индексации

В правой панели Настройки индексации задаются параметры обработки:

Расписание

Определяет, как часто файлы будут синхронизироваться:

Значение	Описание
Вручную	Однократная индексация, без автоматической синхронизации
Каждые 30 секунд	Для тестирования (не для продакшена)
Каждый час	Ежечасная синхронизация
Ежедневно	Синхронизация раз в сутки
Еженедельно	Синхронизация раз в неделю

Рекурсивная индексация

Переключатель Рекурсивная индексация определяет, будут ли обрабатываться вложенные папки. По умолчанию: включено.

Pipeline

Выбор пайплайна обработки документов. Pipeline определяет:

Размер чанков (chunk size)
Перекрытие чанков (chunk overlap)
Модель эмбеддинга
Другие параметры обработки

Если не указан, используется пайплайн организации по умолчанию. Подробнее -- в разделе Пайплайны.

Паттерны включения и исключения

Glob-паттерны для фильтрации файлов:

Включить (Include Patterns) -- обрабатывать только файлы, соответствующие паттернам:

*.pdf
*.docx
*.txt

Исключить (Exclude Patterns) -- пропускать файлы, соответствующие паттернам:

**/node_modules/**
**/.git/**
**/temp/**

Совет

Используйте паттерны включения, чтобы обрабатывать только нужные типы файлов. Например, *.pdf для индексации только PDF-документов.

Запуск индексации

После выбора файлов и настройки параметров:

Нажмите кнопку Начать индексацию (N), где N -- количество выбранных файлов
Система создаст задачу индексации и запустит обработку в фоновом режиме
Перейдите на вкладку Задачи для мониторинга

Поддерживаемые форматы файлов

Формат	Расширения	Описание
PDF	`.pdf`	Полная поддержка, включая извлечение текста из таблиц
Текст	`.txt`	Простой текст
Markdown	`.md`, `.markdown`	Markdown-документы

Примечание

Файлы других форматов обрабатываются как текстовые (извлечение текста из байтов в кодировке UTF-8).

Типы источников

Платформа поддерживает несколько типов источников данных:

Тип	Описание
S3	Файлы из S3-совместимого хранилища (через коннектор)
Text	Прямой ввод текста через API
URL	Загрузка по URL-адресу
File	Прямая загрузка файла

Мониторинг задач

Вкладка "Задачи"

Вкладка Задачи показывает все задачи индексации с возможностью мониторинга в реальном времени.

Колонки таблицы

Колонка	Описание
ID	Уникальный идентификатор задачи
Тип	Тип задачи: Индексация, Обновление, Удаление
Статус	Текущий статус выполнения
Прогресс	Прогресс-бар с количеством обработанных/всего чанков
Создана	Дата и время создания задачи
Длительность	Время выполнения

Статусы задач

Статус	Описание
В очереди	Задача создана, ожидает обработки
Выполняется	Задача обрабатывается воркером
Завершена	Задача успешно завершена
Ошибка	Задача завершилась с ошибкой
В ожидании	Задача ожидает ресурсов
Отменена	Задача была отменена

Авто-обновление

Кнопка Авто-обновление включает автоматическое обновление таблицы каждые 3 секунды. Это удобно для мониторинга выполняющихся задач в реальном времени.

Детали задачи

Нажмите Детали для просмотра подробной информации:

Полный статус задачи
Сообщения об ошибках (если есть)
Возможность повторить неудавшуюся задачу
Возможность отменить выполняющуюся задачу

Управление документами

Вкладка "Документы в базе знаний"

После индексации документы отображаются на вкладке Документы в базе знаний.

Фильтрация и поиск

Поиск -- поиск документов по названию
Фильтр по статусу -- все, проиндексирован, обрабатывается, доступно обновление, ошибка
Фильтр по коннектору -- фильтрация по ID коннектора-источника

Колонки таблицы

Колонка	Описание
Название	Имя документа (обычно путь к файлу в S3)
Connector ID	ID коннектора-источника
Чанков	Количество чанков (фрагментов), на которые разбит документ
Проекты	Проекты, к которым привязан документ
Статус	Текущий статус документа
Обновлен	Дата последнего обновления

Статусы документов

Статус	Описание
Проиндексирован	Документ успешно обработан и доступен для поиска
Обрабатывается	Документ в процессе обработки
Ожидание	Документ ожидает обработки
На обновление	Обнаружена новая версия файла
Ошибка	Ошибка при обработке документа
Не обнаружен	Файл-источник не найден в хранилище
Удален	Документ удалён

Действия с документами

Привязка к проектам

Документы можно привязать к конкретным проектам:

Выберите документы в таблице
Нажмите Привязать (N) в панели действий
В модальном окне выберите проекты
Нажмите Сохранить

Привязка к проектам позволяет ограничить поиск по базе знаний документами конкретного проекта. Это полезно, когда разные проекты используют разную документацию.

Переиндексация

Для обновления документа (например, после изменения файла):

Откройте детали документа
Нажмите Re-ingest
Система загрузит файл повторно и обновит индекс

Удаление

При удалении документа:

Удаляются все чанки из базы данных
Удаляются все векторы из Qdrant
Документ больше не участвует в поиске

Важно

Массовое удаление необратимо. Для восстановления потребуется повторная индексация файлов.

Источники данных​

Обзор файлов​

Настройки индексации​

Расписание​

Рекурсивная индексация​

Pipeline​

Паттерны включения и исключения​

Запуск индексации​

Поддерживаемые форматы файлов​

Типы источников​

Мониторинг задач​

Вкладка "Задачи"​

Колонки таблицы​

Статусы задач​

Авто-обновление​

Детали задачи​

Управление документами​

Вкладка "Документы в базе знаний"​

Фильтрация и поиск​

Колонки таблицы​

Статусы документов​

Действия с документами​

Привязка к проектам​

Переиндексация​

Удаление​

Источники данных

Обзор файлов

Настройки индексации

Расписание

Рекурсивная индексация

Pipeline

Паттерны включения и исключения

Запуск индексации

Поддерживаемые форматы файлов

Типы источников

Мониторинг задач

Вкладка "Задачи"

Колонки таблицы

Статусы задач

Авто-обновление

Детали задачи

Управление документами

Вкладка "Документы в базе знаний"

Фильтрация и поиск

Колонки таблицы

Статусы документов

Действия с документами

Привязка к проектам

Переиндексация

Удаление