Перейти к основному содержимому

Пайплайны

Пайплайны определяют, как документы обрабатываются при индексации и как выполняется поиск. Платформа использует визуальные пайплайны -- цепочки узлов обработки, каждый из которых выполняет конкретную операцию.

Типы пайплайнов

ТипОписаниеНазначение
IngestionПайплайн индексацииОпределяет, как файлы парсятся, разбиваются на чанки, и сохраняются
RetrievalПайплайн поискаОпределяет, как выполняется поиск по базе знаний
Совет

Для автоматизации обработки документов используйте расписания синхронизации, которые автоматически запускают пайплайны индексации с заданной периодичностью.


Пайплайны индексации

Default Ingestion Pipeline

При создании организации автоматически создаётся стандартный пайплайн индексации:

Start → S3 Source → Document Parser → Chunking → Embedding → Vector Store

Узлы пайплайна

S3 Source -- загрузка файла из S3-хранилища

  • Использует учётные данные коннектора для доступа к файлу
  • Передаёт содержимое файла на следующий узел

Document Parser -- извлечение текста из файла

  • Автоматически определяет формат файла по расширению
  • Поддерживаемые форматы: PDF, TXT, MD
  • Для PDF извлекает текст из всех страниц

Chunking -- разбиение текста на фрагменты (чанки)

  • Разбивает длинный текст на фрагменты оптимального размера
  • Использует рекурсивное разбиение с учётом структуры текста

Параметры узла:

ПараметрОписаниеПо умолчанию
chunk_sizeМаксимальный размер чанка (в символах)1000
chunk_overlapПерекрытие между соседними чанками (в символах)200

Разделители (в порядке приоритета): двойной перевод строки (\n\n), перевод строки (\n), точка с пробелом (. ), пробел ( ), пустая строка.

Совет по размеру чанков
  • Маленькие чанки (500-800 символов) -- точнее соответствуют запросу, но теряют контекст
  • Средние чанки (1000-1500 символов) -- хороший баланс точности и контекста
  • Большие чанки (2000+ символов) -- больше контекста, но менее точное соответствие

Для большинства сценариев рекомендуется размер 1000 символов с перекрытием 200.

Embedding -- создание числовых представлений (эмбеддингов)

  • Преобразует текст каждого чанка в вектор фиксированной размерности
  • Модель по умолчанию: BAAI/bge-small-en-v1.5 (384 измерения)
  • Обработка выполняется локально через FastEmbed (не требует API-ключей)

Параметры узла:

ПараметрОписаниеПо умолчанию
model_nameНазвание модели эмбеддингаBAAI/bge-small-en-v1.5

Vector Store -- сохранение эмбеддингов

  • Записывает векторы в коллекцию Qdrant
  • Сохраняет метаданные (ID источника, индекс чанка, текст)
  • Коллекция изолирована на уровне организации

PDF Processing Pipeline

Предустановленный пайплайн, оптимизированный для PDF-документов:

Start → S3 Source → PDF Parser → Large Chunks → Embedding → Vector Store

Отличия от стандартного:

  • chunk_size: 1500 (увеличен для таблиц и структурированного контента)
  • chunk_overlap: 300

Пайплайны поиска

Default Retrieval Pipeline

Стандартный пайплайн поиска:

Start → Query Embedding → Vector Search → Reranker

Узлы пайплайна

Query Embedding -- преобразование запроса в вектор

  • Использует ту же модель эмбеддинга, что и при индексации
  • Специальный метод query_embed оптимизирован для поисковых запросов

Vector Search -- поиск ближайших векторов

  • Ищет наиболее похожие чанки в Qdrant по косинусному расстоянию

Параметры узла:

ПараметрОписаниеПо умолчанию
limitМаксимальное количество результатов поиска25
score_thresholdМинимальный порог релевантности (0 - 1.0)0.7
collection_nameИмя Qdrant-коллекции (например, faq_chunks для FAQ)коллекция организации по умолчанию
dedupe_byServer-side группировка результатов по полю payload (например, faq_id)--
return_fieldПоле payload, которое подменяет text в результате (например, answer для FAQ)--
filtersPinned-фильтры по полям payload (например, category: ["payouts"])--
FAQ-режим

Параметры collection_name, dedupe_by, return_field и filters используются для построения retrieval-пайплайна для FAQ-базы знаний. Подробнее см. FAQ-база знаний.

Reranker -- переранжирование результатов

  • Повторно оценивает найденные чанки для повышения точности
  • Отбирает top-K наиболее релевантных

Параметры узла:

ПараметрОписаниеПо умолчанию
top_kКоличество результатов после переранжирования10
О порогах релевантности

Порог score_threshold определяет минимальное качество результатов:

  • 0.5 -- широкий поиск, много результатов (могут быть нерелевантные)
  • 0.7 -- сбалансированный поиск (рекомендуется)
  • 0.9 -- строгий поиск, только очень точные совпадения

Управление пайплайнами

Список пайплайнов

На вкладке Пайплайны отображается таблица со всеми пайплайнами:

КолонкаОписание
NameНазвание пайплайна. Пайплайны по умолчанию помечены тегом "Default"
ТипINGESTION (зелёный) или RETRIEVAL (фиолетовый)
УзлыКоличество узлов обработки
СтатусActive или Inactive
ВерсияНомер версии (инкрементируется при обновлении)
ОбновленоДата последнего обновления

Создание пайплайна

  1. Нажмите Новый пайплайн и выберите тип:
    • Ingestion Pipeline -- для обработки документов
    • Retrieval Pipeline -- для настройки поиска
  2. Откроется визуальный редактор пайплайна

Визуальный редактор

Редактор пайплайна позволяет:

  • Добавлять и удалять узлы обработки
  • Настраивать параметры каждого узла
  • Соединять узлы в цепочку обработки
  • Просматривать типы входов/выходов каждого узла

Типы узлов

Узлы индексации

УзелВходВыходОписание
S3 Source--file_bytesЗагрузка файла из S3
Document Parserfile_bytestextИзвлечение текста
Chunkingtextchunks[]Разбиение на фрагменты
FAQ Chunkingfile_byteschunks[]Парсинг FAQ JSON-датасета (см. FAQ-база знаний)
Embeddingchunks[]embeddings[]Создание эмбеддингов
Vector Storeembeddings[]point_ids[]Сохранение в Qdrant

Узлы поиска

УзелВходВыходОписание
Query Embeddingquery_textquery_vectorЭмбеддинг запроса
Vector Searchquery_vectorsearch_results[]Поиск в Qdrant (поддерживает dedupe и фильтры — см. FAQ-база знаний)
Rerankersearch_results[]ranked_results[]Переранжирование

Дублирование пайплайна

Для создания пайплайна на основе существующего:

  1. Откройте контекстное меню пайплайна (правый клик)
  2. Выберите Duplicate
  3. Система создаст копию с суффиксом "(Copy)"

Удаление пайплайна

Пайплайны по умолчанию (Default) нельзя удалить. Пользовательские пайплайны можно удалить через контекстное меню.

Важно

При удалении пайплайна источники, которые на него ссылаются, начнут использовать пайплайн по умолчанию при следующей индексации.


Привязка пайплайна к источнику

При запуске индексации на вкладке Источники вы можете выбрать конкретный пайплайн:

  1. В правой панели Настройки индексации найдите поле Pipeline
  2. Выберите пайплайн из списка (пайплайн по умолчанию отмечен соответствующей пометкой)
  3. Запустите индексацию

Если пайплайн не выбран явно, используется пайплайн организации по умолчанию.