База знаний (RAG)
База знаний -- это система хранения и поиска информации, которая позволяет AI-агентам и воркфлоу находить релевантные данные из ваших документов. Технология RAG (Retrieval-Augmented Generation) дополняет ответы языковой модели фактической информацией из загруженных документов, повышая точность и актуальность ответов.
Как работает RAG
Процесс работы базы знаний состоит из двух основных этапов:
1. Индексация (Ingestion)
При загрузке документов происходит следующее:
Документ → [Парсинг] → Текст → [Разбиение на чанки] → Фрагменты → [Эмбеддинг] → Векторы → [Сохранение] → Qdrant
- Парсинг -- извлечение текста из файла (PDF, TXT, MD и др.)
- Разбиение на чанки -- разделение текста на фрагменты оптимального размера
- Эмбеддинг -- преобразование каждого фрагмента в числовой вектор (embedding) с помощью модели
- Сохранение -- запись векторов в Qdrant (векторную базу данных)
2. Поиск (Retrieval)
Когда агент или воркфлоу запрашивает информацию:
Запрос → [Эмбеддинг запроса] → Вектор → [Поиск в Qdrant] → Результаты → [Ранжирование] → Релевантные фрагменты
- Эмбеддинг запроса -- запрос пользователя преобразуется в вектор той же моделью
- Векторный поиск -- поиск ближайших векторов в Qdrant (семантически похожих фрагментов)
- Ранжирование -- переранжирование результатов для повышения релевантности
- Возврат -- наиболее релевантные фрагменты передаются в контекст LLM
В отличие от обычного полнотекстового поиска, семантический поиск находит документы по смыслу, а не по точному совпадению слов. Запрос "как вернуть товар" найдёт документ с заголовком "Политика возвратов", даже если в нём нет слова "вернуть".
Структура раздела
Раздел "База знаний" доступен из главного меню организации и содержит следующие вкладки:
| Вкладка | Описание |
|---|---|
| Коннекторы | Подключения к хранилищам данных (S3, GCS, Azure) |
| Пайплайны | Конвейеры обработки документов (индексация и поиск) |
| Источники | Обзор файлов в подключённых хранилищах, запуск индексации |
| Задачи | Мониторинг задач индексации (статус, прогресс, ошибки) |
| Документы в базе знаний | Все проиндексированные документы, управление и привязка к проектам |
| Расписания | Автоматическая периодическая синхронизация источников |
Основной рабочий процесс
Типичный процесс работы с базой знаний:
- Создайте коннектор -- подключитесь к хранилищу данных (S3, GCS и т.д.)
- Обзор файлов -- на вкладке "Источники" выберите файлы для индексации
- Настройте индексацию -- выберите pipeline и параметры
- Запустите индексацию -- система обработает файлы в фоновом режиме
- Мониторинг -- отслеживайте статус на вкладке "Задачи"
- Привяжите к проектам -- свяжите документы с проектами для использования в агентах
- (Опционально) Настройте расписание -- автоматическая синхронизация изменений
Мультитенантность
База знаний изолирована на уровне организации:
- Каждая организация имеет собственную коллекцию векторов в Qdrant
- Документы не видны между организациями
- Документы можно привязать к конкретным проектам для дополнительной изоляции
Использование в агентах и воркфлоу
В текстовых агентах
Для подключения базы знаний к текстовому агенту:
- Откройте настройки агента
- В разделе Memory включите RAG Enabled
- Агент будет автоматически искать релевантные документы при каждом запросе
В воркфлоу
В визуальном редакторе воркфлоу используйте ноду Knowledge Base Search для запроса к базе знаний. Нода принимает текстовый запрос и возвращает релевантные фрагменты.
В голосовых агентах
Голосовые агенты могут использовать базу знаний через подключённые инструменты (функции или воркфлоу), которые выполняют поиск по базе знаний.
Изучите визуальный редактор воркфлоу для создания сложных цепочек обработки документов.
Качество ответов RAG напрямую зависит от качества загруженных документов. Убедитесь, что документы структурированы, содержат актуальную информацию и не имеют проблем с форматированием.