4.2
Скачать PDF

Создание RAG-чатбота для клиента

25 мин чтения

Что такое RAG?

RAG (Retrieval-Augmented Generation) — архитектурный паттерн, при котором языковая модель получает релевантный контекст из внешней базы знаний перед генерацией ответа. Это устраняет главные проблемы «голых» LLM: галлюцинации и устаревшие данные.

Ключевой факт

По отраслевым оценкам, RAG-системы обеспечивают работу около 60% production AI-приложений в 2024–2025 годах.

Компоненты RAG-пайплайна

RAG состоит из двух фаз:

Фаза индексации (offline)

Document Loaders → Text Splitters → Embedding Model → Vector Store. На этом этапе документы загружаются, разбиваются на чанки, преобразуются в эмбеддинги и сохраняются в векторной базе данных.

Фаза запроса (online)

User Question → Embed Query → Retriever (Top-K) → LLM + Context → Ответ. При запросе вопрос пользователя превращается в вектор, находятся ближайшие чанки, и LLM генерирует ответ на основе контекста.

Практика: создание RAG-чатбота в Flowise

Процесс создания реального RAG-чатбота для клиента включает следующие шаги:

  1. Подготовка данных — загрузка документов клиента (PDF, текстовые файлы, Markdown). Рекомендуется предварительно структурировать данные в Markdown для лучшего качества.
  2. Настройка Document Store — создание хранилища в Flowise, выбор загрузчика (Text File, PDF, Markdown) и сплиттера (RecursiveCharacterTextSplitter с chunk_size=1000, overlap=200).
  3. Выбор эмбеддингов и Vector Store — OpenAI Embeddings (text-embedding-3-small) + Pinecone для постоянного хранения.
  4. Создание Chatflow — подключение Tool Agent с OpenRouter (Claude 3.7 Sonnet), Buffer Window Memory (20 сообщений) и Retriever Tool.
  5. Системный промпт — настройка роли, языка и правил поведения агента.
Лучшая практика

Используйте LlamaIndex или аналогичные инструменты для предварительной конвертации документов в Markdown — это значительно повышает качество RAG.

Стратегии разбивки на чанки

Размер чанкаПрименениеПлюсы
128–256 токеновТочный поиск фактовВысокая точность
300–500 токеновОбщий RAG (рекомендуется)Баланс точности и контекста
512–1024 токеновПоиск сложных концепцийБогатый контекст

Оценка качества RAG

Для оценки используются метрики: Precision@K и Recall@K (точность ретривала), Faithfulness (соответствие ответа контексту), Answer Relevancy (релевантность ответа) и Hallucination Rate.

Ключевые выводы

  • RAG устраняет галлюцинации LLM путём предоставления релевантного контекста из базы знаний
  • Пайплайн состоит из двух фаз: индексация (offline) и запрос (online)
  • Оптимальный размер чанка для общего RAG — 300–500 токенов с overlap 10–20%
  • Предварительная конвертация документов в Markdown улучшает качество
  • Для production используйте Pinecone или аналогичные персистентные Vector Stores