4.5
Скачать PDF

Конвертация веб-сайта в RAG-чатбот

25 мин чтения

Обзор подхода

Конвертация веб-сайта в RAG-чатбот — процесс превращения контента публичного сайта в базу знаний для AI-помощника. Пайплайн: Веб-сайт → HTML → Markdown → Чанки → Эмбеддинги → Vector Store → RAG Chatbot.

Важно

Всегда проверяйте файл robots.txt перед парсингом сайта. Этический парсинг — обязательное условие работы.

Автоматический пайплайн в n8n

Рабочий процесс в n8n полностью автоматизирует парсинг любого сайта:

  1. Нормализация URL — приведение URL к стандартному формату (https, удаление путей)
  2. Проверка robots.txt — определение разрешений на парсинг
  3. Извлечение sitemap — поиск карты сайта в XML или JSON формате
  4. Обработка категорий — если sitemap содержит ссылки на другие XML-файлы, рекурсивная обработка
  5. HTTP-запросы — получение HTML-контента каждой страницы
  6. HTML → Markdown — конвертация с удалением навигации, футеров и скриптов
  7. Загрузка в Pinecone — с использованием OpenAI Embeddings и RecursiveCharacterTextSplitter

Cheerio Web Scraper в Flowise

Для Flowise доступен узел Cheerio Web Scraper с поддержкой: извлечения одной страницы, Web Crawl (обход ссылок), XML Sitemap, CSS-селекторов и лимитов.

Стратегии обновления контента

  • Ручное повторное индексирование — периодический Upsert в Flowise
  • Record Manager — автоматическое отслеживание изменений через Postgres
  • Автоматизация через n8n / cron — ежедневный вызов API для обновления

Ключевые выводы

  • Автоматический парсинг сайта через sitemap.xml — самый надёжный метод
  • Всегда проверяйте robots.txt перед парсингом
  • HTML → Markdown конвертация критична для качества RAG
  • n8n рабочий процесс обрабатывает сайты с любой структурой sitemap
  • Для обновления данных используйте Record Manager или cron-задачи

Полезные ресурсы