Обзор подхода
Конвертация веб-сайта в RAG-чатбот — процесс превращения контента публичного сайта в базу знаний для AI-помощника. Пайплайн: Веб-сайт → HTML → Markdown → Чанки → Эмбеддинги → Vector Store → RAG Chatbot.
Важно
Всегда проверяйте файл robots.txt перед парсингом сайта. Этический парсинг — обязательное условие работы.
Автоматический пайплайн в n8n
Рабочий процесс в n8n полностью автоматизирует парсинг любого сайта:
- Нормализация URL — приведение URL к стандартному формату (https, удаление путей)
- Проверка robots.txt — определение разрешений на парсинг
- Извлечение sitemap — поиск карты сайта в XML или JSON формате
- Обработка категорий — если sitemap содержит ссылки на другие XML-файлы, рекурсивная обработка
- HTTP-запросы — получение HTML-контента каждой страницы
- HTML → Markdown — конвертация с удалением навигации, футеров и скриптов
- Загрузка в Pinecone — с использованием OpenAI Embeddings и RecursiveCharacterTextSplitter
Cheerio Web Scraper в Flowise
Для Flowise доступен узел Cheerio Web Scraper с поддержкой: извлечения одной страницы, Web Crawl (обход ссылок), XML Sitemap, CSS-селекторов и лимитов.
Стратегии обновления контента
- Ручное повторное индексирование — периодический Upsert в Flowise
- Record Manager — автоматическое отслеживание изменений через Postgres
- Автоматизация через n8n / cron — ежедневный вызов API для обновления