RAG: ответы по вашим документам без переобучения
RAG (Retrieval-Augmented Generation) — это связка из двух шагов:
- Retrieval — находим релевантные фрагменты в вашей базе знаний.
- Generation — отдаём их LLM как контекст и просим ответить.
Зачем это нужно
LLM знает «всё в общем», но не знает ваш внутренний регламент, каталог товаров или историю переписки с клиентом X. RAG — самый дешёвый способ это добавить.
RAG vs Fine-tuning
| Критерий | RAG | Fine-tuning |
|---|---|---|
| Стоимость старта | Низкая | Высокая |
| Обновление знаний | Мгновенное | Требует переобучения |
| Цитирование источников | Да | Нет |
| Подходит для | Документы, регламенты, FAQ | Стиль, формат, поведение |
Архитектура FlyAI RAG
- Источник: PDF, DOCX, Markdown, JSON, Confluence, Google Docs.
- Chunking: разбиение на куски по 300–500 токенов.
- Embeddings: модель multilingual-e5 или text-embedding-3-large.
- Хранилище: pgvector / Qdrant в вашем периметре.
- Поиск: hybrid (BM25 + cosine).
- Reranking: cross-encoder для топ-20 результатов.
- Генерация: любой LLM по выбору клиента.
Когда RAG не работает
- Когда нужен консистентный стиль (тут лучше fine-tuning).
- Когда нужны быстрые многошаговые рассуждения на закрытых данных.
- Когда база меньше 10 страниц (проще зашить в системный промпт).
Стоимость пилота
RAG-MVP под ваши документы — от 2 недель и $3 500. Включает chunker, embeddings pipeline, поиск и UI чата.