RAG: ответы по вашим документам без переобучения

RAG (Retrieval-Augmented Generation) — это связка из двух шагов:

Retrieval — находим релевантные фрагменты в вашей базе знаний.
Generation — отдаём их LLM как контекст и просим ответить.

Зачем это нужно

LLM знает «всё в общем», но не знает ваш внутренний регламент, каталог товаров или историю переписки с клиентом X. RAG — самый дешёвый способ это добавить.

RAG vs Fine-tuning

Критерий	RAG	Fine-tuning
Стоимость старта	Низкая	Высокая
Обновление знаний	Мгновенное	Требует переобучения
Цитирование источников	Да	Нет
Подходит для	Документы, регламенты, FAQ	Стиль, формат, поведение

Архитектура FlyAI RAG

Источник: PDF, DOCX, Markdown, JSON, Confluence, Google Docs.
Chunking: разбиение на куски по 300–500 токенов.
Embeddings: модель multilingual-e5 или text-embedding-3-large.
Хранилище: pgvector / Qdrant в вашем периметре.
Поиск: hybrid (BM25 + cosine).
Reranking: cross-encoder для топ-20 результатов.
Генерация: любой LLM по выбору клиента.

Когда RAG не работает

Когда нужен консистентный стиль (тут лучше fine-tuning).
Когда нужны быстрые многошаговые рассуждения на закрытых данных.
Когда база меньше 10 страниц (проще зашить в системный промпт).

Стоимость пилота