FlyAI.by/База знаний·RU

RAG простыми словами: как ИИ отвечает на вопросы по вашим документам

Что такое Retrieval-Augmented Generation, чем отличается от fine-tuning и когда использовать какой подход.

Обновлено: 2025-06-15
RAGпоискэмбеддингичатбот

RAG: ответы по вашим документам без переобучения

RAG (Retrieval-Augmented Generation) — это связка из двух шагов:

  1. Retrieval — находим релевантные фрагменты в вашей базе знаний.
  2. Generation — отдаём их LLM как контекст и просим ответить.

Зачем это нужно

LLM знает «всё в общем», но не знает ваш внутренний регламент, каталог товаров или историю переписки с клиентом X. RAG — самый дешёвый способ это добавить.

RAG vs Fine-tuning

Критерий RAG Fine-tuning
Стоимость старта Низкая Высокая
Обновление знаний Мгновенное Требует переобучения
Цитирование источников Да Нет
Подходит для Документы, регламенты, FAQ Стиль, формат, поведение

Архитектура FlyAI RAG

  • Источник: PDF, DOCX, Markdown, JSON, Confluence, Google Docs.
  • Chunking: разбиение на куски по 300–500 токенов.
  • Embeddings: модель multilingual-e5 или text-embedding-3-large.
  • Хранилище: pgvector / Qdrant в вашем периметре.
  • Поиск: hybrid (BM25 + cosine).
  • Reranking: cross-encoder для топ-20 результатов.
  • Генерация: любой LLM по выбору клиента.

Когда RAG не работает

  • Когда нужен консистентный стиль (тут лучше fine-tuning).
  • Когда нужны быстрые многошаговые рассуждения на закрытых данных.
  • Когда база меньше 10 страниц (проще зашить в системный промпт).

Стоимость пилота

RAG-MVP под ваши документы — от 2 недель и $3 500. Включает chunker, embeddings pipeline, поиск и UI чата.