Оптимизация токенов в API Gateway FlyAI
Стоимость LLM-запросов растёт линейно с количеством токенов. При объёме 50–100 млн токенов в месяц 40% экономия = тысячи долларов ежемесячно.
Техника 1: Семантический кеш
Если два запроса близки по смыслу — отдаём ответ из кеша. Хранится embedding запроса; при cosine similarity > 0.92 ответ переиспользуется.
Эффект: 25–35% запросов идут из кеша на типичных корпоративных кейсах.
Техника 2: Маршрутизация по сложности
Простые запросы (классификация, извлечение полей) уходят на дешёвые модели (Gemini Flash Lite, Haiku). Сложные (рассуждение, длинные контексты) — на топовые (GPT-5.2, Claude Sonnet 4.5).
Эффект: до 60% снижения средней стоимости токена.
Техника 3: Сжатие контекста
Длинные документы перед отправкой в модель прогоняются через дешёвый суммаризатор. Компактный «дайджест» подаётся вместе с точечным цитированием релевантных кусков.
Эффект: контексты в 100k токенов превращаются в 8–12k без потери качества.
Техника 4: Батчинг и параллелизм
Десятки независимых запросов объединяются в один batch-вызов, что снижает накладные расходы.
Реальные показатели
На боевых нагрузках наших клиентов экономия токенов составляет от 40 до 60% по сравнению с прямым подключением к OpenAI/Anthropic. Никаких компромиссов по качеству ответов.