В Telegram публикуем только то, что не попадает на сайт. Подписывайтесь — будет полезно!
Удобная чат-платформа для службы поддержки на базе ИИ
Интеллектуальный классификатор обращений
Интерактивный ассистент для работы c документами и базами знаний
85%
уровень роботизации в чатах на сайте, ЕЛК, мобильном приложении и Telegram
Персональный ИИ-ассистент оператора контактного-центра
Цифровой консультант для повышения продаж
Обработайте в 3 раза больше обращений без увеличения штата
Создайте службу «единого окна» для поддержки сотрудников
Обеспечьте выполнение SLA и повышайте NPS без увеличения штата
RAG-системы на арене: протестировали 5 популярных решений на реальных данных
Удобная чат-платформа для службы поддержки на базе ИИ
Интеллектуальный классификатор обращений
Интерактивный ассистент для работы c документами и базами знаний
Как снизить затраты на генеративный ИИ: практическое руководство по выбору видеокарты
Блог платформы AutoFAQ

AutoFAQ Xplain — лучшая RAG-система по результатам первого российского независимого бенчмарка

Если ваш ИИ-ассистент отвечает уверенно на демо, а на реальных запросах сотрудников уходит в галлюцинации — проблема, скорее всего, не в языковой модели. Проблема в том, как настроен поиск по вашим документам. Именно это проверял первый российский независимый RAG-бенчмарк — и именно на этом срезе AutoFAQ Xplain занял первое место.

Точность RAG-системы — это не техническая метрика, это деньги: стоимость часа оператора, который исправляет то, что ИИ сказал неправильно, стоимость перевода на общение со специалистом, которого не должно было быть, стоимость переделки после внедрения. Когда компания выбирает ИИ-ассистента для работы с корпоративными знаниями, ориентироваться на маркетинговые обещания — дорогое удовольствие. Пилот проходит на стерильных данных, договор подписан, а на реальной документации система начинает галлюцинировать. В декабре 2025 года появился первый российский инструмент, который позволяет проверить RAG-решение объективно — на настоящем корпоративном контенте. AutoFAQ Xplain прошёл этот тест лучше всех.

Показательно, что для победы не потребовалось глубокое погружение в данные бенчмарка. Как объясняет руководитель направления ИИ в AutoFAQ Идрис Юсупов: первое место удалось взять, потратив несколько минут на подбор оптимальных параметров системы, опираясь на встроенный в AutoFAQ валидационный модуль. Это не случайность, а следствие многолетней экспертизы в векторном поиске и архитектурных решений, которые команда накапливала задолго до того, как RAG стал модным словом.

Что такое RAG-бенчмарк RRNCB и зачем он нужен ИТ-директору

RRNCB (Russian RAG Normative — Corporate Benchmark) — первый в России открытый бенчмарк для аудита RAG-систем на тяжёлом корпоративном контенте. Принципиальное отличие от стандартных тестов — в данных. Никаких академических датасетов: участники работали с техническими регламентами, ГОСТами, СНиПами, юридическими кодексами и финансовой отчётностью. Именно тот контент, с которым RAG-система встречается у реального корпоративного заказчика.

Пять команд — независимые стартапы и ИТ-структуры с госучастием — прошли два раунда. Открытый этап сменился «слепым» тестированием на изолированном массиве данных, который участники видели впервые.

Оценка велась по двум независимым контурам. Первый — консенсус трёх LLM-судей (GPT-4o-mini, Claude Haiku и Gemini Flash), которые проверяли фактологическую точность, полноту и релевантность ответов. Второй — метрики ROUGE: жёсткий математический фильтр на точность воспроизведения терминов и формулировок из нормативных документов. Любая вольная трактовка термина из ГОСТа — это потенциальная ошибка в проектировании и реальные убытки. Чтобы исключить позиционную предвзятость нейросетей (модели в 62−68% случаев склонны отдавать предпочтение ответу, стоящему первым в списке), применили двойное слепое тестирование с инверсией порядка.

Первое место — RAG-система AutoFAQ Xplain

CustomRAG v1 — решение, построенное на платформе AutoFAQ Xplain, — заняло первую строчку итогового лидерборда. За ним стоит команда под руководством Идриса Юсупова, руководителя направления ИИ: в бенчмарке компания выступила под именем Idris — именно так в лидерборде значится AutoFAQ Xplain.
Полные результаты бенчмарка: https://www.computerra.ru/338895/hvatit-pereplachivat-za-razmer-pervyj-rossijskij-rag-benchmark-slomal-glavnyj-mif-o-korporativnom-ii/

Победа досталась не за счёт грубой вычислительной мощности. Решающим стала глубокая кастомизация поискового слоя и собственные векторные представления, заточенные под специфику корпоративных текстов.

Идрис Юсупов
Руководитель направления ИИ
Принципиально важная деталь архитектуры AutoFAQ Xplain — встроенный валидационный модуль, который оценивает качество системы по принципу LLM As A Judge. Он позволяет подобрать оптимальные параметры поиска без ручного перебора конфигураций. Годы работы с векторным поиском плюс встроенная автооценка качества обеспечили команде выход в топ без недель ручной подгонки под данные бенчмарка.

При этом AutoFAQ Xplain использует open-source эмбеддинги без проприетарных векторных моделей. Конкурентное преимущество не в том, чтобы переписать базовые компоненты, а в том, чтобы использовать их максимально эффективно: быстрый, качественный и не ресурсоёмкий поиск на стандартных строительных блоках.

Три вывода, которые меняют логику выбора RAG-системы

Настройка поиска важнее размера модели. Команда НГУ улучшила свой результат на 12%, не меняя языковую модель — только оптимизировав стратегию поиска и настройку эмбеддингов. Прежде чем согласовывать бюджет на тяжёлую облачную LLM, стоит проверить, правильно ли настроен поисковый конвейер.

Слепая замена модели не работает. Это подтверждает провал Donkit: их open-source сборка на DeepSeek V3.2 взяла бронзу, а тот же конвейер с облачной Gemini 2.5 Flash опустился на восьмое место из девяти. Модель — не серебряная пуля. Архитектура поиска — вот где скрыт основной резерв качества.

Локальные решения обходятся в 4−5 раз дешевле при приемлемой разнице в точности. Переход с облачных гигантов на локальные модели 27−32B снижает стоимость владения инфраструктурой в 4−5 раз. Потеря в точности — 8−15%. Для корпоративных баз знаний, FAQ и систем поддержки это означает два-три дополнительных уточняющих вопроса в день — цена, которая многократно перекрывается экономией. Для юридического комплаенса или финансовой отчётности это повод не отказываться от локального ИИ, а дополнительно настроить поиск.

Как проверить RAG-систему до подписания договора

Результаты бенчмарка — это, безусловно, полезный ориентир, но любое решение нужно проверять на собственных данных. Вот практический алгоритм от руководителя ИИ направления AutoFAQ:

Шаг 1. Собрать валидационную выборку. Входные документы, вопросы, правильные ответы, требования по времени отклика. Важно включить сюда не только примеры в формате «вопрос — ответ», но и симуляцию диалога: именно в многоходовых сценариях большинство систем начинают терять контекст.

Шаг 2. Прогнать систему по выборке. Автоматическая оценка через LLM As A Judge даёт скорость, но ручной просмотр ответов остаётся обязательным. Нейросеть-судья не заменит взгляд человека, знакомого с предметной областью.

Шаг 3. Оценить трудоёмкость исправления слабых мест. Важно понять, что система делает хорошо, а что — не очень. В том числе, важно проверить насколько трудоёмко она будет устранить слабые кейсы, не сломав при этом сильные. Именно этот вопрос часто остаётся за кадром на этапе пилота и становится проблемой после внедрения.

Почему результаты бенчмарка важнее маркетинговых таблиц

2026 год меняет требования к внедрению ИИ. Технические подразделения больше не могут приходить к бизнесу с работающим прототипом — нужны измеримые результаты на реальных задачах. Лучшее, что может сделать ИТ-директор перед подписанием договора с любым вендором, — потребовать тест на собственных документах компании. Только тогда оценка отражает практическую ценность, а не производительность на чужих данных. Первое место AutoFAQ Xplain в RRNCB — не маркетинговое заявление. Это результат независимого аудита на том контенте, с которым работают реальные корпоративные системы.
Мы всегда готовы провести демотестирование AutoFAQ Xplain на данных вашей компании, чтобы вы оценили точность системы на своих документах. Оставьте свои данные, и мы свяжемся с вами.
Смотрите также