Подписывайтесь на AutoFAQ в телеграм!

Генеративный ИИ в поддержке клиентов и сотрудников: эффективность без лишних затрат

27 февраля 2025 г.

Бизнес-завтрак

9:30

Блог платформы AutoFAQ

DeepSeek — новая LLM из Китая: что это такое и заменит ли она ChatGPT?

Развитие больших языковых моделей (LLM) продолжает набирать обороты. Одной из самых обсуждаемых новинок стал китайский чат-бот DeepSeek, который стремится составить конкуренцию таким гигантам, как ChatGPT от OpenAI. Это амбициозная разработка, цель которой — предоставить мощный инструмент для решения сложных задач, связанных с обработкой текстовой информации.

DeepSeek уже вызвал интерес как среди разработчиков, так и в бизнес-среде благодаря своим возможностям, уникальным подходам к обучению и более доступным дистиллированным версиям. Но может ли эта модель стать реальным конкурентом для ChatGPT? В статье мы подробно разберем её особенности, ограничения и перспективы интеграции в бизнес.

Что такое DeepSeek и почему о ней говорят?

DeepSeek — это новая языковая модель, созданная китайскими разработчиками, которые ставят перед собой цель выйти на мировой рынок технологий ИИ. Она построена на усовершенствованной архитектуре трансформеров и использует современные подходы к обучению, включая обучение с подкреплением (Reinforcement Learning). Такой подход позволил разработчикам достичь высокого качества работы модели при сравнительно меньших вычислительных затратах.

Основная версия модели, DeepSeek-R1, продемонстрировала впечатляющие результаты на множестве бенчмарков, таких как задачи на логику, программирование и математику. Эти результаты привлекли внимание как исследователей, так и представителей бизнеса, ищущих эффективные инструменты для автоматизации задач.

Ключевые особенности DeepSeek-R1:
  • Модель обучена на широком наборе текстовых данных, обеспечивающем её универсальность.
  • Для снижения затрат на ресурсы были разработаны облегчённые версии (distilled models), которые можно запускать даже на видеокартах среднего уровня, таких как NVIDIA 4090 и A100.

Как создателям DeepSeek удалось достичь высокого качества с меньшими ресурсами?

Разработчики DeepSeek использовали несколько инновационных подходов, которые позволили им добиться высокого качества модели без гигантских затрат на ресурсы. Это особенно важно в условиях растущих запросов к вычислительной мощности, которая требуется для работы и обучения современных LLM.

Во-первых, DeepSeek применяет методику knowledge distillation. Этот метод позволяет «сжать» знания из крупных моделей в более компактные версии, сохраняя при этом основные функциональные возможности.

Во-вторых, архитектура модели была оптимизирована для работы с ограниченными ресурсами. Использование таргетированных данных для обучения и гибридный подход к выбору обучающего материала помогли значительно повысить производительность.

Что позволило DeepSeek добиться успеха:
  1. Эффективное применение методов дистилляции знаний для создания облегчённых версий.
  2. Оптимизация архитектуры трансформеров для снижения требований к вычислительным ресурсам.
  3. Фокус на задачах, требующих логического мышления и программирования, что снизило необходимость обучения на гигантских массивах данных.
  4. Учет специфики восточных языков, что сделало модель особенно успешной в задачах, связанных с китайским языком.

Подпишитесь на дайджест AutoFAQ

Раз в месяц отправляем информацию про обновления платформы, анонсы мероприятий, свежие кейсы и исследования

Ограничения DeepSeek для промышленного использования

Несмотря на все преимущества, DeepSeek имеет ряд ограничений, которые делают её менее подходящей для некоторых задач, особенно в крупном бизнесе. Основная версия модели требует значительных вычислительных ресурсов, а её функционал пока не полностью адаптирован для работы с разными языками и закрытыми системами.

Во-первых, для работы полной версии DeepSeek-R1 необходимо около 1,3 Тб GPU. Это делает её недоступной для большинства компаний, за исключением крупнейших игроков рынка. Во-вторых, текущая версия модели не всегда демонстрирует стабильные результаты при работе с русским языком, что может ограничить её применение в локальных проектах.

Основные ограничения DeepSeek:
  1. Высокие требования к аппаратному обеспечению для полной версии модели.
  2. Проблемы с генерацией текстов на русском языке, включая смешение языков.
  3. Ограниченный встроенный поиск, который работает только с открытыми данными в интернете и не интегрируется с корпоративными базами.

Тестирование DeepSeek для AutoFAQ Xplain

Чтобы проверить возможности модели, мы протестировали версию DeepSeek-R1-Distill-Qwen-7B на видеокарте NVIDIA 4090. Цель тестирования заключалась в оценке её способностей работать с текстами, создавать сложные логические цепочки и обрабатывать многоязычные запросы.

Первые результаты показали, что модель имеет потенциал, однако в текущем состоянии не лишена недостатков:
  • Генерация длинных ответов иногда зацикливается.
  • Модель путалась между русским и английским языками.
  • Обработка сложных текстов с контекстом требует доработки.

Мы планируем протестировать более крупные версии модели, такие как 14B, 32B и 70B, с улучшенными гиперпараметрами и новыми подходами к промптингу.

Xplain

Интерактивный ассистент для работы c документами и базами знаний
Подробнее

DeepSeek vs AutoFAQ Xplain: может ли заменить?

В текущем виде DeepSeek не может полностью заменить AutoFAQ Xplain, так как наш продукт не только генерирует ответы, но и выполняет поиск релевантной информации, с возможностью настроить на работу с конкретными источниками данных в закрытом контуре.

Хотя в веб-интерфейсе DeepSeek можно загружать собственные текстовые файлы и использовать встроенный поисковик, этот функционал ограничен поиском по открытому интернету. Это делает его неподходящим для задач, связанных с закрытыми базами знаний или веб-сайтами. Кроме того, данный функционал недоступен через API DeepSeek — он реализован только в веб-интерфейсе.

В AutoFAQ Xplain LLM используется как один из компонентов: сначала осуществляется поиск релевантной информации по запросу пользователя, затем эта информация вместе с запросом передаётся на вход LLM, который генерирует финальный ответ. В качестве LLM могут использоваться различные модели: российские облачные провайдеры, DeepSeek-R1, Llama, Qwen, Gemma и другие. Таким образом, LLM выполняет лишь функцию генерации ответов и не может самостоятельно искать данные.

Почему AutoFAQ Xplain лучше подходит для бизнеса:
  1. Интеграция с корпоративными базами знаний, сайтами
  2. Возможность работы в закрытом информационном контуре (on-premise)
  3. Возможность адаптировать работу системы под задачи конкретного бизнеса
  4. Доказанная эффективность продукта компаниями уровня Enterprise

Перспективы использования DeepSeek

Несмотря на текущие ограничения, DeepSeek имеет перспективы для развития. Разработчики активно работают над устранением недостатков и совершенствованием модели. Если будут добавлены улучшения в работе с русским языком и снижены требования к ресурсам, DeepSeek сможет стать конкурентоспособным решением для бизнеса.

Основные направления развития DeepSeek:
  • Улучшение генерации текстов на разных языках.
  • Оптимизация дистиллированных версий для работы на более простом оборудовании.
  • Расширение функционала API для работы с закрытыми данными.

Выводы

DeepSeek — это перспективная разработка, которая демонстрирует, как технологии ИИ развиваются в разных частях мира. Китайская модель уже сейчас показывает конкурентоспособные результаты, а её упрощённые версии делают её более доступной для малого и среднего бизнеса.

Мы продолжим следить за развитием DeepSeek и тестировать её новые версии. Оставайтесь с нами, чтобы быть в курсе всех новостей о LLM и их применении в бизнесе.
Запишитесь на демо и узнайте, как продукты AutoFAQ помогут решить задачи вашего бизнеса
Смотрите также