Попробуйте QwQ-32B сейчас на qwq32.com

QwQ-32B: Сила масштабирования RL

Март 2025 · Команда Qwen

Введение

QwQ — это модель рассуждения серии Qwen. По сравнению с обычными моделями, обученными на инструкциях, QwQ, способная мыслить и рассуждать, может достичь значительно улучшенной производительности в задачах, особенно в сложных проблемах. QwQ-32B — это модель рассуждения среднего размера, которая способна достичь конкурентоспособной производительности по сравнению с современными моделями рассуждения, например, DeepSeek-R1, o1-mini.

Спецификации модели

  • Тип: Каузальные языковые модели
  • Этап обучения: Предварительное обучение и пост-обучение (Контролируемая тонкая настройка и обучение с подкреплением)
  • Архитектура: Трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
  • Количество параметров: 32.5 млрд
  • Количество параметров (без вложений): 31.0 млрд
  • Количество слоев: 64
  • Количество голов внимания (GQA): 40 для Q и 8 для KV
  • Длина контекста: Полные 131,072 токена

Ключевые особенности

QwQ-32B выделяется среди других моделей серии Qwen своими улучшенными возможностями рассуждения. Модель воплощает дух философского исследования, подходя к проблемам с искренним удивлением и сомнением. Этот подход позволяет ей решать сложные проблемы с методическим и аналитическим мышлением.

Основные показатели производительности

QwQ-32B демонстрирует впечатляющие аналитические способности, достигая замечательных результатов по различным тестам:

  • 65.2% на GPQA
  • 50.0% на AIME
  • 90.6% на MATH-500
  • 50.0% на LiveCodeBench

Модель особенно хорошо справляется с задачами по математике и программированию, демонстрируя свои сильные способности к рассуждению в этих областях.

Ограничения

Хотя QwQ-32B предлагает впечатляющие возможности, пользователи должны знать о некоторых ограничениях:

  1. Смешение языков и переключение кодов: Модель может смешивать языки или неожиданно переключаться между ними, влияя на ясность ответа.
  2. Рекурсивные циклы рассуждений: Модель может входить в круговые шаблоны рассуждений, приводящие к длительным ответам без окончательного вывода.
  3. Соображения безопасности и этики: Модель требует усиленных мер безопасности для обеспечения надежной и безопасной работы.
  4. Вариации производительности: Хотя модель превосходно справляется с математикой и программированием, у нее есть возможности для улучшения в других областях, таких как рассуждения на основе здравого смысла и нюансированное понимание языка.

Руководство по использованию

Для наилучшего опыта, пожалуйста, ознакомьтесь с руководством по использованию перед развертыванием моделей QwQ. Модель основана на Qwen2.5, код которой был интегрирован в последнюю библиотеку Hugging Face transformers. Мы рекомендуем использовать последнюю версию transformers(версия 4.37.0 или новее) во избежание проблем совместимости.

Испытайте мощь QwQ-32B прямо сейчас на qwq32.com