Введение
QwQ — это модель рассуждения серии Qwen. По сравнению с обычными моделями, обученными на инструкциях, QwQ, способная мыслить и рассуждать, может достичь значительно улучшенной производительности в задачах, особенно в сложных проблемах. QwQ-32B — это модель рассуждения среднего размера, которая способна достичь конкурентоспособной производительности по сравнению с современными моделями рассуждения, например, DeepSeek-R1, o1-mini.
Спецификации модели
- Тип: Каузальные языковые модели
- Этап обучения: Предварительное обучение и пост-обучение (Контролируемая тонкая настройка и обучение с подкреплением)
- Архитектура: Трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
- Количество параметров: 32.5 млрд
- Количество параметров (без вложений): 31.0 млрд
- Количество слоев: 64
- Количество голов внимания (GQA): 40 для Q и 8 для KV
- Длина контекста: Полные 131,072 токена
Ключевые особенности
QwQ-32B выделяется среди других моделей серии Qwen своими улучшенными возможностями рассуждения. Модель воплощает дух философского исследования, подходя к проблемам с искренним удивлением и сомнением. Этот подход позволяет ей решать сложные проблемы с методическим и аналитическим мышлением.
Основные показатели производительности
QwQ-32B демонстрирует впечатляющие аналитические способности, достигая замечательных результатов по различным тестам:
- 65.2% на GPQA
- 50.0% на AIME
- 90.6% на MATH-500
- 50.0% на LiveCodeBench
Модель особенно хорошо справляется с задачами по математике и программированию, демонстрируя свои сильные способности к рассуждению в этих областях.
Ограничения
Хотя QwQ-32B предлагает впечатляющие возможности, пользователи должны знать о некоторых ограничениях:
- Смешение языков и переключение кодов: Модель может смешивать языки или неожиданно переключаться между ними, влияя на ясность ответа.
- Рекурсивные циклы рассуждений: Модель может входить в круговые шаблоны рассуждений, приводящие к длительным ответам без окончательного вывода.
- Соображения безопасности и этики: Модель требует усиленных мер безопасности для обеспечения надежной и безопасной работы.
- Вариации производительности: Хотя модель превосходно справляется с математикой и программированием, у нее есть возможности для улучшения в других областях, таких как рассуждения на основе здравого смысла и нюансированное понимание языка.
Руководство по использованию
Для наилучшего опыта, пожалуйста, ознакомьтесь с руководством по использованию перед развертыванием моделей QwQ. Модель основана на Qwen2.5, код которой был интегрирован в последнюю библиотеку Hugging Face transformers
. Мы рекомендуем использовать последнюю версию transformers
(версия 4.37.0 или новее) во избежание проблем совместимости.