導(dǎo)讀:阿里云通義千問官方宣布推出最新的推理模型 QwQ-32B。這是一款擁有 320 億參數(shù)的模型,其性能可與具備 6710 億參數(shù)(其中 370 億被激活)的 DeepSeek-R1 媲美。
3 月 6 日消息,研究表明,強化學(xué)習(xí)可以顯著提高模型的推理能力,例如 DeepSeek-R1 通過整合冷啟動數(shù)據(jù)和多階段訓(xùn)練,實現(xiàn)了最先進的性能,使其能夠進行深度思考和復(fù)雜推理。
阿里云通義千問官方宣布推出最新的推理模型 QwQ-32B。這是一款擁有 320 億參數(shù)的模型,其性能可與具備 6710 億參數(shù)(其中 370 億被激活)的 DeepSeek-R1 媲美。
這一成果凸顯了將強化學(xué)習(xí)應(yīng)用于經(jīng)過大規(guī)模預(yù)訓(xùn)練的強大基礎(chǔ)模型的有效性。此外,我們還在推理模型中集成了與 Agent 相關(guān)的能力,使其能夠在使用工具的同時進行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過程。
目前,QwQ-32B 已在Hugging Face(https://huggingface.co/Qwen/QwQ-32B)和ModelScope(https://modelscope.cn/models/Qwen/QwQ-32B)開源,并采用了 Apache 2.0 開源協(xié)議。IT之家提醒,用戶也可以通過Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進行體驗。
性能方面,阿里云對 QwQ-32B 測試了數(shù)學(xué)推理、編程能力和通用能力,并展示了 QwQ-32B 與其他領(lǐng)先模型的性能對比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在測試數(shù)學(xué)能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與 DeepSeek-R1 相當(dāng),遠(yuǎn)勝于 o1-mini 及相同尺寸的 R1 蒸餾模型;在由 Meta 首席科學(xué)家楊立昆領(lǐng)銜的“最難 LLMs 評測榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 評測集、由加州大學(xué)伯克利分校等提出的評估準(zhǔn)確調(diào)用函數(shù)或工具方面的 BFCL 測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。
阿里云表示,這是 Qwen 在大規(guī)模強化學(xué)習(xí)(RL)以增強推理能力方面的第一步。通過這一旅程,不僅見證了擴展 RL 的巨大潛力,還認(rèn)識到預(yù)訓(xùn)練語言模型中尚未開發(fā)的可能性。
在致力于開發(fā)下一代 Qwen 的過程中,阿里云計劃將更強大的基礎(chǔ)模型與依托規(guī)模化計算資源的 RL 相結(jié)合,從而使其更接近實現(xiàn)人工通用智能(AGI)。此外,阿里云正積極探索將智能體與 RL 集成,以實現(xiàn)長時推理,目標(biāo)是通過推理時間擴展來釋放更高的智能,敬請期待。