Qwen版o1发布即开源！32B参数并列OpenAI o1-mini，一手实测在此 - 手机洞察

手机洞察

栏目分类

新闻: 关于我们; 联系我们; 新闻; 产品

热点资讯

宫腔粘连会反复流产吗？还能得手生娃吗？

寻找山东最好意思大学|泰山学院张文硕：《夜空中的月之舞》

老东说念主火旺用六味地黄丸—国医专家张志远先生临证70年精华

西安一上市药企董事长被立案探询！涉嫌信息袒露犯警违法

冬至“邻”聚力饺香暖东说念主心

中央纪委周末打虎！退休近三年之后，寇伟落马

芜湖与上海交大签约！支捏芜湖学院诞生高水平利用型大学

婴儿游水哭啼的原因有这六点

在张含韵岛唯独简略叛逆苏军装甲激流的火炮：56式85毫米加农

中国有足球禀赋的孩子齐在哪儿？青训外教一句话刺破

你的位置：手机洞察 > 新闻 >

Qwen版o1发布即开源！32B参数并列OpenAI o1-mini，一手实测在此

发布日期：2024-12-03 10:54 点击次数：168

Qwen版o1发布即开源！32B参数并列OpenAI o1-mini，一手实测在此

克雷西发自凹非寺

量子位 | 公众号 QbitAI

通义千问版o1来了，照旧开源的！

深宵，通义团队倏得上线推理模子QwQ，参数目只消32B，在GPQA上打败了o1-mini。

咫尺，QwQ的模子权重已在HuggingFace和魔搭社区上发布，还不错径直在线试玩。

Ollama、Together.ai等大模子平台也赶紧跟进，第一技巧晓谕守旧QwQ运行。

还有网友实测发现，对于我方手中的一起化学蓄意题，QwQ是除了o1除外独一能答对的。

此外有网友指出，QwQ预览版参数目只消32B，这意味着o1水平的推理模子，在腹地就能运行了。

推理能力尚可，但简易度需加强

按照官方放出的收货，QwQ、o1-preview和o1-mini在GPQA（科学推理）、AIME、MATH-500（数学）以及LiveCodeBench（代码）四个数据鸠合各有赢输，但举座水平比较接近。

而比较GPT-4o、Claude 3.5 Sonnet和自家的Qwen2.5，进取上风就比较光显了。

至于QwQ的内容推理能力到底怎么，咱们就拿o1-mini对比着测试一下~

当先是官方展示的一起逻辑推理题目：

对于这个问题，QwQ用了足足两千多字进行了分析，这是其中的中枢念念路：

之后，QwQ启动了近乎列举式的分析方式，一张一张牌地来判断，但好在最终得回的抑遏是正确的。

比较之下，o1-mini的回复就显得尽头简易了。

再来一起经典的逻辑题，不出所料QwQ又写起了小作文，况兼此次更甚，有4千多字，况兼曾经是主打一个“试”。

经过对列出情况的一一尝试和检讨，一段技巧后得回了终末的正确谜底。

再望望o1-mini，用很通俗的翰墨就把问题讲明了，推理恶果要高得多。

天然QwQ讲明得详备些不是赖事，但中间的作假尝试对于发问者而言就显得有些过剩了。

除了基础逻辑，再来望望QwQ的数学水平怎么，先来几谈考研数学题试试。

第一题对于微分方程，题目是这么的，咱们稍作了转换，条件模子以x=_的模式输出：

QwQ曾经选用了长篇大套的作答方式，整串回复有快要1400字。

不外仔细看会发现，QwQ的中间历程出现了失败，然后又改用了其他的方式。

折腾了一番之后，抑遏倒也莫得错。

而o1-mini的回复曾经保抓简易。

即使把o1-mini默许不表示的“念念考历程”展示出来，曾经是莫得QwQ的回复那么长。

第二谈题目是线性代数题，这谈题咱们也作念了修改，从聘请题改成了径直求A³的迹：

此次比较之前，QwQ的回复要简易一些，但照旧有上千字，天然抑遏曾经是对的，o1-mini曾经经保抓简易。

第三谈题对于概率论，情况能够和前边两谈访佛，这里就径直上图：

（QwQ方框中的谜底把根号漏了，不外这里是表示问题，从正文看谜底是正确的）

除了这么的纯数学题目，景况式的数知识题亦然履行模子能力的一项蜿蜒圭臬。

是以这里咱们聘请了一起数学竞赛AIME的题目：

翻译过来是这么的，测试中咱们亦然用的这段华文翻译版块：

o1-mini的解法是一种深广念念路，终末抑遏也对了，而QwQ这边上来先是一大通的陈列，然后试图从中寻找规定。

当发现没找到规定时，还会进行更多的陈列，可是终末找出的规定并不正确，抑遏天然也就错了（不外方进取如实和5的模联系）。

从以上的案例当中不错看到，要是单看正确率，QwQ的弘扬如实不错和o1-mini同台较量。

但从历程中看，QwQ想一步到位还存在一定难度，还要阅历列举、试错等要领，以至无意会堕入死轮回。

这导致了其抑遏对于东谈主类的的易读性和o1-mini还存在差距，QwQ需要在这少许上再多立异。

好在QwQ是个开源模子，要是是按token计费的商用模子，这么的输出长度惟恐也会让东谈主令人咋舌。

天然对于这么的问题，千问团队自己也尽头安心，暗示处于测试阶段的QwQ，如实存在冗长而不够聚焦的局势，将会在将来作念出立异。

One More Thing

除了这些正经题目，咱们也试了试罗网问题，看下QwQ能不成看出其中的缺陷。

问题是这么的，提防是不需要：

缺憾的是，QwQ并莫得发现这个要津点，况兼算作念一起深广的农夫过河问题进行了回复。

不外这也算是大模子的一个通病了，OpenAI的o1在这么的翰墨游戏眼前照样叛逆不住。

内容上这个问题最早被温雅是在几个月之前了，其时还莫得o1这么的推理模子，大模子着实在这个问题上拔本塞原。

咫尺看来，推理能力增强后，曾经经没改掉不隆重读题的差错啊（手动狗头）。

参考衔尾：

https://qwenlm.github.io/blog/qwq-32b-preview/体验地址（Hugging Face）：

https://huggingface.co/spaces/Qwen/QwQ-32B-preview体验地址（魔搭社区）：

https://modelscope.cn/studios/Qwen/QwQ-32B-preview

— 完 —

量子位 QbitAI · 头条号签约

温雅咱们，第一技巧获知前沿科技动态

上一篇：Alpha法律智能操作系统引颈法律界改革，20万法律东说念主信托之选

下一篇：京东集团与中国中煤签署计谋招引左券

友情链接：

Powered by 手机洞察 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024

ICP备案号:桂ICP备2024044725号-1