如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-25 17:25:13

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?

编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?

MoonBit 的 Beta 版发布意味着语法已趋于稳定,接...

2025-06-29
暴雪游戏回归国服 和网易再度携手 - *

暴雪游戏回归国服 和网易再度携手 - *

4月10日,暴雪娱乐正式宣布,暴雪旗下游戏将于2024年夏季重返中国大陆市场。暴雪娱乐与和网易公司今天宣布,双方在过去超过15年的合作基础上达成了更新的游戏发行...

2026-01-12
如何让你的***变成爆款 - *

如何让你的***变成爆款 - *

在这个数字时代,短***的兴起改变了我们获取信息和娱乐的方式。越来越多的人通过自己的***创作吸引了无数观众和粉丝,并在网络上走红。那么,作为我们普通的创业老板如何...

2026-01-12
深度解读“基因复活”技术:复活灭绝物种,人类打开了上帝模式?|2026十大突破性技术_细胞_克隆

深度解读“基因复活”技术:复活灭绝物种,人类打开了上帝模式?|2026十大突破性技术_细胞_克隆

深度解读“基因复活”技术:复活灭绝物种,人类打开了上帝模式?|2026十大突破性技术_细胞_克隆...

2026-01-21
微信头像会影响第一印象吗?

微信头像会影响第一印象吗?

访达。 用Mac的朋友们应该都很熟悉吧。 就是这个玩...

2025-06-29