如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 18:00:17
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 03:30:14如何评价MiniMax开源首个视觉RL统一框架V-Triune,实现推理感知一肩挑,其技术上有何优势?
- 2025-06-20 03:50:14大连天空现罕见「窟窿云」,目击者称持续半小时,压迫感十足,窟窿云是怎么形成的?你见过吗?
- 2025-06-20 03:50:14如何看待jemalloc停止维护?
- 2025-06-20 03:55:14为什么个人需要公网ip?
- 2025-06-20 03:35:15跨平台GUI框架到底应该自绘还是原生控件绑定?
- 2025-06-20 02:45:15为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
- 2025-06-20 03:40:14特厨隋坡探店成都快餐店,给出80分以上的高分,为什么评分远高于大饭店?
- 2025-06-20 02:45:15鸿蒙电脑会在国内逐渐取代windows电脑吗?
- 2025-06-20 03:05:14网友称在桔子水晶酒店洗漱包内发现用过的四联检测盒,具体是怎么回事?酒店要承担哪些责任?
- 2025-06-20 04:20:14超小团队选择Django还是Flask?
推荐产品
-
为什么同样是输球,常州和国足的风评却差那么多呢?
更新:常州发红头文件了,足球队的不准上班不上学了,脱产练球。 -
央企的信创,是否有必要把 spring 替换成国产的 solon ?
2021 年我亲自去现场部署过信创环境,某某档案系统。 J* -
golang为什么要内置map?
学太多的坏处就想太多。 Go 从一开始就不是一个想很多的语 -
伊朗这次会崩溃灭亡吗?
各国都在撤侨 美国也发出伊朗可能使用核武的警告 只有知乎认为
新闻动态
最新资讯