当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
mysql每天有1千万数据 怎么办?分表吗 有什么好的方案。?
大冰为什么突然风评反转了?
如何制造一个高级的阳谋?
为什么长得漂亮却没什么用?
如何评价DuckDB?
***拍大尺度片子时摄影师不会看光吗?
为什么说男人至死都是少年?
***设把地球上所有的铀235集中起来做成一个大核弹,放到马里亚纳海沟里引爆,地球会不会被炸成两半?
腰椎间盘突出有多痛苦?
女生真正的完美身材是什么样子?
相对于PR、FCPX等同类软件,为什么Avid media composer在国内用的人很少?
Windows的伟大之处在哪里?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?
学完了 前端基础,能看懂一些代码,但是打不出来?要怎么提升?
如何评价首个女性友好的编程语言HerCode?
女孩子腿非常白是什么体验?
如何评价前端框架 Solid?
同样是对标安卓系统,为什么谷歌的Fuchsia死了,而华为的鸿蒙却愈发壮大?
如何看待《长安的荔枝》李善德的结局?
只有我觉得.doc文件比.docx文件便捷吗?
为什么 Mac 对游戏支持这么差?
你们学校的校花都是怎么样的?
Windows微信4.0是用Qt写的吗?腾讯不是前脚才说Qt人才匮乏?
和回族男友到底要不要继续?
龙芯在.NET上帮微软做CPU指令集适配,为什么到国内.NET开发者这里成了维护龙芯.NET版本?
为什么手机动辄都 1T 存储了,为啥电脑还在死磕 512G 呢?
敢不敢留下一张自拍照让人打分?
你买过最贵的衣服是什么样的,现在还穿吗?
如何评价赵本山的演技?