当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
隔壁公司因业务开了一堆AP,把2.4GHz和5GHz的多个信道都用上了,干扰严重我们该怎么办?
Electron 做游戏客户端的潜力有多大?
穿瑜伽裤爬山的女生会不会害羞?
为什么都认为无GC语言一定会比有GC语言要快?
能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
2025 国内公司前端团队都在搞些什么?
日本真的有些澡堂和温泉是不分男女的吗?有人去过不分男女的那种吗?
真的没有人觉得2k是一个很尴尬的分辨率吗?
吃爽了是怎样一种体验?
如何评价首个女性友好的编程语言HerCode?
为什么欧美影视喜欢露点?
买到烂尾楼到底该有多绝望?
如果你有300万,你是用来供孩子读书,还是留着以后给ta买房或者保底?
Rust口碑不错,为何学的人却很少?
这种裙子是不是对直男爆杀?
为什么面向对象编程这么困难?
如何看待湖北一医院婚检查出艾滋医生未告知伴侣致感染,医生被停职?反映出哪些问题?
你们的相册里是否有一张充满遗憾的照片?
为什么苹果手机杀后台现象频繁?是内存不够、后台管理严格还是其他原因呢?
什么是 AI Agent(智能体)?
为什么长得漂亮却没什么用?
Rust 的设计缺陷是什么?
4090 魔改 48g 显存是怎么做到的?
如何评价 Ubuntu 24.04 LTS?
非计算机专业,好奇为什么会出现“程序依赖bug运行”的情况?
为什么 mac mini 的 m4 版本价格这么低呢?
J***a如何调用FFmpeg呢(有无可用的类库)?
敢不敢留下一张自拍照让人打分?
如何评价网易国产动作冒险单机新作《归唐》首支预告片?