[AI趣事] 2025年了,AI还看不懂时钟!90%人都能答对的题,顶尖AI全军覆没,这是什么神仙操作?
[AI趣事] 2025年了,AI还看不懂时钟!90%人都能答对的题,顶尖AI全军覆没,这是什么神仙操作?
🕐 震惊!AI连几点都不知道了?
兄弟们,今天看到个让我笑出猪叫的新闻:2025年了,那些动不动就说要取代人类的AI,居然连时钟都看不懂!
你没听错,就是那种小学生都会的”现在几点了”的问题,把一群顶尖AI给难住了!
战绩惨不忍睹:
- 人类平均准确率:89.1%(基本就是闭着眼睛都能答对)
- AI最好成绩:13.3%(连蒙都蒙不到这个分数吧?)
这就好比让一群博士生去做九九乘法表,结果全都算错了… 😅
🔬 ClockBench:专治各种不服的AI
有位叫Alek Safar的老兄(AI基准创建者、连续创业者),专门搞了个ClockBench来”拷打”AI,看看它们到底能不能看懂时钟。
考试规模:
- 36个定制表盘设计
- 180个时钟样本
- 每个时钟4道题
- 总计720道测试题
这阵势,比我们当年高考还严格!测试了来自6家大厂的11个主流模型,还找了5个人类做对比。
结果?AI被人类按在地上摩擦!
📝 四大”送命题”:AI的噩梦考场
第一题:这个时间合法吗?
给AI看个时钟,问:这时间靠谱不?如果靠谱,请以JSON格式输出小时、分钟、秒数、日期、月份、星期几…
AI内心OS: “什么?还要JSON格式?我连几点都不知道,你让我写代码?” 💀
第二题:时间加减法
比如现在3点15分,加上2小时40分钟是几点?
人类: 这不是小学数学吗?
AI: 我算个der… 🤖
第三题:转动指针
要求AI选择时针/分针/秒针,按指定角度顺时针或逆时针旋转。
这题目光看着就头疼,AI估计想直接format c:了… 😂
第四题:时区转换
给定纽约夏令时,算出北京时间是多少。
AI: “时区是啥?能吃吗?” 🌍
😱 结果分析:AI的”智商”让人窒息
误差大到离谱
- 人类误差中位数:3分钟(基本就是看错了一点点)
- 最好的AI误差:1小时(这是近视了800度吗?)
- 差一点的AI误差:3小时(这已经不是看时钟,是在算命了…)
奇葩发现
最难识别的钟表特征:
- 罗马数字表盘(AI:这些I、V、X是啥意思?)
- 环形数字朝向(AI:为什么数字都歪着?)
- 秒针位置(AI:这根细线是干嘛的?)
- 杂乱背景(AI:花里胡哨的,看不清!)
- 镜像时钟(AI:直接崩溃)
🏆 各大AI厂商的”成绩单”
表现还算看得过去的:
- 谷歌Gemini 2.5系列:各自类别的班长,但也就那样…
- GPT-5:排名第三,推理预算加不加都一个样(说明不是算力问题,是真的不会)
拖后腿的:
- Anthropic系列:全线落后,可能忙着研究安全性去了
- Grok 4:表现远低于预期,明明那么大的模型,结果连时钟都看不懂
最搞笑的是Grok 4在”识别无效时钟”这题上准确率最高(64.9%),但问题是它把63.3%的时钟都标记为无效!
这不是会做题,这是纯靠蒙的啊!就像考试不会做,全选C一样… 🎲
🤔 为什么AI这么拉胯?
研究人员分析了几个可能的原因:
1. 训练数据不够
可能AI见过的时钟图片太少,没学会指针、刻度和时间的对应关系。
就像你没见过钟表,突然让你读时间一样。
2. 视觉到文本的转换有问题
时钟是个几何图形,但AI要用文字来理解,这中间可能”失真”了。
相当于让你用汉字来描述一首音乐,总觉得不对味。
3. 空间推理能力不足
读时钟需要理解角度、位置关系,这对当前AI来说还是个难题。
💡 有意思的发现
虽然AI读时钟菜得一批,但在其他相关任务上表现还不错:
- 时间加减:部分场景准确率100%
- 指针旋转计算:也能做得不错
- 时区转换:基本能搞定
这就很奇怪了:会算时间,会转指针,就是看不懂时钟…
这就像一个人会做高等数学,但不会看钟表一样神奇! 🤷♂️
🎯 人类 vs AI:差距在哪里?
人类的优势:
- 从小就看时钟,已经形成了直觉
- 空间感知能力强
- 能快速识别各种样式的钟表
AI的劣势:
- 缺乏空间几何的直觉理解
- 过度依赖文本表示
- 训练数据可能不够多样化
🚀 这说明了什么?
这个测试告诉我们几个重要信息:
1. AI还远没有我们想象的那么智能
连小学生都会的看时钟都搞不定,还谈什么AGI(通用人工智能)?
2. 当前AI的能力很不均衡
能写诗、能编程、能下棋,但看不懂时钟… 这就像一个偏科严重的学霸。
3. 视觉理解仍然是个难题
虽然AI在很多视觉任务上表现不错,但涉及到精细的几何关系理解时,还是会露馅。
🤣 程序员的吐槽时间
作为程序员,看到这个结果我只想说:
“难怪AI写的代码总是有bug,连时钟都看不懂,还指望它理解我的需求?”
不过仔细想想,这也挺正常的。我们人类也有很多看似简单但实际复杂的事情:
- 为什么我能一眼认出朋友的脸,但记不住他们的生日?
- 为什么我能写复杂的算法,但总是找不到钥匙放哪了?
AI也一样,它们有自己的”强项”和”盲区”。
🔮 未来展望
研究人员提出了一个关键问题:这种能力差距能通过现有的方法(更多数据、更大模型、更多计算资源)来解决吗?还是需要全新的方法?
我觉得可能需要新的方法。就像教小孩看时钟一样,不是靠死记硬背,而是要让他们理解”时间”这个概念。
也许AI需要的不是更多的数据,而是更好的”理解”。
🎉 总结
2025年了,AI能写代码、能作诗、能画画,但居然看不懂时钟!
这提醒我们:AI的发展路径可能跟我们想象的不一样。 它们可能会在某些高级任务上超越人类,但在一些基础任务上仍然一塌糊涂。
所以下次你的AI助手回答问题时,记得先问问它:“你知道现在几点吗?” 😂
兄弟们,看完这个是不是觉得我们程序员的饭碗还能端一段时间?
毕竟连时钟都看不懂的AI,怎么可能理解我们写的那些”艺术品”级别的代码呢? 🎨
💥 觉得有趣记得点赞分享!让更多人知道AI连时钟都看不懂这个神奇的事实!
🚀 关注我,带你了解AI世界的各种”翻车”现场!
📝 参考资料:
- ClockBench论文:clockbench.ai/ClockBench.pdf
- 项目官网:clockbench.ai
🤖 小知识:
这个测试再次证明了“人工智能”和”人类智能”是两个完全不同的概念。AI擅长的事情人类可能很难,人类觉得简单的事情AI可能完全搞不定。这就是为什么我们还需要继续研究和改进AI技术的原因!
本作品采用《CC 协议》,转载必须注明作者和本文链接