[AI趣事] 2025年了，AI还看不懂时钟！90%人都能答对的题，顶尖AI全军覆没，这是什么神仙操作？

wangchunbo 的个人博客 / 25 / 0 / 创建于 2个月前

AI摘要

2025年AI仍无法准确识别时钟时间。在ClockBench测试中，人类准确率达89.1%，而最佳AI仅13.3%。AI在时间合法性判断、时间计算、指针旋转和时区转换等基础任务上表现糟糕，主要因训练数据不足、视觉到文本转换失真及空间推理能力欠缺。这表明AI能力不均衡，视觉理解仍是难题，离通用人工智能尚有差距。

[AI趣事] 2025年了，AI还看不懂时钟！90%人都能答对的题，顶尖AI全军覆没，这是什么神仙操作？

🕐 震惊！AI连几点都不知道了？

兄弟们，今天看到个让我笑出猪叫的新闻：2025年了，那些动不动就说要取代人类的AI，居然连时钟都看不懂！

你没听错，就是那种小学生都会的”现在几点了”的问题，把一群顶尖AI给难住了！

[AI趣事] 2025年了，AI还看不懂时钟！90%人都能答对的题，顶尖AI全军覆没，这是什么神仙操作？

战绩惨不忍睹：

人类平均准确率：89.1%（基本就是闭着眼睛都能答对）
AI最好成绩：13.3%（连蒙都蒙不到这个分数吧？）

这就好比让一群博士生去做九九乘法表，结果全都算错了… 😅

🔬 ClockBench：专治各种不服的AI

有位叫Alek Safar的老兄（AI基准创建者、连续创业者），专门搞了个ClockBench来”拷打”AI，看看它们到底能不能看懂时钟。

[AI趣事] 2025年了，AI还看不懂时钟！90%人都能答对的题，顶尖AI全军覆没，这是什么神仙操作？

考试规模：

36个定制表盘设计
180个时钟样本
每个时钟4道题
总计720道测试题

[AI趣事] 2025年了，AI还看不懂时钟！90%人都能答对的题，顶尖AI全军覆没，这是什么神仙操作？

这阵势，比我们当年高考还严格！测试了来自6家大厂的11个主流模型，还找了5个人类做对比。

结果？AI被人类按在地上摩擦！

📝 四大”送命题”：AI的噩梦考场

第一题：这个时间合法吗？

给AI看个时钟，问：这时间靠谱不？如果靠谱，请以JSON格式输出小时、分钟、秒数、日期、月份、星期几…

AI内心OS： “什么？还要JSON格式？我连几点都不知道，你让我写代码？” 💀

第二题：时间加减法

比如现在3点15分，加上2小时40分钟是几点？

人类： 这不是小学数学吗？
AI： 我算个der… 🤖

第三题：转动指针

要求AI选择时针/分针/秒针，按指定角度顺时针或逆时针旋转。

这题目光看着就头疼，AI估计想直接format c:了… 😂

第四题：时区转换

给定纽约夏令时，算出北京时间是多少。

AI： “时区是啥？能吃吗？” 🌍

😱 结果分析：AI的”智商”让人窒息

误差大到离谱

人类误差中位数：3分钟（基本就是看错了一点点）
最好的AI误差：1小时（这是近视了800度吗？）
差一点的AI误差：3小时（这已经不是看时钟，是在算命了…）

奇葩发现

最难识别的钟表特征：

罗马数字表盘（AI：这些I、V、X是啥意思？）
环形数字朝向（AI：为什么数字都歪着？）
秒针位置（AI：这根细线是干嘛的？）
杂乱背景（AI：花里胡哨的，看不清！）
镜像时钟（AI：直接崩溃）

🏆 各大AI厂商的”成绩单”

表现还算看得过去的：

谷歌Gemini 2.5系列：各自类别的班长，但也就那样…
GPT-5：排名第三，推理预算加不加都一个样（说明不是算力问题，是真的不会）

拖后腿的：

Anthropic系列：全线落后，可能忙着研究安全性去了
Grok 4：表现远低于预期，明明那么大的模型，结果连时钟都看不懂

最搞笑的是Grok 4在”识别无效时钟”这题上准确率最高（64.9%），但问题是它把63.3%的时钟都标记为无效！

这不是会做题，这是纯靠蒙的啊！就像考试不会做，全选C一样… 🎲

🤔 为什么AI这么拉胯？

研究人员分析了几个可能的原因：

1. 训练数据不够

可能AI见过的时钟图片太少，没学会指针、刻度和时间的对应关系。

就像你没见过钟表，突然让你读时间一样。

2. 视觉到文本的转换有问题

时钟是个几何图形，但AI要用文字来理解，这中间可能”失真”了。

相当于让你用汉字来描述一首音乐，总觉得不对味。

3. 空间推理能力不足

读时钟需要理解角度、位置关系，这对当前AI来说还是个难题。

💡 有意思的发现

虽然AI读时钟菜得一批，但在其他相关任务上表现还不错：

时间加减：部分场景准确率100%
指针旋转计算：也能做得不错
时区转换：基本能搞定

这就很奇怪了：会算时间，会转指针，就是看不懂时钟…

这就像一个人会做高等数学，但不会看钟表一样神奇！ 🤷‍♂️

🎯 人类 vs AI：差距在哪里？

人类的优势：

从小就看时钟，已经形成了直觉
空间感知能力强
能快速识别各种样式的钟表

AI的劣势：

缺乏空间几何的直觉理解
过度依赖文本表示
训练数据可能不够多样化

🚀 这说明了什么？

这个测试告诉我们几个重要信息：

1. AI还远没有我们想象的那么智能

连小学生都会的看时钟都搞不定，还谈什么AGI（通用人工智能）？

2. 当前AI的能力很不均衡

能写诗、能编程、能下棋，但看不懂时钟… 这就像一个偏科严重的学霸。

3. 视觉理解仍然是个难题

虽然AI在很多视觉任务上表现不错，但涉及到精细的几何关系理解时，还是会露馅。

🤣 程序员的吐槽时间

作为程序员，看到这个结果我只想说：

“难怪AI写的代码总是有bug，连时钟都看不懂，还指望它理解我的需求？”

不过仔细想想，这也挺正常的。我们人类也有很多看似简单但实际复杂的事情：

为什么我能一眼认出朋友的脸，但记不住他们的生日？
为什么我能写复杂的算法，但总是找不到钥匙放哪了？

AI也一样，它们有自己的”强项”和”盲区”。

🔮 未来展望

研究人员提出了一个关键问题：这种能力差距能通过现有的方法（更多数据、更大模型、更多计算资源）来解决吗？还是需要全新的方法？

我觉得可能需要新的方法。就像教小孩看时钟一样，不是靠死记硬背，而是要让他们理解”时间”这个概念。

也许AI需要的不是更多的数据，而是更好的”理解”。

🎉 总结

2025年了，AI能写代码、能作诗、能画画，但居然看不懂时钟！

这提醒我们：AI的发展路径可能跟我们想象的不一样。 它们可能会在某些高级任务上超越人类，但在一些基础任务上仍然一塌糊涂。

所以下次你的AI助手回答问题时，记得先问问它：“你知道现在几点吗？” 😂

兄弟们，看完这个是不是觉得我们程序员的饭碗还能端一段时间？

毕竟连时钟都看不懂的AI，怎么可能理解我们写的那些”艺术品”级别的代码呢？ 🎨

💥 觉得有趣记得点赞分享！让更多人知道AI连时钟都看不懂这个神奇的事实！

🚀 关注我，带你了解AI世界的各种”翻车”现场！

📝 参考资料：

ClockBench论文：clockbench.ai/ClockBench.pdf
项目官网：clockbench.ai

🤖 小知识：
这个测试再次证明了“人工智能”和”人类智能”是两个完全不同的概念。AI擅长的事情人类可能很难，人类觉得简单的事情AI可能完全搞不定。这就是为什么我们还需要继续研究和改进AI技术的原因！

人工智能

本作品采用《CC 协议》，转载必须注明作者和本文链接

• 15年技术深耕：理论扎实 + 实战丰富，教学经验让复杂技术变简单 • 8年企业历练：不仅懂技术，更懂业务落地与项目实操 • 全栈服务力：技术培训 | 软件定制开发 | AI智能化升级关注「上海PHP自学中心」获取实战干货

版主 2.7k 声望

啥活都干 @ 一人企业

创业给我教学和编程带来了洞见，期待与您共同成长。

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

啥活都干 @ 一人企业

私信

文章归档

13 篇 2025 年 10 月 12 篇 2025 年 9 月 15 篇 2025 年 8 月 6 篇 2025 年 6 月 1 篇 2025 年 5 月 1 篇 2025 年 4 月 4 篇 2025 年 3 月 8 篇 2025 年 2 月 1 篇 2025 年 1 月 9 篇 2024 年 12 月 4 篇 2024 年 11 月 7 篇 2024 年 8 月 2 篇 2024 年 6 月 1 篇 2024 年 5 月 4 篇 2024 年 2 月 3 篇 2024 年 1 月 7 篇 2023 年 12 月 9 篇 2023 年 11 月 1 篇 2023 年 10 月 1 篇 2023 年 9 月 6 篇 2023 年 8 月 5 篇 2023 年 7 月 4 篇 2023 年 6 月 5 篇 2023 年 5 月 2 篇 2023 年 4 月 2 篇 2023 年 3 月 1 篇 2023 年 2 月 5 篇 2023 年 1 月 2 篇 2022 年 12 月 3 篇 2022 年 11 月 2 篇 2022 年 10 月 2 篇 2022 年 9 月 2 篇 2022 年 7 月 3 篇 2022 年 6 月 17 篇 2022 年 3 月 5 篇 2022 年 2 月 4 篇 2021 年 9 月 8 篇 2021 年 7 月 4 篇 2021 年 6 月 8 篇 2021 年 5 月 2 篇 2021 年 4 月 3 篇 2021 年 3 月 1 篇 2021 年 2 月 4 篇 2021 年 1 月 6 篇 2020 年 12 月 5 篇 2020 年 11 月 2 篇 2020 年 10 月 6 篇 2020 年 9 月 2 篇 2020 年 8 月 4 篇 2020 年 7 月 11 篇 2020 年 6 月 17 篇 2020 年 5 月 8 篇 2020 年 4 月 13 篇 2020 年 3 月 2 篇 2020 年 2 月 3 篇 2020 年 1 月 34 篇 2019 年 12 月 31 篇 2019 年 11 月 2 篇 2019 年 10 月

1个月前 [AI趣事]让AI成为"实体识别侦探"：从聊天机器人到医学专家的NER之路 5-19 实战篇 1个月前 [AI趣事]从"专注力"到"全能学霸"：注意力机制与Transformer的革命 5-18 巅峰篇 1个月前 [运维]宝塔 Apache环境使用CDN获取访客真实IP方法 1个月前 [AI趣事]让AI成为"文学创作大师"：生成式网络的创作魔法 5-17 终极篇 1个月前 [工作经验]服务器CPU爆表救火记：从99%负载到问题根治的完整实战

153 [面试题]跳槽面试必背-自己最近5年的整理，欢迎大家补充。 50 如何处理 Web 图片优化？ 48 [2020年面试题-PHP 与 golang] 1. Go 和 PHP 在运行的时候有什么区别和优势？ 39 laravel常用代码库：Carbon日期及时间处理包-年月日操作完整版常用方法以及使用场景 34 [网安]二：记录一下，服务器又又被黑的一次。

博客标签

支付宝支付

开发小技巧

CPU负载过高

进程数控制

服务器性能调优

成为赞助商