• 发文
  • 评论
  • 微博
  • 空间
  • 微信

AI智商要碾压人类了?这场“终极考试”或撑不过一年,人类无用论

Science科学说 2026-03-31 14:25 发文

科技圈最近炸锅了。有专家放话,说再过一年左右,AI掌握的知识量就要超过全人类最顶尖的专家总和。这事儿听着挺玄乎,但看看数据,还真让人心里发毛。有个叫“人类最后的考试”(HLE)的测试,原本是科技大佬们想给AI设个“路障”,看看这些系统到底有多聪明。结果现在看来,这路障马上就要被推平了。

这个HLE可不简单,它绝对不是那种在网上随便搜搜就能找到答案的测试。里面塞了2500道精心挑选的难题,涵盖了火箭科学、神话传说、生理学等一百多个领域。每一道题都至少需要博士级的理解能力才能做出来。以前大家觉得,谁能在这个考试里考个接近满分,那绝对是“全能专家”,地球上也没几个人能做到。

咱们把时间拨回两年前。那时候大名鼎鼎的ChatGPT刚出来,在这个考试上只拿了3%的分数,惨不忍睹。Google和Anthropic家的AI也没好到哪去。当时搞科研的人松了口气,觉得这证明了AI和人类顶尖大脑之间还有道跨不过去的鸿沟。可谁能想到,这鸿沟填得太快了。上个月,Google的Gemini模型考了45.9%,比它第一次尝试的18.8%翻了一倍多。Anthropic的Claude也不甘示弱,考到了34.2%,而且进步速度飞快。

这题目到底是怎么来的?说出来吓你一跳。这是Scale公司和AI安全中心搞出来的。为了出题,他们搞了个全球悬赏,奖金池高达50万美元。来自大约50个国家的专家们凑了7万道题。研发团队先把那些现有AI模型能答上来的题全删了,剩下1.3万道,最后又精挑细选剩下2500道。很多题目到现在还处于保密状态,就是怕AI在网上偷看答案或者被训练数据“污染”。

照这个速度发展下去,AI拿满分是迟早的事。Scale的研究负责人CalvinZhang说,他们本来是想造一个只有极少数人类能解决的基准测试,但这几年语言模型的进步简直疯了。GoogleDeepMind的产品经理KateOlszewska也直言,如果大家真把这事儿当成头等大事来抓,满分很快就能实现。

这一旦发生,意义可就大了。这让人想起1997年IBM的深蓝电脑击败国际象棋冠军卡斯帕罗夫。那时候大家都觉得不可思议,现在AI又要突破人类知识的边界了。一旦AI在HLE上拿了100%,这就意味着现有的学术测试对它来说已经没难度了。以后要想测试AI,可能得用那些连人类都不知道答案的问题才行。

不过咱们也别太慌。CalvinZhang说了,有些领域AI还是搞不定,比如做外科手术这种动手的活儿,或者需要做复杂判断、发挥创造力的工作。这些还得靠咱们人类自己。

大家觉得AI以后会取代哪些工作?欢迎在评论区聊聊。

#AI #科技 #人类最后的考试 #科学 #Science科学说 

>>别忘了关注哦!<<

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    Science科学说

    每日发布及时的科学界信息和资讯

    推荐商品

      举报文章问题

      ×
      • 营销广告
      • 重复、旧闻
      • 格式问题
      • 低俗
      • 标题夸张
      • 与事实不符
      • 疑似抄袭
      • 我有话要说
      确定 取消

      举报评论问题

      ×
      • 淫秽色情
      • 营销广告
      • 恶意攻击谩骂
      • 我要吐槽
      确定 取消

      用户登录×

      请输入用户名/手机/邮箱

      请输入密码