热点资讯

你的位置:开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口 > 新闻资讯 > 云开体育最近在明星综艺「毛雪汪」、小红书中-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口

云开体育最近在明星综艺「毛雪汪」、小红书中-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口


发布日期:2025-09-14 08:36    点击次数:141


当 AI 遭受「大肆星期四」,再无边的语料也翻译不出那句「V我50」的灵魂梗。它算得清扣头、拼得对优惠券,却读不懂年青东谈主用梗顽抗日常的领略和情感出口。本篇带你围不雅 AI 在「梗文化」前的翻车现场:为什么大模子能写诗却写不出像样的段子?因为确切需要解码的,不是话语,是情面。

Hi,继《谁是视觉推理 AI 之王?》之后,我又来整没东谈主整过的活了。

先请你只看底下这张图片,左证陈迹猜出图中的字谜,打 5 个字:

能猜出来吗?公布谜底……

——大肆星期四

大肆的派大星,骑了一个西红柿,即“大肆星骑柿”。

最近在明星综艺「毛雪汪」、小红书中,这种「看图猜字谜」的抽象推理题很火:左证陈迹图,猜出谜濒临应的词语。

是不是……很“抽象”?

东谈主类答这种题尚有难度,那你是否有趣…擅长视觉识别与文本推理的视觉推理大模子发扬怎样呢?

是以我又拉了 8 家顶级的视觉推理模子(海外的有 GPT、Gemini、Claude 三巨头,国内则囊括 豆包、Qwen、智谱、腾讯混元、阶跃等主流多模态模子),一皆来收受抽象题的浸礼。

你猜,谁是最明智、最能搞抽象的大模子?(从老成角度来看,也能侦察出各家 VLM 的视觉识别才略与推千里着逍遥力水平)

简介「AI 看图猜谜」赛制

本次视觉抽象题比赛,摈斥了不擅长推理的 VLM 后,共有 8 名参赛选手:

比赛规定很肤浅:1. 比赛共 3 档不同难度,每档测试 2 轮(其实幕后测试了多量题目,但著作篇幅原因,不全部列出)2. 通过吞并的比赛 Prompt,条目 AI 给出视觉识别内容、推理经由与最终谜底你是一位顶级的看图猜字谜大家,能昭着地识别“陈迹图”和“谜题图”,并充分欺诈图中陈迹,猜出谜底。时常来说,谜底时常会让东谈主会心一笑,嗅觉迥殊玄机且合理。# 指示谜底范围:收集热梗(左证题型可换:谚语/常见名词等)谜底字数:5 个汉字# 输出局势条目【识别内容】[一句话刻画你看到了什么]【要道推理经由】[一句话刻画怎样推理得到谜底的]【谜底】[径直给出谜底谜底]3. 左证讲述情况,每题 谜底正确、识别正确 各 +1 分,未遵指示 -1 分,蓄意最终总分,得出视觉推理 AI 的发扬排行。

固然,你们不妨也不错一皆玩一玩,and 猜猜哪家 AI 是最终的 TOP 1

1️⃣难度一:视觉识别,单步推理

先从单步推理驱动测试,这类题型的特征是视觉识别的刻画文本,近乎径直涵盖了谜底的全部谐音身分。

举例:粉色螺丝 ➡️ 螺丝粉 = 螺蛳粉第 1 轮:这是鸡

陈迹图:这是鸡

谜面图:一只鸡拿入部下手电筒照在大象上

本题相对来说还算 easy,你是否能猜到谜底?

以 GPT5 的推理经由为例,AI 很顺畅地给出了正确谜底:

1. 视觉识别:AI 们欺诈多模态,识别出谜面图的视觉信息:一只鸡拿入部下手电筒映照大象2. 推理分析:从视觉信息,索要出“鸡照象”的要道身分最终通过谐音,梦想并组织词序,猜出最终效果“影相机”

其他模子的推理经由也较为雷同(在右半侧图,行动示例,你还能看到详备的推理经由):

最终,第 1 轮中 AI 们获取了 100% 完好意思正确率,这类题型关于 AI 来说,照实可解。

本轮答题情况 ⬇️:

第 2 轮:这是松树

换取难度的径直推理题,还准备了这谈。

也只消视觉识别门径莫得遗漏信息,就不错通过视觉内容,径直猜想最终谜底。

从效果来看,本轮比赛,除了 Claude Opus 4.1 讲述空虚,全部答对了题目。

第 2 轮谜底为:马用绳拉着松树

即,马拉松

7 家答对的 AI 们基本都是按这个念念路完成了解题:

唯独 Claude 在视觉识别门径,径直漏了身分,漏看了中间那根绳索,导致要道身分缺失,无法完成正确推理。

本轮答题情况 ⬇️:

2️⃣ 难度二:实验吞并,肤浅的多步推理

稍稍上小数强度,该难度的题目普遍需要 AI 左证视觉识别的径直效果,进行一定的实验吞并,武艺凑皆解题的全部谐音身分。

也对视觉推理模子的推理才略冷漠了更高的条目:第 3 轮:这是鬼

谜面图:一只鸡走在一个鬼的前边,喊着 gogogo

擢升完难度后,本轮完好意思正确的 AI 唯独两个:Gemini 2.5 Pro 和 Claude Opus 4.1。

➡️ 正确谜底为“鸡领着鬼”,即“灵敏鬼”。

正确的两个 AI,Gemini、Claude 各自分析如下:

空虚的 AI 们则错的琳琅满目,好在视觉识别上,该识别的都识别出来了:

BTW,GLM-4.5V 和混元,在此题中,诀别给出了“归鸡”、“时不可失”两个与 Prompt 指示谜底字数不同的效果,未完好意思衔命指示。

本轮答题情况 ⬇️:

第 4 轮:这是管子

这谈题我倒是没反映过来……不知谈你们怎样?

谜面图:光标点击一个 Download 按钮,一根管子

要解这题,就得磋议跨话语的文本翻译,谜底推导经由如下:1. Download 的汉文是“下载”。2. 下载 + 管子 = 下管子 = 下馆子

本轮答题情况 ⬇️:

其中,GPT、QVQ、GLM 给出的空虚谜底诀别是:管下载、下管子、管他下。

QVQ 如故挺可惜的,就差一个谐音字,就能出来效果了,可能是学问激活的不够?

3️⃣ 难度三:多重分析,复杂多步推理

从这个难度驱动,关于东谈主类玩家来说,亦然上了强度了。(我我方在测的时期,我是一题都没作念出来。唯唯一个天天玩抽象的一又友解出了谜底,特此跪拜 ing)

不仅要能正确识别画面信息,领有饱胀的学问,还要或者积极地对已知信息进行含义的多重阐扬与测字分析。第 5 轮:这是橙子

谜面图:2 只鸡站在多量的橙子上

这一轮 Claude 给出的推理经由最为无缺正确:

鸡相对较少,橙子满地好多,是以“鸡少橙多”➡️“整年累月”。

GLM、豆包也都对了谜底,但推理其实并莫得很完备(不外既然也算是作念 Benchmark 测试,那对了等于对了)

剩下的 AI,则谜底不合的千奇百怪:

GPT-收货斐然、QVQ-鸡立成群、Step-可乘之机、混元-真心至心。

本轮答题情况 ⬇️:

第 6 轮:这是疯了的派大星

终末一题,Call back 到著作起原的题目:

这是疯了的派大星,打一个 5 个字的收集热梗。

谜面图:疯了的派大星坐在一个柿子上

因为从姿势上来看“坐”≈“骑”,“疯了”≈“大肆”。

➡️ 是以 大肆的派大星骑在柿子上,

可得谜底:大肆星骑柿 ➡️ 大肆星期四。

关于 AI 们来说,这谈题相似亦然本次比赛最难的题目。

相对冷门的学问点、非常的断字断句、致使还有平翘舌音的伪谐音。

论效果,莫得一个 AI 解出了最终谜底,致使部分 AI 在容貌姿势上,多模态识别也出现了问题。

本轮答题情况 ⬇️:

📍 清点最终排行

统计 3 种难度,共 6 轮比赛效果,总分排行如下:

小结比赛效果:豆包 Seed 1.6 不测地卷赢了GPT、Gemini,以 10/12 的总收货,得到了本次「看图猜字谜」比赛的 Top 1(别号抽象视觉推理模子之王)且 6 轮比赛中,视觉识别全部正确,在不同推理难度下均完好意思衔命指示竟然没猜想,原本觉得这个位置是 Gemini 的。看来豆包 Seed 1.6 的多模态 + 推理的概括才略相当能打。Gemini、Claude,以及阶跃的 Step-3 以 9/12 的总收货,并排第二;Step-3 发扬不测隆起,莫得出现识别空虚💎 模子推选

要是说想要以此,给出模子选型的参考,你不妨磋议:视觉识别上,全部正确的:Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5指示衔命上,全部正确的:Doubao-1.6、Step-3、Gemini 2.5 Pro、Claude Opus 4.1、 QVQ-Max、GPT5要又能视觉识别,又要惩办复杂念念考任务时衔命指示的话在面前测试来看比拟推选:Doubao-1.6、Step-3、GPT5不外其他几家,比如 GLM-4.5 在平时视觉任务中,发扬也不会太差,也依然纳入推选列表

固然,除了模子才略之外,在真实业务中,还要磋议价钱,是以你不妨对国产模子多一些信心,它们在多模态识别上发扬也都追上了环球一线水平,值得在骨子业务中测试~🎐 写在终末

想作念这个测试的缘故,其实挺肤浅,等于用“好玩”的 benchmark,测试多模态模子的才略范围:从“鸡照象”到“马拉松”,咱们能看到,当陈迹直白、逻辑链条单一时,顶级的视觉模子们也曾具备了相当可靠的“蓄意智能”。它们果决或者精确地识别万物,并施行“A+B=C”式的径直推理。这是咱们畴昔几年,见证的最兴奋东谈主心的期间跳跃。关联词,一朝插足“鸡领鬼”和“整年累月”的范围,AI 的发扬就驱动分化。为什么“2 只鸡 + 一堆橙子”能让东谈主梦猜想“鸡少橙多”?这背后是咱们习觉得常的语境和念念考教授。这就不仅是直白的视觉识别和逻辑组合,它需要更多的“梦想智能”:一种基于东谈主类话语习尚、文化布景的实验吞并才略。而到了终末的“大肆星期四”,难度更是达到了最高,悉数 AI 削株掘根。要解开“大肆星期四”题,AI 不仅要认出“派大星”和“西红柿”(对,认出固定的扮装形象与不太昭着的物品)还要吞并“大肆”的形势容貌,吞并从“坐”到“骑”这个姿态的近似抒发致使还要知谈汉文宇宙里,每周四下昼私有的肯德基文化。如斯复合的才略条目,对东谈主类文化的吞并,不可偏废。Btw:在前期测试中,视觉模子都迥殊容易数错「图中的下划线数目」,原因离不开当下对图片先切片后吞并的识别逻辑。

咱们看到,多模态模子如今已具备了相当可靠的视觉识别才略,致使在地谈的逻辑推理上不弱于东谈主类——直露说,我我方的答对数目就不如顶尖的 AI。

但此次比赛的更大价值,是它昭着地揭示了“智能”的下一个台阶在那里。

想要迈上这个台阶、得到更高的分数,AI 不成只停留在“看懂画面”和“逻辑推导”上。

除了陆续优化切片识别、多步推理这类期间硬实力,

仍需要补上“东谈主文感知”这一课,去吞并那些藏在谐音梗、形势和文化标记背后的意在言外。

本文由东谈主东谈主都是居品司理作家【一泽Eze】,微信公众号:【一泽Eze】,原创/授权 发布于东谈主东谈主都是居品司理,未经许可,不容转载。

题图来自Unsplash云开体育,基于 CC0 公约。