DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT

OpenAI o1 和 DeepSeek-R1 靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?

为此,来自港中文 MMLab 的研究者们提出了 MME-CoT

这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。

MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地研究视觉 CoT 的不同方面,评估其推理的质量、鲁棒性(IT之家注:系统在面对内部结构或外部环境变化时,能够保持其性能和功能稳定的能力)和效率。

各种最新推出的 LMM,包括 Kimi k1.5, GPT-4o, QVQ 等等都在 MME-CoT 上进行了测试。同时,研究者们还把图片转成 caption 之后测试了最近爆火的 DeepSeek-R1 以及 o3-mini。

基于实验结果,文章中得到了很有价值的结论:

  • CoT 质量:Kimi k1.5 > DeepSeek-R1 >> o3-mini

  • CoT 鲁棒性:o3-mini > Kimi k1.5 > DeepSeek-R1

  • CoT 效率:o3-mini > Kimi k1.5 > DeepSeek-R1

值得一提的是,DeepSeek-R1 的文本推理能力非常出众。仅仅使用图片的 caption 就可以在 precision 上超过真实看到图片的 GPT-4o。最后的 CoT 质量也与 GPT-4o 仅有 1.9% 之差。

其次,反思能力的引入显著提升了 CoT 质量,所有具备反思能力的 LMM 都实现了较高的 CoT 质量表现。例如 QVQ 达到了 62.0% 的 F1 分数,大幅超过 Qwen2-VL-72B 6.8%。而 Kimi k1.5 更是超越 GPT-4o 达到最佳质量。

在鲁棒性方面,团队发现大多数早期模型在感知任务中都受到 CoT 的负面影响,表现出有害的过度思考行为,其中最显著的案例是 InternVL2.5-8B,在感知任务中应用 CoT 后性能下降了 6.8%,这严重制约了将 CoT 推理作为默认操作的可行性。

最后,关于 CoT 效率,团队观察到输出长 CoT 的模型普遍存在步骤的相关性不足的问题。模型容易被图像内容分散注意力,过度关注图像而忽视了对题目的解答,尤其是在处理通用场景、时空和 OCR 任务时。实验结果显示,约 30% 到 40% 的反思步骤未能有效协助问题解答,这暴露出当前模型反思能力的重要缺陷。

测评指标设计与数据组成

目前绝大多数的 LMM 的 Benchmark 都只评估最终答案的正确性,忽视了 LMM 整个的 CoT 的推理过程。为了能全面地了解视觉 CoT 的各个属性,研究者们提出了三个不同的评估方向,每个方向致力于回答一个关键的问题:

1、CoT 的质量:每个 CoT 步骤是否有用且准确,不存在幻觉?

只评估回答的结果忽略了模型通过错误的逻辑或随机猜测得出正确答案的情况。这往往造成了模型推理能力被夸大的假象。为了深入研究推理过程,研究者们引入了两个可解释的指标来评估 CoT 的质量:

  • 召回率(Recall):评估模型的回答有多少能与正确解题的必要步骤匹配。这个指标是用来量化推理的步骤是否能对于得到正确答案有帮助,以及推理链是否完整。匹配的过程由 GPT-4o 完成。

  • 精确率(Precision):评估模型回答的每一步的准确程度来考查模型的幻觉以及逻辑的准确性。为了评估这一指标,研究者们首先使用 GPT-4o 将模型的回复切分成不同类型的步骤:背景知识、图片描述以及逻辑推理。然后继续对图片描述以及逻辑推理步骤判定每步是否正确。

2、CoT 的鲁棒性:CoT 是否干扰感知任务,它在多大程度上增强了推理任务?

现有研究主要关注 CoT 对推理任务带来的性能改进,却往往忽视了 CoT 是否会无意中破坏模型对于仅需要感知的任务的能力。随着 o1 以及 R1 的爆火,CoT 逐渐已成为模型的默认的推理策略。然而,模型无法提前预知用户提出的问题类型,也不确定使用 CoT 来回答是否比直接给出答案会有更高的准确率。因此,在目前的时间点上,CoT 在不同类型任务下的鲁棒性变得格外重要。为了衡量鲁棒性,MME-CoT 包括了两个任务类别:感知任务和推理任务,以及两种不同的 Prompt 形式:要求模型直接回答(answer directly)以及 CoT 回答(think step by step)。

  • 稳定性(Stability):检查 CoT 是否对模型在感知任务上的表现产生负面影响

  • 有效性(Efficacy):检查 CoT 是否真的帮助模型提高在复杂推理任务上的表现

3、CoT 的效率:使用 CoT 的推理效率是怎么样的?

最近的 o1 类模型通过采用超长的 CoT 和反思步骤而取得了非常好的效果。这提出了一个关键的权衡问题:这种方法是否在准确性和计算成本之间取得了最佳平衡?为了研究这一点,研究者们首次对 LMMs 中 CoT 的效率进行研究,使用了两个关键指标评估效率:

  • 相关比例(Relevance Rate):评估模型回答中与解决问题有关的比例。

  • 反思质量(Reflection Quality):分析每个反思步骤是否更正了推理中的错误或者从新的角度验证了目前结论的正确性。

4、MME-CoT 测试集

与纯文本推理问题不同,额外的视觉输入显著丰富了视觉推理问题的范围。有了图像输入,模型需要根据当前的推理进度频繁查看图像以获取相关信息。描述感兴趣的图像区域成为了思维链(CoT)过程中的关键部分。因此,除了需要严格逻辑的复杂问题外,通用场景中的许多问题也构成了具有挑战性的推理问题。

考虑到这一点,MME-CoT 测试集构建起了一个覆盖专业领域与常识场景的全景视觉推理评估体系,共包括 6 大领域以及 17 个子类。为了保持对推理过程的关注,研究者们排除了需要复杂领域特定定理或专业知识的问题。

MME-CoT 中分为感知任务以及推理任务,现有的 Benchmark 往往混淆这两类任务,使得这两类经常出现在相同类别中。为了解决这个问题,研究者们首先使用 GPT-4o 以及 Qwen2-VL 来进行预判,通过对比直接作答与 CoT 作答的表现差异,初步划分这两种不同类型的任务。接着,专业的标注团队逐题审核,确保分类的准确性。

为了便于 CoT 的评估,标注团队为所有推理问题都给出了必要的推理步骤的 Ground Truth 标注。对于多解的问题,标注者被要求给出了每种可能的解法。最后,MME-CoT 得到了 1130 道精选的问题以及 3865 个关键步骤标注。

实验分析与结论

研究者们在 MME-CoT Benchmark 上测评了 13 个现有的 LMM 以及 2 个最先进的具有超强推理能力的 LLM:DeepSeek-R1 以及 o3-mini。对于 LLM,研究者们将图片转化为详细的 caption 之后再输入到模型。

实验结果如下:

基于测评,还得到了如下的发现与结论:

1. 长 CoT 不一定涵盖关键步骤

尽管长思维链模型具有更高的精确率,但每个步骤的信息量并不能得到保证。团队观察到 GPT-4o、QVQ 和 Virgo 之间的召回率的趋势和它们最终能否正确解答推理任务的表现(即在使用 CoT 的 prompt 时,模型在推理任务的最终答案准确率,对应表格中的 CoT Reasoning 列)不一致。具体来说,虽然 Virgo 和 QVQ 在仅评估最终答案的正确性上都优于 GPT-4o,但它们在召回率上落后。这表明长 CoT 模型有时会在跳过中间步骤的情况下得出正确答案,这与 CoT 本身奉行的 Think step by step 的原则相矛盾,值得进一步研究。

2. 更多参数使模型更好地掌握推理能力

团队发现参数量更大的模型往往获得更高的有效性(Efficacy)分数。这种模式在 LLaVA-OV、InternVL2.5-MPO 和 Qwen2-VL 中都很明显。例如,虽然 Qwen2-VL-7B 在将 CoT 应用于推理任务时显示出 4.8% 的性能下降,但其更大的对应模型 Qwen2-VL-72B 展示出 2.4% 的改进。这种差异表明,在相同的训练范式下,具有更多参数的模型能够更好地掌握推理能力。这一发现也某种程度上验证了 R1 论文中的关键发现:同等训练 setting 下,更大参数量的模型往往能更好地学习到推理的能力。

3. 模型的反思的错误涵盖多种类型

四种主要错误类型是:

  • 无效反思:模型得出错误结论,在反思时,继续做出错误的调整。这是最常见的错误类型,也是最频繁出现的。

  • 不完整:模型提出新的分析方法但未执行它们,仅停留在初始想法阶段。模型的反思只是在空想。

  • 重复:模型重述先前的内容或方法,没有引入新的见解。

  • 干扰:模型最初达到正确结论,但反思却引入了错误。

理解和消除反思中的这些错误对于提高 LMM 的推理效率以及可靠性是至关重要的。

展望未来,MME-CoT 不仅为评估 LMM 的推理能力提供了系统化的基准,更为该领域的研究指明了关键发展方向。通过揭示现有模型在推理质量、鲁棒性和计算效率等方面的不足,这项工作为后续研究奠定了重要基础。这些发现将推动 LMM 实现更强大以及可靠的视觉推理能力。

本文来自微信公众号:量子位(ID:QbitAI),作者:姜东志,原标题《DeepSeek、OpenAI、Kimi 视觉推理到底哪家强?港中文 MMLab 推出推理基准 MME-COT》

Read More

谷歌 AI 掌门人 Jeff Dean 对话 Transformer 作者:AI 提速 300%,1000 万倍工程师要来了

谷歌首席科学家 Jeff Dean 与 Transformer 作者 Noam Shazeer 在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术,分享了「猫神经元」等早期 AI 突破的背后故事,还大胆畅想了 AI 处理万亿级别 Token、实现「1000 万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文,今天的 AI 会是什么样子?

Jeff Dean,谷歌的首席科学家,和 Transformer 的作者 Noam Shazeer,最近在一场深度访谈中,不仅回顾了 AI 发展的关键时刻,还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE 架构的内幕,甚至讨论了如何让 AI 模型处理整个互联网的信息!

访谈内容十分丰富,看点十足。

低精度让模型快三倍

「最近,我感觉基于通用 CPU 的机器扩展性不如以前了。」Jeff 说。

他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来 20 到 10 年前那么大的提升。

但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的 GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的 C++ 代码,比如运行 Microsoft Office 这类任务的计算大不相同。

可以说,算法正在跟随硬件的发展。Noam 表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。

正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是 N 立方次的运算和 N 平方字节的数据传输。」Noam 说。

对此,Jeff 表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU 和 GPU 并不特别适合深度学习。」

后来,谷歌开始打造 TPU,这些 TPU 其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。

就像拉里・佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。

然后,接下来要改变的是什么?算法、数据流,等等。Jeff 继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff 说到。

从 TPUv1 开始,当时他们甚至不确定能否使用 8 位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。

随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用 INT4 或者 FP4。

「如果 20 年前你告诉一个超级计算浮点数专家,我们要使用 FP4,他一定会觉得那太疯狂了。」Jeff 说,他们喜欢 64 位的浮点数。

Jeff 说到,「一些人正在将模型量化到 2 位或 1 位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」

扩展神经网络确实有效

当 Jeff 被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff 回忆起在 Brain 团队早期的时候。

那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。

当时,他们的数据中心没有 GPU,只有 CPU。但是他们知道如何让大量的 CPU 一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff 表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在 2000 台计算机上运行,使用了 16000 个核心进行训练。

不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff 说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」

随后,他们在监督学习的 ImageNet 20000 类别挑战中获得了非常好的结果,相对于之前的技术,提升了 60% 的性能,这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了 50 倍,并且得到了很好的结果。

所以这让 Jeff 有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。

想办法处理数万亿 token

谈到长上下文问题时,Jeff 表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」

Jeff 表示,他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的 token 上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在 Transformer 中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前,我们有能够处理数百万 token 上下文的模型,这已经相当多了。Jeff 表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」

但是,如果模型能够处理数万亿的 token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff 说。

但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的 token,更不用说让它直接处理数万亿的 token 了,这是不可能的。

因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的 token,数万亿 token 的方法。

也许可以将所有 Google 代码库放入每个 Google 开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了 AI 安全性的深层领域:如果 AI 系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?

主持人进一步设想了一个场景:假设一个 AI 获得了与 Jeff 或 Noam 相当、甚至超越他们的编程能力。

在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前 AI 安全研究的核心关切 —— 目目标对齐(Goal Alignment)问题。即如何确保 AI 系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。

对此,业界存在两种极端的观点:灾难论(Catastrophism),认为 AI 系统在各方面都将远超人类,最终可能导致人类被 AI 压制或取代。乐观论(Optimism),认为 AI 系统将带来巨大的福祉,无需过分担忧其潜在风险。

对此,Jeff 表示,他的立场介于这两种极端观点之间。他虽然对 AI 的潜在风险保持警惕,但并未表现出极度的担忧。

这种审慎乐观的态度,反映了当前 AI 领域许多专家对 AI 安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对 AI 的未来发展保持信心。

1000 万倍工程师

在访谈中,两位专家深入探讨了 AI 发展所面临的关键挑战与巨大机遇。

Jeff 预测,随着 AI 聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有 10% 到 20% 的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI 技术的快速发展也伴随着潜在风险。Jeff Dean 强调:「我们需要警惕 AI 可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保 AI 的安全可控。」

Noam 认为,AI 领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前 AI 的发展态势预示着未来在 GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明 AI 有潜力成为推动社会进步的重要引擎。

接着,Jeff 提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使 AI 助手的能力提升 5 到 10 个点,那么企业是否愿意为实现「10 倍工程师」、「100 倍工程师」甚至「1000 万倍工程师」的生产力跃升而加大投入?

这一设问揭示了 AI 在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean 和 Noam Shazeer 的对话,让我们看到了 AI 技术发展的无限可能。

从让模型快三倍的低精度计算,到处理数万亿 token 的长上下文挑战,再到对 AI 安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。

正如 Jeff 所说,他并不完全担心 AI 的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。

参考资料:

  • https://www.youtube.com/watch?v=v0gjI__RyCY

本文来自微信公众号:新智元(ID:AI_era)

Read More

Windows 用户转 Mac 关于 Apple 账户的问题

LifeFork:

前言:

Windows 用户很多年,自己的笔记本也卡的不行了,已经影响我正常的工作开发,其实一直都想换 MAC ,无奈价格确实太贵就一直没有舍得下手,最近国补 MAC MINI M4 的价格很香,正合适我去体验一把,后面再转 MBP ,也终于在 2025 年我用上了苹果。

正题:

问题 1:是关于 apple 账户的问题、进入系统需要创建一个 apple 账户登录,我选择了稍后设置,进入系统后,我点击创建账号,会提示我隐私安全的问题:云上贵州 XXXX ,因为在使用 MAC 就知道 apple 账户是有分国区、美区等等不同的区域,那么也因为国区有限制导致一些软件无法下载,具体还有哪些账号上的区别我还不完全清楚,我现在的问题是,首次使用 MAC 系统(也没有使用过手机的 IOS 系统),我是直接注册美区账号登录,还是国区呢?

问题 2:这个问题可能比较白痴,我在进入系统的时候,设置系统用户名的时候,为什么名字无法输入大写,就是首字母想大写,系统会自动纠正为小写,就是进入系统后,会出现 XXX 的 MAC MINI ,我想 XXX 能正常显示首字母大写

问题 3: 有没有比较全面一点的针对程序员从 Windows 切 MAC 的全面教程,求链接,感谢~~~

Read More