谷歌首席科学家 Jeff Dean 与 Transformer 作者 Noam Shazeer 在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术,分享了「猫神经元」等早期 AI 突破的背后故事,还大胆畅想了 AI 处理万亿级别 Token、实现「1000 万倍工程师」的可能性。
如果没有「Attention Is All You Need」这篇论文,今天的 AI 会是什么样子?
Jeff Dean,谷歌的首席科学家,和 Transformer 的作者 Noam Shazeer,最近在一场深度访谈中,不仅回顾了 AI 发展的关键时刻,还大胆预测了未来的方向。
他们揭秘了模型蒸馏、MoE 架构的内幕,甚至讨论了如何让 AI 模型处理整个互联网的信息!
访谈内容十分丰富,看点十足。
低精度让模型快三倍
「最近,我感觉基于通用 CPU 的机器扩展性不如以前了。」Jeff 说。
他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来 20 到 10 年前那么大的提升。
但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的 GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的 C++ 代码,比如运行 Microsoft Office 这类任务的计算大不相同。
可以说,算法正在跟随硬件的发展。Noam 表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。
正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是 N 立方次的运算和 N 平方字节的数据传输。」Noam 说。
对此,Jeff 表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU 和 GPU 并不特别适合深度学习。」
后来,谷歌开始打造 TPU,这些 TPU 其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。
就像拉里・佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。
然后,接下来要改变的是什么?算法、数据流,等等。Jeff 继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」
「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff 说到。
从 TPUv1 开始,当时他们甚至不确定能否使用 8 位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。
随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用 INT4 或者 FP4。
「如果 20 年前你告诉一个超级计算浮点数专家,我们要使用 FP4,他一定会觉得那太疯狂了。」Jeff 说,他们喜欢 64 位的浮点数。
Jeff 说到,「一些人正在将模型量化到 2 位或 1 位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」
扩展神经网络确实有效
当 Jeff 被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff 回忆起在 Brain 团队早期的时候。
那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。
当时,他们的数据中心没有 GPU,只有 CPU。但是他们知道如何让大量的 CPU 一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。
「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff 表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在 2000 台计算机上运行,使用了 16000 个核心进行训练。
不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。
「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff 说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。
「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」
随后,他们在监督学习的 ImageNet 20000 类别挑战中获得了非常好的结果,相对于之前的技术,提升了 60% 的性能,这在当时是非常不错的。
这种神经网络可能比之前训练过的神经网络大了 50 倍,并且得到了很好的结果。
所以这让 Jeff 有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。
想办法处理数万亿 token
谈到长上下文问题时,Jeff 表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」
Jeff 表示,他已经思考这个问题一段时间了。
你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的 token 上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。
在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在 Transformer 中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。
目前,我们有能够处理数百万 token 上下文的模型,这已经相当多了。Jeff 表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」
但是,如果模型能够处理数万亿的 token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?
「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff 说。
但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的 token,更不用说让它直接处理数万亿的 token 了,这是不可能的。
因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的 token,数万亿 token 的方法。
也许可以将所有 Google 代码库放入每个 Google 开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。
那将是惊人的。
一百万个「邪恶的」Jeff
访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了 AI 安全性的深层领域:如果 AI 系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?
主持人进一步设想了一个场景:假设一个 AI 获得了与 Jeff 或 Noam 相当、甚至超越他们的编程能力。
在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。
这一假设情景触及了当前 AI 安全研究的核心关切 —— 目目标对齐(Goal Alignment)问题。即如何确保 AI 系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。
对此,业界存在两种极端的观点:灾难论(Catastrophism),认为 AI 系统在各方面都将远超人类,最终可能导致人类被 AI 压制或取代。乐观论(Optimism),认为 AI 系统将带来巨大的福祉,无需过分担忧其潜在风险。
对此,Jeff 表示,他的立场介于这两种极端观点之间。他虽然对 AI 的潜在风险保持警惕,但并未表现出极度的担忧。
这种审慎乐观的态度,反映了当前 AI 领域许多专家对 AI 安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对 AI 的未来发展保持信心。
1000 万倍工程师
在访谈中,两位专家深入探讨了 AI 发展所面临的关键挑战与巨大机遇。
Jeff 预测,随着 AI 聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有 10% 到 20% 的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」
这对底层基础设施和算力提出了严峻挑战。
AI 技术的快速发展也伴随着潜在风险。Jeff Dean 强调:「我们需要警惕 AI 可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保 AI 的安全可控。」
Noam 认为,AI 领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前 AI 的发展态势预示着未来在 GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明 AI 有潜力成为推动社会进步的重要引擎。
接着,Jeff 提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使 AI 助手的能力提升 5 到 10 个点,那么企业是否愿意为实现「10 倍工程师」、「100 倍工程师」甚至「1000 万倍工程师」的生产力跃升而加大投入?
这一设问揭示了 AI 在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。
结语
Jeff Dean 和 Noam Shazeer 的对话,让我们看到了 AI 技术发展的无限可能。
从让模型快三倍的低精度计算,到处理数万亿 token 的长上下文挑战,再到对 AI 安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。
正如 Jeff 所说,他并不完全担心 AI 的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。
参考资料:
本文来自微信公众号:新智元(ID:AI_era)