微软向所有Copilot用户免费提供Copilot Voice和Think Deeper

微软上个月向所有 Copilot 用户免费开放了 OpenAI 的 o1 推理模型,现在它向所有人提供该模型和 Copilot 语音功能的无限制使用。此前,Think Deeper(由 o1 提供支持)和 Copilot 中的 Voice 对免费用户都有限制,但微软今天取消了这些限制,以允许 Copilot 用户与该公司的 AI 助手进行长时间对话。

Slide-16x9-full-design.jpg

Copilot 团队表示:“从今天开始,我们正在努力尽快向尽可能多的人提供对高级功能的无限制访问,包括 Voice 和 Think Deeper。值得注意的是,在需求旺盛期间,或者如果我们检测到安全问题、滥用或其他违反 Copilot 条款的行为,您可能会遇到延迟或中断。”

微软首次在其 Bing 搜索引擎中推出 Copilot 两年后,Copilot Voice 和 Think Deeper 开始无限制使用。一个月前,该软件制造商改进了其 Copilot Pro 订阅,并将 Office AI 功能捆绑到 Microsoft 365 中。

微软继续以每月 20 美元的价格销售 Copilot Pro 订阅,并表示用户“将在高峰使用期间保留对我们最新型号的优先访问权、提前访问实验性 AI 功能(更多信息即将发布),以及在 Word、Excel 和 PowerPoint 等精选 Microsoft 365 应用程序中额外使用 Copilot。”

了解更多:

https://www.microsoft.com/en-us/microsoft-copilot/blog/2025/02/25/announcing-free-unlimited-access-to-think-deeper-and-voice/

Read More

曝《魔兽》电影仍有望推出续作 你最想看到哪个角色的故事?

在2016年《魔兽》电影推出时,不少影评人都对这部电影颇有微词,但游戏粉丝们仍然很喜欢它。截止至今日,它仍是有史以来票房最高的电子游戏改编电影之一,烂番茄上代表用户评分的“爆米花评分”目前为76%,而代表媒体评分的“新鲜度”仅有29%。

根据外媒Gamereactor的消息称,最近在伦敦举行的《魔兽争霸》30周年庆典上,《魔兽世界》副总裁Holly Longdal在接受采访时,对《魔兽》电影发表了看法。

“我要说的是,没有什么是不可能的。”Holly Longdal表示,“我觉得我们很愿意尝试所有的东西,但现在没有什么可透露的。”

也就是说,即使暴雪现在还没有计划,在未来仍有希望看到全新的《魔兽》系列改编电影。您最希望看到哪个角色的故事被改编后登上大荧幕?不妨在评论区跟大家聊聊吧!

Read More

阿里开源最强视频大模型 性能干翻Sora 8G显卡就能跑

昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。



综合来看,万相2.1的主要优势集中于以下五点:SOTA性能:万相2.1在多个基准测试中优于现有的开源模型和商业解决方案,140亿参数专业版万相模型在权威评测集VBench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,居于榜首。


支持消费级GPU:13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内(未使用量化等优化技术)在RTX 4090上生成5秒的480P视频。多项任务:万相2.1同时支持文生视频、图生视频、视频编辑、文生图和视频生音频视觉文本生成:万相2.1是首个能够生成中英文文本的视频模型,无需外部插件就能生成文字。


强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频进行编码和解码,同时保留时间信息。

万相系列模型的研发团队基于运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度进行了模型性能评估,该模型实现5项第一,万相系列模型能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;还能还原碰撞、反弹、切割等复杂真实物理场景。

官方Demo中“熊猫用滑板炫技”的视频,展示了一只熊猫连续完成多个高难度动作:


阿里云通义实验室的研究人员昨夜23点直播介绍了万相2.1的模型及技术细节。


此外,阿里通义官方文章还提到,万相2.1的开源,标志着阿里云实现了全模态、全尺寸的开源。

目前,万相2.1支持访问通义官网在线体验或者在Github、HuggingFace、魔搭社区下载进行本地部署体验。

通义官网体验地址:https://tongyi.aliyun.com/wanxiang/

Github: https://github.com/Wan-Video/Wan2.1

HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1魔搭社区:https://modelscope.cn/studios/Wan-AI/Wan-2.1一、生成能力全方位开挂,文字、特效、复杂运动都在行

在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力

万相2.1支持生成走路、吃饭等基本的日常运动,还能还原复杂的旋转、跳跃、转身跳舞以及击剑、体操等体育运动类的动作。


此外,其能在遵循物理世界规律的前提下,还原重力、碰撞、反弹、切割等物理场景,并生成万物生长等有创意的视频。


在画质方面,万相2.1生成的视频达到影院级别画质,同时理解多语言、长文本指令,呈现角色的互动。


同时,万相2.1是首次在开源模型中支持中英文文字渲染,中英文艺术字生成。


阿里云还公开了多个万相2.1生成视频的Demo。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。


不过,纸上福字左上角的一点并没有书写过程,而是突然在视频后期出现。

纪实摄影风格,低空追踪视角,一辆宝马M3在蜿蜒的山路上疾驰,车轮扬起滚滚尘土云。高速摄像机定格每个惊险过弯瞬间,展现车辆极致的操控性能。背景是连绵起伏的山脉和蓝天。画面充满动感,轮胎与地面摩擦产生的烟雾四散。中景,运动模糊效果,强调速度感。


可以看到,视频镜头随着汽车的漂移加速,捕捉到了每一个画面,并且在漂移时路边还有与地面摩擦飞扬的尘土。

微观摄影,珊瑚管虫和霓虹刺鳍鱼在五彩斑斓的海底世界中游弋。珊瑚管虫色彩鲜艳,触手轻轻摇曳,仿佛在水中舞蹈;霓虹刺鳍鱼身体闪耀着荧光,快速穿梭于珊瑚之间。画面充满奇幻视觉效果,真实自然,4k高清画质,展现海底世界的奇妙与美丽。近景特写,水下环境细节丰富。


整个画面色彩鲜艳,对提示词中的细节基本都表现到了。

中国古典风格的动画角色,一个身穿淡紫色汉服的女孩站在樱花树下。她有着大大的眼睛和精致的五官,头发上装饰着粉色的花朵。女孩表情温柔,眼神中带着一丝忧郁,仿佛在思考什么。背景是朦胧的古建筑轮廓,花瓣在空中轻轻飘落,营造出一种宁静而梦幻的氛围。近景特写镜头,强调女孩的面部表情和细腻的光影效果。


视频对“眼神中带着一丝忧郁,仿佛在思考什么”这类复杂的指令,也在女孩的眼神中得到了呈现。

二、优于其他开闭源模型,可兼容消费级显卡

为了评估万相2.1的性能,研发人员基于1035个内部提示集,在14个主要维度和26个子维度上进行了测试,然后通过对每个维度的得分进行加权计算来计算总分,其中利用了匹配过程中人类偏好得出的权重。详细结果如下表所示:


研发人员还对文生视频、图生视频以及模型在不同GPU上的计算效率进行了评估。

文生视频的评估结果:


图生视频的评估结果:


其结果显示,万相2.1均优于其他开源、闭源模型。

不同GPU上的计算效率:


可以看到,13亿参数模型可兼容消费级显卡,并实现较快的生成速度。

三、模型性能提升大杀器:3D VAE、可扩展预训练策略、大规模数据链路构建……

基于主流的DiT和线性噪声轨迹Flow Matching范式,万相2.1基于自研因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标提升了模型最终性能表现。

VAE是视频生成领域广泛使用的模块,可以使得视频模型在接近无损情况下有效降低资源占用。

在算法设计上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。


万相2.1模型架构基于主流的视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。

采样策略上,模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。如模型架构图所示,模型首先使用多语言umT5编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个Transformer Block的特征空间,实现细粒度的语义对齐。

此外,研发人员通过一组在所有Transformer Block中共享参数的MLP,将输入的时间步特征T映射为模型中AdaLN层的可学习缩放与偏置参数。在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。


数据方面,研究人员整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,其设计了四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程快速获得高质量、多样化、大规模的图像和视频训练集。


训练阶段,对于文本、视频编码模块,研究人员使用DP和FSDP组合的分布式策略;对于DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

基于万相2.1模型参数量较小和长序列带来的计算量较大的特征,结合集群计算性能和通信带宽采用FSDP切分模型,并在FSDP外嵌套DP提升多机拓展性,FSDP和DP的通信均能够完全被计算掩盖。

为了切分长序列训练下的Activation,DiT部分使用了Context Parallelism (CP) 对序列维度进行切分,并使用外层RingAttention、内层Ulysses的2D CP的方案减少CP通信开销。

此外,为了提升端到端整体效率,在文本、视频编码和DiT模块间进行高效策略切换避免计算冗余。具体来说,文本、视频编码模块每个设备读不同数据,在进入DiT之前,通过循环广播方式将不同设备上的数据同步,保证CP组里中数据一样。

在推理阶段,为了使用多卡减少生成单个视频的延迟,选择CP来进行分布式加速。此外,当模型较大时,还需要进行模型切分。

一方面,模型切分策略时,单卡显存不足时必须考虑模型切分。鉴于序列长度通常较长,与张量并行(TP)相比,FSDP的通信开销更小,并且可以被计算掩盖。因此,研究人员选择FSDP方法进行模型切分(注意:这里仅做切分权重,而不做数据并行);另一方面采用序列并行策略:采用与训练阶段相同的2D CP方法:外层(跨机器)使用RingAttention,内层(机器内)使用Ulysses。

在万相2.1 140亿参数模型上,使用FSDP和2D CP的组合方法,在多卡上具有如下图所示的近线性加速:


显存优化方面,研究人员采用分层的显存优化策略,选择一些层进行Offload,其他层根据不同算子计算量和显存占用的分析使用细粒度Gradient Checkpointing(GC)进一步优化Activation显存。最后利用PyTorch显存管理机制,解决显存碎片问题。

在训练稳定性方面,万相2.1借助于阿里云训练集群的智能化调度、慢机检测以及自愈能力,在训练过程中可以自动识别故障节点并快速重启任务,平均重启时间为39秒,重启成功率超过98.23%。

结语:开启全模态开源新时代

2023年8月,阿里云率先开源Qwen模型,正式拉开了开源大模型的序幕。随后,Qwen1.5、Qwen2、Qwen2.5等四代模型相继开源,覆盖了从0.5B到110B的全尺寸范围,涵盖大语言、多模态等领域。目前其千问(Qwen)衍生模型数量已超过10万个。其官方文章显示,随着万相的开源,阿里云实现了全模态、全尺寸的开源。

从大语言模型到视觉生成模型,从基础模型到多样化的衍生模型,开源生态的发展正不断被注入强大的动力。

Read More

Chegg sues Google over AI Overviews

Online education company Chegg filed a lawsuit on February 24th against Google claiming that the company’s AI-generated summaries of search results have hurt its traffic and revenue, Reuters reports. It’s believed to be the first antitrust lawsuit filed by a single company over the AI Overviews feature, Reuters says. Chegg claims Google uses its power […]

Read More

[个人求组]国服钻四钻五排位求组

韩服一直留学,差不多三位置钻石守门,国服回归之后回国服一路连胜上了钻石,但是再往上打有点吃力了,想找几个段位差不多的朋友组排打。

我三位置都玩,但是坦克之前国服段位太低了,打了八胜二负定级黄金二,打了半天打上白金五,上到钻石太慢了,所以还是主要玩输出和支援,希望至少来一个段位差不多的坦克吧,我也是玩坦克的也能理解坦克的问题。

坦克除破坏球大锤都玩
输出狗位玩源氏探奇,枪位主玩麦克雷艾什索杰恩,其他自由人对策英雄比如法鸡托比昂小美都可以玩
辅助除dj都玩

谢绝压力怪,正常交流哪波哪波失误没问题,别说“你在干嘛”“刚才为什么不奶我/不给我盾/不给我补伤害”这种语气很冲的话,说白了就是大家一起玩玩游戏,谁也不欠谁的,别搞得太难看

有想法的在帖子下边回复一下段位和主要玩的位置,直接加就行
Kirito#512917
大学生,一般是晚上上线,偶尔没课也可以下午打。

Read More

苹果投资者否决反对多元化政策的提案

周二,苹果公司股东在年度会议上否决了外部投资者反对其多元化、公平和包容政策的提案,在美国反对多元化、公平和包容政策的呼声日益高涨之际,苹果公司反其道而行之。

在特朗普重返美国总统宝座之前和之后,越来越多的保守派反弹促使包括Meta和Alphabet在内的美国大公司放弃了DEI计划。特朗普批评了企业多元化计划,暗示美国司法部可能会调查这些计划是否违法。

初步计票结果显示,苹果股东还投票反对一项要求该公司编写一份报告评估其人工智能工作风险的提案,而所有管理层提案均获得批准。

本月早些时候,代理咨询公司机构股东服务公司建议,投资者支持苹果公司的DEI政策,称该公司已经提供了足够的相关信息,而且没有出现任何争议或歧视员工群体的迹象。

苹果股东过去曾否决过要求公司披露更多有关种族和性别薪酬差距的提案。本周二,苹果公司首席执行官库克表示,苹果公司从未在多元化项目中设立配额或目标。

相关文章:

苹果即将召开股东大会:多元化政策、OpenAI合作将受到考验

Read More

YouTube正致力于让广告插播时段不那么具有干扰性

YouTube 宣布将对插播广告做出调整,旨在提升用户的观看体验,同时也帮助创作者有可能获得更多收入。从 5 月 12 日起,这家谷歌旗下的平台将减少在那些会让人感觉突兀打断或可能导致观众弃看视频的时刻所展示的广告数量,比如在一句话中间或动作场景进行当中。相反,它将在视频的自然停顿点,比如视频的暂停和转场处,展示更多的插播广告。

YouTube 将对 2 月 24 日之前上传的旧视频进行更新,以便在自然停顿点自动插入广告位。如果创作者更倾向于手动管理广告,他们可以在 YouTube 工作室中选择不采用这种自动插入方式。不过,YouTube 表示,在 5 月 12 日之后,带有突兀打断式广告位的视频可能获得的收入会减少。

该公司指出,手动设置插播广告的创作者应该考虑一下他们所设置的广告对观众来说是否属于突兀打断。为了在这方面提供帮助,YouTube 将推出一项新功能,这项功能会向创作者显示,他们所设置的插播广告是否放在自然停顿点会比放在造成干扰的时间点更好。

youtube-studio-ads.webp

此外,YouTube 正在鼓励那些手动设置插播广告的创作者考虑让平台系统自动识别其他可以展示广告的位置,以实现平衡的广告体验。

YouTube 发现,那些同时采用自动插播广告和手动插播广告的创作者,与那些只采用手动设置广告位的创作者相比,其 YouTube 广告收入平均增长了 5% 以上。

YouTube 在面向创作者的一个帮助页面上表示:“我们推出这些功能的目的是为你们提供更多信息和新的选择。你们仍然可以控制是否在自己的视频中展示插播广告,以及希望这些广告展示在什么位置。”

YouTube 还指出,减少突兀打断式的广告将有助于创作者留住更多观看他们视频的观众。

Read More