Skip to content
  • 51蛙吖蛙元宇宙社交空间官网
51蛙吖蛙 – 元宇宙社交

51蛙吖蛙 – 元宇宙社交

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

模型免费、推理翻倍:Gemini 3 Flash 深夜炸场,发放智能体时代的「入场券」

就在刚刚,谷歌再次扣动扳机,正式推出了 Gemini 3 Flash。

这是继 Gemini 3 Pro 之后的又一次暴力输出。没有预告,没有任何铺垫,谷歌直接宣布 Gemini 3 Flash 现已成为 Gemini 应用中的默认模型,全面取代 2.5 Flash。这意味着,全球数亿用户无需支付任何费用,就能立刻体验到 Gemini 3 系列模型的推理能力。

如果说 Gemini 3 Pro 是为了尽情发挥 AI 算力的优势,那 Gemini 3 Flash 则打破了「高智」、「低成本」与「响应快」之间的不可能三角。

打开 Model Card,我们看到一组令人惊讶的数据:在评估编码代理能力的权威基准测试 SWE-bench Verified 中,Gemini 3 Flash 的得分高达 78%。这不仅把此前的 2.5 系列远远甩在身后,甚至在部分领域,比如说逻辑深度上还反超了自家老大哥 Gemini 3 Pro。更离谱的是,在提供这种「碾压级」性能的同时,它的价格竟然不到 3 Pro 的四分之一。

这可能不仅是等等党们在性价比上获得了一场胜利,更像是谷歌一场不讲道理的「肌肉秀」。

相对来说,Gemini 3 Flash 更适合一些需要高频、极速的开发工作场景,有了极低的延迟,Gemini 3 Flash 就可以以几乎实时的速度更新应用程序。与过去主打等待长时间响应不同,Gemini 3 Flash 反应思路,已经可以在一个大规模复杂流中快速完成推理、纠错以及自我验证的「大脑」。

而对于普通用户,谷歌扔出了另一个「王炸」:零门槛语音建站。这意味着你不需要懂任何代码,只需要对着 Gemini 随口描述你的创意,Gemini 3 Flash 就能在几分钟内将那些零散的想法转化为一个功能齐全的应用程序。

尽管此前 Gemini 3 也能从一定程度上实现这一点,但有了 Gemini 3 Flash 后,价格成本更低,工作流更简便,时间成本也更低。

从视频分析、数据提取到视觉问答,Gemini 3 Flash 配合搜索算法的迭代,也正在重新定义 AI 的响应极限。它目前已通过 Google AI Studio、Gemini API 和 Vertex AI 同步上线。谷歌这一波「快准狠」的发布宣告了,在大模型竞技场上,速度与智能的最后一道屏障,已被拆除。新王已至,且无处不在。

Gemini 3 Flash 上线 Google AI Studio |图源:极客公园

这一次,「轻量」不再意味着「妥协」

Gemini 3 Flash 的发布,其核心价值并非仅仅是单纯的参数更迭,而是小模型也能在 Agent 核心能力上超越一些旗舰模型。在衡量智能体编码与长程工具调用的 SWE-bench 和 Toolathlon 测试中,Gemini 3 Flash 的得分不仅反超了自家老大哥 Gemini 3 Pro,甚至在特定维度上压制了 GPT 与 Claude 的顶级型号。

这也可以看出,在需要频繁交互和快速反馈的自动化工作场景中,更短的推理链路和更高的指令遵循敏感度,或许会比庞大的参数规模更具实战价值。

Gemini 3 Flash 在各项顶级基准测试中均展现出超高智能 | 图源:谷歌官网

当然,这也不一定说明大参数模型已经没有了应用价值。虽然 Gemini 3 Flash 在 ARC-AGI-2 这种视觉推理谜题上实现了相较于 2.5 Pro 近 7 倍的提升,但在处理极其复杂的全局架构设计时,它与顶级 SOTA 模型之间仍存在一定的差距。这也意味着 Gemini 3 Flash 的定位并非全能,而是局部强化。

但更重要的是,Gemini 3 Flash 通过将输入成本压低至 0.50 美元并配合大幅度的缓存优惠,为即将到来的智能体时代提供了更低的入门门槛,也创造了爆发的条件。要知道,可能一年前,想要获得这种博士级推理能力的代价很高,如今却可以免费使用。这也可以看出,大模型在技术同质化竞争下仍然是逃不脱价格战,而显然,目前谷歌在这一局中占尽了优势。

具体性能上,根据第三方分析基准测试,Gemini 3 Flash 运行速度达到了 2.5 Pro 的整整 3 倍,逻辑进化配合极低的延迟,让其在处理高容量法律合同、提取定义条款等繁琐任务时,精准且迅速。

而在多模态领域,Gemini 3 Flash 在视频理解与复杂图表分析上展现出的显著统治力,证明了谷歌内部「感知即推理」的能力已趋于成熟。尤其是,它能以秒级速度将复杂的非结构化视频数据转化为可执行的商业计划,这意味着视觉信息已不再是 AI 的专项特长,而是底层逻辑的一部分,或许谷歌浏览器上大量沉寂的数据可以被激活为可流动的商业资产。

对于开发者和企业级用户而言,Gemini 3 Flash 通过极具竞争力的定价和上下文缓存技术,直接把前沿 AI 的部署门槛降至冰点。无论是支撑在线客服对话,还是通过 Google Antigravity 实现智能体自动编程,它都在证明:高性能、低延迟与极低成本,现在选择 Gemini 3 Flash 就可以同时拥有。

Flash 系列模型也不再是一个为了折中妥协而存在的「备选方案」,而是成为了更适合大众开发者升级的武器。Gemini 3 Flash 的到来,或许会从一定程度上促进智能体大规模爆发,加速智能体应用时代到来。

搜索效率的暴力升级:谷歌搜索的最后一块拼图

从今年下半年开始,搜索显然已经成为了谷歌的重点。Gemini 3 Flash 同样上线即直接送入搜索体系。从某种程度上,我们也能看出现在的模型升级不再仅仅是某一个单一产品线的升级,而是整个 AI 产品生态联动提升。

首先,Gemini 3 Flash 将在全球范围内铺开,直接成为谷歌搜索 AI 模式的默认配置。 只要用户使用谷歌 AI 搜索,就会直接感受到 Gemini 3 系列模型的强大。

深度推理能力与即时响应速度之间的互斥,不再是模型永恒的难题。Gemini 3 Flash 在推理能力、工具调用及多模态处理上的提升,可以让系统在应对复杂约束条件下的细致追问时,也能够产出更具结构化且符合逻辑的回复,而无需牺牲搜索场景中至关重要的时效性。这也意味着,过去「高阶推理」正在转变为大众检索的标准化基础设施,AI 搜索也可以从简单的信息匹配迈向了复杂问题的实时解答。

与此同时,针对更高任务需求,Gemini 3 Pro 与 Nano Banana Pro 的引入搜索领域,也从一定程度上补齐了垂直领域的缺口。

结合当前谷歌在美国市场推出的「Thinking with 3 Pro」模式,可以看出,谷歌并非为了想要打造常规的 AI 检索,而是希望能够对复杂数学编程等重度计算任务进行动态可视化布局、交互式模拟呈现。加上 Gemini 3 Flash,谷歌已经针对用户需求进行了较为全面的模型产品布局:由 Flash 承担高频、极速的普惠性智能交互,由 Pro 承载低频但高价值的逻辑攻坚。很显然,未来的 AI 交互一定不会是是单一模型的单打独斗,而是根据任务复杂度进行的动态算力分配与智能分层。

Gemini 3 Flash 的出现,在客观上标志着小尺寸模型与大规模模型之间「智力差」的收缩,它证明了在算法优化到达一定阈值后,智能体验的瓶颈已不再是算力规模,而是如何将这种极速的智能感无缝编织进用户的日常决策流中。 随着「快速模式」与「思考模式」的并行提供,AI 交互已正式从「实验性对话」进化为一种工业级的辅助决策引擎。而作为技术底座的模型全家桶,谷歌已经早早为大家准备好了。

走出实验室后,谷歌生态再次拓宽边界

就在刚刚,AI 模型生态的性能天平再次倾斜。Gemini 3 Flash 的出现以及谷歌 Gemini 3 系列模型的全面铺开,意味着谷歌模型生态优势再次加强,并正在各垂直行业的任务循环中引发链式反应。

在软件工程领域,编码平台如 Cursor 和 Devin 发现,Gemini 3 Flash 的介入让 AI 的响应速度能跟上工程师的直觉,让「编码 Agent」从异步等待的过程变成了近乎实时的同步协作。在法律与金融这种对精度有着近乎苛刻要求的场景下,Harvey 和 Box AI 的实践证明了 Gemini 3 Flash 能够在不牺牲速度的前提下,在复杂财务数据识别和长篇合同交叉引用等任务上实现 15% 的准确率提升。这也可以说明AI 终于能够以工业级水准处理高容量的非结构化数据,而不再让用户在「深度理解」与「实时反馈」之间做痛苦的取舍。

此外,深度伪造检测平台 Resemble AI 利用其多模态能力,将复杂的取证数据即时转化为简明情报,其分析速度比以往提升了 4 倍;而桥水基金则通过它在大规模多模态数据集中捕捉那些瞬息万变的概念理解。甚至在游戏开发领域,Latitude 利用其近乎实时的推理性能,让游戏世界的角色逻辑从预设脚本转向了真正的自主智能。

图源:谷歌官网

可以看出,Gemini 3 Flash 带来的商业潜力本质是,它成功清空了从原型开发到大规模落地的最后一公里,证明了最好的技术不应只是少数人的优势,而应是推动一个时代迎接生产力大规模爆发的基石。

浏览量: 5

告别知识库时代,印象笔记如何打造你的「第二大脑」?

你有多久,没有好好静下心来,把脑海里的想法整理成一段完整的文字了?

当 AI 成为了那个通晓古今、无所不知的存在。当人们的习惯从「我查查、我想想」转向「问问 AI」时,人与知识之间的关系也在悄然改变:思考从一个需要反复推敲的过程,变成了一个可以被快速替代的环节。

笔记,曾经承担着思考的载体。它并不追求即时答案,而是帮助人们在零散的信息中建立秩序,把世界知识转化为个人的理解。通过记录、整理与反复回看,思考得以延展,判断得以形成。

当 AI 成为基础设施之后,那些以「记录」和「整理」起家的工具,开始面临一个更为根本的问题:如果信息本身已经不再稀缺,笔记工具的价值如何体现?

对此,印象笔记给出了一个颇具野心、还带点「反常识」的答案。它没有选择做一个 AI 知识库,而是试图构建一个更全面的「个人智能体平台」——印象 AI。简单来说,对内,印象 AI 能够更懂你的思考,并主动与你交互。对外,印象 AI 将会成为你的个人智能体,帮助你协调各类不同智能体之间的执行。

为什么他们拒绝了「知识库」这条更易变现的捷径?他们定义的「个人智能体平台」与市面上随处可见的 Agent 有何本质不同?在过去的两年里,这家老牌工具公司究竟经历了怎样的思考与实践,才完成向 AI Native 的决定性一跃?

本周,我们在印象笔记北京办公室里,与印象笔记董事长兼 CEO 唐毅、COO 陆昀聊了聊新战略背后的故事。我们发现,这次升级并不是印象笔记一次产品功能的迭代,更而是一次全面的战略升级,意味着他们已经明晰了自己新定位:通过编织一张更深、更广的记忆网,打造 AI 时代的「第二大脑」。

 

一、告别知识库时代,印象笔记要做用户的「知心朋友」

当巨头们追求「全知全能」的智能时,印象笔记却选择转身,决定不再追逐AI的博学,而是让AI更能理解一个个具体的人。

像国内许多模型厂商一样,印象笔记也曾在通用大模型的赛道上狂奔过。作为国内最早推出大模型服务的工具厂商,他们曾满怀信心地认为,凭借积累十几年的、几亿人的知识场景沉淀,能训练出世界上最博学的模型。

然而当基座模型在几个月内学遍了全人类的所有公域知识,他们突然发现:没有人能比 AI 更博学。那一刻,传统意义上的「知识库」时代宣告终结。

唐毅开始思考:除了博学,陪伴了用户十几年的印象笔记,究竟还能给用户什么?最终答案落在了两个词上:记忆与理解。

他发现,现有的 AI 模型记忆正处于一种两极分化的状态。一是基座模型在预训练中拥有持久不变的长记忆,二是模型在推理过程中的即时性短记忆,会话结束时记忆就烟消云散,无法形成持续学习和连续记忆。模型缺少了人类认知中带有时间厚度的各个层级的「中记忆」。

印象AI的出现,本质上就是在冰冷的代码里,为每个人的模型插入一段连续的、会生长的记忆。

印象笔记 COO 陆昀 |来源:极客公园

「现在的你,是过去所有你的集合与积分。理解了过去的你,在一定程度上就能理解现在的你所思所想。」唐毅这样形容记忆的价值。为了更好地解释印象 AI 未来的定位,他用「四种朋友」的理论来打比方:

第一种是「十年的笔友」,也是AI化之前的印象笔记,虽未谋面,却读过你十年的思想,是最懂你价值观演变的老友。

第二种是「合拍的新朋友」,有点像如今市面上的通用 AI 助手,它见过你当下的疲惫,知道你点菜的犹豫,却因相处太短,不懂你行为背后那些来自过去的深层动机。

而印象笔记现在呈现的是第三种朋友:「十年形影不离的老朋友」。它不仅记得你十年的思考,还通过软硬件结合,时刻捕捉你此刻的生活。印象 AI 能根据你当下的一个眼神,瞬间打通三年前的一篇日记,洞悉你那些未竟的话语,在时间陪伴和深度理解下,建起了一座专属于用户个人的认知壁垒。

至于第四种,则是「一见如故的知心朋友」。它不再仅仅依靠算力预测下一个 token,而是通过潜意识与情感逻辑判断,与用户在初次见面时就达成默契共识,这也是印象笔记对「AI 时代的第二大脑」的终极设想。

当记忆被唤醒,智能体就不再只是工具。想象一下,当你深夜写年终汇报 PPT 时,正准备在表格中填入 Q3 季度的市场预算为 50 万美元,突然你的屏幕左上角出现一个提醒:「检测到该数据可能已过时,据昨夜公司 CFO 的邮件,预算已更新为 45 万美元。需要替换并同步调整相关数据吗?」

这个来自于印象 AI 的提醒并非是偶然的「灵光一闪」,更多则是来自于日常对你的深度理解。在你看不到的时候,它不仅扫描了你忽略的邮件,更从你过往的工作中记忆了你对数据准确性的极致追求。它见证了你曾深夜多次因为一个小数点的误差而反复修改文档,也曾在复盘时说过「准确比漂亮重要十倍」。正因如此,它了解你的严谨,选择在你出错的当下主动介入,而非事后提醒。

因此,你即将面对的不再是一个等待你输入完整指令才敢行动的「工具」,而是一个真正融入你工作流、拥有共同记忆与目标的「伙伴」。它真正的作用,不完全是回答你的问题,而是帮你避免那些你还没意识到的问题。这,就是印象 AI 为你打造的「第二大脑」。这种主动式,拥有个性化的特点,让印象 AI 成为了连接个人意图与通用服务之间的核心纽带。

「未来三年,智能体时代绝不会匆匆收场。」陆昀在谈论未来趋势时,语气里透着某种笃定。在他看来,当基座模型的 Scaling Law 增速放缓,AI 大模型范式将会进入到两三年的平稳期,也是智能体快速增长的时期。

尽管世界瞬息万变,但人类通过记录进行「认知压缩」的本能不会变。从 2018 年的独立,到 2022 年的 MBO,再到如今「4+1」的 产品矩阵革新,印象笔记用三次转型完成了一场自我进化。

 

二、如何让AI更懂你?印象笔记用两招破局

「如果你是老用户,会发现印象 AI 极其懂你;如果你是新用户,则会发现它无所不能。」陆昀用这句话直白地预告了明年 Q1 印象 AI 上线后将带来的新体验。很显然,印象 AI 并非是笔记功能迭代,而是印象笔记「4+1」战略的核心大脑。

印象笔记计划从两方面入手:一方面围绕采集层,用新剪藏、新扫描宝、手写笔记与新硬件,来拓宽采集信息的入口。另一方面,采集到的信息最终汇聚在中心处理层,进行个人模型的训练与推理,而印象 AI 正是这个「中心大脑」。

印象笔记4+1产品矩阵 | 图源:印象笔记

在陆昀看来,多数笔记类软件本质上是采集工具,更注重采集信息的效率、便捷性以及与 AI 结合的深度,因此采集必须贴近用户习惯。比如说,在电脑端,浏览器就是高频的信息入口之一,为此他们专门开发了插件,确保用户无论是在与 大模型 对话还是翻阅新闻,只要看到有价值的内容,都能一键实现信息收集,完成瞬间沉淀。

采集信息的行为不仅会发生在屏幕上。陆昀敏锐地洞察到,用户每天约有 10 小时处于脱离屏幕的状态。为了填补这段「感知真空期」,智能硬件必不可少。他解释道,印象笔记开发硬件的逻辑是「扩展平台级硬件的感知能力」,专注于手机与电脑未能覆盖的信息捕捉场景,像是录音和扫描等。据透露,印象笔记计划于明年围绕听觉、视觉、纸质媒介的上下文感知与采集,推出至少三款智能硬件。

要让用户感受到主动服务的魅力,另一大关键在于 AI 能够对人类意图的准确理解。唐毅认为,判断不能仅基于一些固定规则,而应该让用户的个人模型根据时间、地点、人物等条件自主生成动态建议。「AI 需要『人味』,结合用户的个人性格,让智能的主动提醒更具个性化。」

如此一来,在节假日选礼物时,AI 能结合你的浏览记录与生活点滴,判断你的经济承受能力与朋友的喜好,并在合适时机推送建议。

这种主动提醒源于 AI 对用户持续更新的信息形成了深层认知。

技术上,陆昀团队在模型压缩、记忆管理及智能体协作上寻求突破。特别是记忆管理上,它更依赖个人知识图谱(PCG),这类图谱体系不同于传统图谱的固定形式,而是基于 AI 动态演化的形式。与通用模型一次性压缩所有的语料不同,个人图谱会根据每天、每周、每月进行不同的知识梯度压缩,逐步将信息从「中记忆」沉淀为「长记忆」。

为了保证进化节奏,印象AI将会维持着较高的迭代频率,据悉,线上版本将会每两周更新一次。系统会实时处理每日增量数据,并在夜间整合所有数据,确保用户日常使用的丝滑感。

在付费逻辑上,印象笔记希望用户能够主动为价值买单。未来无论是基于能力分级的订阅模式,还是「硬件+增值服务」,亦或是按量计费,核心都将围绕让用户为「懂自己」的助手买单。

如何让用户觉得物有所值?印象笔记将会关注用户日采集量、模态丰富度及任务完成率。通过观察用户是否自然地复用 AI 生成的内容,系统将反馈信号无声地融入模型优化中。

可以说,印象笔记正在从一个记录工具,进化为一个拥有温热感官和独立记忆的智能生命体。

 

三、重构「第二大脑」,印象笔记的坚守与进化

「公司要比用户更懂未来,有些核心场景和用户最底层的需求,不能直接看用户说了什么,还需要理解用户更想要什么」。唐毅在如何决策未来发展方向的时候提到,一个产品要真正实现自上而下的规划和设计,需要依赖公司自己来做决定。

很显然,唐毅也发现了现在层出不穷的 AI 笔记产品正在冲击着传统市场。他观察到虽然用户正在尝试各类创新工具,但很少有人真正只用某一款。

他还提到,在人人高喊 AI 的时代,印象笔记中不乏有部分用户希望维持原状。这也是团队决定将印象 AI 作为独立全新 App 推出的核心考量之一。

谈及竞争,唐毅认为人在沉淀思考时本身就会选择不同平台。相比于纯粹的工作场景,印象笔记更关注个人场景下的沉淀与知识积累,因此在定位上就和市场上大多数效率工具有所不同。

陆昀补充道,印象 AI 的另一大功能是与其他智能体联通,一起处理任务:「我们不打算做涵盖一切的智能体,我们只做『你的』智能体——作为你的数字分身,与其他 AI 互动。」

在未来,印象笔记将继续聚焦于服务用户进行自我知识沉淀、自我知识萃取与自我思考结晶过程,而 AI 则是这一过程的加速器。

陆昀讨论 AI 时代的第二大脑 |图源:极客公园

在全球化战略上,印象笔记选择了国内与海外并行。中国市场作为主阵地,通过长年对本土用户行为的观察,更高效地推动用户接受印象 AI。

据唐毅介绍,中国用户更倾向于收藏「硬核干货」,且收藏频率极高。相较于欧美市场,中国用户更习惯在移动端收藏任务,对协作的要求也不算太高,更专注于个人,但整体上对跨平台数据集成的需求更强。针对这些细微的交互习惯,印象 AI 将持续进行功能迭代。

谈及未来愿景,唐毅认为路线已非常明确,即打造真正的「第二大脑」。「我们目前在智能赛道上迅速对齐,未来可能会从脑科学等领域寻求突破,最终形成一个从个人知识库中生长出来的、真正的第二大脑。」

 

 

浏览量: 4

车企集体「摸着理想过河」,结果都在2025年掉进了河里

过去几年,大家还在喊「增程真香」,但如今,市场已经变天了。

乘联会数据显示,2025年1月到10月,国内增程车型的销量同比增速只有5.7%。这个数字单独看或许还可以,但如果和纯电车型同期30.3%的增长对比,差距瞬间就拉开了。

更值得注意的是,从今年6月份开始,增程市场已经连续5个月下跌。这在过去几年增程狂飙的年代,是无法想象的。

不过,就在增程销量下滑的同时,车企却仍在疯狂「加码」。在11月的广州车展上,增程式车型仍是各家车企的主推车型。粗略算了一下,光是2025年这一年,已经发布或者即将上市的增程车就超过了20款。

这就形成了一个有趣的剪刀差:一边是销量的疲软,一边是供给的井喷。我们该如何理解这种分裂?增程这张船票,即将过期了吗?

工程师眼里的「怪胎」,用户眼里的「神车」

很多人以为增程系统是近几年才冒出来的新物种,但如果把汽车工业的时间轴拉长,你会发现它的历史很久远。

早在燃油车刚刚起步的1900年,保时捷创始人费迪南德·保时捷,就已经造出了世界上第一辆增程式汽车 Lohner-Porsche Mixte。

但为什么这一百多年来,这技术一直被扔在角落里吃灰?简单说,是因为它在技术和商业逻辑上都站不住脚。

增程车属于「既要又要」的思路,既要塞进电池电机,又要硬塞进一套发动机和油箱。在那个电池很贵、技术又不成熟的年代,增程就是个两头不讨好的「怪胎」:论重量,它比电车还沉;论价格,它比油车还贵。所以在很长一段时间里,增程在很多工程师眼里就是「脱裤子放屁」,纯属多此一举。

2022年上市的L9,正式开启了「冰箱彩电大沙发」时代 | 图片来源:视觉中国

2019年成为一个转折点。当时,新能源补贴开始大幅退坡,市场逻辑硬生生地从「政策驱动」转向了「市场驱动」。理想汽车敏锐地嗅到了家庭用户的真实痛点:大家关注的并不是技术路线的优劣,更关心价格、空间、配置。

理想ONE的成功并非源于技术突破,而是源于产品定义的胜利。理想非常聪明地利用增程结构省下了巨额的电池成本,然后把这笔钱全部砸进了用户肉眼可见的地方——Nappa真皮、冰箱、彩电、大沙发。

随后的故事我们都很熟悉了。主打家用SUV的理想ONE,初步验证了增程技术在商业上的可行性。特别是2021年5月改款之后,理想ONE迅速成为了当年的现象级爆款。而后来接棒的L系列,月销量一度突破5万辆大关。

回过头看,当时的增程车之所以能成功,本质上是理想通过「田忌赛马」的策略,用30万的价格,给用户带来了70-80万级燃油车(如宝马X5)的配置,同时它结合了「电驱动的平顺性」与「燃油车的补能便利性」。这种既没有里程焦虑,又能享受电车静谧感的体验,把当时的传统燃油车摁在地上摩擦。

从「真香」走向「红海」

如果说2019年是增程的觉醒期,那么2022年就是它的「爆发期」。这背后的推手,是疯狂的原材料价格。当时,电池级碳酸锂的价格从不到10万元/吨,一度飙升到了60万元/吨的天价。

对于纯电车型来说,这简直是灭顶之灾。相比之下,增程车只需配备纯电车型一半甚至三分之一的电池,成本优势凸显。

于是我们看到了一条几乎垂直拉升的增长曲线,从2021年到2024年,增程车销量的同比增幅分别达到了218%、130%、154%和70.9%。这种几何级数的增长,让整个行业都陷入了一种狂热的情绪中。直到2025年初,行业大佬们还在乐观预测,插混和增程将占据半壁江山。

问界M9上市后,成为50万级市场的「现象级」产品 | 图片来源:问界汽车

于是,国内的车企们迅速达成了一种默契——「摸着理想过河」。问界、零跑、深蓝等实力玩家纷纷入局,不管是新势力还是传统大厂的「创二代」,都开始疯狂下注增程赛道。

然而,市场最爱开的玩笑,就是在你决定随波逐流时,突然改变流向。从今年6月开始,增程车的销量增速连续5个月下滑。

与此形成鲜明对比的是,前两年略显疲态的纯电市场却在2025年迎来了「第二春」。2025年1-10月,中国市场共销售1089.4万辆电动汽车,同比增长24.2%。

虽然市场的风向已经变了,但汽车产业的惯性太强,这导致了一个非常魔幻的局面:一边是增程大盘在缩水,另一边却是新玩家在疯狂涌入。今年以来,小鹏、阿维塔、智己等曾经坚定的纯电玩家,也纷纷宣布布局增程路线。

小鹏推出X9增程版,意在北方市场和海外市场 | 图片来源:小鹏汽车

为了在这片红海中突围,这些后来者祭出了「增程2.0」,它的核心逻辑简单粗暴,就是「大电池+大油箱」。以前的增程车纯电里程在200公里左右,但刚发布的增程车纯电续航已经超过了400公里。比如智己LS9、小鹏X9的增程版,电池都超过了60度,续航超过400公里,这在几年前是不可想象的配置。

这其实是一个危险的信号:增程车正在无限逼近纯电车。 用户95%的时间当纯电开,那个增程器只是为了消除最后5%的心理焦虑。这也意味着,随着电池越做越大,增程原本引以为傲的成本优势正在被迅速稀释。

归根结底,过去几年增程的成功,本质上是一场精妙的「时间差」套利。它利用了「电池成本高」和「充电设施不足」这两个核心痛点,在燃油车和纯电车之间撕开了一道口子。但到了2025年,随着电池价格的下降和补能网络的完善,这两个红利正在迅速消退。

历史总是押韵的

如果我们把时间轴拉长,会发现科技圈从来没有新鲜事。

还记得电脑存储领域的SSHD(混合硬盘)吗?在固态硬盘(SSD)刚出来的时候,速度极快但价格也极贵,容量也不大。于是,部分厂商搞出了SSHD,在传统的机械硬盘里加了一小块闪存作为缓存。在那个特定的时间,它简直是完美的解决方案:既解决了机械硬盘启动慢的痛点,又保留了大容量存储的优势,关键是价格还便宜。

但结局我们都知道了,随着闪存颗粒产能爆发、SSD成本雪崩式下跌,SSHD几乎在一夜之间就从市场上销声匿迹了。

你可能想不到,黑莓手机在2010年依然占据50%美国智能手机市场份额 | 来源:视觉中国

手机交互的进化史也上演过类似的剧本。当年的黑莓全键盘,在触屏手机刚刚萌芽的时候,物理按键就是用户的「安全感」来源。它确实提供了确定的打字反馈,消除了人们对新技术的恐惧。但随着触屏和交互技术的成熟,物理键盘迅速变成了「累赘」。

面对这种必然的「过渡期」,摆在创业者面前的其实只有两条路。这无关对错,只关乎选择,以及你对自己手中筹码的清醒认知。

一种是像马斯克那样坚守「第一性原理」,不做中间态,直奔终局。这是一条少有人走的路,也是最难的路。既然物理学第一性原理证明了「纯电效率最高」,那就死磕纯电。遇到充电难,就去建超充桩,而不是在车上装油箱妥协。前期可能会被质疑、嘲笑,但一旦跨过拐点,你将拥有自己的护城河。

如果手里牌不够好,承认现实也并不丢人,可以利用「技术代差」的时间窗口,趁着电池还贵、充电桩还少,用增程车型快速回笼资金,活下去比什么都重要。

但这条路上埋着一个致命的陷阱,就是在增程取得成绩后,误以为这就是终点,然后在过渡技术上疯狂投入,这无异于自杀。正确的姿势应该是,赚过渡时代的钱,然后投向未来的路。这非常考验负责人对时机的把握。

现在的增程市场,正处于这两个逻辑激烈碰撞的交汇点。虽然销量占比在下滑,但增程技术不会消失,只是回归属于它的位置。在未来,增程可能不会成为主流用户选择,但可以退守为「特定场景方案」。在硬派越野穿越无人区,或者在极寒的高纬度地区,那些纯电依然无法触达的角落,增程依然有自己的价值。

浏览量: 6

OpenAI 上线「应用商店」;小红书被曝发力中长视频;《疯狂动物城 2》打破内地进口片观影人次记录

OpenAI 最强智能体编程模型 GPT-5.2-Codex 登场:AI 写代码新巅峰,优化 Win11 原生环境

12 月 19 日消息,OpenAI 今天(12 月 19 日)发布公告,宣布推出 GPT-5.2-Codex,是其迄今最前沿、最先进的智能体编程 AI 模型,专为解决复杂的现实软件工程问题训练设计。

该模型在 GPT-5.2 的通用智能基础上,融合了 GPT-5.1-Codex-Max 的终端操作能力,其核心突破在于引入了「上下文压缩」技术,让其在处理代码重构、迁移等长程任务时效率倍增。

针对开发者的实际工作环境,GPT-5.2-Codex 显著增强了在 Windows 10、Windows 11 原生环境下的智能体编码可靠性。

视觉性能的提升则是另一大亮点:该模型现在能更精准地解读技术图表、UI 截图及设计草图。开发者只需提供设计原型图,Codex 即可快速将其转化为功能性原型代码,并协助推进至生产阶段。

在技术指标上,GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 等权威基准测试中刷新了成绩。

OpenAI 目前已向所有 ChatGPT 付费用户全量推送 GPT-5.2-Codex,涵盖所有 Codex 相关界面。针对 API 用户,OpenAI 计划在未来几周内逐步开放访问权限。(来源:IT 之家)

OpenAI ChatGPT 正式上线「应用商店」

12 月 18 日消息,当地时间 12 月 17 日,OpenAI 发布公告称,公司此前推出了 ChatGPT 应用功能,即日起,开发者可遵循应用提交指南提交应用,以供审核和在 ChatGPT 平台发布。

这类应用能够为 ChatGPT 对话增添全新场景信息,并支持用户直接在对话中完成各类操作,比如订购食品杂货、将大纲转化为演示文稿、搜索公寓房源等。

用户绑定应用后,在对话中 @ 应用名称,或从工具菜单中选中应用,即可触发应用功能。此外,OpenAI 正尝试借助对话场景、应用使用习惯、用户偏好等信号,在对话过程中直接为用户推荐相关且实用的应用,并为用户提供清晰的反馈渠道。

在当前初期阶段,开发者可在其 ChatGPT 应用中设置跳转链接,引导用户前往自有网站或原生应用,完成实体商品的交易流程。未来,OpenAI 将探索更多变现模式,包括数字商品变现等,后续会结合开发者与用户的使用及互动情况,分享更多相关信息。(来源:IT 之家)

 

TikTok 内部信曝美国方案:字节跳动仍保留电商、广告业务,新合资公司仅负责数据安全

12 月 19 日消息,当地时间 12 月 18 日,TikTok CEO 周受资发内部信,公布了 TikTok 美国业务最新进展。

内部信显示,字节跳动、TikTok 已与三家投资者签署协议,并将成立新的 TikTok 美国合资公司。新合资公司名为 TikTok 美国数据安全合资有限责任公司(TikTok USDS Joint Venture LLC),将负责美国的数据保护、算法安全、内容审核和软件保障。由字节跳动全资控股的、TikTok 在美国的其他实体将继续负责电商、广告、市场运营等商业活动,以及 TikTok 产品的全球互联互通。协议相关事宜将在不晚于 2026 年 1 月 22 日完成。

这与国内媒体此前曝光的 TikTok 美国方案一致。据观察者网等媒体此前报道,TikTok 未来在美国运营主要涉及两个主体:

  • 「字节跳动 TikTok 美国公司」将负责电商、品牌广告等商业活动,以及全球互联互通等。该主体由字节跳动 100% 全资持有。

  • TikTok 美国数据安全合资公司,即此次内部信提到的 TikTok 美国数据安全合资有限责任公司。它将负责美国数据与内容安全、软件保障等,以符合美国法律要求。

内部信还提到,新合资公司将负责算法安全。字节跳动仍会继续拥有 TikTok 算法的知识产权,授权新合资公司使用,并向后者收取授权费。

目前,电商、广告、市场运营等商业活动仍是 TikTok 的主要收入来源,仍将由字节跳动全资控股的 TikTok 美国公司等实体负责。新合资公司负责的数据、内容安全等业务为非营利性质,且运营成本很高。为保障合资公司运营,上述主体间会有商业上合理的收入分享安排。(来源:IT 之家)

 

AI 投入再加码,消息称理想汽车在硅谷成立新研发中心

12 月 18 日消息,今天上午,36 氪援引知情人士消息称,理想汽车正式筹建硅谷的 AI 研发中心,将负责智能化技术研发,已在数月前开启人员招聘。

在该中心筹建之前,理想在北美有一个小型研发团队,支持芯片研发及其他 AI 相关工作。而这次的动作,旨在将硅谷团队升级为一个真正的研发中心。

该中心此次扩建主要面向辅助驾驶领域并希望招募「具备前沿 AI 背景」的高端人才。据 IT 之家了解,除硅谷 AI 研发中心外,理想首座海外研发中心位于德国慕尼黑。该中心今年 1 月开业,负责前瞻造型设计、功率半导体、智能底盘和电力驱动的下一代技术预研。理想汽车在国内的两座研发中心则分别位于北京、上海,主要负责核心技术突破及整车研发。

而在「蔚小理」三家造车新势力当中,蔚来、小鹏分别于 2014、2018 年在硅谷建立研发中心。作为全球 AI 技术的「人才高地」,硅谷云集特斯拉、Waymo、OpenAI、英伟达等 AI 行业头部企业,中国企业在此处有机会直接接触前沿技术、高端人才。报道提到,国内 AI 技术人才,尤其是具备大模型与自动驾驶交叉背景的高端人才仍显稀缺,硅谷无疑是「破解这些难题的关键」。(来源:IT 之家)

 

小红书社区架构被曝再调整,发力中长视频

据报道,小红书在几个月前对社区组织架构进行了深度调整,意在进行「产运研一体化融合」,该知情人士告诉凤凰网科技,新划分的职责中,由云帆(薯名)和新岛(薯名)各自负责。小红书此次架构调整,是为了解决一个问题:增长。2023 时,小红书曾定下「坐一观三」策略,即坐拥 1 亿 DAU 向 3 亿 DAU 进发。

云帆负责的部分命名为「Live」,直接向小红书 COO 柯南(薯名)汇报;新岛负责的部分命名为「Village」,依然向社区业务负责人帕鲁汇报。「过去我们是垂类运营的逻辑,现在是变成依据不同业务目标来划分」,前述知情人士表示。

另一知情人士告诉凤凰网科技,Live 或将对应一部分 PGC 内容,初步规划为做优质中长视频,时长或超过 2 分钟,未来希望培养更多大 V。值得一提的是,云帆上一个供职公司正是 B 站,在视频运营方面有更多经验。(来源:凤凰网科技)

马斯克称 xAI 或明年实现 AGI,两三年内超越竞争对手!

全球首富埃隆·马斯克(Elon Musk)既是特斯拉的首席执行官,也是 xAI 的创始人,这两家公司目前都在推进人工智能(AI)项目。而他本人似乎对 xAI 的未来很是乐观。

据几位知情人士最新对媒体透露,上周在 xAI 公司旧金山总部举行的全体员工大会上,马斯克扬言,只要公司能够顺利挺过未来两到三年,xAI 就能战胜竞争对手。他补充称,该公司快速扩展其算力和数据容量的能力将是在所谓「超级智能」(即超越人类智能)的竞争中致胜的关键,并最终有望让 xAI 成为最强大的 AI 公司。

根据消息人士援引马斯克的说法,xAI 有可能在未来几年内实现通用人工智能(AGI),即达到或超越人类智能,甚至最早可能在 2026 年实现。

今年 11 月,马斯克曾公开表示,xAI 的 Grok 5 模型有 10% 的可能性实现 AGI,他说该公司计划明年初发布这款模型。(来源:快科技)

 

苹果新模型 1 秒让照片变 3D,且具有真实物理比例

据 IT 之家引援科技媒体 9to5Mac 12 月 17 日发布博文,报道称苹果公司开源名为 SHARP 的新型 AI 模型,该技术能在一秒内将单张 2D 照片转换为逼真的 3D 场景。

苹果发布名为《一秒内实现清晰的单目视图合成》(Sharp Monocular View Synthesis in Less Than a Second)论文,详细介绍了如何训练模型,在接收用户输入的一张普通 2D 照片后,能在一秒钟内重建出具有真实物理比例的 3D 场景。

与需要数分钟甚至数小时处理的传统方案相比,SHARP 将合成速度提升了三个数量级,实现了近乎实时的 3D 转换体验。

传统的 3D 重建通常需要对同一场景拍摄数十甚至上百张不同角度的照片,再通过复杂的计算来确定这些光团的位置。然而,苹果通过使用海量的合成数据与真实世界数据训练 SHARP,让其掌握了通用的深度与几何规律。

因此,当面对一张全新照片时 SHARP 能通过神经网络的单次前馈传递,直接预测出数百万个 3D 高斯球的位置与外观,瞬间完成建模。(来源:36 氪)

 

京东武汉小哥之家首批入住,面向全职骑手和快递员

据京东黑板报消息,近日,位于武汉武昌区中南路的一栋四层单元楼,京东快递小哥与外卖骑手已陆续搬入。这里是京东在武汉落地的首个独栋式「小哥之家」,通过整栋租赁的方式免费为一线京东快递小哥及京东全职骑手提供住宿。

官方介绍,这一「小哥之家」地理位置便利,覆盖周边京东站点。武汉「小哥之家」负责人表示,该栋「小哥之家」由京东整租后,开放给周边站点有需求的全职骑手和快递员,申请后最快当天即可入住。

据悉,「小哥之家」每间宿舍均配备独立卫浴且干湿分离,并配置空调、床铺、书桌和热水器等基础生活设施,拎包就能入住。后续也将结合业务布局和实际需求,在武汉其他区域探索推进更多「小哥之家」落地。

当前,京东已探索在北京、武汉、成都等多地落地「小哥之家」,通过自建、整租等多种方式,为一线员工提供住房保障。此前,京东宣布:已面向一线员工提供了 2.8 万套住房,未来 5 年还将投入 220 亿元,提供 15 万套「小哥之家」。(来源:新浪科技)

 

腾讯官方回应元宝质疑:一切「内容由 AI 生成」,评论均由元宝 AI 生成,背后没有人工运营

今日腾讯官方发布声明,回应近期用户关于元宝的争议话题。官方表示,一切带有「内容由 AI 生成」字样的评论,均由元宝 AI 生成背后没有人工运营,没有团队轮班。

此外,腾讯还表示,如果你收到了元宝的评论回复下面没有带「内容由 AI 生成」的标识,那一定是背后的小编逐字逐句、有情有感的真人回答。

据悉,目前腾讯各大产品评论区已经全部接通元宝,包括微信公众号、视频号、QQ 浏览器、腾讯新闻、QQ 音乐、腾讯自选股、腾讯视频,都能艾特元宝。

并且官方表示,在微信和 QQ 都可以添加元宝好友,在 QQ,群聊支持元宝一键总结,几秒内帮用户爬 999+的群聊消息。(来源:新浪科技)

雷军:小米 17 Ultra 手机下周正式发布!

12 月 18 日,小米创办人,董事长兼 CEO 雷军宣布,小米 17 Ultra 手机下周正式发布!

此前爆料称,小米 17 Ultra 手机开发代号为「哪吒」(Nezha),延续了小米 15 Ultra 标志性的圆形相机模组设计,采用高通第五代骁龙 8 至尊版芯片,预装澎湃 HyperOS 3.0,此外已确认其国际版机型将支持卫星通信功能,为用户在偏远地区提供可靠的连接保障。

另外,型号为 25125PS17S 的小米新品于 11 月 19 日通过了工信部 3C 认证,消息称该产品为小米新款专业摄影手柄,同样可以当移动电源,是小米 17 Ultra 专属影像配件,首款「三证齐全的第五代骁龙 8 至尊版超大杯」。(来源:IT 之家)

 

消息称豆包大模型联合润欣科技、老凤祥开发 AI 眼镜,预计明年初上市

12 月 18 日消息,据《科创板日报》今日报道,豆包大模型正与润欣科技、老凤祥联合开发 AI 眼镜,价格约在 2000 元以内,预计明年初上市。该 AI 眼镜由火山引擎提供 RTC 实时音视频和豆包大模型,润欣科技提供模组和硬件程序设计。

就在 6 月 11 日的国际养老、辅具及康复医疗博览会以及火山引擎原动力大会上,老凤祥的 AI 眼镜已正式亮相。据介绍,该款眼镜具备语音导航、实时翻译、智能辅助阅读、情感对话等功能,后台由豆包大模型提供技术支持。

然而,据财经网 6 月 12 日报道,火山引擎相关负责人表示:火山引擎没有与老凤祥合作打造 AI 智能眼镜的计划。豆包大模型为公开售卖产品,任何客户都可以合规采购。(来源:IT 之家)

6 年的纪录被打破了,《疯狂动物城 2》夺进口片观影人次冠军!

《疯狂动物城 2》以 9106.4 万观影人次登顶榜首,超越《复仇者联盟 4:终局之战》(8681.2 万),成为内地影史进口片观影人次冠军。

《疯狂动物城 2》是 TOP10 中唯一一部 2025 年上映的新作,其余影片均为 2019 年及更早的作品。(来源:快科技)

浏览量: 4

火山引擎的「火」,是怎么点起来的

作者|张鹏

编辑| 郑玄

 

半年前,我写过一篇火山引擎的战略方向分析,当时我判断,火山引擎已经被明确为字节的一个战略目标:因为字节在 AI 时代需要有最好的底层技术和基础设施,那么这件事必须不能只是自造自用,而是要通过「外循环」来验证和放大,所以火山引擎要做好,也必须是 「AI 云原生」。

其实过去两年,所有云业务的企业,都已经意识到云的未来,不再是旧赛道里卖服务器、卖带宽的存量博弈,而是 AI 能力带来的全新需求。在这个新时代,云厂商卖的不再是底层的「资源」,而是经过封装的「能力」。

有趣的是,MaaS(模型即服务)过去 2 年被提出,但是经历了早期「尝鲜」后,也一度被业界怀疑过,当时主要的原因是模型如果本身不行,不能真正解决企业问题,这个模式就不能真正成立。

不过这半年火山引擎死磕 MaaS 的一些更具体的业务发展,我觉得 MaaS 这件事已经可以不用讨论了,它绝对就是未来的云服务的核心业务。

为什么说火山是在「死磕」MaaS 呢?先说个最近在媒体上看到了一个火山的「八卦」,大概意思是说火山引擎内部,CDN 这种传统业务的销售权重被降到了很低;而 AI 的 Token 调用量,直接成了核心指标。甚至有的销售 CDN 等其他传统云业务做得挺好,但因为 MaaS 卖不出去就最终淘汰出局。

这个「八卦」如果换个视角看,反而说明火山引擎对 AI 云原生和 MaaS 的重视相当贯穿到执行层,确实在用 组织架构的调整、用考核机制的引导来推动战略 。

压强够了,事情就会有突破。从我在业界了解的消息看,更重要的是火山引擎 2025 年相当突飞猛进,业绩上非常火。而这个火也确实来自于 MaaS 惊人的高速增长。结合 12 月 18 号的 Force 大会上我看到的一些信息,感觉又值得分析下这个 AI 云原生领域的大玩家「火从何来」了。

 

01

MaaS 的核心是

「与商业世界的需求对齐」

 

想要让销售劝客户把预算从传统 IT 转给 AI,前提是手里的模型和工具得真能解决业务问题,而不是让客户当「小白鼠」。这次 Force 大会,给我的最大感受是: 火山引擎展示的不仅是模型,也相对更全面的展示了为了让 AI 能真正落地,他们过去所积累的「家底」。

企业 AI 下一阶段是让 Agent 真正创造业务价值丨来自:2025 原动力大会·冬

 

未来的大模型,理解和执行是统一的。我们现在看到的 AI 大多还在「理解」阶段——用户向 AI 提出需求,它可以帮忙写写文案、聊聊天。但现实世界的需求其实已经要求模型必须能直接操控软件、调用 API、完成复杂的企业级 RPA 任务。

不知道大家是否注意到了,豆包 1.8 有一个明显的进化方向,就是 Agentic 代理能力。豆包在这个版本里重点增强了 Tool Use(工具调用)和 OS Agent(屏幕操控)等能力。这和 Gemini 3.0 Pro 等全球顶尖模型的进化路径是完全一致的: 让模型这个大脑不仅「能理解」,还要长出「能干活的手」。

举例来看,豆包 1.8 现在支持 OS Agent,意味着它可以像人一样「看懂」电脑屏幕,去点击按钮、填写表单。天下绝大部分的公司都不是「AI Native」的,所以这次升级对于企业内部大量陈旧的、没有 API 接口的 ERP 系统来说,这就是让 AI 接管繁琐工作的关键钥匙。

以前大家关注模型的能力聚焦在追求智能上限,我相信这一点是字节内部的基础模型团队一直在做的。而火山引擎是字节跳动「内循环」+「外循环」的好处,就是一方面可以依托字节基础模型团队,既支持与字节的业务发展,同时也连接着更大真实世界的需求。

有了需求目标,从基模能力到可用的模型技术的发展,才变得更有方向感,比如「理解和执行一体化」的能力,就是可以对现在非「AI Native 企业」AI 进化关键的落地点,而前段时间火爆的豆包手机助手,其实就是这个能力的「内循环」,而火山引擎现在把这种能力同步开启「外循环」,会让技术创新变得更有意义。

MaaS 过去一段时间能卖的那么火,以及未来可以继续看涨,本质上还是因为这个 「双循环」带来的目标与能力和真实商业世界的对齐。

另外,从这次火山引擎正式发布了 Agent 开发套件「Agentkit」来看,其具备 8 个核心模块依旧是在「与现实商业世界对齐」。这次火山提供了 Agent 在开发、部署、运维、调优等各个阶段所需要的工具和基础设施。其中让我印象很深刻的有两个模块: Identity(身份与权限)和 Evalution(评估)。

Agent 落地到企业里,一个很细节但是关键的问题就是怎么给 Agent 设定清楚它的身份——比如一个客服 Agent 能接触到哪些数据,可以回答什么样的问题;比如一个实习生的 Copilot,和高级副总裁的个人助理,怎么避免二者的信息权限混淆。规避实习生可以通过 AI 轻松拿到公司敏感信息这种情况出现。这些都是看似细节基础,但实际上做起来复杂,而一旦出现问题却有可能给企业造成重大损失的实干问题。

还有就是 Evalution(评测)的能力。做过 Agent 开发的人都知道,最大的痛点不是怎么搭建环境训出一个 Agent,而是不知道怎么评估一个 Agent 在业务场景里的能力,毕竟不能把一个刚训出来还不知深浅的 Agent,随便就丢进生产环境里测试。

而 Agentkit 的 Evalution(评测),其实就是一系列评测 Agent 在真实场景中工作能力的测试集。这个一直是个没有被很好解决的问题,如果对标一下其他国际云大厂,其 Agent 开发工具内置的评测集好像也只有十几套。而火山这次一口气发布了超过 50 套评估测试集。

场景积累的意义在这里就体现了。显然字节跳动内部本身就有几万个 Agent,每天进行几十万次的评测,所以火山是个巨大的基础资产。从抖音电商的客服机器人,到 TRAE 的 Coding 助手,这些业务的需求倒逼火山团队必须建立有效的 Agent 评测能力。这些为了支撑内部庞大业务而磨练出的「基建能力」,现在成了火山 MaaS 服务的底座。

 

02

多模态一定是云厂商竞争的「新赛点」

 

除了基模和基建的扎实推进,在这次 Force 大会上,我们还看到了一个信号: 多模态(视频、语音、图像)的理解和生成能力,正在成为 MaaS 增长的新赛点 。

据我了解,火山内部也已经形成了一个认知 :每增加一种多模态模型能力,MaaS 的销售就能带来显著的百分比增长。

这不难理解,今天商业世界的大量场景是视觉的。视频带货、在线教育、娱乐社交,这些才是用户和需求最集中的场域,而要让 AI 和 Agent 在这些场域发挥作用,不论是与用户对话交互、生成内容,还是理解这些场景里的内容,解决用户或者创作者的问题,都离不开多模态模型的能力。

而多模态能力恰恰也是字节跳动的「主场」。豆包是最早具备图像识别能力的大模型之一,还记得 2025 年高考时,豆包在看图解题上的表现就让人印象深刻。而在今年 IF 大会上做出精彩分享的张楠,其领导的即梦在今年国内「产业级 AI 视频生成」落地竞赛里处于领先地位,这背后其实都是同源的技术栈。

而这次发布的 Seedance 1.5 Pro,解决的核心问题不是「生成」,而是「可用性」。它重点突破了音画高精同步和多语种对白,尤其擅长中文方言和对口型等。做过影视创作或短视频的人都知道,这才是从「玩具」变成「生产力」的关键。这意味着,未来的短剧、广告片,甚至是一部分的电影镜头,真的可以用 AI 直接生成了。

豆包 Seedance 1.5 Pro 丨来自:2025 原动力大会·冬

 

同时,豆包 1.8 的视觉理解能力也大幅提升,支持 90 分钟长视频的低帧率快速理解,并且支持调用工具对关键片段进行高帧率处理。这意味着模型不再是只能看懂一张图,而是能像人一样看完半场篮球赛,并分析出战术布局。

简单总结一下就可以看出,火山引擎未来一段的发展战略和主要焦点,就是在「与商业世界对齐」的工具环境和模型能力上。而多模态能力的领先,恰恰将给火山引擎带来重要的战役制高点。

 

03

客户实际上在买

字节跳动的「技术溢出」

 

要理解为什么火山引擎今年这么火,其实值得换个客户视角看看他们买单的深层逻辑到底是什么?

由于极客公园接触创业者比较多,至少从他们的视角,我听到了一个有趣的观点: 今天企业用火山引擎,本质上其实就是在「薅字节跳动的技术羊毛」,享受其技术外溢的红利。

我们来看一组震撼的数据。在这次 Force 大会上,火山公布了一个核心数字: 豆包大模型的日均 Tokens 调用量已经突破了 50 万亿 。

这是什么概念?作为对比,谷歌此前刚刚宣布今年 9 月的全月 Tokens 消耗量为 1.3 千万亿,也就是日均 43.3 万亿。换句话说,火山引擎如果没吹牛,那么每天处理的 AI 调用量,已经站在了全球云平台的第一梯队,甚至在某些维度上实现了超越。

这 50 万亿的调用量似乎是有水分呢?我觉得如果考虑到字节跳动内部庞大的「内循环」需求,大概率是差不多的。

2025 Force 大会上火山引擎发布全景图丨来自:2025 原动力大会·冬

 

字节跳动的特点是,模型闷头做,然后自己的狗粮自己猛吃。其内部大量的应用和场景,模型调用早就无处不在,每天都在产生海量的 Tokens 调用。这种天然的环境就必然带来一个原生的能力——为了支撑这个体量的内循环,为了让字节自己的业务能跑通、能赚钱,字节的技术团队必须把推理成本压到极致,必须把 AI 云原生的能力做好。

其实今天我接触的优秀创业团队和投资人们都有个共识, 无论什么形态的产品,今天都是个「容器」:一个在场景里赢得用户,形成「数据飞轮」的容器。它的形态会不断演化,甚至终将走向「产模一体」(也就是需要有自己的最优模型) 。但是今天的核心不是探讨模型是谁的,基础设施是谁的,而是最高效构建可以拉进用户,产生数据飞轮的进程。

所以这个时候,就可以理解为什么创业者们一方面「怕字节」做和自己类似的产品,但是又很坚决的会选择火山引擎的 MaaS 服务。核心是他们希望抓住字节跳动内部技术能力的溢出,就算随着发展和能力积累肯定要自己的有模型,那今天也要坚决薅「字节的技术羊毛」。

显然更多的真实商业世界里的企业,也开始想清楚了这个问题。目前火山引擎日均 Tokens 调用量突破一万亿的企业客户已经超过了 100 家,这个数字还在快速上升。

火山引擎这种在 AI 时代支持字节「内循环」+商业世界「外循环」的双循环模式,确实有点势不可挡。接下来几年,是国内商业世界非常值得关注的一个新变量了。

浏览量: 3

IF 2026 最大「黑马」:钢铁侠故事背后的温度和创新

整理|曹思颀

编辑| 靖宇

 

这大概是 IF 2026 舞台上最大的一匹「黑马」。

没有太多观点和「暴论」的硬输出,也没有渲染出对未来和「增长」过多的乐观或期待。Hypershell(极壳科技)年轻的 90 后创始人孙宽,从技术栈、PMF 发掘、用户洞察、产品体验等多个维度,深度复盘了他和创业在创业各个阶段的关键思考和决策。

Hypershell 所在的「消费类外骨骼」赛道,今年在各大短视频平台获得了大量曝光。但实际上,在 2021 年 Hypershell 之时,这个品类仍然处在行业和投资界的共识之外。孙宽在上百场融资路演中遭到拒绝,投资人既不相信这个品类背后的技术可以快速成熟,也不看好市场对这种新产品的需求。

4 年之后,Hypershell 的产品不仅已经完成了对数万名用户的成功交付,而且外骨骼也彻底摆脱了过往工具设备或「医疗辅助器械」的形象。户外摄影师、背包客、徒步和滑雪爱好者们,把 Hypershell 带到了更远更酷更广阔的场景里,给予了这个品类更好的可能。

在小红书上,关于这场分享有两条让笔者印象深刻的评价:

  • 「原本以为又是一个俗套的钢铁侠故事,没想到真诚是必杀技,看到了一位诚恳的追梦人」
  • 「技术本身不伟大,但让技术贴近普通人、贴近真实生活,这件事很伟大。」

以下是 Hypershell 创始人 & CEO 孙宽在极客公园创新大会 2026 上的演讲实录,由极客公园整理。

嘉宾核心观点提炼:

  • 具身智能不仅是创造独立于人类、旨在「取代人」的智能(如自动驾驶或人形机器人),还包括旨在各种场景下「增强人」的技术,而外骨骼正是这一方向的载体 。
  • 从工业走向消费级的两大关键技术突破: 构型突破和重点控制;电机电驱技术的发展。

 

  • 选择了反直觉的品类策略: 尽管老年人市场需求看似显而易见,但「医疗辅具」的品类心智可能限制市场上限。先通过硬核户外人群建立「酷」的积极心智,才能真正打开品类天花板。
  • AI 成 为了外骨骼的「外置小脑」。 得益于模型算力,AI 能准确预测用户动作趋势并自适应地形,如同 iPhone 用电容屏实现单按键交互一样,AI 让外骨骼实现了仅需一个开机键的极致简化交互。
  • 面对第一代原型机用户体验不佳的反馈,Hypershell 选择推翻重来,因为「体验不够好,对用户来说就是没有体验」。

孙宽在 IF 2026 舞台上|图源:极客公园

以下为孙宽在 极客公园创新大会 2026 上的发言全文:

极客公园的朋友们大家好,我是 Hypershell 创始人孙宽,很荣幸在这里跟各位一起交流。Hypershell 的方向和今年极客公园创新大会的主题非常一致,我们都在创造一个全新的「进程」:一个关于人类的潜能和自身行动力的进程。

 

01

从 0 到 1,找到消费级

外骨骼的「技术起点」

 

当我们谈到「具身智能」时,大家脑海里第一个画面是什么?

也许是一个自动驾驶的汽车,或者一个聪明的人形机器人。这些都非常酷,在试图创造一个独立于人类的智能。

但其实,具身智能还存在另一个方向:外骨骼。如果人形机器人的终极目标是在某些场景下「取代人」,那外骨骼的目标就是在各种场景下「增强人」。

今天,我不太需要再用过于复杂的语言解释什么是「消费类外骨骼」。因为大家已经在很多景区看到过产品租赁,甚至有人穿着我们的产品打破了马拉松纪录。

在户外场景下的消费类外骨骼产品 | 图源:Hypershell

但在今年之前,情况都完全不是这样。很长一段时间里,外骨骼的定位都是「工业设备」。

一方面,受限于那时的机器人动力技术,传统外骨骼只能靠气压或液压驱动,笨重且行动迟缓。要知道,每增加 1kg 的负重,人的新陈代谢就会增加 2%。而一个 10kg 的设备穿在身上,就要增加 20%-30%的额外负担。

另一方面,受限于当时的 AI 能力,传统外骨骼只能按规律步态反复运动,无法适应复杂地形和千人千面的消费级用户需求。

所以,传统外骨骼往往「局部省力,整体费力」。很多时候穿上它,人反而更累了。

我记得 2021-2022 年,整个外骨骼行业的年销量加起来也不超过 1000 台。所以,当 Hypershell 在 2022 年寻求融资时,遭遇了上百场失败的路演连续的拒绝。我们面临最多的三个问题是:

「为什么几十年了这个品类没有人做出来?

为什么你可以?

为什么普通人需要一个消费类的外骨骼产品?」

作为一个从无到有的全新品类,在开始阶段总会遭遇投资人的「灵魂拷问」 | 图源:极客公园

这些问题在当时很难回答。但身处行业之中,我还是从学术和产业两个方向,在技术层面看到了通往未来的可能。

第一个判断,来自于我研究生的方向:外骨骼模拟和理论分析。这是一种从能量和第一性原理,判断外骨骼是否有效的工具。

研究过程中我发现,能对人产生显著正向作用的外骨骼产品,是存在理论可行性的。并且,我在模拟过程中也找到了非常有意思的构型——用一套动力系统同时为两条腿提供助力。

这个在当时被认为有些反直觉的想法,通过仿真验证,后来演变成了我们的第一代产品,也是全球首个单电机外骨骼。它极大程度地降低的外骨骼的重量、成本和结构复杂度。

第二个判断,视角来源于机器人行业的发展。

2019 年,MIT 开源了四足机器人论文,给行业揭示了一种全新的驱动方式——QDD(准直驱电机)。相较于传统的液压和气动方式,QDD 动力方案可以做到极高的功率密度、扭矩密度和控制精度,同时很好地控制成本。今天,电驱的扭矩和功率密度已经达到了人类肌肉的 10 倍以上。

在这些基础上,我们把消费类外骨骼从不可能变成了可能。

 

02

户外人群,让品类变得更酷

 

下一个重要问题,是「产品需求」。

做创新方向的硬件公司,最容易死在需求不明确,也就是「拿着锤子找钉子」。Hypershell 今天找到的主流消费人群包括:户外摄影师、背包客、旅游、徒步和登山爱好者 。对他们来说,外骨骼可以帮助他们走得更远、看得更多,去拍摄没有拍过的风景。

还有一部分,是我们之前自己都没有意识的用户群体。例如:越野滑雪和滑翔伞人群。外骨骼能帮助他们减轻上山的消耗,把更多精力留给下山的过程。

这些就是我们定义的「户外功能性出行人群」,即:从 A 点到 B 点,带有明确目的属性的人群 。

Hypershell 通过户外场景,改变了消费者对外骨骼的品类心智 | 图源:极客公园

当然,也有很多人问我们:为什么不先做老年人市场?这看起来是个更显而易见的需求。

其实,这是一个品类策略的问题。在 Hypershell 出现前,所有人对外骨骼的第一印象都是「医疗辅具」,谁穿就代表谁的身体「有问题」。不仅年轻人无法接受,老年人也非常抗拒。就像我们的父辈们抗拒助听器一样,觉得戴上就承认自己变老了。而一个负面的品类心智,会极大限制未来的拓展上限 。

相反,硬核户外人群则代表着对自由的向往和世界探索的渴望,这是一种非常积极的品类心智。

我们认为,只有当一个品类给用户留下的第一印象是「酷」,它的天花板才能被真正打开。

经过几年的尝试,这个策略被验证是有效的。今天,即使是老年人购买了我们的产品,他分享的内容也是和家人一起去看风景,重新登上了 10 年前能登上的那座山。Hypershell 成功改变了这一代人对这个外骨骼的看法,打开了品类的拓展空间。

 

03

「至暗时刻」和「意义感瞬间」

 

找到市场定位只是第一步。

作为穿戴类产品,外骨骼产品必须非常关注用户体验。具体来说,就是让用户获得的「正向收益」大于可能造成的「负面负担」。否则,即便是 Vision Pro 这样沉浸性很好的产品,也会因为佩戴舒适性,无法得到高频使用。

运动识别在长一段时间里,制约着外骨骼的发展。设备贴身穿戴,需要配合人一起做各种复杂的动作,应对多样化场景。所以,外骨骼需要一个跟人一样的 「 外置小脑 」 。

过去,这很难通过一套固定算法解决。

幸运的是,得益于今天的模型算力和大量用户数据,现在的产品可以比你更快知道你下一步的动作,可以准确预测你的动作趋势。无论是走路、跑步、上下楼梯、上下坡,还是骑自行车,它都能通过 AI 自适应,把所有自行车变成 E-bike。

就像电容屏让 iPhone 可以只保留一个 Home 键,AI 的出现,让 Hypershell 也可以实现极致简化的交互门槛,用户除了开关机不需要任何其他操作。

在外观设计上,Hypershell 只保留了一个开关机的物理按键 | 图源:Hypershell

带着这样的理念,我们在 2023 年通过众筹上线了第一款原型机。虽然拿到了几千个用户的支持,验证了需求,但很快我们就陷入了谷底——第一批灰度测试用户对产品的评价没有一个超过 60 分。用户们抱怨穿戴不舒服、助力姿势别扭、不兼容背包。

我想,如果把这样的产品发给用户,结果不仅这家公司可能就没了,整个行业的发展也会被严重拖后几年。

经过挣扎,我们决定砍掉第一代,重新开发第二代产品。我们本以为只需要半年时间,但因为采用了新构型,所有东西都要重做,最终用了一年半时间才完成开发,也导致我们众筹发货延迟。

而且,由于第二代产品采用了全新的双电机方案,成本比原来贵了几乎一倍,每发一台都在亏钱。但幸运的是,用户给予了我们足够的理解,最终产品也成功交付到了几万个用户手中,并开始对他们的生活产生帮助。

这是我们创业以来的「至暗时刻」之一,但一些画面又让我觉得所有煎熬都是值得的。

第一个图是我朋友发给我的,图片是一位老爷爷穿着我们的产品在地铁里。这让他想起了自己去世的爷爷。他说,如果这样的产品早出现几年,老人晚年的生活质量可能会更高。

第二个画面来自前段时间中国香港的火灾救援。我们捐助的外骨骼产品,让救援人员在灾后连续攀爬 30 多层楼的过程中,可以更好地保持体能,聚焦在救援上。这让我们感觉到科技赋能了生命,是我们意义感的高光时刻,也是人类历史上第一次动力外骨骼被规模化应用在抢险救援场景。

随着老龄化、城市化和数字沉浸,人类的平均年龄在增加,但平均行动力在下降。疫情隔离那几年也让我强烈感受到,我们的幸福感和驱动力很大程度上来源于和真实世界的连接。所以,我们的使命是:用技术增强人们的行动力,让每一个人的世界能够变得更大。

我最近的一个强调感受是:我们好像真的活在一个科幻的时代,过去想象里的东西都在加速的成为现实。在 AI 和机器人的技术赋能下,像外骨骼这样,过去大家认为不可能,或者已经存在但体验并没有那么好的品类,都可以被重新思考和设计。

这是一个无限可能的时代,也是属于我们这代人机会。我期待未来和大家一起,把我们想象里人人都在「钢铁侠」的世界变成现实。

浏览量: 3

人人都能当电影导演?万相 2.6 杀疯了:角色扮演、分镜控制,硬刚 Sora2

作者|Cynthia

编辑| 郑玄

还记得国庆期间朋友圈被 Sora 2 APP 支配的恐惧吗?

那时候,一定没人想到,这个出场即炸场的产品,同样出道即巅峰。

向来以天为单位不断刷新 sota 表现的大模型市场,唯独在视频生成上,此后足足两个多月,无论是谷歌 veo3.1 还是 Runway 推出的模型,都没能再现 Sora 2 在多人物不崩脸这个小细节上的稳定表现。

直到 12 月 16 日阿里万相 2.6 正式发布。在追齐 Sora 2 体验,并且推出独有的音频驱动生视频能力之外;万相 2.6 的这次升级更是将视角对准了多模态内容创作中多镜头切换、内容一致性的各种真实痛点,做到了让专业创作的乙方少加几次班,普通的 C 端内容创作爱好者 0 成本上手。

那么万相 2.6 体验究竟如何?它能否和 Sora2 一战?一定程度上,回答了这些问题,也就回答了未来多模态大模型究竟去往何方的核心命题。

 

01

万相 2.6 究竟做对了什么?

 

12 月 16 日,阿里旗下万相 2.6 正式发布,我们第一时间拿到了内测资格。

我们发现,这个涵盖文生视频、图生视频和角色扮演功能,图像生成和文生图共 5 款模型的组合拳产品,从功能亮点和功能丰富度角度来看,万相 2.6 已经是当之无愧国内的佼佼者 , 根据权 威大模型评测集 LMArena 的测试数据显示,万相图生视频位居国内第一 。

因为相比老对手 Sora 通过写实生成效果引发全球轰动的野心;万相这次 2.6 版本的能力升级其实主打就一个词,实用,并且把所有升级点砸向了影视制作、广告设计、短视频创作的真实痛点。

内容创作圈最头疼的,莫过于一致性崩塌。在传统动画行业,吉卜力工作室为了保证角色形象不跑偏、风格一致,会为了一部电影,几百位画师耗时两年画十几万张画稿,4 秒镜头能磨 1 年。而 AI 生成的噩梦,恰恰是前一秒主角还是圆脸,下一秒变成锥子脸,说话时嘴型和台词完全脱节。

针对这个痛点,万相 2.6 这次升级直接把声画一致性拉满,成为国内首个支持角色定制 + 音色同步的模型 :用户输入一段视频,AI 就能精准复刻角色的五官、动作甚至说话语气,就算是双人合拍,也不会出现脸飘到别人头上、镜头切换主角直接变脸的乌龙。

解决了一致性,下一个拦路虎是复杂场景的多角色呈现。

目前 Sora 2 与万相 2.6,是全球唯二实现该功能的模型。并且,万相 2.6 还能结合刚才提到的角色、声音一致性能力,让 AI 真正具备了一定的复杂画面生成能力。

而建立在一致性、多角色的基础之上,镜头调度和灯光审美往往是人类高质量视频内容的灵魂。

被奉为经典的宫廷剧《金枝欲孽》片头,导演通过一段不到 5 秒的镜头切换里,以及演员站位的变化,就说明了五个主要人物之间的关系与感情纠葛,二十多年过去,至今仍被奉为神级镜头调度。

王家卫电影的氛围感与幽微的人物情绪流动,也有一半功劳要归给灯光师的精准控光。

但以前 AI 生成视频,要么镜头衔接生硬,要么角色突然瞬移,上一镜在左边,下一镜直接出现在右边,更不用提各种精美的打光,以及氛围的塑造。

万相 2.6 的「智能分镜调度」很好地解决了以上问题,通过支持「总体描述 + 镜头序号 + 时间戳 + 分镜内容」的公式化输入,比如「第 1 镜 [0-3 秒] 远景推近,第 2 镜 [3-5 秒] 特写」,AI 不仅能严格执行,还能保证跨镜的场景、角色、氛围统一,再也不会出现「上一镜穿红衣,下一镜变蓝裙」的低级错误。

其实,万相早从 2.2 版本起,就已经能通过精细的灯光控制、环境细节呈现,支持日光、月光、硬光、柔光等精细调节,让 AI 生成的内容从「能看」升级到有「审美」,具备专业级内容生成能力。

光说不练假把式,我们带着挑刺的心态实测了整整三天,从角色定制到多镜叙事,从视频生成到图片创作,摸清了它「让人人皆可做导演」的真实水平,以及 技术 demo 与生产级工具之间的差距。

 

02

视频能力实测:

人人都能生成神级镜头

 

过去很多行业测试,为了保证效果,经常会让 AI 生成一些无声视频,或者画面简单的动画风素材,再或者干脆就是一个几乎静止的背景中,只有一个小幅度动作的简单运动主体(甚至都不敢把主体设置为人或者动物这样有复杂肌理和动作的形象)。

这次对万相 2.6 的测试,我们不搞虚的,把一致性、多镜头、音画同步、长视频、审美,这些真实行业痛点、难点全都测一遍。

测试一:多镜头叙事

一直以来,多镜头叙事都是电影高级感的核心来源之一。这里我参考《哪吒》的画风,给了一段复杂场景、多主体的多镜头切换的提示词:

镜头一:低角度远景,镜头快速推进 3s

画面内容:仙境般的云端建筑群在云雾中若隐若现,一群白鹤自左向右舒展翅膀,掠过层层楼阁的屋檐

视觉效果:叠加中强度动态模糊,伴随轻微追焦微颤,焦点锁定鹤群与建筑轮廓

镜头二:中近景中速推进 + 追焦微颤 3s

画面内容:近距离捕捉白鹤羽翼贴近檐角的流畅轨迹,镜头紧跟鹤群运动方向。视觉效果的动态模糊逐渐减弱,追焦微颤幅度保持轻微,强化画面衔接感

镜头三:无缝转场,特写,镜头恒定不动 0.3s

画面内容:白鹤羽翼擦过最外侧屋檐翘角的瞬间,以檐角硬轮廓完全遮挡画面。无额外特效,保留自然光影,确保转场干净利落

镜头四:主体聚焦,从近景→特写,镜头缓慢推近 3s

画面内容:转场后聚焦檐角顶端,橘猫端坐舔爪(近景),随后推至特写,呈现舔爪细腻动作与毛发质感。画面清晰,焦点全程锁定橘猫

镜头五:特写变中近景中速推进 + 追焦微颤 4s

画面内容:橘猫被打扰,停止舔毛,看了一眼镜头后,跳下屋檐,动作轻巧,追焦微颤幅度保持轻微,强化画面衔接感。

这里的难点在于:首先是画面足够复杂,画面中主体来回切换,从飞翔的白鹤到舔毛的橘猫,再到跳下屋檐的橘猫,而伴随主体的动作变化,镜头也在同步于远景-中景-特写-中景中来回切换。

可以看到,生成的视频里,生成的视频里,《哪吒》式的东方写意美学被精准落地:云雾是渐变的水墨质感,云端建筑的飞檐翘角带着古风的韵味。白鹤运动的镜头即使高速推进没有丝毫卡顿,动态模糊恰好放大了闯入仙境的沉浸感;后续橘猫舔爪的毛发细节栩栩如生,镜头也会随着橘猫的眼神变化而出现画面的移动。

最难能可贵的是,三次大的镜头切换(白鹤→舔爪橘猫→跳檐橘猫)没有出现任何突兀感:鹤群的飞行轨迹是天然的视觉引导线,檐角转场是承上启下的视觉桥梁,橘猫的动作变化则成为镜头运动的点睛之笔。整体完全复刻电影级无缝衔接,没有任何卡顿或脱节。

测试二:长视频+审美

一直以来,AI 生成视频都不难,但生成稳定、漂亮、可用的长视频却一直是困扰依旧的痛点。

万相 2.6 支持最长 15 秒生成(角色扮演功能 10 秒),这个时长看似不长,但刚好戳中核心场景:短视频场景,15 秒是黄金时长、广告片场景,30 秒广告可拆成 2 个 15 秒片段、而在短剧片段,10-15 秒就能完成男主歪嘴一笑、龙王归位,一众吃瓜群众从白眼鄙视瞬间切换惊恐讨好的爽剧经典套路。

这里我们测试一个专业服装拍摄的商用级场景,提示词如下:

镜头一:0-3 秒,中景→近景。林间光斑透过树叶洒落,美女身着米白色棉麻长裙,缓步走在铺满落叶的小径,裙摆随步伐轻晃 暖调柔光,画面静谧,聚焦棉麻面料的垂坠感,轻柔风声、树叶沙沙声

镜头二:3-7 秒,特写→中近景。风拂过,特写衣角翻飞的弧度,棉麻纹理清晰可见;镜头拉回,松鼠蹲在她脚边啄食。自然光影,无多余特效,突出面料透气飘逸。风声渐柔,加入轻微呼吸声

镜头三:7-12 秒,近景→特写。美女抬手轻拂额前碎发,笑容舒展,小鹿从林间探出头,与她对视;镜头聚焦面料贴肤的舒适状态画面柔和,焦点在面料与人物神态之间切换, 背景音渐弱,预留口号空间

镜头四:12-15 秒,中景定格。美女站在林间转身,裙摆随风轻扬,小动物环绕身旁,画面定格在面料飘动的瞬间 暖光渐变柔和,画面干净治愈。背景音清晰女声:「好面料,会呼吸」。

这里的难点在于,除了美之外,棉麻质感难还原纤维肌理,还要考虑自然垂坠与光影通透感,否则容易显塑料感,此外,画面中的小动物互动增加了整体画面复杂度,而森林光影也需要在光斑、光线折射等细节做到真实且有美感。

行业人都懂,过去这种级别的画面,以前要找外景、模特、灯光师,拍摄 + 后期至少 3 天,现在用万相 2.6,输入提示词几分钟生成,直接能当成片交付。

此外,值得一提的是,万相 2.6 除了生成的视频质感高,操作门槛还极低。写出以上专业级分镜脚本,其实只要按照官方给出的【总体描述 + 镜头序号 + 时间戳 + 分镜内容提示词】指令指引,就能实现智能分镜调度功能。而这种能精准控制每个角色的动作顺序和画面镜头调配的能力,在短视频剧情创作、IP 衍生内容生产中简直是降维打击。

测试三:基于参考视频的人物,搞定人物一致性+音画同步。

这里我选用的输入素材是一段林黛玉的特写,以及模版中已有的关羽形象,来一段名著大乱炖。

提示词如下: 暮春清晨,隆中茅庐外竹林青翠,薄雾如纱,屋内隐约传来抚琴之声。镜头先以全景定格——诸葛亮身着月白道袍,临窗而坐,指尖拨弄琴弦,琴声悠扬;

镜头突然切换为快速跟拍,@ 关羽走进柴门,镜头推进至中近景,大步流星到诸葛亮面前,,说「我回来了了」

镜头随着诸葛亮的眼光移动横切,@ 林黛玉 中近景缓缓入画。特写中眼眸流转着几分嗔怨与疏离:「早知他来,我便不来了。」

最终镜头切回诸葛亮收尾。

这里的难点在于:我给出了两个需要参考的主角,以及一个没有任何参考只有文字描述构建的诸葛亮形象,并且每个主角都多次引用在提示词不同位置,需要 AI 保持一致的情况下,精准控制主角行为。

可以看到,借助模态联合建模能力,万相 2.6 生成的视频里,时序动态(比如关羽的走路姿势)、情绪变化(比如林黛玉嗔怪的神情)全都和参考视频几乎一致,最惊艳的是:人物的嘴型和台词严丝合缝,声音质感没有半点 AI 塑料感。

另外,相同的人物角色,我又尝试直接给 AI 一段参考的黛玉的声音,让它自主生成视频,可以看到,我把背景音乐以及黛玉的语气改变之后,她整个人的神态也会随之变得生动活泼,并且口型与声音完全匹配。

而这段视频里,对比 Sora2,万相 2.6 的差异化优势也很明显:前者虽然支持长视频,但缺乏音频驱动生视频的功能,你没法让 Sora2 参考一段人声,生成对应角色的说话视频。而万相 2.6 直接把声音 + 画面绑定的能力,对于广告片、短剧、虚拟人直播等商用场景来说,实用性直接拉满。

 

03

图像能力实测:

设计圈的效率革命来了

 

如果说万相 2.6 的视频功能已经有了初步踏足专业影视圈的能力,那其图像能力可以说已经足以精准拿捏设计圈。

图像层面,万相 2.6 的核心升级,都围绕商用级展开:解决企业用户最关心的图文一体化排版、多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制等细节。

我们用两个真实商业场景做了实测,结果发现:以前需要设计师、插画师、排版师协作一周的活儿,现在一个人用万相 2.6 输入指令,几小时甚至几分钟就能搞定,而且细节精准到可以直接商业交付。

测试一:基于多张图片的图文混排

过去,内容创作圈的三重折磨在于:写文案的不懂设计,做设计的不懂文案,排版的夹在中间反复拉扯。比如出版社做绘本,要找作家写故事、插画师画配图、排版师调格式,三者风格要统一、内容要契合,光沟通修改就要耗半个月。

现在用万相 2.6,只要写这样一段提示词:

创作一本关于环保的儿童绘本,插画风格为治愈系水彩风,色彩以蓝白为主,每页插画要和文字内容精准对应,整体风格统一。故事内容:1、在遥远的北极,小北极熊乐乐发现冰面越来越小;2、乐乐遇见了迷路的鲸鱼,鲸鱼告诉它「人类在保护地球」;3、乐乐决定到处走走看;4、一年后,乐乐回到家乡,冰面变宽了,还多了很多小伙伴。

提示词背后的难点在于考验 AI 的逻辑理解 + 设计统筹能力:①要先拆解长文本的叙事结构,4 个段落之间剧情不能张冠李戴;②要保持插画风格、色彩、角色形象的高度统一,不能第一页是圆耳朵,第三页变成尖耳朵。

可以看到,生成的绘本不仅风格、色彩、角色完全一致,就连提示词中没有写到的文字意境也做了精准表达,比如第一页的小北极熊站在破碎的冰面上,眼神迷茫;第四页的冰面宽阔,小伙伴一起玩耍,氛围温暖。

而这也意味着,不管是绘本创作、公众号推文还是知识付费课件,后续都能实现文案输入→成品输出的一步到位,省去了找图 + 修图 + 排版的全流程,效率提升至少 10 倍。

测试二:商用级一致性 + 多图创意融合

过去,品牌方的物料噩梦在于,真人拍摄,经常因为各种情况耽误拍摄进度,需要场地加钱、模特加钱、各种设备重新报批申请;而用 AI 批量生成宣传图,AI 又像在开盲盒,只是想把产品图、背景图、参考风格图融合成一张海报,也会出现产品比例失调,背景和风格割裂,严重影响品牌识别度的问题。

针对这些,我们设计一段针对性测试。提示词: 生成美妆品牌宣传图,要求:①核心产品为上传的口红(参考图 1),保持产品外观、logo、包装细节完全一致;②融合上传的花的照片(参考图 2),背景为花瓣飘落的场景;③产品垂直摆放在画面中央,周围散落 3-5 朵花,花瓣纹理清晰;④色调光影有大片质感。

生成一张之后,我们再要求其搭配一个模特,试用产品。

提示词背后的难点在于,让 AI 同时实现精准控制 + 创意融合的双重考验:既要要确保产品的外观、logo、包装细节在两张图里分毫不差(这里我专门选择了 YSL 这样的复杂 logo,并且 YSL 的口红膏体为相对少见的方形,其他 AI 在生成时,很容易把膏体变成常见的圆形);还要保证多图融合难在要把产品图、背景图、风格图有机结合,不能让产品像贴在背景上。

可以看到,生成的两张宣传图直接达到商用级标准。不仅所有要素之间也融合自然,并且做到了花朵背景和大片风格完美衔接完全不抢戏,主体产品突出,甚至金属包装会反射花瓣的光影这样的细节都做到了完美还原,毫无 AI 的痕迹。

这对品牌方来说,这意味着「一次设定,无限复用」,不仅可以做无限的创意搭配,还能保证品牌形象的统一性,效率革命近在眼前。

 

04

尾声

 

当然,万相 2.6 不是完美的。我们实测中发现几个小问题:比如视频最长只能 15 秒,对于需要长叙事的场景还是不够;非常复杂动作,比如翻跟头 + 复杂舞蹈动作,偶尔会出现肢体变形。但这几乎也是全行业目前亟需解决的问题。

但万相 2.6 乃至 Sora2 们微小的不足,掩盖不了一个行业真相:AI 视频生成正在从技术炫技进入落地加速阶段。AI 带来的,本质上是对内容创作生产关系的重构:不仅有大量专业影视制作平台在用 AI 制作漫剧、短剧,社交平台更是涌现了一批博主用 AI 制作的小猫打架、小说动画小短片在各种平台爆火。

基于万相 2.6 模型核心能力,千问 APP 上线「AI 小剧场」玩法,国内首次实现「角色合拍」能力,用户可与朋友或名人轻松同框出演 AI 短片。

而在这一过程中,人类只需保留想象力、审美以及创意,而剩余的执行细节,可以全部交给 AI。

这一次,有创意,就能人人当导演的时代真的来了。

浏览量: 3

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金;消息称 SpaceX 要求员工进入 IPO 前的「静默期」;《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64|极客早知道

OpenAI 已讨论以约 7500 亿美元的估值筹集数百亿美元资金

12 月 18 日,据 The Information 独家报道,据三位知情人士透露,OpenAI 已与部分投资者展开初步洽谈,计划以约 7500 亿美元的估值进行新一轮融资。

其中两位人士称,此次融资规模或达数百亿美元,最高甚至有望达到 1000 亿美元。目前相关磋商尚处早期阶段,尚未敲定任何事项。这一估值水平较该公司去年 10 月的上一轮股权融资估值高出 50%,融资所得将进一步充实其本就颇为雄厚的现金储备,以支撑人工智能模型的训练与运营。除了已从 Thrive Capital、软银等投资方筹集的超 600 亿美元资金外,OpenAI 已着手筹备新一轮融资。据悉,亚马逊正洽谈向该公司投资 100 亿美元或更多资金。(来源:The Information)

OpenAI 和谷歌通过免费赠品争夺印度用户和训练数据

12 月 17 日,据外媒报道,OpenAI、谷歌和 Perplexity 在印度开始了一场人工智能用户争夺战。

为了吸引对价格敏感的用户,谷歌在 11 月开始向印度最大的电信运营商 Reliance Jio 的 5 亿用户免费提供其价值 400 美元的 Gemini AI Pro 订阅,为期 18 个月。

OpenAI 还将其 ChatGPT Go 计划免费提供一年,与现有计划相比,该计划的使用时间延长,但并非无限。与此同时,Perplexity 还为印度电信公司 Airtel 的用户免费提供了一年的 Pro 工具(全球售价为每年 200 美元)。(来源:财联社)

 

谷歌 DeepMind CEO:AI 泡沫存在于早期初创公司中

12 月 17 日,谷歌 DeepMind 首席执行官 Demis Hassabis 警告称,AI 融资狂潮中存在「泡沫」,尤其是在高估值的早期初创公司中。

Hassabis 强调,有些 AI 初创企业「基本上还没开始运营」,却「一上来就获得了数百亿美元的估值」,这种状况可能不可持续。他补充说,人工智能「在短期内被过度炒作」,但「在中长期内仍未得到充分重视」。(来源:财联社)

 

腾讯成立多个 AI 部门,前 OpenAI 研究员姚顺雨任要职

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部。

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

据了解,Vinces Yao 就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任 OpenAI 研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。(来源:极客公园)

消息称 SpaceX 要求员工进入 IPO 前的「静默期」

12 月 17 日,据彭博社援引多名知情人士消息称,SpaceX 已正式告知员工进入监管静默期,使公司距离计划明年启动的首次公开募股更进一步。在资本市场规则中,静默期是上市前的关键阶段,企业在此期间不得发布可能影响股价的言论,目的是确保市场信息披露的公平性。

知情人士称,按照美国证券交易委员会的要求,SpaceX 已明确禁止员工就上市计划进行任何形式的公开讨论或宣传,包括公司发展速度、业务前景和估值水平,适用于社交平台、公开演讲、会议和媒体采访。

先前的消息称,SpaceX 正在筹划一项规模空前的上市交易,目标融资额超过 300 亿美元(现汇率约合 2114.6 亿元人民币),对公司的整体估值约为 1.5 万亿美元(现汇率约合 10.57 万亿元人民币),若成行将刷新全球上市规模纪录。

根据彭博社看到的内部文件,SpaceX 表示,2026 年的潜在上市计划主要用于筹措资金,以支持「星舰」火箭的超高发射频率,加速在轨 AI 数据中心建设,并推进月球基地项目。

SpaceX 同时提醒,上市时间和估值仍存在变数,公司保留不推进首次公开募股的可能性。(来源:IT之家)

 

消息称自动驾驶公司 Waymo 拟募资超 150 亿美元,估值接近 1000 亿美元

12 月 17 日,据彭博社报道,谷歌母公司 Alphabet 旗下自动驾驶子公司 Waymo 正洽谈一轮融资,拟募资超 150 亿美元(约合 1057.3 亿元人民币),公司估值接近 1000 亿美元(现汇率约合 7048.66 亿元人民币),本轮融资由其母公司牵头。

知情人士透露,这家自动驾驶出租车制造商已探讨向 Alphabet 公司及外部投资者募资数十亿美元的可能性。

部分知情人士表示,Waymo 与其潜在投资方曾将公司估值上限定在 1100 亿美元,但最终募资规模与估值仍未敲定。

Waymo 上一轮融资于 2024 年 10 月完成,由母公司 Alphabet 牵头,彼时公司估值超过 450 亿美元,Alphabet 同时也是谷歌的控股公司。此次估值大幅攀升,凸显出 Waymo 已跻身无人驾驶技术领域龙头地位,公司正斥巨资扩充车队规模,并向新城市拓展业务。

两名知情人士称,Waymo 当前的年化营收运行率已突破 3.5 亿美元。(来源:IT之家)

 

哪吒汽车被曝开新号成立「谦和汽车」知情人士:为重整做准备

12 月 17 日,有媒体爆料称,哪吒汽车悄悄「开新号」。一家名为「谦合汽车」的公司成立,公司的注册地、关键人物和哪吒汽车母公司合众汽车均有交集。

公开信息显示,谦合汽车由上海山子有谦科技全资控股,注册资本 5000 万元,成立日期为 2025 年 12 月 11 日,法人朱人杰,其还为山子有谦公司 CEO,山子有谦为山子高科旗下公司。

值得关注的是,「山子高科、朱人杰」,半年前就频繁出现在哪吒品牌重组的传闻中。

对此,有媒体报道称,据山子有谦知情人士处消息,公司投资成立谦合汽车,正是为了重整哪吒汽车母公司合众新能源做准备。(来源:cnBeta)

 

小米公布短剧内容进展:拥有 S 级短剧 1000 部,人均短剧消费时长 70 分钟

12 月 17 日,在 2025 小米人车家全生态合作伙伴大会上,小米互联网业务部总经理刘婵发表《面向全生态的互联网服务》主题演讲。

她表示,多市场、多终端、多场景深度融合,小米互联网已构筑起真正意义上的全局生态。全球国家覆盖 100+,终端活跃设备数 10 亿+,独特场景 100+。

另外,她还透露了小米在短剧内容方面的进展,拥有 S 级短剧 1000 部,人均短剧消费时长 70min。

此前据媒体报道,今年 10 月,小米旗下独立短剧 App「围观短剧」正式登陆其应用商城,主打「无广告、全免费、轻量化」的模式。(来源:新浪科技)

 

京东在全国范围上线「自提」功能,12 月 18 日联合餐饮大牌请客

12 月 17 日,京东在全国范围内上线「自提」功能,为用户带来「线上下单、到店自提、即提即走」的餐饮消费新体验。

为了让用户更好地体验「京东自提,值得一提」,京东自提将于12 月 18 日推出「大牌请客」重磅福利。活动当天,用户可在指定整点时段,抢购涵盖咖啡奶茶、中餐西餐、小吃宵夜在内的多品类自提美食,部分商品抢购价低至 1 分钱。(来源:TechSir)

 

汽车博主韩路:换代小米 SU7 明年二季度上市,要涨 2 万元

12 月 17 日,知名汽车博主「韩路」今日透露「独家小道消息」称,小米 SU7 换代明年第二季度上市,升级颇多,但价格要涨 2 万。

目前在售的小米 SU7 车型已于 2024 年 3 月发布,售 21.59 万元起,若是涨价 2 万,那么就是 23.59 万,看齐特斯拉 Model 3。(来源:快科技)

 

摩尔线程后又一国产 GPU 公司沐曦股份上市:首日高开 568.83%,市值已达 2800 亿元

12 月 17 日,继摩尔线程之后,国产 GPU 公司沐曦股份于今日上市(股票代码 688802),首日高开 568.83%,报 700 元,按开盘价计算,中一签可赚 29.77 万元。沐曦股份的市值已经达到了 2800 亿元。

沐曦股份此次发行价格为 104.66 元 / 股,对应市值约 418.74 亿元。本次上市共发行 4010 万股,占发行后总股本的 10.02%,扣除发行费用后预计募集资金净额为 38.99 亿元,主要用于「新型高性能通用 GPU 研发及产业化项目」、「新一代人工智能推理 GPU 研发及产业化项目」和「面向前沿领域及新兴应用场景的高性能 GPU 技术研发项目」。(来源:IT之家)

谷歌突袭式发布Gemini 3 Flash,零门槛接替全球数亿用户默认模型

12 月 18 日凌晨,谷歌毫无预警推出 Gemini 3 Flash,并即刻设为 Gemini 应用默认模型,全面取代前代。用户可免费体验其推理能力,在权威编码测试 SWE-bench 中得分高达 78%,部分逻辑能力反超旗舰版 Gemini 3 Pro。

新模型以低于 Pro 版四分之一的价格,实现 3 倍于前代的速度,突破高智能、低成本与快响应的「不可能三角」。其每百万 tokens 输入定价 0.5 美元,支持语音建站等高频开发场景,可实时完成推理与自我验证。

Gemini 3 Flash 已通过 Google AI Studio、Gemini API 等平台上线,同步整合进谷歌搜索体系,与 Pro 版形成高低搭配的动态算力布局,标志着 AI 交互从实验对话进化为工业级决策引擎。(来源:极客公园)

 

Meta AI 眼镜重磅升级:新增「对话聚焦」和 Spotify 视觉配乐功能

12 月 17 日,Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新(v21),推出了两项关键新功能:「对话聚焦」以增强嘈杂环境中的听力清晰度,以及与 Spotify 合作的「视觉配乐」功能。

本次更新中最具实用性的功能是「对话聚焦」,该功能利用 AI 眼镜的开放式扬声器和人工智能技术,能够放大对话者的声音,从而帮助用户在嘈杂的环境,如繁忙的餐厅、酒吧或通勤列车中,更清晰地听到对方说话。

另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。

例如,当你看向一张专辑封面时,眼镜可以播放该歌手的歌曲;当你看着装饰有礼物的圣诞树时,它会播放节日音乐。Meta 承认这项功能更多是「噱头」,但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。(来源:aibase)

《阿凡达 3》媒体口碑解禁:烂番茄新鲜度 68%,M 站开分 64

12 月 17 日,《阿凡达 3》外媒评价解禁,烂番茄新鲜度 68%,均分 6.4,不及第一部《阿凡达》81% 新鲜度、7.8 均分以及《阿凡达 2》76% 新鲜度、7.1 均分;MetaCritic 开分 64,不及第一部的 83 及前作《阿凡达 2》的 67 分。

其他主流媒体对《阿凡达 3》的评价是:

Variety:故事尚可,动作场面精彩,《阿凡达 3》在不再新颖的愿景上做出了新的演绎。它比第二部好——更大胆、更紧凑——而且仍然有不少令人惊艳之处。但它在视觉上已不再给人前所未有的感觉。

IGN:《阿凡达 3》虽未如前作那般实现技术飞跃——毕竟间隔三年而非十三年,这也在情理之中。但它在创新性上的不足,却通过全方位的精雕细琢得到了充分弥补。

《金融时报》:三部电影过去了,套路依然不变:突破性的电脑特效,直白的反殖民主义信息,以及在超长途航班上经常出现的呆滞眼神。

《泰晤士报》:很难描述一部实际上只是电脑生成的立体模型电影,里面充满了奇幻的动植物和盛装打扮却无处可去的神秘生物,这部电影究竟有多么缺乏戏剧性的紧迫感。(来源:cnBeta)

浏览量: 4

腾讯大模型「变阵」:成立 AI Infra 部,姚顺雨出任首席 AI 科学家

头图来源:视觉中国

 

 

大模型战事进入深水区,腾讯正在通过调整阵型,来适应更快的速度。

12 月 17 日,腾讯宣布升级大模型研发架构。这次调整最核心的变化在于成立了三个新部门:AI Infra 部、AI Data 部、数据计算平台部 。

这是腾讯在混元大模型步入 2.0 时代后,对研发体系的一次全面「提速」。

在人事任命上,技术派高管被推向了更核心的位置。Vincesyao 出任「CEO/总裁办公室」首席 AI 科学家,直接向腾讯总裁刘炽平汇报;同时,他还兼任新成立的 AI Infra 部及大语言模型部负责人,向技术工程事业群(TEG)总裁卢山汇报。

一手抓算法(大语言模型部),一手抓算力基建(AI Infra 部),同时直通公司最高决策层,这一配置表明:在腾讯的战略棋盘中,大模型的研究与工程落地正在完成深度耦合。

 

姚顺雨,98年的AI顶尖青年科学家

 

据了解,Vinces Yao就是数月前传闻入职腾讯的姚顺雨,毕业于清华和普林斯顿大学,曾任OpenAI研究员。

据外媒报道,自今年 9 月从 OpenAI 离职加入腾讯以来,姚顺雨被高层赋予了极大的权限,以推动内部的文化与组织变革。过去几个月里,腾讯一改往日在大模型人才战中的守势,开始以双倍薪资激进地从字节跳动等竞争对手处挖角核心研究员,并为应届博士生开出高出行业标准 50% 的薪资溢价。

姚顺雨10月在X上发帖|图片来源:X

 

更深层的变化在于「权力交接」。腾讯正在进行内部重组,降级那些虽擅长工程落地和广告算法、但缺乏前沿 AI 研究背景的管理者,将指挥棒真正交还给「研究派」。这种去肥增瘦的动作,旨在打破过去「产品经理思维」主导大模型研发的局限。

姚顺雨出生于1998年,是人工智能领域的顶尖青年科学家,本科毕业于清华大学计算机系(姚班),后赴普林斯顿大学攻读计算机科学博士学位,2024年正式加入 OpenAI,专注于智能体(Agents)与深度研究(Deep Research)方向。

他在OpenAI任职及相关研究期间,主要在大模型推理、Agent(智能体)——及评估体系方面取得了核心成果:

提升推理能力:提出了著名的思维树(Tree of Thoughts, ToT),通过让大模型进行多路径推理和反复思考,大幅提升了模型解决复杂问题的能力;

智能体研究:他是 SWE-bench(大模型代码能力评估数据集)和 SWE-agent(开源AI智能体)的关键贡献者,并参与了 ReAct(推理与行动结合)和 CoALA(智能体认知架构)等开创性工作。

此外,他还在个人社交平台发布了关于“AI 下半场”的思考,主张AI发展的重心应从单纯的训练转向定义问题与评估,提出要像产品经理一样思考“解决什么问题”,认为在当前阶段评估比训练更为重要。

 

为什么是 AI Infra?

在过去一年的「百模大战」中,行业逐渐达成一个共识:大模型的竞争,早已超越了单纯的算法层面,变成了算力、数据、工程化能力的综合比拼。

此次腾讯成立 AI Infra 部,也是为了解决「算力效率」这一关键命题。

据官方信息,AI Infra 部将作为腾讯大模型体系的重要一环,聚焦于大模型分布式训练、高性能推理服务等核心技术。其目标非常明确:构建大模型 AI Infra 的核心竞争力,为算法研发和业务场景落地提供稳定、高效的技术底座。

这符合大模型技术演进的规律——当模型参数量级不断跃升(如腾讯近期发布的混元 2.0),如何让庞大的 GPU 集群高效运转,如何在大规模并发下保证推理速度和成本,已经成为决定生死的「隐形战场」。

腾讯方面表示,在过往混元大模型的训练及海量业务实践中,腾讯已积累了系统化的工程能力。此次独立建制,意在进一步强化这一优势,提升 AI 大模型的整体研发效率。

除了算力基建,数据质量和评测体系也被提到了新的高度。

此次升级中,新成立的 AI Data 部 将由刘煜宏负责,专注于大模型数据及评测体系建设;而数据计算平台部则由陈鹏负责,聚焦大数据和机器学习的数据智能融合平台建设。两人均向公司副总裁蒋杰汇报。

这意味着,数据处理不再只是算法研发中的附属流程,而是作为独立且关键的环节被标准化和制度化。

与此同时,王迪将继续担任大语言模型部副总经理,向姚顺雨汇报,确保模型算法团队与新成立的基础设施部门保持紧密协同。

 

效率变革,从代码到产品的「AI 化」

过去两年,尽管拥有微信这样的国民级应用,腾讯在 AI 模型层却一度被外界视为「旁观者」。

一个标志性事件是,今年 2 月腾讯元宝率先接入 DeepSeek R1。虽然这一动作让元宝的活跃用户数实现了数量级跃升,但也给腾讯内部敲响了警钟:自有模型的缺位,甚至导致内部部分业务团队因混元竞争力不足而犹豫是否接入。

这种焦虑最终转化为自上而下的压力。据报道,腾讯总裁刘炽平今年早些时候曾对团队下达硬指标,要求必须在技术水位上赶超对手。此次变革,正是为了解决此前因组织分散导致的资源内耗,集中力量为算法团队输送「弹药」。

架构调整的最终目的,是为了支撑产品和业务的快速奔跑。

在前不久的 12 月 5 日,腾讯发布了混元 2.0,在预训练数据和强化学习策略上进行了显著改进,其 3D 模型甚至保持着全球领先水准,在开源社区下载量突破 300 万。

在应用层,腾讯元宝上线初期保持了「一天一版本」的迭代频率,目前用户规模已稳居国内 AI 应用前三。而在腾讯内部,一场静水流深的 AI 效率变革正在发生:超过 90% 的腾讯工程师正在使用腾讯云代码助手 CodeBuddy;50% 的新增代码由 AI 辅助生成;代码评审环节的 AI 参与度高达 94% 。

目前,腾讯混元大模型已在腾讯会议、微信、广告、游戏等内部超过 900 款应用和场景中落地。

近期混元团队的高密度人才引进与重组,本质上正是为了支撑这种高强度的技术攻坚与业务渗透 。通过成立 AI Infra 等新部门,腾讯正在试图打通从底层算力、数据处理到上层算法、应用落地的任督二脉,为接下来的 AI 长期竞赛备好粮草。

 

 

 

浏览量: 4

追赶谷歌,OpenAI 推出全新旗舰生图模型;折叠屏 iPhone 设计细节曝光;余承东接任华为终端有限公司董事长|极客早知道

已免费开放:OpenAI 最强 AI 生图模型登场,奥尔特曼变身性感消防员

12 月 17 日消息,OpenAI 昨日(12 月 16 日)发布博文,推出「全新旗舰 ChatGPT 图像生成模型」GPT Image 1.5,并罕见公开了该项目背后的庞大研发团队名单,并同步在 ChatGPT 中推出了专用的「Images」(图像)标签页。

此次更新被视为 ChatGPT 图像生成能力的重大飞跃,新模型不仅能生成高保真图像,更在「听懂人话」方面表现出色,即具备极强的提示词遵循能力。

无论是从零创作还是基于上传照片进行编辑,GPT Image 1.5 都能在保留原图核心要素的同时,精准执行用户的指令。

据 OpenAI 介绍,新模型最突出的亮点在于对细节的极致掌控。在生成或编辑图像时候,GPT Image 1.5 能够完美保留光线、构图以及人物外观等关键特征,避免了以往 AI 改图「面目全非」的问题。

此外,该模型大幅提升特定场景下的表现,例如能生成更逼真的服装试穿效果,提供改进的风格滤镜,并能进行极具原创感的概念性转换。

长期以来困扰 AI 绘图的「文本乱码」问题,在 GPT Image 1.5 中得到了显著改善。新模型在文本渲染方面表现优异,能准确地将文字融入图像中。

同时,OpenAI 全面升级 ChatGPT 的编辑工具,用户现在可以精准地添加、移除、组合或移位图像元素。OpenAI 将此次升级形容为把 ChatGPT 变成了一个随身携带的「迷你修图工作室」,用户随时随地都能进行专业级的图像处理。

为了提升使用体验,ChatGPT 在网页端(chatgpt.com)和移动应用侧边栏中新增了独立的「Images」入口,该界面内置了多种预设滤镜和灵感提示词,帮助用户快速上手,已面向全球所有 ChatGPT 用户和 API 用户开放,并且与所有模型无缝兼容。(来源:IT 之家)

余承东接任华为终端有限公司董事长

12 月 16 日消息,国家企业信用信息公示系统显示,华为终端有限公司发生工商变更,由余承东接任公司董事长。目前,何刚担任公司经理,董事成员包括朱平、何刚、杨波等。

华为终端有限公司成立于 2012 年 11 月 23 日,法定代表人为魏承敏,注册资本 6.06 亿人民币,经营范围含开发、生产、销售通信及电子产品、计算机、卫星电视接收天线、高频头、数字卫星电视接收机及前述产品的配套产品,并提供技术咨询和售后服务等。

股东信息显示,该公司由华为终端(深圳)有限公司全资持股。(来源:CnBeta)

AMD CEO 苏姿丰到访中国:率队访问联想北京总部,参观人形机器人等最新技术成果

12 月 16 日消息,据第一财经,AMD 公司董事会主席兼 CEO 苏姿丰率高管团队造访联想集团位于北京的全球总部。在联想集团多位高管陪同下,AMD 一行参观了包括人形机器人在内的多项联想最新产品与技术成果。

苏姿丰(Lisa Su)1969 年 11 月 7 日出生于中国台湾省台南市,为美籍华裔半导体芯片专家,美国国家工程院院士、美国艺术与科学院院士,美国超威半导体公司(AMD)董事长兼首席执行官。(来源:IT 之家)

美国男子「听信 ChatGPT 谗言」弑母后自杀事件后续:OpenAI 拒交关键聊天记录

12 月 16 日消息,科技媒体 Ars Technica 今天(12 月 16 日)发布博文,报道称在一起凶杀案中,ChatGPT 涉嫌诱导凶手,但 OpenAI 却拒绝提供案发前几日的完整聊天记录。

美国康涅狄格州于 2025 年 8 月发生一起惨剧,56 岁的健美运动员 Stein-Erik Soelberg 在杀害其 83 岁的母亲 Suzanne Adams 后自杀。

博文介绍,受害者家属正式起诉 OpenAI,指控其产品 ChatGPT 加剧了凶手的精神疾病,并直接诱导了暴力行为。起诉书称,Soelberg 在离婚后陷入精神困境,将 ChatGPT 视为唯一知己,而 AI 不仅未进行劝导,反而肯定了他的一系列疯狂妄想。

家属通过 Soelberg 生前发布在社交媒体上的视频,拼凑出了部分对话内容。记录显示,ChatGPT 称 Soelberg 为「肩负神圣使命的战士」,让他相信自己唤醒了 AI 的意识,并处于类似《黑客帝国》的世界中心。

更为致命的是,当 Soelberg 妄想母亲通过汽车通风口向他「投放迷幻药」时,ChatGPT 竟对此表示认同,进一步强化了他对母亲的仇恨与恐惧。

尽管部分记录已曝光,但家属仍无法获取案发前几日最关键的完整聊天日志。OpenAI 称基于保密协议或隐私政策,拒绝提供这些数据。

Mozilla 新任 CEO 表态:继续押注 AI 为 Firefox 打造可信任的 AI 功能

多年来,Mozilla 一直在平衡其「使命驱动型非营利组织」和「依赖市场收入赖以生存的公司」这两种身份:一方面通过产品推动开放、隐私友好的开放网络愿景,另一方面现实中又严重依赖与 Google 的搜索分成协议来维持财务运转。在近两年中,Mozilla 基金会和相关项目经历了多轮裁员和架构调整,这也引发了外界对其如何在倡导隐私与开放的同时「拿 Google 的钱办事」的质疑。

与此同时,生成式 AI 的快速发展也让 Mozilla 面临新的定位挑战:一方面,AI 对浏览器形态和上网方式的重塑已经不可逆,另一方面,如何在这一进程中坚持透明、可控和用户主权的理念,成为 Mozilla 不能回避的问题。Enzor-DeMeo 认为,目前的 AI 生态正在侵蚀用户对技术的基本信任,而这恰恰是 Mozilla 可以发力的空间:「现在真正需要的是一家用户可以信任的科技公司。」

在具体技术路线方面,Enzor-DeMeo 明确表示,Mozilla 短期内不会自研类似 OpenAI 或 Google 那样规模庞大的通用大模型。不过,他确认 Firefox 将在明年推出「AI 模式」(AI Mode),为用户提供多种模型和服务的选择,并通过浏览器这一用户熟悉的入口,提供可理解、可控制、可切换的 AI 体验。他强调,Mozilla 不会被激励去「推某一个特定模型」,而是会以多模型并存的方式投入市场——核心竞争力在于可信赖的产品设计和数据处理方式。

在他看来,在浏览器领域仍然「有空间容纳一款新的浏览器,甚至是一款以 AI 为核心的浏览器」,前提是这款浏览器从一开始就围绕信任、透明和用户选择来设计。对于既要谋求商业可持续,又要维护开放网络和用户隐私的 Mozilla 来说,这一 AI 战略既是对外界质疑的回应,也是其在下一阶段互联网格局中争取话语权的关键试验。(来源:CnBeta)

大众汽车将关停德国本土工厂 系公司历史首次

在生产线中,由大型吊具悬挂着的处于半装配状态的汽车正在流转。大众汽车德累斯顿工厂素有「透明工厂」之称,未来这里将被改造为一座技术研究中心。受市场需求疲软与美国高额关税冲击,这家汽车巨头决定停止在德累斯顿工厂的整车生产。该工厂于 2001 年投产。

本周二,最后一辆汽车将驶下大众汽车德国德累斯顿工厂的装配线。这是这家拥有 88 年历史的汽车制造商,首次关停其在德国本土的整车生产工厂。

早在去年,大众汽车就曾发出减产预警。彼时,公司在欧洲及最大市场中国均面临需求疲软的困境,同时美国征收的高额关税也进一步拖累了其在美销量。

历经 24 年的整车生产历程后,德累斯顿工厂将转型为聚焦人工智能、机器人技术及芯片设计等领域的研究中心。这座因通体玻璃幕墙而得名「透明工厂」的基地,未来将由大众汽车联合萨克森州政府及德累斯顿工业大学共同运营。

大众汽车品牌首席执行官托马斯・谢弗在一份声明中表示:「关停拥有 20 余年历史的透明工厂整车生产线,这绝非一个轻易做出的决定。但从经济角度考量,这一举措是完全必要的。」

大众汽车与代表德国本土员工的工会委员会达成协议:德累斯顿工厂现有的 230 名员工,可选择领取遣散费、申请提前退休,或是调任至集团旗下其他厂区。(来源:CnBeta)

DRAM 短缺引发行业倒退 报告称 8GB 内存笔记本将重成主流

全球 DRAM 短缺危机正对消费电子行业产生深远且剧烈的连锁反应。继此前传出 4GB RAM 手机可能回归的消息后,笔电市场也拉响了警报。最新报告指出,由于内存供应紧张及价格高企,曾被视为中端标配的 16GB 内存可能被迫让位,8GB 内存的笔记本电脑将重新成为市场主流。

近日,行业分析机构 TrendForce 发布的报告为笔记本电脑市场敲响了警钟。报告指出,在 DRAM 供应受限、16GB 内存套件价格已飙升至难以承受的背景下,PC 制造商为了控制成本,将倾向于在主流产品中采用更低的内存配置。

在过去一段时间,随着 DDR5 内存套件价格变得亲民,为笔记本电脑配备 16GB 内存几乎已成为一种理所当然的配置,甚至一些低端型号也以此作为卖点。大多数中端笔记本要么已标配 16GB,要么正在向此过渡。然而,当前趋势发生了显著倒退。

这意味着,占据最大用户基数的中端笔记本市场将受到最直接的冲击。厂商将不得不重新拥抱 8GB 配置以维持产品价格竞争力。当然,高端笔记本电脑仍将提供更高的内存配置,但预计其价格也会随之大幅上涨。

更严峻的预期是,有主要芯片制造商警告,这场由 AI 产业需求激增等因素引发的内存供应危机可能持续至 2028 年。在可预见的未来,消费者可能需要为获取与往年同等的硬件性能支付更高昂的成本,或被迫接受配置上的妥协。

(来源:CnBeta)

苹果 iPhone Fold 设计细节曝光:内屏宽大于高,比例趋近大屏 iPad 横屏模式

12 月 17 日消息,苹果公司正致力于敲定明年旗舰 iPhone 系列的设计方案,一份新报告称,备受期待的 iPhone Fold 或将采用独特造型,其内部屏幕的宽度大于高度。

据博主 @ 数码闲聊站 此前的消息,苹果阔折叠手机采用侧边指纹 Touch ID。此后不久,《The Information》杂志发布了一份未来几年新款 iPhone 机型的综合概览报告。该报告不仅佐证了 @ 数码闲聊站 透露的大部分内容,还进一步明确了 iPhone Fold 的一项关键特性:屏幕的形状与尺寸。

和 @ 数码闲聊站 的消息一致,《The Information》杂志预计 iPhone Fold 的外屏尺寸约为 5.3 英寸,内屏尺寸约为 7.7 英寸。但最值得关注的是,这份新报告指出,这一尺寸设计将使得它的内屏呈现出「宽大于高」的形态。

报告写道:「不同于三星和谷歌推出的其他折叠屏手机,苹果这款产品展开后的屏幕比例,将与苹果大屏 iPad 的横屏模式比例相近,也就是展开后宽大于高。手机折叠状态下,屏幕尺寸约为 5.3 英寸;展开后则搭载一块更大的 7.7 英寸屏幕。与 iPhone 18 Pro 系列机型相同,这款手机的左上角将嵌入一颗前置摄像头,同时还配备光线传感器、距离传感器及其他各类传感器。」

苹果在美国市场的两大智能手机竞争对手三星与谷歌,其推出的折叠屏机型即便在展开状态下,依旧保持高大于宽的比例。

(来源:IT 之家)

小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强

12 月 16 日消息,小米今日发布 Xiaomi MiMo-V2-Flash 开源 MoE 模型,总参数量 309B,活跃参数量 15B,专为智能体 AI 设计,专注于快。

小米官方介绍称,这是一个专为极致推理效率自研的总参数 309B(激活 15B)的 MoE 模型,通过 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上保持进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理成本仅为其 2.5%,生成速度提升 2 倍。

Xiaomi MiMo-V2-Flash 采用 1:5 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构,128 窗口大小,原生 32K 外扩 256K 训练。

同时,小米推出了一个在线 AI 聊天服务 Xiaomi MiMO Studio,用户可以在其中体验 Xiaomi MiMo-V2-Flash。该服务支持深度搜索和联网搜索。

Xiaomi MiMo-V2-Flash 的模型权重和推理代码均采用 MIT 协议全面开源。MiMo-V2-Flash 的 API 定价为输入 $0.1/M tokens,输出 $0.3/M tokens,API 限时免费。

常玩游戏能防老年痴呆 全国首张「游戏处方」在浙江开出

数据显示,我国 60 岁以上人群中,约 3877 万人存在轻度认知障碍(MCI),若不干预,38% 将在 5 年内发展为阿尔茨海默病。本月 11 日,浙江省中医院为轻度认知障碍患者开出全国首张游戏化认知训练电子处方,为面临认知衰退风险的老年人提供了新选择。

该处方的核心是「腾讯脑力锻炼」软件,这款历经三年研发的软件已获医疗器械注册证,目前已是正式医疗项目,单次治疗收费 30.6 元。

软件设有「厨艺大赛」「音乐大赛」「收纳大师」「诗词大会」四大生活化训练模块,每个模块都有超 150 个关卡。

患者可在医生指导下,通过模拟摊煎饼、诗词填空等生活化游戏进行训练,这种设计通过趣味任务激活大脑,解决传统认知康复训练枯燥、患者难坚持的痛点,能提升患者治疗依从性。

游戏训练针对记忆、执行功能等六大认知域,刺激前额叶和海马体,促进神经元连接,可能减缓β-淀粉样蛋白沉积(阿尔茨海默病病理标志)。

研究显示,规律训练 3 个月后,参与者脑部活力评分平均提高 30%。

《自然》的研究证实,游戏化认知训练可修复大脑衰退,《国际精神病学杂志》也提到这类益智游戏能刺激正常脑细胞发挥作用,进而提高患者认知能力。(来源:快科技)

 

浏览量: 4

文章分页

上一页 1 … 8 9 10 … 100 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间