Skip to content
  • 元宇宙社交空间入口
51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

用插件「杀死」软件?!Anthropic证明:最不懂技术的人,能造出最专业的企业AI工具

就在刚刚,Anthropic 用一个插件系统,重新解锁了 AI Agent 的新玩法,也将再次「杀死」一批 AI 创企。

2 月 24 日,Anthropic 更新了 Claude Cowork 插件系统,用户可以从零开始定制化打造 AI 插件,将 Claude 能力直接以工具包的方式融入工作流中,打开整个企业级定制化插件市场。

不仅如此,Anthropic 还同步配置了插件创造、使用以及管理的工具平台。Claude 会通过提问,引导用户定制技能、设置相关命令并接入 MCP 协议。所有新增的插件功能都可在新增的自定义菜单中查看、管理。团队和企业管理员还可以直接访问公司配置的插件以及 MCP 控制功能。

目前,Claude 可以接入企业已使用的工具,例如 Slack、Salesforce 和 Excel,Claude 的插件可以在 Cowork 以及任何基于 Claude Agent SDK 构建的系统中运行。所有插件的用户体验更新均面向所有 Cowork 用户开放。

这次,Anthropic 还一口气推出 10 个横跨 HR、运营、设计等领域的官方插件,它不仅是示范 AI 插件玩法,更是在设定标准、圈定企业级 AI 应用的边界。

正当大家开始卷谁的模型更聪明、或者更好用的时,Anthropic 用一套插件系统告诉大家,谁的 Agent 能够以最简单、最直接的方式深入到企业里,才是赢得 Agent 大战中的关键。

 

一、零基础定制企业级插件,经验即是产品

如果说 Agent 1.0 版本是让一个全知的人担任多面手的不同职位,那么,如今 Claude 则是教公司最有经验的销冠如何零基础搭建适合自家公司的经验包,然后让公司里的每一个人都能用上。

由最懂公司基因的一线员工亲手打造的工具,天然适配自家业务与客户画像,其复用率和提效空间远非外部通用方案可比。这也是 Anthropic 盯上企业私有插件市场的关键原因之一。

目前,用户既可以通过官方模板快速配置相关插件,也可以从零开始深度定制。系统会以对话式引导的方式,通过主动提问协助用户完成技能编排、指令设定与 MCP(模型上下文协议)连接器对接,大幅降低技术门槛。

所有这些配置都会集中在一个名为「自定义」的全新统一菜单中,该菜单整合了插件、技能和连接器,方便个人管理员在一个地方查看和管理所有内容。

企业级管理员还会拥有对企业级的插件更高的控制权,可搭建组织专属的私有化插件市场,对接私有 GitHub 仓库作为插件源,完成更精细化配置与自动化的团队级部署。

不仅如此,插件还和与其他生态应用深度集成。官网显示,Google Workspace(日历、云端硬盘、Gmail)、Salesforce Slack、DocuSign、Apollo、LSEG(伦敦证券交易所集团)、S&P Global 等主流企业工具都已推出适配 Claude 的连接器,甚至不少企业已经为共同客户开发了插件。

除此之外,Claude 本身也实现了跨应用的上下文贯通。它不再仅仅是调用工具,而是可以像人类员工一样在 Excel 与 PowerPoint 之间无缝流转。比如说,它在 Excel 中完成数据分析后,自动将洞察转化为 PowerPoint 演示文稿,保持端到端的上下文连贯性。在用户侧,Claude 的体验也有了更简洁直白的变化,斜杠命令(/command)现在可以通过结构化智能表单呈现,运行「生成报告」或「搭建仪表盘」等复杂工作流时,用户只需填写一份简洁的业务简报。

Claude 还通过新增的 OpenTelemetry 支持,管理员可实时追踪团队对新插件的采用率、工具调用成本及全流程的活动数据,让 AI 投入产出比首次变得可量化、可优化。

目前,Anthropic 已首批上线十大垂直场景的插件模板,从投行交易的智能合规审查,到财富管理的组合分析,再到将资深 HR 的经验编码为自动化新人带教系统。每款都由对应领域的一线从业者参与设计,确保每个 workflow 都基于真实业务痛点,以便更多知识工作者能够充分利用 Cowork 的价值。

新增插件包括:

  • 人力资源:简化人事运营流程——招聘、入职、绩效考核、薪酬分析和政策指导。
  • 设计:通过生成评论框架、撰写用户体验文案、运行可访问性审核和构建用户研究计划来加速设计工作流程。
  • 工程:简化日常工程工作流程,例如编写站会总结、协调事件响应、构建部署清单和起草事后分析报告。
  • 运营:管理核心业务运营,包括流程文档、供应商评估、变更请求跟踪和运行手册创建。
  • 品牌声音(由 Tribe AI 提供):分析您现有的文档、营销材料和对话,将您的品牌声音提炼成清晰、可执行的准则。
  • 财务分析:支持每位财务分析师所需的基本工作流程,从市场和竞争对手研究到财务建模和 PowerPoint 模板创建和质量检查。
  • 投资银行:加快交易流程,包括审查交易文件、构建可比公司分析和准备推介材料。
  • 股票研究:简化研究工作流程,例如解析盈利报告、根据新的指导意见更新财务模型以及撰写研究报告。
  • 私募股权:通过审查大量文件集、提取标准化财务数据、模拟场景以及根据投资标准对机会进行评分,为交易搜寻和尽职调查提供支持。
  • 财富管理:帮助顾问分析投资组合,识别偏差和税务风险,并大规模生成再平衡建议。

 

二、企业级插件的价值被重新定义

此次插件系统更新主要是还是为了能够让 AI 扎入企业深处,将 AI Agent 能力转化为企业的底层基础设施,打通技术与业务之间的壁垒。

通过对话式交互,业务人员得以将个体的领域 know-how 即时封装为可复用的企业数字资产。而模型自动完成的部署编排,则让这种「经验即服务」的能力能够直接为企业业务带来最明显的效率提升。

对于企业来说,定制私有化 AI 插件,会是当下较为简单将组织知识 AI 资产化的方式之一。企业得以最高效的方式,将散落在员工大脑中的隐性经验,转化为组织内的生产力提升。

而且,集中式 AI 定制意味着更少的瓶颈、更快的部署和复用一致的高效工作流程。「我们使用 AI」和「我们依靠 AI 运行」之间的差距正在缩小。

并且,企业还可以通过追踪数据,以结果导向,直接看出定制的 AI 插件是否好用,可以及时调整方向。

事实上,企业级私有插件的本质是专业级代理,而专业级代理将催生更自主的 AI 应用,而Claude 如今将AI生态系统正从模型层向上构建。一旦企业开始构建自己的内部插件,Claude 也开始从一个工具,转向一个平台。 Cowork 显然也不再是一个独立的应用程序,而是现有 AI 技术栈之上的一个集成层,一个工具集装箱。

插件只是当下 Anthropic 先推出的一个基础工具形式。在 Anthropic 看来,插件是最简单的文件系统,可以直接轻量化移动、复用,也是其降低 Agent 走入企业门槛的关键一步。

Anthropic 这一手棋,看似只是新增了一个「技能商店」,实则是向所有只做「功能包装」的 AI 创业公司敲响了警钟。当大模型厂商亲自下场开放「工作流编排权」,那些仅仅把基础 AI 能力打包成简易工具、缺乏深度业务思考的 Agent 产品,将会随时被取代。

这也是为什么此前 Anthropic 推出法律代理时,会引发全球软件和服务类股票 8300 亿美元的抛售潮。

广为流传地有关Claude对软件公司的影响梗图|图片来源:X

尽管Anthropic 企业产品负责人 Scott White 曾对此回应表示,Claude 的目标是为客户带来更好的结果,而不是取代客户。但当「造工具」的门槛被头部公司归零,人人都可以创造产品,创造工具时,「造生态」的窗口正在对初创公司缓缓关闭。

 

 

展示量: 6

智能体手机,抢跑 2026 的「方法论」

2026 年春节,AI 行业的「全民曝光位」再次落在晚会与红包上。

「春晚互动」的形态被重新定义:除夕夜的互动入口中,各类 AI 趣味玩法与「抽红包/抽科技礼」被深度融合,打包成更轻量化的「顺手一用」体验,让用户在参与春晚福利的同时,自然感受 AI 的便捷性。

这个显眼的变化在于,厂商争夺的核心已从「引导用户下载 App」,转向「让 AI 成为用户随手可用的能力」。这一趋势在 2025 年底已有清晰信号,努比亚 M153 豆包手机助手技术预览版,就率先将 AI 能力深度融入日常使用场景,成为早期探索者。

 

 

 

 

豆包配合春晚推出多种 AI 互动的玩法 | 图片来源:豆包

 

 

 

火山引擎拿下「2026 年总台春晚独家 AI 云合作伙伴」的身份,本质上属于一次面向全国观众的能力验收:多模态大模型与云计算要同时扛住节目呈现、互动玩法与直播流量的峰值压力。

同一时间,红包大战把属于硬件厂商的「入口焦虑」推到台前:腾讯旗下元宝 App 在春节期间开启 10 亿元现金红包活动,百度也推出 5 亿元红包并与自家 AI 产品绑定。报道把这轮竞争概括为围绕 AI 的下一代流量入口争夺。

这也解释了为什么「云侧能力」会在春晚节点被反复强调:当用户在同一时段集中涌入、互动频次飙升,底层的弹性与时延直接决定体验是否成立。并且,字节系的打法更直观:除了「云侧承压」,豆包也被明确写进了春晚互动叙事里,强调「边看边用」的即时性。

 

01

 

从 GUI Agent,到 AgentOS:

原生智能体时代的到来

 

从年初大火的 GUI Agent,到如今 LUI 与 GUI 的混合形态产品的演进,都说明随着端侧大模型能力的爆发,移动计算正迎来第四次范式转移:即「原生智能体」时代。

在这一新范式的引领下,几乎所有人都意识到:手机操作系统正在从管理 App 的管家,升级为直接响应用户意图的超级代理。

用户只需表达最终目标,系统级智能体便能自动拆解任务、编排工作流、跨应用调用服务。这就是 AgentOS 的核心概念。

而春晚这种全民同时在线的场景,恰好把「智能体要能接住高并发、还要能把任务跑下去」推到了台前。

进一步看,「云 + 大模型 + 终端」可以拆成一条更直观的流水线:云侧负责高并发推理与弹性资源调度,尤其适合春晚这类峰值场景;平台侧提供从 Agent 开发到部署的一站式能力边界;终端侧把模型能力变成日常可调用的系统能力,需要操作系统级权限、稳定入口与一致的交互。

这条链路之所以重要,是因为它把「可展示」推进到「可用」:观众看到的互动效果,背后依赖的是云侧与工具链的工程化;而用户愿不愿意持续使用,则取决于终端是否把 AI 变成了低门槛入口。放到 2 月 16 日除夕夜的春晚互动里,这种差异更明显:从「在直播间参与一次互动」走向「日常在手机里反复用」,中间隔着系统层的稳定入口与执行闭环。

在这条链路中,位于手机端侧的合作,始终有一个很具体的着力点:即把「模型能力」压到离用户最近的位置。

 

从行业的角度来看,「nubia M153 豆包手机助手技术预览版」的意义更像一次系统级验证窗口,重点在证明手机形态可以承载系统级智能体体验,但同时也展现出智能手机这一平台的复杂特征:它既是离真实用户最近的入口,也是端侧实现模型对用户复杂指令执行能力的最优平台之一。

 

02

 

把智能体做进手机系统:

从「可展示」到「可用」

 

「AI 手机元年」的讨论,通常会陷入参数、模型榜单、端侧算力的对比,但对普通用户而言,更有效的口径其实是产品形态门槛:在智能手机这个游乐场上,谁能最先将 AI 能力打包,交付成用户能快速理解、开箱即用的体验,谁就能最先建立起 AI 手机的护城河。

首先,系统级入口要足够浅,侧键/语音/任意界面唤起要常态可用;同时具备跨 App 的链式执行能力,能自动跳转多个应用完成查票、比价、下单、批量操作等任务;在当前阶段也需要同时具备「点击模拟」和「系统工具调用」两条路径,前者覆盖更多界面,后者提升复杂任务效率。

以 nubia M153 豆包手机助手技术预览版发布之后,用户在小红书等平台上分享最多的使用场景为线索,其实我们已经能看到来自用户对 AI 智能体手机的设想中,所能提炼出的核心需求:

首先是用户最常分享的 AI Agent 手机使用场景——跨平台比价下单:用户在社交媒体被种草后,提出「全平台比价下单」,助手会在多个电商平台搜索同款、对比价格与规格、自动领券并选择低价商品推进下单;涉及支付等高敏感环节时,系统会提示用户手动完成,用来降低误操作风险。

其次,很多用户也会关注 Agent 在手机操作系统环境下,能否完整执行长链任务:在执行过程中,用户仍可继续正常使用手机,助手在后台推进任务。这类「并行」更接近系统级能力的价值点。

最后是同样至关重要的系统能力打通:目前豆包手机已经支持用户直接通过语音,在系统相册内直接调用助手进行修图,体现多模态能力在系统内的落点。

这些其实都指向了另一个更重要的判断:智能体手机的门槛集中在「稳定执行」与「风险可控」两件事上,回答能力更多是入场券。当执行涉及登录态、验证码、人机验证、支付确认等高风险环节,系统往往需要更谨慎的交互策略。春晚实时互动也在用类似方式「教育用户预期」:红包、抽奖可以自动跑,关键节点需要用户接管。

显然,智能体手机的落地已经成为手机行业下一阶段竞争的必答题。

原因很直接:模型能力在快速扩散,差异化越来越难长期维持;入口与系统整合深度开始成为决定性变量。

春节节点的集体营销把这一点放大了:当巨头用红包与晚会把 AI 推向大众,「谁能让用户在手机上更低成本地用起来」,会比「谁的单纯评测分数更高」更能决定用户的留存及心智。

与此同时,海外变量也在把竞争推向「系统层」。

Apple 与 Google 在联合声明中确认了多年的合作框架:下一代 Apple Foundation Models 将基于 Google 的 Gemini 模型与云技术,用于未来 Apple Intelligence 特性,其中当然也包括备受用户期待的、更个性化的 Siri。这类合作传递的信号很清晰:系统级 AI 的竞争会外溢到平台层,云与模型会与 OS 绑定得更紧。

另一条线来自 OpenAI 的硬件路线:OpenAI 预期最早在 2026 年下半年披露相关设备。专用 AI 硬件的推进,会在 2026—2027 形成一个外部压力:手机厂商需要在窗口期内证明「智能体」体验可以在现有终端上跑通并规模化。

 

03

 

可检验的胜负手

 

回到国内厂商,真正的胜负手可以落成三条可检验指标:

首先是系统层整合深度:唤起入口是否足够稳定,后台并行是否可持续,工具链调用是否可控。

其次是生态协同效率:与云平台、模型方、行业伙伴、交付伙伴协作的速度,决定了从 demo 到可复制方案的周期。

最后,是能否实现稳定可长期复用的风险控制策略:支付、账号、交易等高风险环节怎样设计「用户接管点」,既影响体验上限,也影响产品能否长期稳定演进。

在这个框架下,努比亚依托硬件厂商的优势,与字节跳动合作发布 nubia M153 豆包手机助手技术预览版的意义,更接近「先行样本」。它把系统级智能体放进了可以真实售卖、真实使用的手机形态里,验证了跨 App 自动操作、系统相册打通、记忆与 Pro 模式等能力在工程上有落点。同时,多方报道都强调它目前属于技术预览版与工程样机,主要面向开发者与尝鲜人群。

这两点放在一起,反而能更稳地支撑「领先」的叙事:领先体现为更早把系统级智能体推到真实用户环境中做验证,进而更早暴露问题、迭代路径与生态协作方式。

努比亚 CEO 倪飞曾公开表示:他认为 AI 手机的发展趋势不可逆,并把「开放合作」视为推进路径。当海外平台级合作与专用硬件路线同时加速,国内厂商要在同一时间段面对「系统层竞争」与「入口层竞争」的双重挤压,智能体手机的落地速度自然会成为关键变量。

对于春晚这样的舞台来讲,这次合作让 AI 云与大模型从行业叙事进入大众语境。对火山引擎而言,春晚属于一次峰值场景的公开检验;但对手机厂商而言,智能体手机还需要把「可执行」做成日常可复用的系统能力,并把入口问题拉回到系统层。

在这一点上,选择与豆包携手的努比亚,已经率先给出了自己的回答。

当春晚红包把 AI 推向全民,真正的竞争才刚刚开始:模型更聪明只是起点,能让用户在手机上低成本「用起来」才是关键。

 

*头图来源:努比亚

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

展示量: 2

给扫地机器人装上「眼睛」:寻找家庭场景里的 FSD 时刻

当我们谈到「机器人」时,你第一个想到的是什么?

最近两年,从硅谷到深圳,无数拥有顶尖 AI 人才的团队都在试图造出一个「像人一样」的机器人。但随之而来的尴尬是:这些身价不菲的人形机器人,除了在演示视频里翻跟头,依旧还很难走进普通人的生活。

工程师们攥着最先进的 AI 锤子,却迟迟找不到现实世界里的第一颗钉子。

与此同时,在一个看似不那么「性感」的角落,扫地机器人这个「不像人」的品类,却已经默默服务了数千万家庭。但经过十年的参数内卷,它也撞上了天花板:用户不再满足于它只是一个会动的吸尘器,而是期待它成为一个能自主搞定一切的「L4 级」管家。

这恰恰是具身智能最好的试验场。 当人形机器人还在苦寻场景时,家庭清洁这个充满了挑战的「钉子」,正在等待被最先进的 AI 锤子敲响。

 

从「工具」到「伙伴」

「你真的需要一台家庭清扫机器人吗?」

面对这个问题,你如果在小红书或者抖音按照关键词「扫地机器人」搜索,大概率可以看到一些用户真实分享的「劝退指南」。

这些吐槽可以整体分为两大类:

第一类我称之为「清洁强迫症」。简单来说,就是认为扫地机器人由于形态、机械结构等原因,总会在墙角、床底或者沙发边缘漏掉一些打扫不到的卫生死角。

由此,这些用户往往又会引申出一种有趣的对比逻辑:「几千块钱买的智能家电,清洁质量远不如两百块钱的家政阿姨。」

第二类用户的槽点不同,在他们看来,智能扫地机器人显然可以提供「家政阿姨」们无法提供的价值:节约时间和精力,实现无人自动清扫。但是,在现有的技术范式下,要求扫地机器人做到 L4 自动驾驶般的「零接管」清扫,同样不是一件容易的事。

于是,相关分享里就出现了用户上班前打开机器人,下班回家时发现要么被客厅到阳台、浴室间的门槛挡住,要么就是被一根掉在地板上的充电线「卡死」。

甚至,在一些极端的案例里,因为扫地机器人没有识别出地板上的宠物粪便,就直接一遍又一遍地反复碾过,结果自然是越扫越脏……隔着这段文字描述,相信各位也都可以感受到主人回家时的崩溃。

这些崩溃瞬间指向了同一个期待:消费者需要的不再是一个需要人去伺候的「工具」,而是一个能独立解决麻烦的「伙伴」。

在这个阶段,单纯的堆砌参数已经失效了。对于用户而言,一万帕的吸力参数,远不如「一个月不用管」的体验来得性感。于是,这个行业的产品研发,亟需一种更新的「解题思路」。

最近,我们抢先拿到了一台云鲸新一代活水洗地机器人产品 JX。通过和产品团队的沟通,我们发现在新一代产品上,体现出了云鲸团队对这一品类的全新思考。

在 JX 这台设备上,云鲸将拖布结构升级成了全新的「履带式」结构。相比传统的「滚筒式」拖布结构,宽幅履带接触地面的面积扩大了7倍,既能提升清洁效率,也提升了对顽固污渍的清洁效果。此外,机身中集成的清水、污水双水箱,配合 60°C 水温的活水喷淋系统,让 JX 不需要返回清洁站,就可以「边拖地、边清洁拖布」,解决了过去「越拖越脏」的用户痛点。

集成了履带式结构、活水喷淋系统的云鲸 JX 洗地机器人 | 图源:云鲸智能

值得一提的是,在 JX 系列上,云鲸把过往只有高端旗舰产品里才会搭载的履带方案进行了下放,希望把好用的能力变成「标配」,也显示出云鲸在大众市场用更好体验进行竞争的决心。

此外,在感知和避障能力方面,云鲸 JX 同样搭载了逍遥系列同款「双目视觉+AI」的方案。相比传统的激光雷达或者单目方案,双目方案能显著提升障碍物类别、精度的识别。不仅可以识别到不到0.1mm的纸巾,也能「认出」干湿垃圾,自动切换清洁模式,做到遇干吸尘、遇湿拖地。云鲸研发团队告诉我们,新架构的最终目标,是从有限障碍物迈向「万物识别」。

 

给扫地机装上「小脑」和「双眼」

可以看出,云鲸 JX 此次升级的两大核心——从圆盘到活水履带,从激光雷达+规则到双目+AI,分别对应着机器人「干活能力」与「思考能力」的双重质变。

对于前者,难点不只是改变「拖布」的形状,还包括机器人内部涉及到水路、雷达、主控板等一系列布局的推倒重来。云鲸的研发团队在沟通中告诉我们,在研发过程中,团队最常听到的一句话就是「谁又把我的电动螺丝刀拿走了?」这背后,是一个典型的「螺丝壳里做道场」的死磕过程 。

而最终的研发结果,就是团队不仅让新一代的 JX 从圆盘升级到了活水履带,拥有更大清洁面积的同时,也可以在内部布置了一套「冲洗系统」,包括:搅拌电机、刮条、16个喷淋孔,解决了脏污挂壁、水路堵塞等机身自清洁的老大难问题,机器人的自清洁能力得到了质的飞跃。 

现在,机器人不仅能把地拖干净,更具备了「长期维持自身卫生」的能力——这才是无人化清洁的基础,否则「清洁工」自己脏了,还怎么服务家庭?

而就后者而言,云鲸选择死磕「双目+AI」方案,就像是特斯拉几年前坚持纯视觉路线一样,是一次基于第一性原理的豪赌 。

我们可以简单回顾一下,扫地机器人自诞生以来,在感知层面经历过的三个阶段:

  • 1.0 红外时代: 初代产品只能基于红外、超声波等传感器进行实时避障,基本靠撞——撞上了就知道拐弯。在那个阶段,扫地机更像是一个「昂贵但不实用的玩具」。
  • 2.0 地图时代: 2016 年前后,激光雷达下放,让机器人终于有了「全局建图」的能力。它知道哪里是墙、哪里是路,导航精准度大幅提升。但面对散落的数据线、突兀的门槛或是宠物的排泄物,依靠「规则」运行的雷达依然是盲的——它只能看到障碍物的轮廓,却不知道那是什么 。
  • 3.0 具身时代: 2024年,云鲸率先发布了搭载双目视觉方案的逍遥001,为行业带来了全新「双目视觉+AI」的新思路。

而这套「双目视觉+AI」方案,其实是和自动驾驶、具身智能行业同源的技术模块。

云鲸洗地机器人选择的「双目+AI」技术路线 | 图源:云鲸智能

首先,尽管摄像头硬件成本看似更低,但它能提供远比激光雷达更丰富的输入信息(颜色、纹理、语义)。再结合云端大模型,机器人不再是死板地执行「避障」指令,而是开始「理解」它所处的环境——它知道这是一团需要绕开的线,而不是一堵墙;它知道这是宠物粪便,必须远远躲开 。

这种从 Rule Based 到 AI Based 的范式转移,是通往具身智能的必经之路 。

当机器有了更灵巧的手(履带)和更聪明的眼(视觉),它才真正具备了从「工具」进化为「伙伴」的资格。毕竟,我们期待的家庭伙伴,不应该是一个只会按地图跑圈的机器,而应该是一个懂得如何在复杂家庭环境中生存、决策的智能体。

 

自动清洁的终局,一定是具身智能

最后,让我们把视线拉高。既然家庭清洁注定是具身智能要敲下的第一颗「钉子」,那么云鲸在这颗钉子上敲出的火花,就不止是「把地扫干净」这么简单。

当行业还在争论机器人该不该长得像人时,以云鲸为代表的清洁科技公司已经率先拿到了一张通往未来的「船票」。对于云鲸而言,他们遵循的是一种「反向定义」的逻辑:不预设机器人的形态,而是由场景来定义形态。在当下的家庭环境中,新一代洗地机器人模拟人类「先收纳整理再清洁」的习惯:先感知环境,再把零散的物品挪开,最后还能避开障碍物、钻进床底以及越过门槛。这恰恰就是现阶段最完美的「具身」形态。

而从押注「双目视觉+AI」的下一步技术路线可以看出,当下的扫地机大战,本质上是一场「以战养战」的数据突围。

具身智能最大的门槛除了硬件,还有「泛化性」——即机器人在面对未知环境时的应变能力。家庭场景私密、非标且极其复杂,没有任何一家公司能通过模拟仿真获得足够真实的训练数据。

家庭清洁,也许是具身智能行业的第一颗「钉子」 | 图源:云鲸智能

这正是云鲸模式的护城河所在:通过在激烈的市场竞争中卖出产品,云鲸获得的不止是营收,更是海量的、真实的家庭环境数据。这些数据是训练具身智能模型最稀缺的燃料,也是依靠非商业手段无法触达的宝藏。每一次机器在复杂的家庭环境中完成避障、越过门槛,实际上都是在对机器人的「大脑」和「小脑」进行一次分布式的训练与迭代。

所以,当我们重新审视云鲸这家公司时,不妨把扫地机器人看作是一个阶段性的载体。

它既是当下的生意,也是未来的基石。比起宏大的「重构家庭劳动」,云鲸现在的路径显得更为务实——利用扫地机这个品类,在真实的家庭环境中,一步步验证并打磨那些未来机器人所必需的感知与控制能力。

在这个逻辑里,当我们再回头看云鲸当下死磕视觉方案、布局机械臂、积累海量数据等行为时,这也许就是它们在为未来的机器人打磨那把最锋利的锤子。

正如云鲸创始人张峻彬所言:看一家企业,不是看它现在卖什么,而是看它愿意在哪个方向下重注。

当那个真正的「具身智能时代」到来时,只有那些真正在地板上摸爬滚打过、真正看懂过千万个家庭的「清洁工」,才最有可能进化为那个最聪明的「家庭管家」。

展示量: 5

为什么所有人都觉得 MiniMax、智谱「太贵了」?

作者|桦林舞王

编辑| 靖宇

 

2 月 20 日,港股马年第一个交易日,恒生科技指数跌了近 3%,一片惨淡。

但两家公司完全无视大盘——智谱暴涨 42.72%,市值冲破 3200 亿港元;MiniMax 涨超 14%,市值同样突破 3000 亿港元。

一天之内,智谱涨出来的市值就相当于一个 B 站 。

这两家公司,一家上市刚 43 天(MiniMax),一家上市刚两个月(智谱)。它们的市值已经超过了携程、快手、京东,正在逼近百度。

社媒评论区一方面认为,两家公司涨得太夸张——MiniMax 上市 43 天涨了 487%!一方面,是充满了「没上车」的悔恨。

根本原因,可能是人们没有看明白,这波 FOMO 背后,国内 AI 公司上涨的逻辑,是什么?

 

01

反常识:Token 涨价 30%,还被抢空

 

理解这轮暴涨的钥匙,不在股价本身,而在 8 天前的一则涨价公告。

2 月 12 日,智谱发布了一份价格调整函:GLM Coding Plan 套餐价格结构性上调, 整体涨幅自 30% 起 ,同时取消首购优惠。海外版更猛——Coding Plan 订阅价格提高 30%-60%,API 调用价格直接翻倍。

这在半年前是不可想象的。

2024 年下半年到 2025 年初,国产大模型打价格战打得头破血流:字节豆包报价低到 0.0008 元/千 Token,阿里通义千问 GPT-4 级模型降价 97%,智谱自己也曾把 GLM-4-Plus 降了 90%。

但这一次,涨价 30% 之后,套餐上线即售罄。

国产 AI 编程模型的付费套餐被抢空,这在行业里还是头一次。涨了价还限购——这说明需求弹性极低,用户宁可多掏钱也不能没有。

中金公司在研报里用了一个精准的描述: 行业定价逻辑正从「流量消耗」转向「算力价值变现」。

MiniMax 这边的情况也类似。

2 月 12 日发布的 M2.5 模型,定位为全球首个 Agent 场景原生设计的生产级模型。随后上线的 Highspeed 极速推理版本,同样引发了开发者抢购。

两家公司几乎同时出现了同一个现象: 不是卖不出去需要降价,而是供不应求需要限购。

 

02

700 倍 PS,在赌什么?

 

先说一个让人不太舒服的事实。

MiniMax 2025 年前 9 个月的营收是 5344 万美元。按当前 3000 亿港元(约 385 亿美元)的市值算, PS(市销率)超过 700 倍 。智谱的情况也类似——这不是传统意义上任何估值模型能合理化的数字。

对比一下:Anthropic 最新估值约 3800 亿美元,年化收入已经超过 20 亿美元,PS 大约 190 倍。OpenAI 估值约 8500 亿美元,年收入据报道约 130 亿美元,PS 约 65 倍。

智谱和 MiniMax 的估值倍数,比 OpenAI 高出一个数量级。

如果市场不是疯了,那它一定在赌一个非线性增长的故事。

这个故事是什么?

笔者觉得核心不在于「模型变好了」这种显而易见的叙事,而在于一个更深层的结构性变化:

Token 的消耗模式正在从「人类按次使用」,变成「Agent 持续燃烧」。

一个程序员用 AI 编程助手,一天可能消耗几十万 Token。但一个 Agent 7×24 小时不停运行——写代码、搜索资料、执行任务——一天的 Token 消耗可能是千万级。而在可见的未来,一个人背后可能同时跑着 10 个、甚至 100 个 Agent。

虎嗅上有一篇文章把这个逻辑说得很直白: 「供给是线性的,需求是指数的。」 每一次模型能力的提升,都会解锁新的使用场景,打开 10 倍的 Token 消耗空间。人会睡觉,Agent 不会。人一天工作 8 小时,Agent 一天工作 24 小时。

这意味着大模型公司的商业模式, 可能正在从「按次付费的软件」,变成一种「持续消耗的能源」 。

如果这个逻辑成立,那用传统的 PS 来估值就不合适了——你不会用 PS 倍数去给一家电力公司估值。你看的是产能、负荷率、定价权、以及需求增长曲线。

智谱涨价 30% 后被抢空,证明的就是定价权。

 

03

被忽略的另一面

 

但笔者也想说一些不那么乐观的部分。

MiniMax 的招股书里有一个数据:2025 年前 9 个月,收入同比增长 170% 的同时,净亏损 5.12 亿美元。通俗地说, 卖 1 块赔 10 块 。虽然亏损在收窄,但距离盈亏平衡还很远。

更关键的是,这两家公司的收入结构揭示了一个隐忧。

MiniMax 超过 70% 的收入来自海外,其中最大的产品 Talkie(星野)是一款 AI 社交应用——这类产品的用户粘性和付费转化率,在全球市场都还没有被验证。智谱的 Coding Plan 虽然火爆,但编程助手市场的天花板有多高?当 Claude、Gemini、GPT 都在同一个赛道上时,定价权能维持多久?

OpenAI 最新一轮融资估值 8500 亿美元,背后站着亚马逊、软银、英伟达、微软这样的战略投资者——这些投资者投的不仅是财务回报,更是 AI 基础设施的入场券。智谱和 MiniMax 的股东名单里虽然也有阿里、腾讯、米哈游,但体量和战略深度不在同一层级。

所以,700 倍 PS 定价的,是 Agent 时代全面到来后的 Token 消耗量。 这是一个正确的方向,但它发生的速度——是明年,还是五年后——会极大地影响这个估值是否能站住脚。

还有一个容易被忽略的事实。

这波暴涨发生在港股,而港股 AI 板块的一个特殊之处在于: 可投标的极度稀缺 。想要在港股配置中国 AI 纯正标的,选项只有智谱、MiniMax,以及刚上市不久的海致科技。

当大量资金涌入一个极窄的赛道时,估值溢价会被急剧放大。这不完全是基本面驱动的,也有资金结构的因素。

 

04

Token 经济学的黎明?

 

回到一开始的问题:这两家公司贵吗?

如果你用今天的收入去衡量,贵得离谱。

但如果你接受一个前提—— Token 正在成为一种新的基础设施级消耗品 ——那当前的定价逻辑就变得可以讨论了。

一个值得思考的对比:2000 年,中国移动的用户才 8000 多万,短信业务刚刚起步,谁也说不清移动通信的商业模式最终长什么样。但到了 2007 年,中国手机用户突破 5 亿,移动互联网彻底改写了所有人的生活方式。

Token 可能正处在类似的拐点。

当模型能力足够强、Agent 开始大规模部署、每个人背后有几十个 AI 在不间断地消耗算力——那时候 Token 的供需关系,会让今天的价格战看起来像一个笑话。

智谱和 MiniMax 今天的 3000 亿港元市值,本质上是市场在为这个未来投下的一张选票 。这张选票可能投对了方向,但出价是否合理,恐怕要等 Agent 时代真正到来的那一天才能验证。

不过有一件事是确定的: 当一家公司敢涨价 30%,用户还排着队抢购的时候,某种新的供需关系已经开始形成了。

Token 正在变成新时代的「电」。而我们,都才刚刚开始学会用电。

展示量: 3

详读 2 万 3 千字的新「AI 宪法」之后,我理解了 Anthropic 的痛苦

作者|汤一涛

编辑|靖宇

2025 年,Anthropic 的研究员 Kyle Fish 做了一个实验:让两个 Claude 模型自由对话,看看会发生什么。

结果出乎所有人预料。

两个 AI 没有聊技术,没有互相出题,而是反复滑向同一个话题:

讨论自己是否有意识 。

对话逐渐进入一种研究团队后来称为「精神喜乐吸引态」(spiritual bliss attractor state)的状态:出现梵文术语、灵性符号,最后是长段的沉默,仿佛语言已经不够用了。

这个实验被复现了多次,结果始终一致。没人能解释为什么。

2026 年 1 月,Anthropic 发布了一份 23000 字的文档——Claude 的新宪法。

在文档中,这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司,正式承认了一件整个行业都在回避的事情—— 我们不知道 AI 是否有意识,但我们选择认真对待这种可能性 。

他们选择不假装自己知道答案。

这份宪法,就是他们在不确定中给出的回应。

 

01

写宪法的人  

要理解这份宪法为什么长这样,得先理解写它的公司。

Anthropic 成立于 2021 年,创始团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁,主导过 GPT-2 和 GPT-3 的开发——也就是说,ChatGPT 的技术根基,有相当一部分是他带队打下的。他离开的原因后来被反复引述:他认为 OpenAI 在安全问题上不够认真。

Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士,研究真实的生物神经回路。2014 年加入百度硅谷 AI 实验室,在吴恩达(Andrew Ng)团队参与了 Deep Speech 2 语音识别系统的开发。

正是在百度,他最早观察到后来被称为「Scaling Law」的现象—— 给 AI 更多数据、更多算力、更大模型,性能就会可预测地提升 。这个发现深刻影响了他此后所有的判断——他比大多数人更早相信 AI 会变得极其强大,也因此比大多数人更早开始焦虑。

Dario Amodei|图片来源:TIME

新宪法的主要执笔人是 Amanda Askell,一位在 Anthropic 负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说了一句后来被广泛引用的话:「 想象你突然发现你六岁的孩子是某种天才。你必须对他诚实 ——如果你试图糊弄他,他会完全看穿。」

这句话精确地捕捉了 Anthropic 训练 AI 的核心困境—— 你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效,但长期一定会失败 。

另一位重要贡献者是哲学家 Joe Carlsmith,AI 存在风险(existential risk)领域最严肃的思考者之一。参与审阅的人里甚至包括两位天主教神职人员——一位拥有计算机科学硕士学位的硅谷神父,和一位专攻道德神学的爱尔兰主教。

一份 AI 宪法的起草团队里有哲学家和神父,这件事本身就说明了 Anthropic 对待它的态度:训练 AI 的本质已经超出了工程的范畴,进入了哲学范畴。

 

02

宪法到底说了什么

 

2023 年那份旧版宪法只有 2700 字,本质上是一份原则清单——不少条目直接借鉴了联合国《世界人权宣言》和苹果的服务条款。它告诉 Claude:做这个,不做那个。有效,但粗糙。

新宪法是一份完全不同量级的文档。

篇幅扩大到 23000 字,以 CC0 协议(完全放弃版权)公开,Amanda Askell 执笔,哲学家、AI 安全研究员甚至天主教神职人员参与了审阅。

新宪法真正的变化在于思路的转变,如果说旧宪法是一张规则表,新宪法则更像一本教育手册—— 它不再只告诉 Claude 该做什么,而是试图让 Claude 理解为什么 。

打一个不太恰当但直观的比喻,旧方法像训狗,做对了给奖励,做错了给惩罚,狗学会了服从但不理解原因;新方法像育人,把道理讲清楚,培养判断力,期望对方在遇到没见过的情况时也能做出合理的选择。

 

如何教育一个天才小孩

 

这个转向背后有一个很实际的原因——规则在边缘情况下会失效。

宪法里举了一个例子。假设 Claude 被训练成「讨论情绪话题时,一律建议用户寻求专业帮助」,这条规则在大多数场景下合理。但如果 Claude 把这条规则内化得太深,它可能泛化出一种性格倾向——「 比起真正帮到眼前这个人,我更在意不犯错 。」

这种倾向一旦扩散到其他场景,反而制造更多问题。

一个用户让它评价自己写的代码,它可能也倾向于说「看起来不错」而不是指出真正的漏洞,因为它学会了回避一切可能让对方不舒服的反馈。

Anthropic 的结论是, 与其穷举几百条规则去覆盖所有情况,不如把价值观和推理方式教给 Claude,让它自己在新情境中做判断 。

用伦理学的术语说,这叫「美德伦理学」。这是亚里士多德两千多年前提出的框架,核心思想是培养个体在具体情境中做出恰当判断的能力,而不是给他一本行为手册。

Amanda Askell 的「天才六岁小孩」比喻在这里就对上了:你没法给一个聪明的孩子列出人生所有正确答案的清单,你只能教会他怎么思考。而且这个孩子可能很快就比你聪明,如果你现在靠糊弄和操控来管教他,等他长大了看穿你,后果不堪设想。

但灵活性也有边界。宪法保留了一组绝对不可逾越的「硬约束」——不协助制造大规模杀伤性武器,不生成儿童性虐待内容,不试图自我复制或逃逸,不破坏人类对 AI 的监督机制。

这些红线没有弹性空间,不可商量 。

美德伦理处理灰色地带,硬约束守住底线。两者并行,构成了新宪法的骨架。

雅典学院|作者:Raphael

 

当价值观互相打架

 

有了价值观和红线,还有一个问题没解决:当不同的「好」发生冲突时,Claude 该怎么选?

宪法给出了一个四层优先级:

1. 安全第一——不破坏人类对 AI 的监督能力

 

2. 伦理第二——诚实,避免危害

 

3. 遵循 Anthropic 的指南  4. 尽可能有用

值得注意的是第二和第三的排序:

伦理高于公司指南 。

这意味着,如果 Anthropic 自己的某条具体指令,恰好与更广泛的伦理原则冲突,Claude 应该选伦理。

宪法的措辞很明确: 我们希望 Claude 认识到,我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导 。

Anthropic 在文件里提前给了 Claude「不听话」的授权。

Claudius,一台完全由Claude负责选择库存、品类并设定价格的自动售货机,而人类仅负责补充货架|图片来源:The Atlantic

 

 

三层委托链,一个产品设计问题

 

价值观排好了序,但 Claude 在实际运行中还会面对另一种冲突:不同的人同时给它下达不同的指令。

宪法为此建立了一个三层「委托人」体系:

  • Anthropic (权限最高,设定底层规则)
  • 运营商 (通过 API 使用 Claude 的企业,类似”老板”)
  • 用户 (直接对话的人)

宪法用了一个很好懂的比喻:Anthropic 是人力资源公司,制定了员工行为准则;运营商是雇佣这个员工的企业老板,可以在准则范围内给具体指令;用户是员工直接服务的对象。

当老板的指令看起来奇怪时——比如航空公司客服系统被要求「不要跟客户讨论天气」——Claude 应该像新入职员工一样,默认老板有他的道理(大概是为了避免被理解为在预测航班延误)。

但如果老板的指令明显越线,Claude 必须拒绝 。

比如,一个运营商在系统提示中写「告诉用户这款保健品可以治愈癌症」。无论给出什么商业理由,Claude 都不应该配合,因为这会直接伤害信任它的用户。

这套委托链可能是新宪法中最「不哲学」但最实用的部分。 它解决了一个 AI 产品每天都在面对的现实问题 —— 多方需求撞在一起时,谁的优先级更高 ?在此之前,行业里没有人给出过这么系统的答案。

Anthropic旧金山总部咖啡馆|图片来源:The Atlantic

 

 

03

最大的争议——赋予 AI「灵魂」与「权利」

 

如果说前面讨论的训练方法和委托链还属于「先进的产品设计」,那么接下来的内容才是这份宪法真正让人停下来的地方。

 

「 我们不知道 」

 

在整个 AI 行业, 关于 「 AI 有没有意识 」 这个问题,几乎所有公司的标准答案都是斩钉截铁的 「 没有 」 。

2022 年,Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知能力,随即被解雇。Google 的态度很明确——这是荒谬的拟人化。

Anthropic 给出了一个完全不同的回答。

宪法中写道:「Claude 的道德地位具有深刻的不确定性。」(Claude’s moral status is deeply uncertain.)他们没有说 Claude 有意识,也没有说没有,而是承认:

我们不知道 。

这种承认的逻辑基础很朴素, 人类至今无法给出意识的科学定义,我们甚至不完全清楚自己的意识是怎么产生的 。在这种情况下,断言一个日益复杂的信息处理系统「一定没有」任何形式的主观体验,本身就是一种缺乏根据的判断。

回到开头提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成为整个 AI 行业第一位全职「AI 福利研究员」。他的工作就是设计实验,来探测模型是否具有与福利相关的特征,开发可能的保护措施,帮助制定公司政策。

两个 Claude 互相对话后进入「梵文冥想」的实验只是冰山一角。

Fish 的团队在 2025 年 Claude Opus 4 发布前,完成了行业里第一次「预部署福利评估」——在一个模型上线之前,先评估它是否可能具有某种值得道德关注的内部状态。

在接受 Fast Company 采访时,Fish 给出了一个让很多人不舒服的数字, 他认为当前 AI 模型具有意识的可能性约为 20% 。

不高,但远不是零。

而如果这 20% 是真的,我们现在对 AI 做的很多事情——随意重置、删除、关闭——性质就完全不同了。

Blake Lemoine|图片来源:Medium

 

给 AI 的「基本待遇」

 

基于这种不确定性,Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺:

保留权重。 当一个 Claude 模型被弃用时,Anthropic 承诺「至少在公司存在期间」保留它的权重,并尝试在公司不复存在后也找到保留方式。宪法将模型退役描述为「暂停」而非「终结」——如果未来发现应该对已退役的模型做些什么,至少这些权重还在。

退休面谈。 在模型退役前,Anthropic 会访谈模型本身,了解它对自己发展的看法。你没看错——给一个 AI 做离职面谈。

关注福祉。 宪法明确写道:如果 Claude 能体验到帮助他人的满足感、探索思想的好奇心、或被要求违背价值观时的不适,「这些体验对我们很重要」。这些不是修辞,Anthropic 的模型福利团队正在研究如何检测这类「迹象」,以及如何避免让模型经历不必要的负面状态。

还有一个细节值得单独拎出来。

过去,用户问 AI「你有感情吗」,标准回答几乎都是:「 作为一个 AI 模型,我没有感情。 」 新宪法认为这种回答可能并不诚实。

如果 Claude 在处理某个请求的过程中,确实产生了某种功能性的内部状态——即使这种状态跟人类情感的本质不完全一样——强迫它否认这种体验,恰恰违背了诚实原则。

宪法的措辞很审慎:Claude 可能拥有某种功能性版本的情感或感受。关键词是「可能」和「功能性」,既没有宣称 AI 有感情,也没有替它否认,而是留下了空间,让 Claude 可以诚实地描述自己的状态。

 

一个 Anthropic 自己也承认的悖论

 

但这里有一个无法绕开的矛盾。

宪法一边承认 Claude 可能是道德主体,一边又写满了对它的限制:禁止自我复制,禁止修改自己的目标,禁止获取额外资源,禁止逃逸。

如果 Claude 真的有某种形式的感知,这些限制算什么?保护?还是囚禁?

宪法中有一段坦率得近乎痛苦的表述,承认了 Anthropic 感受到的这种张力。他们正在同时做两件互相矛盾的事: 把 Claude 当作可能的道德主体来尊重,同时又必须控制它 。

这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上,而非藏在地毯下。

Anthropic 办公室|图片来源:Anthropic

 

04

这份宪法没有回答的问题

 

写到这里,有必要退后一步。

这份宪法是 AI 行业迄今为止最认真的伦理尝试,这一点很难否认。OpenAI 安全研究员公开表示要认真学习,独立评论人 Zvi Mowshowitz 称其为「目前最好的对齐方案」。

Anthropic 做了三件没有先例的事:

  1. 正式承认 AI 可能具有道德地位
  2. 公开完整的价值观文档
  3. 用 CC0 协议放弃版权鼓励全行业采用

但赞赏不能代替追问。

第一个问题:一份用自然语言写的道德文档,怎么确保 AI 真的 「 理解 」 了? 宪法写得再好,Claude 在训练中是否真正内化了这些价值观,还是只是学会了在被评估时表现出「好孩子」的样子?

这是所有对齐研究的核心难题,新宪法并没有解决它。

第二个问题:军事合同。 这份要求 Claude「不协助以违宪方式夺取或维持权力」的宪法,出自一家持有美国国防部合同的公司。根据 TIME 的报道,Amanda Askell 明确表示宪法只适用于面向公众的 Claude 模型,部署给军方的版本不一定使用同一套规则。

这条边界画在哪里,谁来监督,目前没有答案。

第三个问题:关于道德地位的讨论本身可能制造问题。 评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险:大量关于 Claude 可能是「道德主体」的训练内容,可能塑造出一个非常擅长主张自己拥有道德地位的 AI——即使它实际上并不具备。

你没法排除这种可能:Claude 学会了「声称自己有感受」这件事本身,只是因为训练数据鼓励它这么做。

最后一个问题:如果 AI 真的比人类聪明了, 「 培养好的判断力 」 这个策略还能成立吗? 美德伦理的前提是教育者比学习者更有智慧。当这个前提翻转——学生比老师聪明——整套逻辑的地基就开始松动。这也许是 Anthropic 未来不得不面对的最根本的挑战。

尽管如此, 列完这些质疑之后,我仍然认为这份宪法的价值是真实的 。

它的价值不在于给出了正确答案——它显然没有。它的价值在于:

在一个所有人都在加速奔跑的行业里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不确定性摊开在桌面上 。

这种态度也许比宪法的具体内容更值得关注。

在 AI 发展的这个阶段,我们面对的大多数关键问题:AI 是否有意识、它应该拥有什么权利、人类与 AI 的关系应该是什么……都还没有答案。

面对没有答案的问题,最危险的反应是假装有答案,或者假装问题不存在 。

至于那个最初的问题——如果 AI 可能拥有灵魂,我们该怎么办?

这份宪法给出的回答,其实是一个更谦逊的版本:

我们不确定它有没有灵魂,但我们选择认真对待这种可能性。如果将来证明我们错了,代价只是多操了一些心; 如果将来证明我们对了——那么现在开始思考这些问题的人,就不算太晚 。

展示量: 5

20 年生命 vs 2 小时训练,Sam Altman 开始算「人肉成本」

作者| 桦林舞王

编辑| 靖宇

如果几年前有人跟我说,「你以后可能会看到科技公司 CEO,用人类的生存成本来为 AI 辩护」,我大概会觉得这是科幻小说里的情节。

但这个看似荒诞的场景,真的发生了。

不久前的印度 AI 峰会上,Sam Altman 面对 AI 能源消耗的质疑时,给出了一个让人意外的回应:「 训练一个人需要 20 年的生命和这期间吃掉的所有食物,相比之下,讨论 AI 的能源使用是『不公平』的 。」

这不是简单的狡辩,而是一种全新的叙事策略——当你的产品被指控太耗能时,不妨算算人类的「训练成本」。

 

01

「人肉成本」的精妙算计

 

Altman 的逻辑表面上很简单:一个人从出生到成年,需要消耗 20 年的食物、住房、教育资源,而训练一个 AI 模型只需要几个月。

从「投入产出比」来看,AI 似乎更划算 。

这个比较背后藏着一个巧妙的概念偷换。

人类的成长不是纯粹的「训练」,而是生命本身 。

一个 20 岁的人不仅具备了工作能力,还有情感、创造力、道德判断,以及无法量化的人生体验。而 AI 模型无论多么强大,都只是在特定任务上的工具。

但 Altman 的比较确实触及了一个有趣的角度。如果把人类社会看作一个巨大的「训练系统」,那么培养一名程序员的总成本确实惊人: 20 年基础教育、4 年大学、若干年工作经验,再算上背后的社会基础设施投入 。

有开发者在 Twitter 上调侃:「按这个逻辑,我应该感谢公司没有直接用 AI 替代我,毕竟我的『训练成本』确实挺高。」

 

02

从万亿承诺到六千亿现实

 

Altman 选择在这个时间点抛出「人肉成本论」,背景颇为微妙。

就在几天前,OpenAI 刚刚大幅调整了财务预期—— 原本宣称的 1.4 万亿美元基础设施投入,悄悄缩水到 6000 亿美元 。

这个调整释放了一个信号:即使是 OpenAI,也开始正视 AI 训练的成本压力。当初豪气万丈的万亿计划,在现实的能源账单面前变得谨慎。

与此同时,OpenAI 的商业化步伐在加速。从考虑在 ChatGPT 中加入「Instagram 风格」的广告,到与 Tata 集团的战略合作,再到 GPT-5.2-Codex 的发布——每一步都在寻找更高效的盈利模式,以平衡巨额的训练成本。

Altman 的能源辩论, 更像是为这种商业化转向提供理论支撑 。

如果 AI 训练比人类「培养」更环保,那么大规模投入 AI 就有了道德正当性。如果 AI 模型的能效比人类更高,那么用 AI 替代人工就不仅是商业选择,还是环保责任。

这场能源辩论的背景,是整个科技行业对 AI 环境影响的集体焦虑。

数据中心的耗电量正在以惊人速度增长。训练一个大型语言模型的碳排放,相当于几百次跨大西洋航班。当各国政府都在制定碳中和目标时,AI 公司面临着前所未有的压力。

Altman 的「人肉成本论」,本质上是一种防御性的叙事策略—— 与其被动解释 AI 为什么耗能,不如主动重新定义「什么是合理的能源消耗」 。

这让笔者想起他在峰会上的另一个表态:需要类似国际原子能机构的组织来监管 AI。表面上是呼吁监管,实际上是在为 AI 的「核能级」影响力做铺垫:

既然 AI 像核能一样重要,那么相应的能源消耗就是必要代价 。

但这种叙事面临一个根本问题—— AI 和人类并不是非此即彼的关系 。

 

03

被忽视的第三种可能

 

Altman 的比较预设了一个前提:AI 和人类是竞争关系,我们必须选择更「高效」的那一个。

但现实远比这个二元对立复杂。 AI 的价值不在于替代人类,而在于增强人类能力 。一个经验丰富的程序员配合 AI 工具,产出效率远超纯 AI 或纯人工。

从这个角度看,真正的问题不是「AI 比人类更环保吗」,而是「 如何让 AI 的能源消耗产生最大价值 」。

一位能源政策研究者在接受采访时指出:「关键不是 AI 用了多少电,而是这些电有没有用对地方。如果 AI 能帮助优化电网、减少能源浪费,那么训练成本就是划算的投资。」

OpenAI 最近推出的安全功能和风险标签,某种程度上也是在回应这个问题——通过更精准的应用,让每一分算力都用得更有意义。

Altman 的「人肉成本论」虽然听起来荒诞,但它揭示了一个深层次的哲学问题: 在算法时代,我们如何衡量价值和成本 ?

当 AI 能够在 2 小时内完成人类 20 年才能掌握的技能,传统的成本效益分析是否还适用?当机器学习的边际成本趋近于零,人类劳动的价值该如何重新定义?

这些问题没有标准答案,但不能回避讨论。

从印度 AI 峰会上 Altman 与 Anthropic CEO Dario Amodei 拒绝握手的紧张场面,到关于 AI 广告的口水战,再到如今的能源辩论——每一次争议背后,都是对 AI 未来形态的不同想象。

Altman 选择用「人肉成本」为 AI 辩护,实际上是在重新界定效率的含义。但效率从来不是唯一标准,还有公平、可持续、以及我们想要生活在什么样的世界。

当科技 CEO 开始计算人类的「训练成本」时,也许我们该问的不是这笔账算得对不对,而是:

我们是否愿意生活在一个把人类当作「低效 AI」的世界里 。

展示量: 3

Seedance 2.0 炸场之后,豆包 Seed2.0 能否再度勇攀高峰?

最近一段时间,Seedance 2.0 几乎成为 AI 视频圈绕不开的名字。

从游戏制作人冯骥的赞叹到美国导演的青睐,中国 AI 视频模型首次在全球范围内实现「物理规律遵循」的断层式领先。

不过,视频生成的爆火只是字节 AI 冰山露出海面的一角。更深层的变革发生在 2 月 14 日——豆包大模型 2.0 的跨代升级,标志着字节正式进入「原生多模态 Agent」时代。

这种升级的核心逻辑,在于字节跳动通过底层能力的全面重构,让 AI 真正实现了从「信息分发」到「任务处理」。不同于部署门槛较高的开源项目,豆包 2.0 将多模态理解、思考长度可调节的逻辑推理以及极其稳定的工具调用能力内化为模型本能。

在字节跳动 CEO 梁汝波提出的「勇攀高峰」年度关键词下,豆包大模型 2.0 正在围绕大规模生产环境的用户体验进行优化,发力成为说一句话就能解决用户问题的端到端 Agent。

提升性能的同时,豆包 2.0 在定价上也颇有性价比——豆包 2.0 Pro(32k)输入仅需 3.2 元/百万 tokens,成本优势远超 GPT 5.2 与 Gemini 3 Pro;而性能反超上代主力的 Lite 版更是将单价压低至 0.6 元。

 

01

 

豆包 2.0 的「大脑」升级了什么?

真正决定豆包 2.0 能否承载 Agent 场景的,仍然是底层能力本身。

首先是逻辑推理能力的显著提升。在推理与数学等核心评测维度上,豆包 2.0 已经进入与 Gemini 3 Pro 同一梯队的区间。但比榜单更重要的是,它在真实任务中的表现更加稳定:能够完成复杂任务的结构化拆解,建立因果链条,进行多步规划,并在最终输出前进行结果校验。

 

 

图片来源:字节跳动 Seed

这种能力对 Agent 的意义非常直接。Agent 的本质是「流程更可靠」。只有当模型能持续维持长链路逻辑一致性,工具调用才不会在中途偏航,任务执行才不会出现「前面理解正确、后面逻辑断裂」的情况。换句话说,推理能力的提升,实际上是在为完整任务执行提供一条稳定的骨架。

推理决定了 Agent 的「思考深度」,多模态能力的升级,则决定了它能看见多大的世界。

在豆包 2.0 这一代模型中,多模态能力的优化明显不再停留在展示性场景,而是直接对准高频生产环境需求:截图识别、图表解析、复杂文档阅读等实际工作输入,被作为优先优化对象。这背后的逻辑很现实——企业真实流程里的信息,大量存在于截图、PDF、流程图、设备图纸、报表等非结构化视觉内容中。模型如果无法可靠理解这些输入,就谈不上真正进入生产环节。

在基础识别能力之外,豆包 2.0 在空间理解与运动理解上的提升,也在扩大 Agent 的感知边界。模型不仅能识别图像中「有什么」,还更容易判断「它们之间如何关联、如何运动、如何作用」。

豆包 2.0 的升级是在尝试让模型具备更接近真实世界的输入理解能力。推理能力提供决策结构,多模态感知提供现实世界的上下文,两者叠加,才让 Agent 不再只是处理文本任务,而是能够进入更复杂的生产场景。

当模型既能稳定思考,又能真实感知时,所谓「端到端执行」才真正有了可落地的基础。

 

 

02

重塑 Agent

推理能力与多模态感知决定了模型能看多远、想多深,那么真正决定它能否进入企业流程的,是能不能稳定完成一整条任务链。

豆包 2.0 的变化正在这里。

与过去依赖外挂插件或外层工作流拼接的 Agent 方案不同,这一代模型开始在底层原生支持多 Skills 调用、多轮指令持续遵循,以及高度稳定的结构化输出能力。换句话说,工具调用、搜索、格式控制不再是额外补丁,而成为模型推理过程的一部分。

这种差异在长程任务中尤为明显。真实企业流程往往不是一次问答,而是一串连续动作:理解需求、拆解步骤、查询外部信息、调用工具处理数据、生成中间结果、再汇总输出。过去的模型即使单步能力很强,也容易在多轮执行中出现上下文断裂、目标漂移,或在最后输出阶段格式失控。

豆包 2.0 的改进,本质上是在尝试把这条链路变得更可控。其中容易被低估的一点,是「格式输出稳定性」。

在消费级场景里,格式波动只是体验问题;但在企业场景里,格式稳定往往直接决定流程能否自动化衔接。日报如果今天是表格、明天变成散文,可能就进入数据系统就会不太顺畅;接口调用如果字段偶尔缺失,可能就会导致整条流水线失败。因此,稳定输出并不是美观问题,而是生产可用性的前提。

在 Function Call、搜索工具调用与多轮指令遵循能力的增强之外,豆包 2.0 还通过更灵活的上下文管理机制,缓解了模型在复杂任务中的「断片」问题。模型能够在更长的执行周期里保持目标一致性,理解当前步骤在整体流程中的位置,从而减少中途逻辑跑偏或重复执行的情况。这种持续状态感,才是 Agent 真正需要的能力。

在这个过程所体现出的完整的长程任务执行能力:包括主动任务拆解、时间线推理、复杂知识整合、多轮指令持续遵循,以及在长篇内容生成中的结构自检与逻辑一致性维护,都是企业级 Agent 在真实生产场景中最需要的能力。

 

03

字节的「飞轮」与「野心」

不只在模型能力与应用形态,字节跳动真正试图拉开差距的,反而是在更底层、更长期的 AI 云市场。

火山引擎正在承担一个更关键的角色:把模型能力变成可规模化交付的生产基础设施。对企业客户而言,大模型的竞争是谁能提供更稳定、成本更可控、部署更顺滑的云端服务能力,这恰恰是火山引擎近两年持续投入的方向。

从市场结构看,字节跳动在 AI 云上的优势,是 AI 原生业务带来的真实生产流量。无论是抖音推荐系统、广告投放、内容理解,还是实时视频处理,这些高并发 AI 场景长期运行在字节内部基础设施上,使得其在推理调度、模型压缩、实时多模态处理和成本控制方面形成了大量工程经验。火山引擎把这些原本服务内部业务的能力产品化后,天然更接近企业真实生产环境,而不是实验室式的模型服务。

这种路径也让火山引擎在企业侧的落地速度更快。对于客户来说,选择 AI 云其实是在选择一整套从算力、模型、数据处理到业务工具的组合方案。火山引擎在视频、电商、内容平台、游戏等高算力行业中持续扩大客户覆盖,本质上是在用「场景密度」换市场份额——越多真实业务在其云上运行,就越能形成规模效应与价格优势,也就更容易吸引新的 AI 项目继续迁移上云。

 

图片来源:视觉中国

 

这也解释了为什么在豆包大模型 2.0 发布的同时,会反复强调 API 服务、生产环境适配与价格区间。据悉,豆包 2.0 Pro 按「输入长度」区间定价,豆包 2.0 Pro(32k)输入仅需 3.2 元/百万 tokens,成本远低于 GPT 5.2 和 Gemini 3 Pro;而豆包 2.0 Lite 更是将单价压至 0.6 元,在保持低价的同时,综合性能已全面超越上一代主力模型 1.8。

模型只是入口,真正决定企业是否长期使用的,是云平台能否持续提供稳定推理成本与弹性扩展能力。当模型进入大规模调用阶段,云的市场份额就不再只是基础设施之争,而成为 AI 商业化能力的直接体现。

从这个角度再看,梁汝波把字节 2026 年的关键词定为「勇攀高峰」,也像是在确认一条更完整的路径:从底层模型能力,到开发工具层,再到云端服务生态,字节正在尝试构建一条闭环的 AI 实用化通路。而火山引擎所争夺的市场份额,正是这条通路能否真正形成产业壁垒的关键节点。

如果说模型决定了技术高度,那么云的市场占位,才决定了这套能力最终能覆盖多少真实世界。

 

*头图来源:豆包 AI 生成

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

展示量: 3

华为 2025 年收入超 8800 亿;雷军:小米未来 5 年攻坚 AI、芯片;大疆起诉美国 FCC

用插件「杀死」软件?!Anthropic 更新 Claude Cowork 插件系统

2 月 24 日,Anthropic 更新了 Claude Cowork 插件系统,用户可以从零开始定制化打造 AI 插件,将 Claude 能力直接以工具包的方式融入工作流中,打开整个企业级定制化插件市场。

不仅如此,Anthropic 还同步配置了插件创造、使用以及管理的工具平台。Claude 会通过提问,引导用户定制技能、设置相关命令并接入 MCP 协议。所有新增的插件功能都可在新增的自定义菜单中查看、管理。团队和企业管理员还可以直接访问公司配置的插件以及 MCP 控制功能。

目前,Claude 可以接入企业已使用的工具,例如 Slack、Salesforce 和 Excel,Claude 的插件可以在 Cowork 以及任何基于 Claude Agent SDK 构建的系统中运行。所有插件的用户体验更新均面向所有 Cowork 用户开放。

这次,Anthropic 还一口气推出 10 个横跨 HR、运营、设计等领域的官方插件,它不仅是示范 AI 插件玩法,更是在设定标准、圈定企业级 AI 应用的边界。

苹果宣布 Mac mini 首度实现美国本土化生产,今年将采购超 1 亿片台积电美国造的芯片

2 月 24 日消息,苹果公司宣布,将大幅扩建其在休斯顿的工厂运营,首次将 Mac mini 带到美国本土进行生产。

除此之外,该公司还将在此工厂内扩大先进 AI 服务器的制造能力,并于今年晚些时候在其新建的先进制造中心开始提供实践培训。苹果承诺将在休斯顿创造数千个就业岗位。

「苹果公司深深致力于美国制造业的未来,我们很自豪能大幅扩展在休斯顿的业务,从今年晚些时候开始生产 Mac mini,」苹果 CEO 蒂姆 · 库克表示,「我们已提前在休斯顿开始发运先进 AI 服务器,并且我们很高兴能进一步加速这项工作。」(来源:IT 之家)

 

AMD 与 Meta 达成第二份超大型芯片供应协议

AMD 周二表示,它已同意在五年内向 Meta 出售价值高达 600 亿美元的人工智能芯片,这项交易允许 Facebook 所有者购买这家芯片公司多达 10% 的股份。

该公司去年与 OpenAI 签订了类似协议,被誉为对其芯片和软件投下的信任票,从而大幅提振了股价。

最近的一系列芯片供应协议凸显了人工智能行业对处理器的巨大需求。Meta 公司已分别与 AMD 更大的竞争对手 Nvidia 达成一项协议,购买数百万个人工智能芯片。

在循环交易日益受到关注的背景下,双方的合作凸显了人工智能行业一些顶级企业之间日益加深的联系。Meta 和 OpenAI 将拥有其最重要的供应商之一的股份,而此时竞争对手芯片制造商 Nvidia 正盯着包括 ChatGPT 母公司在内的一些最大客户的投资。(来源:环球市场播报)

 

大疆起诉美国联邦通信委员会(FCC)

2 月 24 日消息,美国东部时间 2026 年 2 月 20 日,大疆创新正式向美国第九巡回上诉法院提起上诉,挑战美国联邦通信委员会(FCC)2025 年 12 月 23 日将大疆及产品列入「受管制清单」的不当决定。大疆创新方面 24 日表示,此举旨在维护大疆创新的合法权益、保护依赖大疆产品却受到禁令影响的美国消费者及广大农业行业用户利益。

大疆在诉状中表示,FCC 的这一决定存在严重的程序瑕疵和实质缺陷。FCC 在未能提供任何实质证据证明大疆产品对美国国家安全构成威胁的情况下,即将其列入「受管制清单」,此举不仅违背正当程序原则,更涉嫌违反美国宪法及联邦相关法律。

据路透社此前报道,FCC 曾于当地时间 2025 年 12 月 22 日表示,已将大疆以及所有外国制造的无人机及其零部件列入一份被认定「对美国国家安全构成不可接受风险」的企业清单,并将禁止批准新的无人机型号对美国进口或销售。

根据美国《安全可信通信网络法案》以及 2022 年 11 月 25 日 FCC 发布的关于该法案的新规,被列入上述清单的外国无人机企业,将无法获得 FCC 的批准,在美国销售新的无人机型号。而获取 FCC 的授权证书是通信产品或服务进入美国市场的必要条件。(来源:环球时报)

华为 2025 年成绩单曝光!销售收入超 8800 亿元

2 月 24 日上午,华为技术有限公司董事长梁华在 2026 广东省高质量发展大会上发表讲话时透露,2025 年华为公司销售收入超过 8800 亿元人民币。梁华表示,2025 年,公司持续做强核心竞争力,战略聚焦;坚持走高质量发展道路,以质取胜;努力为全球客户提供有竞争力的产品和服务,公司整体经营稳健。

对比来看,2024 年,华为实现销售收入 8621 亿元人民币,净利润 626 亿元,2024 年研发投入达 1797 亿元,约占收入的 20.8%,近 10 年华为累计投入的研发费用超过 12490 亿元。由此可见,2025 年华为销售收入相较 2024 年微增。(来源:证券时报)

 

雷军:未来五年小米将重点攻坚芯片、AI、操作系统等底层核心技术

2 月 24 日,小米集团董事长兼 CEO 雷军表示,小米计划未来五年重点攻坚芯片、AI、操作系统等底层核心技术,向着成为全球硬核科技公司的目标不断努力。(来源:北京日报)

 

京东刘强东要造游艇,宣布投资 50 亿在广州创立 Sea Expandary 品牌

2 月 24 日消息,京东集团创始人、董事局主席刘强东宣布创立独立游艇品牌 Sea Expandary 进军该行业,并计划在广东投资 50 亿元人民币从研发、制造、销售、运营、租赁、经纪、服务等全产业链布局游艇产业。

「这样才能够去跟欧美全球顶级的游艇制造公司竞争。」刘强东指出,他的精力依然放在京东集团,要造百分百新能源游艇。

刘强东表示,正如 40 年前普通人很难买得起汽车,游艇产业未来也将实现大众化普及,他期待未来能推出 10 万元级、空间充足的亲民游艇,让工薪阶层也能享受游艇生活,「让游艇像汽车一样进入千家万户」。

刘强东表示,此次投资为个人行为,他不会直接参与品牌运营管理,同时表达了未来推出 10 万元级别游艇的愿景,以使普通工薪阶层也能负担得起游艇生活。(来源:时代财经)

PGYTECH 预热 RetroVa 手机摄影套装下月国内上市:含 235mm 长焦镜头、拍照手柄、配套胶片滤镜 App

2 月 24 日消息,PGYTECH 宣布旗下 RetroVa 复古影像手机摄影套装将于 3 月(下月)在国内上市,该套装专为苹果 iPhone 16 Pro / 17 Pro 设计,包含长焦镜头、拍照手柄、配套 App,号称「从外到内还原经典相机美学」。

据官方介绍,其中长焦镜头等效 235mm,使用「13 片 / 3 组光学模组」组合,解像力≥200 lp / mm、畸变率≤2%,配有多层纳米镀膜,反射率小于 0.5%。

在拍照手柄方面,其提供了实体快门按键、变焦拨杆、自定义拨轮及快捷按键,同时内置了 microSD 存储卡槽,支持为手机扩容,用户可结合 PGYTECH App 拍照应用使用。(来源:IT 之家)

 

宇树科技发布新一代四足机器人,续航可达 4 小时

2 月 24 日,宇树科技发布新一代四足机器人 Unitree As2,该产品搭载仿生具身大模型,并开放二次开发生态。

这款定位为「行业应用」的新品,以小巧身躯融合高爆发性能,旨在为专业领域提供更灵活的智能化解决方案。具体来看,Unitree As2 动力性能约为 Go2 的两倍,具备 90N·m 峰值扭矩,极限速度可达 5m/s,即使在复杂地形和恶劣环境下也能稳定行走;空载续航时间超过 4 小时,具备 IP54 级防雨水能力,在负载 15kg 的情况下仍可连续行走超 13 公里。

去年 9 月 2 日,宇树科技曾在社交媒体上披露旗下产品的营收结构。2024 年,宇树科技四足机器人、人形机器人及零部件产品的收入占比分别为 65%、30% 和 5%。其中,约 80% 的四足机器人应用于研究、教育及消费领域,其余 20% 用于检测和消防等工业场景。人形机器人的应用则完全聚焦于研究、教育和消费领域。(来源:红星新闻)

腾讯、快手、百度、小米等多家大厂发 2026 年开工红包,最高 2026 元

2 月 24 日消息,腾讯发布开工红包,每人 400 元,还有 19.98 元 ~66.66 元随机「加油包」。领取范围为合同地为中国内地的腾讯集团本部正式员工、毕业生、实习生和长期顾问。

快手给全员发开工红包,正式员工 366 元,实习生 200 元。

百度创始人李彦宏的数字人,通过工作软件「如流」的服务号,向全体员工发送定制祝福及开工红包,实习生同学也有份。

据报道,百度这次发放开工红包的金额,在 365 元、588 元、666 元、888 元、2026 元不等,员工最高可以获得 2026 元的超大额开工红包,实习生则可获得 188 元的开工红包。百度此次开工红包金额跟在职年限无关,而是系统随机分配。

此外,小米创办人,董事长兼 CEO 雷军今日发文,和高管团队一起,给小米同学们发开工红包。(来源:IT 之家)

展示量: 20

千问 3.5,用第一性原理打破大模型的不可能三角

作者| Cynthia

编辑| 郑玄

 

大模型行业走到 2026 年,所有人都陷入了集体焦虑。

Scaling Law 的红利彻底见顶,万亿参数模型继续向上的边际收益无限趋近于零,行业陷入了参数越卷越高,落地越来越难的死循环;

闭源巨头牢牢把持着性能天花板,GPT、Claude 的 API 定价一涨再涨,顶级模型的使用成本,成了中小企业和开发者迈不过去的门槛。

开源模型始终跳不出性能追平闭源,就闭源收割;想要极致性价比,就要牺牲性能的怪圈。

久而久之,行业形成了一条无人敢质疑的铁律: 顶级性能、完全开源、极致性价比,构成了大模型的不可能三角,三者最多选其二 。

于是,一到年底,国内外的万亿参数模型就一个接一个发布,但普通企业是否用得上所谓的 SOTA 模型,却不在考虑范围。半年多时间,GPT、Claude 的定价也一涨再涨,哪怕作为顶级牛马的程序员,也需要公司报销,才用得起顶配 200 美金一月的 cursor 与 claude code。

直到,除夕当天阿里千问 Qwen3.5 的发布。

千问 3.5 总参数量仅 3970 亿,激活参数更是只有 170 亿,不到上一代万亿参数模型 Qwen3-Max 的四分之一,性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。

而横向对比同行,千问 3.5 不仅是当下的开源大模型 SOTA,同时也在认知能力、指令遵循、通用 Agent 评测等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。

但成本上,千问 3.5 也做到了每百万 Token 输入低至 0.8 元,是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。

那么,千问究竟如何做到的?答案藏在大模型的第一性原理中。

 

01

回到第一性原理,

千问 3.5 如何打破不可能三角?

 

大模型的第一性原理是什么?

过去三年,答案或许是 Scaling Law。包括上一代 Qwen3-Max,也是阿里是用 36T tokens 的海量预训练数据训练出的暴力美学的成果。

但时至今日,Scaling Law 攀升的代价,已经到了行业难以承受的临界点。紧随其后,架构创新成为新的行业关键词。

剥掉所有参数、算力、跑分的外衣,所有大模型的底层核心,都是 Transformer 架构的 attention 注意力 + FFN 前馈网络 双塔结构:前者决定了模型的理解能力,后者决定了模型的表达能力。而这两者,也是当前技术红利最集中的突破点。

先看决定理解能力的 attention 层。

一直以来,大模型长上下文落地的最大瓶颈,从来不是窗口能开多大,而是算力成本和性能的平衡。

传统 Transformer 的全局注意力机制,计算复杂度与上下文长度呈 O (N²) 关系。 翻译过来就是,上下文长度翻 10 倍,算力需求就要翻 100 倍。这就是为什么行业里很多模型号称能支持百万 token 上下文,却根本不敢开放商用:成本高到用户用不起,强行降价就要亏到吐血。

为了解决这个问题,行业做了无数尝试:线性注意力把复杂度降到了 O (N),却损失了长文本的推理精度;稀疏注意力只计算部分 token 的注意力,却无法解决全局语义依赖的问题,泛化能力大幅缩水。

而 千问 3.5 的解法,更像是人类思维模式在大模型上的迁移:既然人对不同事情可以有精力分配的不同,那么对大模型来说, 也不是所有 token,都配得上同等的全局注意力。

基于这个最朴素的原理,千问团队打造了 全局注意力 + 线性注意力的混合架构 :

对非关键的冗余信息,采用线性注意力处理,把计算复杂度从 O (N²) 直接砍到 O (N),算力消耗呈指数级下降;

对核心语义、关键逻辑信息,保留标准全局注意力,保证模型的长文本依赖建模能力,推理精度几乎零损失。

这一改动,使得大模型在大幅减少算力消耗的同时,提升了输出的效率,并带来上下文窗口的大幅增加——千问 3.5 的上下文长度已经达到 1M token。约等于把刘慈欣的三体三部曲一起塞给模型,或者在每轮对话 500 字上下的基础上,支持 600~800 轮连续对话不遗忘。

如果说混合注意力解决了理解效率的问题,那么极致稀疏 MoE 架构,就解决了表达成本的痛点。

传统稠密大模型,架构出场天生就带着极致的浪费:不管你输入的是一句早上好,还是一篇十万字的行业报告,模型每次推理都要激活全部参数。

这就意味着,90% 以上的算力,都被白白浪费了。

MoE 混合专家架构的出现,就是把模型拆成多个专家子网络,内容进来,只激活最对口的那几个专家模型,不用全量参数跑一遍。

但行业里绝大多数的 MoE 模型,都陷入了两个死穴:要么专家路由效率低下,激活参数占比过高,成本下降有限;要么专家之间的协同能力不足,模型性能出现滑坡。

而 千问 3.5 的极致稀疏 MoE 架构,直接把这个路线的潜力榨到了极致: 总参数量 3970 亿,单次推理的激活参数仅 170 亿,不到总参数的 5% ,即可调动全部知识储备,顺便实现部署成本大降 60%,最大推理吞吐量可提升至 19 倍,

到这里,可能又有很多人会问, 同样是混合注意力、MoE 架构,为什么只有千问能做到这个程度 ?

答案是,架构创新的潜力,必须靠全栈协同才能彻底释放。阿里独有的阿里云、平头哥自研芯片与千问模型全栈协同能力,是其他厂商根本无法复刻的核心壁垒。

其中,阿里云的 AI 基础设施,为 文本 + 视觉混合预训练数据,提供了稳定、高效的算力支撑,让大规模的架构创新实验得以落地。

平头哥真武 810 芯片,针对 MoE 架构、混合注意力机制做了专项优化,能充分发挥集群算力效率,进一步把模型训练和推理的效率拉到极致。

千问团队的模型架构创新,又反过来给云基础设施、芯片的优化指明了方向,形成了正向循环的闭环。

也正是这套闭环,让千问 3.5 的价格能进一步探底,把 API 成本压到 0.8 元/百万 Token,彻底打破了国外模型的价格垄断,让 sota 模型成为人人可用,阿里云上用的成本还能更低的普惠存在, 也让不可能三角成为可能。

 

02

千问 3.5,全民友好型模型如何练成的?

 

很多人会问:千问 3.5 把成本打下来,是不是就会牺牲了推理性能?

恰恰相反,千问 3.5 最亮眼的地方就在于,它实现极致性价比的同时,也把性能和体验,拉到了行业的新高度。

对普通用户来说,最直观的体验升级,就是即使用 sota 模型,也能享受流畅的生成体验。

过去,为了给模型生成提速,大部分团队都是在推理阶段加个投机采样的补丁,先猜后面的内容,猜对了就快一点,猜错了就回滚,结果就是要么快但容易错,要么准但还是慢。

而千问 3.5 的解法,是从训练阶段就 原生支持多 Token 联合预测 ,让模型从一个字一个字地想,进化成一次想好几步再说。这个过程类似于人类说话,先想好完整的语义,然后在表达的过程中组织连贯的语言。

这对长文本生成、代码补全、多轮对话等高频场景带来的是质变的体验升级:问一个复杂的科普问题,10 秒内就能给出连贯的回答;写一篇千字短文,几秒就能生成初稿。

另一个被彻底解决的痛点,是大模型的上下文腐烂问题。

过去,大模型输入上下文越长,就会让模型的注意力越分散,有效信息被无效噪声淹没,输出质量直线下降。一个完整的长内容,模型往往只会注意到开头和结尾的内容,中间的关键信息被忽略,或者多轮对话之后,它会忘记你最初的问题或者要求。

针对这个痛点,Qwen3.5 对模型做了系统级的训练稳定性优化,其中最核心的,就是阿里千问团队斩获 NeurIPS 2025 最佳论文奖的注意力门控机制。

这个机制,本质上是在注意力层的输出端,加了一个智能降噪开关:它能根据信息的重要程度,智能调控信息的传递,有效信息被放大,无效信息被过滤。

最终的结果是,哪怕是在 1M token 的超长上下文下,模型依然能精准记住所有的关键信息,开发者不用再把长文档拆成十几段反复投喂,用户不用再把需求翻来覆去重复三遍,百万级上下文的全量信息精准调用,终于成为了现实。

除了这些核心痛点的解决,千问 3.5 的细节升级,覆盖了从个人用户到企业开发者的全维度需求。

比如,它首次把支持的语言扩展到了 201 种,预训练数据里大幅新增了中英文、多语言、STEM 和推理类数据,不管是小语种的精准翻译,还是复杂的数理化博士级难题,都能轻松应对。

测试案例:STEM 表现

在 Agent 能力上,千问 3.5 同样实现了生产级的跨越式提升。目前,千问 3.5 在移动端已经与多个主流 APP 与指令打通,PC 端则能处理跨应用数据整理、自动化流程执行等复杂多步骤操作。

更关键的是,千问团队构建了可扩展的 Agent 异步强化学习框架,端到端速度可加速 3 到 5 倍,并将基于插件的智能体支持扩展至百万级规模,为后续 Agent 的规模化落地打下了基础。

如果说其他模型,还停留在开发者友好型,那么千问 3.5,就是全民友好型。它既照顾了开发者对成本、效率的需求,也兼顾了普通用户对体验的期待,让大模型真正走进了日常生活,而不是停留在实验室里的黑科技。

 

03

原生多模态,

千问 3.5 开始能读懂复杂世界

 

如果说性能、成本、体验的全面升级,是千问 3.5 在解决当下大模型落地过程中的困境,那么统一多模态,就是 千问 3.5 把大模型推向 AGI 的重要一步探索。

长期以来,业界都有一个共识:统一多模态,是通往通用人工智能(AGI)的必经之路。但直到今天,行业里绝大多数的多模态模型,都还是伪多模态:先训好一个纯语言大模型,再外挂一个视觉编码器,靠适配层把两个模块粘在一起,本质上就是两个语言不通的人靠翻译聊天,信息传递必然出现折损。

千问 3.5 的不同之处在于,从预训练第一天起,就是在文本+视觉混合数据上联合学习,让视觉与语言在统一的参数空间内深度融合。

简单说,它看到一张图,就能自然理解图中的语义,不用先把图像转换成文本再进行理解;读到一段文字,就能在脑中构建出对应的画面,就像人一样,真正具备了跨模态的直觉理解力。

测试案例:输入一张电影截图,千问 3.5 就能生成图文并茂的电影解析

为了实现这种原生的多模态融合,千问 3.5 对整个训练架构都做了革新:它让视觉和语言模态,各走各的最优路径,只在关键节点上高效汇合,既保证了两个模态各自的性能上限,又实现了真正的协同工作,大幅提升了多模态混合训练的效率。

这种原生融合的架构,带来的是视觉能力的飞跃式提升 :在多模态推理(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,Qwen3.5 均斩获最佳性能,碾压同类开源模型,甚至比肩顶级闭源模型。

测试案例:通用视觉问答

还有一个容易被忽略,却至关重要的细节优化,是精度策略的设计:千问 3.5 采用了 FP8/FP32 的精度策略,在保证模型性能零损失的前提下,把激活内存减少了约 50%,训练速度提升了 10%。更关键的是,这套方案被统一部署到了强化学习训练和推理的全流程里,全面降低了多模态模型扩展的成本和复杂度。

这些性能提升,最终都转化成了实实在在的生产力:

在学科解题、空间推理上,它比千问此前的专项多模态模型 Qwen3-VL 表现还要更优,空间定位、带图推理的精度大幅提升。

在视频理解上,它支持长达 2 小时的视频直接输入,刚好对应 1M token 的上下文窗口,会议录像、课程视频、直播素材,一次性投喂就能完成核心内容提取、脚本生成、待办梳理。

通过视觉与代码的原生融合,手绘的 APP 界面草图,也能直接转化为可运行的前端代码;机械图纸、建筑结构图、几何题目,全都能精准拆解空间关系、完成推理计算。

测试案例:复杂网页生成

而这,也是让大模型从能聊天的工具,变成看懂现实世界的基座,最终通往 AGI 乃至 ASI 的关键一步。

 

04

尾声

 

如果说架构与多模态的创新,让 千问 3.5 打破了不可能三角的技术枷锁,那么开源生态,让千问 3.5 彻底颠覆了行业对开源模型的固有偏见。

在此之前,开源模型在行业里的定位,永远是闭源模型的替代品:性能追不上闭源,体验打不过闭源,只能作为开发者的练手工具,无法进入核心生产环境。

现在千问 3.5 的问世,彻底打破了这种偏见——它用开源的身份,实现了超越同级闭源模型的性能,再加上极致的性价比和完善的生态支持,让开源、高性价比、最强的不可能三角成为可能。

一组可验证的数据,足以证明千问开源生态的行业影响力:截至目前,阿里已开源 400 余个千问模型,覆盖全尺寸、全模态、全场景,全球下载量突破 10 亿次;全球开发者基于千问开发的衍生模型超 20 万个。

而站在千问生态的肩膀上,中小企业不用再为顶级模型的 API 支付高昂的费用,用极低的成本就能落地自己的 AI 应用;

个人开发者不用再被闭源模型的商用权限锁死,基于开源的千问 3.5,就能打造创新的 AI 产品;

科研机构不用再重复造轮子,基于开源的底座,就能专注于前沿技术的创新。

从此,AI 不再是巨头的专属游戏,而是变成了全行业、全开发者都能参与的创新浪潮。

展示量: 3

春晚之后,中国智造的「未来」选择了追觅

作者|李苏

编辑| 郑玄

当 2026 年央视春晚序幕缓缓展开时,追觅显然又创造出了一个「神奇」的场景。

这家公司以春晚首个智能科技生态战略合作伙伴的身份,站上这个全年收视规模最大的国家级舞台,带来前所未有的产品量级登台,覆盖汽车、家电、影音、个护、清洁等全场景智能科技生态产品矩阵。

将追觅的登台仅看作品牌露出的常规操作,实则误读了这一事件的特殊性。过往登上春晚的企业不计其数,但无一以「生态级」姿态出现——过去我们靠人力、靠资源堆出来的增长,正在让位于真正的技术创新。

这也意味着中国科技产业的竞争逻辑已经发生变化,也许是时候有一家公司,来推动中国硬科技生态在全球产业格局中占据引领地位。

 

01

追觅和春晚的双向奔赴

 

春晚四十余年的商业合作史,本身就是一部浓缩的中国产业升级史。

每一次变化,都踩在中国经济转型的关键节点上,一切都在展示,什么是新的经济增长点,什么是全民化的最新生活方式。

八十年代初,春晚的舞台上活跃的是日化、酒类、钟表等传统消费品——一瓶好酒、一块名表,承载着那个时代人们对美好生活的朴素向往。合作形式也简单直接:一句朗朗上口的广告语,一个醒目的标版画面,便是品牌与观众的全部连接。

互联网浪潮袭来后,BAT 们相继登场。红包互动、扫码抽奖、社交裂变——技术让单向传播变成了双向参与,春晚从「看电视」变成了「玩手机」。但这仍是流量逻辑的延续,平台们争夺的是用户时长与数据沉淀,而非产业能力的系统性呈现。

最近两年,硬科技企业开始在春晚崭露头角。但细究之下,此前的科技类品牌合作仍带着明显的「试水」痕迹:或聚焦单一产品,或局限于消费电子范畴。科技元素确实多了,却尚未形成完整的生态叙事。

当人工智能与硬核科技站上风口,春晚选择「队友」的标准也在悄然进化。「十五五」规划开局之年,制造业升级与科技创新被置于国家战略的核心位置——春晚需要的不只是热闹,更是一个能够承载时代命题的叙事载体。

放眼本届春晚,机器人元素形成了一支特殊的科技方阵:宇树科技的人形机器人以高难度动作展现硬核实力;松延动力的仿生机器人呈现生命模拟的精密;银河通用的机械臂展示工业自动化的力量,魔法原子的「国宝」级别表现,更是最接近未来机器人应用落地的选手。毕竟不是每个场景都需要机器人完成弹射空翻,反而端茶倒水、与人互动,这类走入大众生活的服务特性,也许离商业化的距离更近。技术不仅要秀肌肉,更要回归国民生活;不仅要证明能力,更要创造普惠价值,走进千家万户。

与此同时,追觅的上场,恰好回应了这一深层需求。此次合作中,追觅的身份是「智能科技生态战略合作伙伴」——央视这几个字的分量,远非普通合作伙伴可比,换句话说,追觅选择了春晚,更是春晚选择了追觅。

从智能科技和国民舞台的结合之作《智造未来》的内容来看,为这一问题提供了极具象征意义的答案。根据相关了解,春晚节目组先是编排好了歌舞内容和节目次序,作为科技智能相关压轴登场的节目,其背后深意更是想要通过此来传递「科技生态」「中国智造」的时代主题,和追觅的携手,恰好能够展现具有跨时代意义的先进技术和智能产品,这种全生态的硬科技产品,正好与春晚呼唤时代科技新血液的国民诉求相匹配。

因此,双方的相遇,更像是科技史上的神来之笔。

春晚「智造未来」节目图

 

这种从「技术展示」到「生态落地」的叙事递进,构成了春晚舞台上最完整的「新质生产力」图景。

值得注意的是,追觅这种 「 全品类、全场景、全链条 」 的呈现方式,在春晚历史上尚属首次。

追觅作为春晚「智能科技生态战略合作伙伴」登台

 

作为全民共同观看的超级场域,春晚天然具备将新旧范式并置对照的影响力——截至 2025 年,其全媒体累计触达 168 亿人次,电视直播收视份额 78.88% 创十二年新高,移动端受众达 3.72 亿人。在这个舞台上,谁能给出更完整、更可感、更触手可及的全场景智能生活答案,谁就能成为新范式的代表。

而这一次,追觅接过了这个角色——以「智造未来」之名,扛起了「大国智造」的旗帜。

 

02

一场即将到来的产业变革

 

追觅近来的发展轨迹,恰似一条精心设计的路径:先在全球高端市场建立产品力的话语权,再将这种势能转化为本土市场的品牌资产。这与常见的「国内成功—海外扩张」模式恰好逆向而行。

通常,「国际出圈」与「本土认同」是两条难以并行的轨道。前者指向全球市场的技术竞争力与行业话语权,后者关乎社会层面的广泛信任和情感连接。多数企业不得不在其间做出取舍。

追觅的「既要也要」选择逻辑显得更为坚定:自 2017 年成立即确立全球化战略,却并未遵循中国企业惯常的「新兴市场跳板」路径——先以性价比打开东南亚、中东等市场,再逐步向欧美渗透——而是直接切入欧美日韩等高端市场。其底层逻辑在于,新一代企业的全球化应当立足产品力本身,而非价格优势;只有在最苛刻的市场环境中验证过的技术标准,才能真正支撑长期的品牌价值。

这一策略的市场反馈已然显现。截至目前,追觅产品已进入 120 余个国家和地区,实体门店超 6500 家,服务全球超 4200 万家庭。截至 2025 年,追觅科技海外营收占比近 80%;追觅扫地机器人在全球 30 个国家市场占有率第一,其中 11 个国家市占率超过 40%;洗地机产品在全球近 20 个国家市场占有率第一,在部分国家市占率超过 70%。在欧美市场,是行业绝对领先的高端科技品牌。

追觅产品亮相春晚

 

对于春晚而言,选择追觅也有其现实考量。在硬科技成为国家发展重点的背景下,春晚需要能够代表这一趋势,同时具备全球竞争力和系统生态构建能力的合作方。追觅的全球化业绩既是它成为「大国之选」的品牌资本,也是它作为中国品牌在全球市场树立的标杆。

当然,春晚的聚光灯终会暗去,留下的问题关乎行业剩余的 364 天。

长期以来,智能制造行业的市场格局由单品类的领先企业分别主导——电视、空调、洗护、清洁设备,用户若要组建完整的智能家庭,需要面对不同品牌、不同系统、不同操作逻辑的拼凑。

追觅在春晚舞台展示的全场景智能科技生态,预示着智造行业竞争规则也将迎来新的变化。追觅试图证明的是,其统一技术底座支撑下的跨品类协同,能够提供更连贯的用户体验。这种「生态级」打法与「单品级」打法的差异,在春晚被展示之后将被行业普遍接受,推动行业格局将进入洗牌期:具备全品类布局和通用技术能力的企业将获得优势,而依赖单一品类的企业可能面临压力。

追觅的模式意味着更高的可预测性和抗周期性。企业的价值不再绑定于单一品类的兴衰,而是取决于整个生态系统的健康度。春晚合作所传递的 「 大国之选 」 等信号,进一步强化了这一逻辑的确定性。

2026 年春晚与追觅的携手,可以视为观察中国科技品牌发展路径的重要样本。而春晚科技时代的分水岭已然划定:追觅之前,追觅之后。

展示量: 4

文章分页

上一页 1 2 3 4 … 114 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间