作者： admin

人权高专办呼吁减少儿童拘留强化以儿童为中心的司法体系

联合国人权事务副高级专员纳西弗在第六十一届联合国人权理事会会议上指出，儿童不应身陷囹圄，而应在校园、家庭和安全友善的社区中成长。她强调，刑事司法系统中的儿童数量越少，他们遭受暴力、创伤及终身伤害的风险就越低。

展示量： 7

副人权高专：全面落实《德班宣言》承诺消除种族主义需要坚定行动

在周二纪念《德班宣言和行动纲领》通过二十五周年高级别小组讨论会上，联合国人权事务副高级专员娜达·纳西弗表示，《德班宣言》是种族正义与平等的蓝图，各国必须履行所作承诺。

展示量： 7

古特雷斯：乌克兰战争是“集体良知上的污点” 呼吁立即实现全面无条件停火

联合国秘书长古特雷斯周二在安理会就乌克兰问题举行的部长级会议上发表讲话指出，俄罗斯全面入侵乌克兰四年后，这场战争依然是“我们集体良知上的污点”。他表示，这一公然违反国际法和《联合国宪章》的行径，持续引发连锁后果，生命受到摧残，社区遭到摧毁，地区与全球动荡愈演愈烈。

展示量： 4

难民署呼吁紧急拨款支持在布隆迪的难民保护计划

难民署周二在日内瓦呼吁紧急拨款，以扩大在布隆迪的援助规模。该机构警告称，过去三个月内，布隆迪收容了逾9万名逃离刚果民主共和国冲突的难民，人道主义压力持续加剧。

展示量： 5

联大通过《支持乌克兰持久和平》决议美国投弃权票

联合国大会周二就乌克兰问题召开紧急特别会议续会，通过了题为《支持乌克兰持久和平》的决议。此前美国提出程序性异议，要求对重申乌克兰主权及呼吁依据国际法实现全面和平的关键段落进行单独表决。

展示量： 5

最新评估报告：索马里650万人面临高度急性粮食不安全

全球粮食安全监测机制“粮食安全阶段综合分类”最新评估显示，自2025年初以来，索马里面临急性粮食不安全第3级危机及以上更严重阶段的人口数量在2026年2月至3月间几乎翻倍，达到650万人，其中超过200万人处于第4级紧急状态阶段。

展示量： 10

千问 3.5，用第一性原理打破大模型的不可能三角

作者｜ Cynthia

编辑｜郑玄

大模型行业走到 2026 年，所有人都陷入了集体焦虑。

Scaling Law 的红利彻底见顶，万亿参数模型继续向上的边际收益无限趋近于零，行业陷入了参数越卷越高，落地越来越难的死循环；

闭源巨头牢牢把持着性能天花板，GPT、Claude 的 API 定价一涨再涨，顶级模型的使用成本，成了中小企业和开发者迈不过去的门槛。

开源模型始终跳不出性能追平闭源，就闭源收割；想要极致性价比，就要牺牲性能的怪圈。

久而久之，行业形成了一条无人敢质疑的铁律：顶级性能、完全开源、极致性价比，构成了大模型的不可能三角，三者最多选其二。

于是，一到年底，国内外的万亿参数模型就一个接一个发布，但普通企业是否用得上所谓的 SOTA 模型，却不在考虑范围。半年多时间，GPT、Claude 的定价也一涨再涨，哪怕作为顶级牛马的程序员，也需要公司报销，才用得起顶配 200 美金一月的 cursor 与 claude code。

直到，除夕当天阿里千问 Qwen3.5 的发布。

千问 3.5 总参数量仅 3970 亿，激活参数更是只有 170 亿，不到上一代万亿参数模型 Qwen3-Max 的四分之一，性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。

而横向对比同行，千问 3.5 不仅是当下的开源大模型 SOTA，同时也在认知能力、指令遵循、通用 Agent 评测等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。

但成本上，千问 3.5 也做到了每百万 Token 输入低至 0.8 元，是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。

那么，千问究竟如何做到的？答案藏在大模型的第一性原理中。

01

回到第一性原理，

千问 3.5 如何打破不可能三角？

大模型的第一性原理是什么？

过去三年，答案或许是 Scaling Law。包括上一代 Qwen3-Max，也是阿里是用 36T tokens 的海量预训练数据训练出的暴力美学的成果。

但时至今日，Scaling Law 攀升的代价，已经到了行业难以承受的临界点。紧随其后，架构创新成为新的行业关键词。

剥掉所有参数、算力、跑分的外衣，所有大模型的底层核心，都是 Transformer 架构的 attention 注意力 + FFN 前馈网络双塔结构：前者决定了模型的理解能力，后者决定了模型的表达能力。而这两者，也是当前技术红利最集中的突破点。

先看决定理解能力的 attention 层。

一直以来，大模型长上下文落地的最大瓶颈，从来不是窗口能开多大，而是算力成本和性能的平衡。

传统 Transformer 的全局注意力机制，计算复杂度与上下文长度呈 O (N²) 关系。翻译过来就是，上下文长度翻 10 倍，算力需求就要翻 100 倍。这就是为什么行业里很多模型号称能支持百万 token 上下文，却根本不敢开放商用：成本高到用户用不起，强行降价就要亏到吐血。

为了解决这个问题，行业做了无数尝试：线性注意力把复杂度降到了 O (N)，却损失了长文本的推理精度；稀疏注意力只计算部分 token 的注意力，却无法解决全局语义依赖的问题，泛化能力大幅缩水。

而千问 3.5 的解法，更像是人类思维模式在大模型上的迁移：既然人对不同事情可以有精力分配的不同，那么对大模型来说，也不是所有 token，都配得上同等的全局注意力。

基于这个最朴素的原理，千问团队打造了全局注意力 + 线性注意力的混合架构：

对非关键的冗余信息，采用线性注意力处理，把计算复杂度从 O (N²) 直接砍到 O (N)，算力消耗呈指数级下降；

对核心语义、关键逻辑信息，保留标准全局注意力，保证模型的长文本依赖建模能力，推理精度几乎零损失。

这一改动，使得大模型在大幅减少算力消耗的同时，提升了输出的效率，并带来上下文窗口的大幅增加——千问 3.5 的上下文长度已经达到 1M token。约等于把刘慈欣的三体三部曲一起塞给模型，或者在每轮对话 500 字上下的基础上，支持 600~800 轮连续对话不遗忘。

如果说混合注意力解决了理解效率的问题，那么极致稀疏 MoE 架构，就解决了表达成本的痛点。

传统稠密大模型，架构出场天生就带着极致的浪费：不管你输入的是一句早上好，还是一篇十万字的行业报告，模型每次推理都要激活全部参数。

这就意味着，90% 以上的算力，都被白白浪费了。

MoE 混合专家架构的出现，就是把模型拆成多个专家子网络，内容进来，只激活最对口的那几个专家模型，不用全量参数跑一遍。

但行业里绝大多数的 MoE 模型，都陷入了两个死穴：要么专家路由效率低下，激活参数占比过高，成本下降有限；要么专家之间的协同能力不足，模型性能出现滑坡。

而千问 3.5 的极致稀疏 MoE 架构，直接把这个路线的潜力榨到了极致：总参数量 3970 亿，单次推理的激活参数仅 170 亿，不到总参数的 5% ，即可调动全部知识储备，顺便实现部署成本大降 60%，最大推理吞吐量可提升至 19 倍，

到这里，可能又有很多人会问，同样是混合注意力、MoE 架构，为什么只有千问能做到这个程度？

答案是，架构创新的潜力，必须靠全栈协同才能彻底释放。阿里独有的阿里云、平头哥自研芯片与千问模型全栈协同能力，是其他厂商根本无法复刻的核心壁垒。

其中，阿里云的 AI 基础设施，为文本 + 视觉混合预训练数据，提供了稳定、高效的算力支撑，让大规模的架构创新实验得以落地。

平头哥真武 810 芯片，针对 MoE 架构、混合注意力机制做了专项优化，能充分发挥集群算力效率，进一步把模型训练和推理的效率拉到极致。

千问团队的模型架构创新，又反过来给云基础设施、芯片的优化指明了方向，形成了正向循环的闭环。

也正是这套闭环，让千问 3.5 的价格能进一步探底，把 API 成本压到 0.8 元/百万 Token，彻底打破了国外模型的价格垄断，让 sota 模型成为人人可用，阿里云上用的成本还能更低的普惠存在，也让不可能三角成为可能。

02

千问 3.5，全民友好型模型如何练成的？

很多人会问：千问 3.5 把成本打下来，是不是就会牺牲了推理性能？

恰恰相反，千问 3.5 最亮眼的地方就在于，它实现极致性价比的同时，也把性能和体验，拉到了行业的新高度。

对普通用户来说，最直观的体验升级，就是即使用 sota 模型，也能享受流畅的生成体验。

过去，为了给模型生成提速，大部分团队都是在推理阶段加个投机采样的补丁，先猜后面的内容，猜对了就快一点，猜错了就回滚，结果就是要么快但容易错，要么准但还是慢。

而千问 3.5 的解法，是从训练阶段就原生支持多 Token 联合预测，让模型从一个字一个字地想，进化成一次想好几步再说。这个过程类似于人类说话，先想好完整的语义，然后在表达的过程中组织连贯的语言。

这对长文本生成、代码补全、多轮对话等高频场景带来的是质变的体验升级：问一个复杂的科普问题，10 秒内就能给出连贯的回答；写一篇千字短文，几秒就能生成初稿。

另一个被彻底解决的痛点，是大模型的上下文腐烂问题。

过去，大模型输入上下文越长，就会让模型的注意力越分散，有效信息被无效噪声淹没，输出质量直线下降。一个完整的长内容，模型往往只会注意到开头和结尾的内容，中间的关键信息被忽略，或者多轮对话之后，它会忘记你最初的问题或者要求。

针对这个痛点，Qwen3.5 对模型做了系统级的训练稳定性优化，其中最核心的，就是阿里千问团队斩获 NeurIPS 2025 最佳论文奖的注意力门控机制。

这个机制，本质上是在注意力层的输出端，加了一个智能降噪开关：它能根据信息的重要程度，智能调控信息的传递，有效信息被放大，无效信息被过滤。

最终的结果是，哪怕是在 1M token 的超长上下文下，模型依然能精准记住所有的关键信息，开发者不用再把长文档拆成十几段反复投喂，用户不用再把需求翻来覆去重复三遍，百万级上下文的全量信息精准调用，终于成为了现实。

除了这些核心痛点的解决，千问 3.5 的细节升级，覆盖了从个人用户到企业开发者的全维度需求。

比如，它首次把支持的语言扩展到了 201 种，预训练数据里大幅新增了中英文、多语言、STEM 和推理类数据，不管是小语种的精准翻译，还是复杂的数理化博士级难题，都能轻松应对。

测试案例：STEM 表现

在 Agent 能力上，千问 3.5 同样实现了生产级的跨越式提升。目前，千问 3.5 在移动端已经与多个主流 APP 与指令打通，PC 端则能处理跨应用数据整理、自动化流程执行等复杂多步骤操作。

更关键的是，千问团队构建了可扩展的 Agent 异步强化学习框架，端到端速度可加速 3 到 5 倍，并将基于插件的智能体支持扩展至百万级规模，为后续 Agent 的规模化落地打下了基础。

如果说其他模型，还停留在开发者友好型，那么千问 3.5，就是全民友好型。它既照顾了开发者对成本、效率的需求，也兼顾了普通用户对体验的期待，让大模型真正走进了日常生活，而不是停留在实验室里的黑科技。

03

原生多模态，

千问 3.5 开始能读懂复杂世界

如果说性能、成本、体验的全面升级，是千问 3.5 在解决当下大模型落地过程中的困境，那么统一多模态，就是千问 3.5 把大模型推向 AGI 的重要一步探索。

长期以来，业界都有一个共识：统一多模态，是通往通用人工智能（AGI）的必经之路。但直到今天，行业里绝大多数的多模态模型，都还是伪多模态：先训好一个纯语言大模型，再外挂一个视觉编码器，靠适配层把两个模块粘在一起，本质上就是两个语言不通的人靠翻译聊天，信息传递必然出现折损。

千问 3.5 的不同之处在于，从预训练第一天起，就是在文本+视觉混合数据上联合学习，让视觉与语言在统一的参数空间内深度融合。

简单说，它看到一张图，就能自然理解图中的语义，不用先把图像转换成文本再进行理解；读到一段文字，就能在脑中构建出对应的画面，就像人一样，真正具备了跨模态的直觉理解力。

测试案例：输入一张电影截图，千问 3.5 就能生成图文并茂的电影解析

为了实现这种原生的多模态融合，千问 3.5 对整个训练架构都做了革新：它让视觉和语言模态，各走各的最优路径，只在关键节点上高效汇合，既保证了两个模态各自的性能上限，又实现了真正的协同工作，大幅提升了多模态混合训练的效率。

这种原生融合的架构，带来的是视觉能力的飞跃式提升：在多模态推理（MathVison）、通用视觉问答 VQA（RealWorldQA）、文本识别和文件理解（CC_OCR）、空间智能（RefCOCO-avg）、视频理解（MLVU）等众多权威评测中，Qwen3.5 均斩获最佳性能，碾压同类开源模型，甚至比肩顶级闭源模型。

测试案例：通用视觉问答

还有一个容易被忽略，却至关重要的细节优化，是精度策略的设计：千问 3.5 采用了 FP8/FP32 的精度策略，在保证模型性能零损失的前提下，把激活内存减少了约 50%，训练速度提升了 10%。更关键的是，这套方案被统一部署到了强化学习训练和推理的全流程里，全面降低了多模态模型扩展的成本和复杂度。

这些性能提升，最终都转化成了实实在在的生产力：

在学科解题、空间推理上，它比千问此前的专项多模态模型 Qwen3-VL 表现还要更优，空间定位、带图推理的精度大幅提升。

在视频理解上，它支持长达 2 小时的视频直接输入，刚好对应 1M token 的上下文窗口，会议录像、课程视频、直播素材，一次性投喂就能完成核心内容提取、脚本生成、待办梳理。

通过视觉与代码的原生融合，手绘的 APP 界面草图，也能直接转化为可运行的前端代码；机械图纸、建筑结构图、几何题目，全都能精准拆解空间关系、完成推理计算。

测试案例：复杂网页生成

而这，也是让大模型从能聊天的工具，变成看懂现实世界的基座，最终通往 AGI 乃至 ASI 的关键一步。

04

尾声

如果说架构与多模态的创新，让千问 3.5 打破了不可能三角的技术枷锁，那么开源生态，让千问 3.5 彻底颠覆了行业对开源模型的固有偏见。

在此之前，开源模型在行业里的定位，永远是闭源模型的替代品：性能追不上闭源，体验打不过闭源，只能作为开发者的练手工具，无法进入核心生产环境。

现在千问 3.5 的问世，彻底打破了这种偏见——它用开源的身份，实现了超越同级闭源模型的性能，再加上极致的性价比和完善的生态支持，让开源、高性价比、最强的不可能三角成为可能。

一组可验证的数据，足以证明千问开源生态的行业影响力：截至目前，阿里已开源 400 余个千问模型，覆盖全尺寸、全模态、全场景，全球下载量突破 10 亿次；全球开发者基于千问开发的衍生模型超 20 万个。

而站在千问生态的肩膀上，中小企业不用再为顶级模型的 API 支付高昂的费用，用极低的成本就能落地自己的 AI 应用；

个人开发者不用再被闭源模型的商用权限锁死，基于开源的千问 3.5，就能打造创新的 AI 产品；

科研机构不用再重复造轮子，基于开源的底座，就能专注于前沿技术的创新。

从此，AI 不再是巨头的专属游戏，而是变成了全行业、全开发者都能参与的创新浪潮。

展示量： 8

春晚之后，中国智造的「未来」选择了追觅

作者｜李苏

编辑｜郑玄

当 2026 年央视春晚序幕缓缓展开时，追觅显然又创造出了一个「神奇」的场景。

这家公司以春晚首个智能科技生态战略合作伙伴的身份，站上这个全年收视规模最大的国家级舞台，带来前所未有的产品量级登台，覆盖汽车、家电、影音、个护、清洁等全场景智能科技生态产品矩阵。

将追觅的登台仅看作品牌露出的常规操作，实则误读了这一事件的特殊性。过往登上春晚的企业不计其数，但无一以「生态级」姿态出现——过去我们靠人力、靠资源堆出来的增长，正在让位于真正的技术创新。

这也意味着中国科技产业的竞争逻辑已经发生变化，也许是时候有一家公司，来推动中国硬科技生态在全球产业格局中占据引领地位。

01

追觅和春晚的双向奔赴

春晚四十余年的商业合作史，本身就是一部浓缩的中国产业升级史。

每一次变化，都踩在中国经济转型的关键节点上，一切都在展示，什么是新的经济增长点，什么是全民化的最新生活方式。

八十年代初，春晚的舞台上活跃的是日化、酒类、钟表等传统消费品——一瓶好酒、一块名表，承载着那个时代人们对美好生活的朴素向往。合作形式也简单直接：一句朗朗上口的广告语，一个醒目的标版画面，便是品牌与观众的全部连接。

互联网浪潮袭来后，BAT 们相继登场。红包互动、扫码抽奖、社交裂变——技术让单向传播变成了双向参与，春晚从「看电视」变成了「玩手机」。但这仍是流量逻辑的延续，平台们争夺的是用户时长与数据沉淀，而非产业能力的系统性呈现。

最近两年，硬科技企业开始在春晚崭露头角。但细究之下，此前的科技类品牌合作仍带着明显的「试水」痕迹：或聚焦单一产品，或局限于消费电子范畴。科技元素确实多了，却尚未形成完整的生态叙事。

当人工智能与硬核科技站上风口，春晚选择「队友」的标准也在悄然进化。「十五五」规划开局之年，制造业升级与科技创新被置于国家战略的核心位置——春晚需要的不只是热闹，更是一个能够承载时代命题的叙事载体。

放眼本届春晚，机器人元素形成了一支特殊的科技方阵：宇树科技的人形机器人以高难度动作展现硬核实力；松延动力的仿生机器人呈现生命模拟的精密；银河通用的机械臂展示工业自动化的力量，魔法原子的「国宝」级别表现，更是最接近未来机器人应用落地的选手。毕竟不是每个场景都需要机器人完成弹射空翻，反而端茶倒水、与人互动，这类走入大众生活的服务特性，也许离商业化的距离更近。技术不仅要秀肌肉，更要回归国民生活；不仅要证明能力，更要创造普惠价值，走进千家万户。

与此同时，追觅的上场，恰好回应了这一深层需求。此次合作中，追觅的身份是「智能科技生态战略合作伙伴」——央视这几个字的分量，远非普通合作伙伴可比，换句话说，追觅选择了春晚，更是春晚选择了追觅。

从智能科技和国民舞台的结合之作《智造未来》的内容来看，为这一问题提供了极具象征意义的答案。根据相关了解，春晚节目组先是编排好了歌舞内容和节目次序，作为科技智能相关压轴登场的节目，其背后深意更是想要通过此来传递「科技生态」「中国智造」的时代主题，和追觅的携手，恰好能够展现具有跨时代意义的先进技术和智能产品，这种全生态的硬科技产品，正好与春晚呼唤时代科技新血液的国民诉求相匹配。

因此，双方的相遇，更像是科技史上的神来之笔。

春晚「智造未来」节目图

这种从「技术展示」到「生态落地」的叙事递进，构成了春晚舞台上最完整的「新质生产力」图景。

值得注意的是，追觅这种「全品类、全场景、全链条」的呈现方式，在春晚历史上尚属首次。

追觅作为春晚「智能科技生态战略合作伙伴」登台

作为全民共同观看的超级场域，春晚天然具备将新旧范式并置对照的影响力——截至 2025 年，其全媒体累计触达 168 亿人次，电视直播收视份额 78.88% 创十二年新高，移动端受众达 3.72 亿人。在这个舞台上，谁能给出更完整、更可感、更触手可及的全场景智能生活答案，谁就能成为新范式的代表。

而这一次，追觅接过了这个角色——以「智造未来」之名，扛起了「大国智造」的旗帜。

02

一场即将到来的产业变革

追觅近来的发展轨迹，恰似一条精心设计的路径：先在全球高端市场建立产品力的话语权，再将这种势能转化为本土市场的品牌资产。这与常见的「国内成功—海外扩张」模式恰好逆向而行。

通常，「国际出圈」与「本土认同」是两条难以并行的轨道。前者指向全球市场的技术竞争力与行业话语权，后者关乎社会层面的广泛信任和情感连接。多数企业不得不在其间做出取舍。

追觅的「既要也要」选择逻辑显得更为坚定：自 2017 年成立即确立全球化战略，却并未遵循中国企业惯常的「新兴市场跳板」路径——先以性价比打开东南亚、中东等市场，再逐步向欧美渗透——而是直接切入欧美日韩等高端市场。其底层逻辑在于，新一代企业的全球化应当立足产品力本身，而非价格优势；只有在最苛刻的市场环境中验证过的技术标准，才能真正支撑长期的品牌价值。

这一策略的市场反馈已然显现。截至目前，追觅产品已进入 120 余个国家和地区，实体门店超 6500 家，服务全球超 4200 万家庭。截至 2025 年，追觅科技海外营收占比近 80%；追觅扫地机器人在全球 30 个国家市场占有率第一，其中 11 个国家市占率超过 40%；洗地机产品在全球近 20 个国家市场占有率第一，在部分国家市占率超过 70%。在欧美市场，是行业绝对领先的高端科技品牌。

追觅产品亮相春晚

对于春晚而言，选择追觅也有其现实考量。在硬科技成为国家发展重点的背景下，春晚需要能够代表这一趋势，同时具备全球竞争力和系统生态构建能力的合作方。追觅的全球化业绩既是它成为「大国之选」的品牌资本，也是它作为中国品牌在全球市场树立的标杆。

当然，春晚的聚光灯终会暗去，留下的问题关乎行业剩余的 364 天。

长期以来，智能制造行业的市场格局由单品类的领先企业分别主导——电视、空调、洗护、清洁设备，用户若要组建完整的智能家庭，需要面对不同品牌、不同系统、不同操作逻辑的拼凑。

追觅在春晚舞台展示的全场景智能科技生态，预示着智造行业竞争规则也将迎来新的变化。追觅试图证明的是，其统一技术底座支撑下的跨品类协同，能够提供更连贯的用户体验。这种「生态级」打法与「单品级」打法的差异，在春晚被展示之后将被行业普遍接受，推动行业格局将进入洗牌期：具备全品类布局和通用技术能力的企业将获得优势，而依赖单一品类的企业可能面临压力。

追觅的模式意味着更高的可预测性和抗周期性。企业的价值不再绑定于单一品类的兴衰，而是取决于整个生态系统的健康度。春晚合作所传递的「大国之选」等信号，进一步强化了这一逻辑的确定性。

2026 年春晚与追觅的携手，可以视为观察中国科技品牌发展路径的重要样本。而春晚科技时代的分水岭已然划定：追觅之前，追觅之后。

展示量： 10

春节 AI 模型大战，谁是最大赢家？

2026 年开年的科技圈，一场静默的排位赛正在悄然改写 AI 大模型世界的规则。

1 月 27 日，月之暗面开源 Kimi K2.5，以「Agent Swarm」技术实现 100 个子智能体并行协作，将复杂任务执行效率提升数倍；2 月 7 日，字节视频生成模型 Seedance 2.0 正式上线，凭借多模态参考系统与原生音视频同步能力引发全球创作者追捧；2 月 11 日深夜，智谱 AI 发布新一代旗舰模型 GLM-5，在全球权威榜单 Artificial Analysis 中位居全球第四、开源模型第一。此外，阿里 Qwen3-Max-Thinking、DeepSeek-OCR2、生数、银河通用、智源等模型也在同一时段密集亮相。

海外厂商同样动作频繁。2 月 5 日，OpenAI 发布 GPT-5.3-Codex 编程模型，并推出企业级 AI Agent 平台；同日，Anthropic 发布 Claude Opus 4.6，不到半月后又推出定价更低的 Claude Sonnet 4.6 主攻智能体场景。

诸神之战，不一而足。

几乎所有公司都选择在一个特殊的时间窗口登场——春节前后。传统认知中，春节是用户注意力分散、媒体曝光度下降的时段，并非科技产品发布的黄金窗口。但 2026 年的这波集中发布，恰恰利用了春节的场景丰富性：充裕的假期时间、家庭聚会、出行规划、内容创作、社交娱乐。在全民行为高度集中的这一档口，正是检验大模型能否从实际应用层面解决复杂任务的最佳测试时机。

现在看来，这个时间节点绝非巧合，其背后的产业升级意义意味深长——这是国产大模型的一次集体转型。在过去两年，国产大模型更像是实验室里的「做题家」，核心解决的是用户提问到模型作答的及时交付，比拼的是 benchmark 分数与响应速度；而这一波 AI 大战，已经能够清晰地看到，国产大模型正在向能真正处理复杂任务的「实干派」转变。模型不再满足于给出答案，而是要独立完成从理解需求、拆解任务、调用工具到交付成果的全流程。

而我们发现，在这轮「实干能力」的竞赛中，一个值得注意的现象是，领跑者的地理坐标高度重合——它们大多聚集在北京海淀区。理解这种「海淀基因」，才能厘清国产大模型转型的深层原因。

更加务实的智能军团

虽然这一轮国产大模型的集中发布尚未结束，不过一个显著的趋势已经展现——更务实的评测维度正在取代传统指标。

过去对 AGI 的乌托邦式憧憬，正被算力成本与落地成效的硬约束快速拉回地面。无论是旧金山湾区还是中国一二线城市，资本与产业都已不再为单纯的规模扩张叙事支付溢价——大模型正在从单纯的技术探索，加速进入技术与需求双向赛跑的商业化深水区。

通俗一点来说，大模型不再只追求标准答案，更在考察在开放环境中的任务完成度，以及如何直接应用到普通人的生活中。

此刻扎堆发布的大模型，纷纷顺势而为。

智谱发布的 GLM-5 在这一轮的表现中颇为抢眼，其在 HumanEval 代码通过率达到 96.2%，不但超越前代 GLM-4.7 的 88.5%，更是超越了强劲的 Claude Opus 4.5（95.8%）。但比分数更重要的是，GLM-5 原生支持跨文件代码重构，并能处理复杂系统工程代码仓。

这意味着，智谱大模型已完成从「初级程序员」到「总架构师」的进化，重新定义了编程领域的生产力。

而在过去专注「聊天」和提供情绪价值的字节，也同样呈现务实转向。

以前做 AI 视频，用户得跟机器猜谜——写一堆提示词描述「夕阳下的古风少女」，结果出来可能是古装也可能是和服。而在 2 月初发布的字节 Seedance 2.0，则让指向更清晰明确——用哪个色调、某个角色的脸、哪一段视频里的动作，甚至放段音乐让它跟着节奏剪。

这种多模态参考机制将创作主动权交还用户，降低了反复调试的试错成本，使电商广告、短视频制作等商业场景的产出更为稳定。也与海外模型形成对照：当 OpenAI 的 Sora 和谷歌 Veo 2 仍主要依赖文本提示词时，Seedance 2.0 将创作更贴近商业场景对确定性的需求。今年春晚舞台视觉《贺花神》的四季花神场景，正是该能力的落地展示——以四时花卉为主题，十二位演员对应十二种花神，每一个出场都伴随着专属场景。这背后正是字节大模型的图像与视频生成能力起到的作用，为节目定制「一月一人一景，一花一态一观」的视觉效果。

春晚贺花神效果图

打破边界的，还有大模型的另一种存在载体——具身智能。1 月 8 日，银河通用发布重载机器人 Galbot S1，实现零遥操全自主作业，双臂负载达 50 公斤。与特斯拉 Optimus 等海外人形机器人侧重工厂场景不同，Galbot S1 的手脑协同设计更聚焦室内泛化能力——春晚上银河通用与沈腾、马丽的互动展示，正让我们看到了机器人手脑一体的无限可能，未来无数室内场景的泛化能力正源于具身智能大脑模型的布局。

银河通用春晚节目图

AI 从数字世界来到物理世界，大模型公司正在用一条相对扎实的路，在填补过往实用性不足的坑——听懂人话、把事情干成。

这和人们通常所理解的商业溢价的区别是，AI 普惠化不是市场竞争手段，而是技术发展的目的。

2025 年，国产大模型对行业标杆的理解发生了根本转变。技术评测的领先仅证明能力上限，而商业价值的衡量标准已转向规模化的可及性与经济性——单位算力所能支撑的实际产出效率，成为更具分量的评判维度。

市场端的反馈更为直接。经过两年多的技术演示期，无论是企业还是终端市场，都在提出更为具体的需求：模型能否自动处理报销流程，能否协调多个软件完成市场调研，能否在无人监督的情况下执行周期较长的项目。大模型的实际执行能力已成为企业采购决策的核心考量，推动研发方向从追求技术突破转向保障交付质量。

春节场景为产品实用验证提供了特殊环境。家庭聚会涉及菜谱生成、采购规划、智能设备控制等协调需求；长途出行需要整合交通预订、酒店比价、行程优化等多平台信息；内容创作则要求模型理解节日文化、平台调性及传播规律。

这些任务无法通过单次问答完成，需要模型具备任务分解、工具调用、异常处理及结果整合能力。2026 年春节的集中发布，实质是厂商将产品置于真实场景的压力测试，假期积累的用户反馈将为后续产品迭代提供数据支撑。

海淀基因

当技术理想主义与商业现实主义融合时，「觉醒」往往发生在一片让创新既能扎根又能拔节生长的土壤上。

放眼全球，人工智能的竞赛早已超越单一企业的角力，演变为区域创新生态的系统较量。

硅谷凭借斯坦福-伯克利的人才输送、风投体系的成熟配套、以及「快速试错」的文化基因，长期占据全球 AI 产业的高地。但 2026 年春节档的集体爆发，清晰地显示出中国创新版图正在形成自己的「强节点」——北京海淀便是其中最具代表性的样本。

在这片 430 平方公里的地界上，创新的密度可以被具象化地测量出来，在这里，15 分钟车程几乎就能构成一个创新单元——智谱 AI、百川智能、面壁智能……他们齐聚在清华科技园里。往东一公里，生数科技在中关村东路 8 号东升大厦探索多模态生成，与智源研究院的成府路 150 号（清华南门）隔街相望。

往南一点，月之暗面在知春路 76 号京东科技大厦迭代长文本模型，与字节跳动的大钟寺工区直线距离不到 3 公里——后者旗下的 Seedance 团队正依托这片人才密度，在多模态视频生成领域快速推进。

更具纵深感的是人才的流动与重组。爱诗科技创始人来自字节视觉团队，办公室设在苏州街，与原工区直线距离 2 公里；而银河通用、星动纪元、灵心巧手三家具身智能公司，则集中在海淀区的核心地段，彼此车程都在 15 分钟内，却各自探索重载机器人、人形机器人、灵巧手等不同路线。

这种集聚并非偶然，而是产业生态的必然结果。北京海淀，作为全国人工智能产业的核心集聚区，其角色值得客观审视——它并非简单的「政策普惠」或「资本密集」，而更像是基础研究到真实落地的完整链条。

具体而言，海淀区已经构建了一个基本自主可控的全产业链技术体系，底层有清华、北大等高校的前沿研究输出人才和方法论；中间层由芯片、云计算等基础设施企业提供算力支撑；应用层则有大量场景型企业提供测试环境和需求反馈。这种密度使得技术迭代周期显著缩短。

生态的成熟度，直接塑造了国产大模型的差异化路径。与硅谷巨头追求「通用智能」的宏大叙事不同，海淀系企业更强调「垂直穿透」：在这里，百度布局全栈、寒武纪布局芯片、智谱清研专注 B 端、快手可灵偏向文娱落地、字节偏向 C 端、月之暗面偏向长文本思考。各寻其位，各尽其能。

事实上，政策环境的演进同样关键。2023 年，北京市率先出台地方性大模型产业支持政策，海淀区同步提出建设 2300 亿元规模的核心产业集群，配套人才落户、资金扶持、场景开放等综合措施。如今这一数据已经超过 3500 亿。同时，海淀推出中关村科学城科技成长基金，经过三期发展规模已达 200 亿元，明确将投资重心前移，聚焦早期项目、小型企业、长期价值及硬科技领域。这种「耐心资本」的供给，显著改善了创新型企业的心理预期与风险偏好。

但海淀的真正价值，或许不在于政策红利的独享，而在于其作为「创新方法论」的输出地。从 2010 年代中关村的创业大街，到移动互联网时期的「巨头摇篮」，再到如今的大模型集聚区，海淀始终扮演着技术商业化「加速器」的角色。早期的互联网创业培育了风险资本的敏锐度、工程师文化的务实性，以及对「快速迭代、小步快跑」方法论的路径依赖。这些基因延续至今，使得中国企业在面对大模型这一颠覆性技术时，表现出更强的工程化能力和商业化嗅觉。

AI 原点社区

将视野拉宽，这种「强节点」的崛起并非孤例。上海的张江、深圳的南山、杭州的余杭，同样在 AI 产业链的不同环节都形成特色优势——这些都是值得区域学习的样本。但海淀的独特性在于其「全栈覆盖」——几乎每一环都有代表性企业布局。这种完整性，使其成为全球 AI 版图中少数能与硅谷形成系统性对话的区域之一。

传统认知中，技术创新高度集中于少数全球城市；但大模型时代的竞争，越来越依赖「数据-场景-算力」的本地化闭环。中国庞大的数字化应用场景、完整的制造业体系、以及政策驱动的算力基础设施，为区域创新生态提供了独特的养分。海淀的集聚效应，正是这种国家能力在微观层面的投射。

当全球大模型产业进入「实干能力」的比拼阶段，区域生态的质量将直接决定企业的竞争力上限。

更好的时代

所有技术革命的最终走向，一定承载着产业实践的阶段性注脚。

这场集中爆发的转型给产业和区域都提供了新的机会。

春节档的 AI 大战，标志着国产大模型进入产业价值验证的关键周期。短期内，市场将迎来一次实干能力的集中检验。期间积累的真实用户数据与实际交付体验，将帮助企业精准识别产品短板，加速迭代优化。例如，多智能体协作的稳定性、长视频生成的时序一致性、复杂代码重构的可靠性等问题，只有在海量真实交互中才能充分暴露和修正。

但大模型军团现在的表现，已经影响深远——目前，OpenAI、Google 等巨头纷纷调转船头，开始密集推出针对企业级市场的高性价比推理模型。

很长时间以来，全球人工智能的聚光灯多投在硅谷。而 2026 年这个乍暖还寒的春天，分水岭已经有了能捕捉的痕迹——算力封锁没有击垮国产大模型，反而带来了一抹得天独厚的韧性。

AI 制图

这注定是一条长期主义的道路，但不妨碍国产模型技术迭代节奏持续加快，产品更新周期从以年为单位缩短至以月甚至以周计算。这种敏捷响应能力的形成，客观上为中国人工智能产业提供了弯道超车的窗口期。

而从管理者的角度来看，当大模型从「对话工具」进化为「数字员工」，「人」的身份也将发生变化，其社会影响将呈指数级放大——对于所有区域性政府而言，都需要在新阶段里寻找定位——这要求政策层面在持续降低创新成本的同时，建立适配新技术形态的治理框架。

而经验老道的管理者，显然能更快提供合格的样本。

至少，站在 2026 年的端头，国产大模型发展的重要节点。人们已经可以确定，全球新一轮大模型产业变革的方向与节奏，正日益取决于中国创新体系的突破能力与本土生态的支撑强度。

*头图来源：视觉中国

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

展示量： 9

教科文组织报告：海洋碳研究重大盲点或影响全球气候预测

联合国教科文组织政府间海洋学委员会（IOC）周一发布的一项新报告指出，人们对海洋如何吸收和储存碳的认识存在严重不足。这一关于地球最大碳汇的显著不确定性，可能导致当前气候预测出现偏差，并阻碍我们未来几十年制定有效减缓和适应策略的能力。

展示量： 31