作者: admin
51蛙吖蛙元宇宙入驻条件
51蛙吖蛙元宇宙入驻条件

启用元宇宙视频面试系统的公告
启用元宇宙视频面试系统的公告

51蛙吖蛙元宇宙类似展会优于展会
51蛙吖蛙元宇宙类似展会优于展会

51蛙吖蛙入驻条件
51蛙吖蛙入驻条件

全球经济在贸易与政策不确定性中展现韧性 中国2026年增长率预计为4.4%
首个实时世界模型发布:视频媒介的「交互」时代开始了
头图来源:PixVerse 官网
如果你玩过 AI 视频,一定对「等待期」深有体会:在输入框敲下一串 Prompt,按下生成键,然后便得对着旋转圆圈等待至少几十秒或者几分钟。
而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作,让 AI 变得像个略有些笨重的远程工具,虽然好玩,但也没那么好玩。
直到我刚刚试用了爱诗科技发布的 PixVerse R1。
在「赛博朋克城市」的场景中,我并没有按下「生成」按钮,也没有盯着旋转的进度条发呆。
我只是在输入框输入我想要的画面,「开始下大雨,霓虹灯在湿润的地面上反射出来」,接着「 突然,城市大停电。只有紧急红灯亮着」,「快速向上飞,穿过摩天大楼到达城市的上层区域。」
视频来源:极客公园
画面中的光影立刻随着语意发生了流转。没有黑屏加载,没有重新渲染的割裂感,就像镜头真的听懂了我的指挥,实时向前推进。
一个 AI 模型正在以即时响应级的速度,为我「实时编织」一个从未存在的视觉世界。
这是爱诗科技刚刚发布的PixVerse R1 ,是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。
当视频不再是一个确定的「结果」,而变成了一个可以被实时干预、持续存在的「过程」时,它还是我们印象里的「视频」吗?
这种被称为「Playable Reality」(可玩现实)的新形态,究竟是噱头还是未来?
1 进度条的消亡
2024 年年初,Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到前所未有的水平,掀起了全球范围内的视频生成热潮。
但在 AI 视频行业狂飙突进的这两年里,我们虽然被 Sora、被各种视频大模型惊艳,但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的,更是心理上的。
过往,AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词,然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟,短则几十秒,但在人类的创作心流中,这几十秒足以让灵感断裂。
用户得到的是一个 MP4 文件,如果光影不对、构图不佳,只能修改提示词,再次进入漫长的等待循环。这种「输入-等待-输出」的异步逻辑,本质上是人类在迁就机器的算力和算法逻辑。
PixVerse R1 的出现,正在试图终结这种「迁就」。实时生成的真正意义,绝不仅仅是「快」。如果启动延迟降低的足够低,帧率也足够稳定在,人类的感知系统会发生错觉:你不再觉得自己是在使用一个工具,而是觉得你正处于一个「活着的」世界里。
视频来源:爱诗科技
可以看到,在这个视频里,PixVerse R1 展现出一种水流般的即时感。当指令发出,画面的色彩、材质、甚至物理规律会瞬间响应。
随着「A city wall ahead.Jump over it and enter the city」指令的输入,角色从树林场景瞬间传送到了中式城楼前的石桥上,正朝着城楼大门跑去;随着「Transform into a robot and fight」指令的输入,画面拉近,主角从小人变身机器人并且迅速进行了一番打斗,场景和角色动作的切换非常流畅自然。
这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度,令人困扰的「进度条」就此消亡,技术本身变得透明,它变成了感官的自然延伸。
而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月,爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1;2024 年 2 月,它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」,让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」,正是这种长期架构押注后的必然爆发。
2 Playable Reality,介于游戏与视频之间的新物种?
长期以来,视频和游戏被视为两条平行线:视频拥有高拟真的质感但缺乏互动,游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。
PixVerse R1 定义的「Playable Reality(可玩现实)」,正是这两条平行线的交叉点。它不是传统意义上的视频,因为它允许实时干预;它也不是传统意义上的游戏,因为它不是由程序员预设的代码逻辑驱动,而是由 AI 对现实世界的模拟能力(世界模型)驱动。
从确定的、封闭的、一次性交付的 MP4 文件,到被 R1 定义的「过程」,一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互,这个世界就会持续演化。
在这个创作过程中,用户不再是坐在屏幕前的观众,也不仅仅是复杂的参数调试者,而是变成了「共同创作者」,可以用语言、情绪、意图直接干预世界的走向。
这意味着视频创作门槛的进一步降低。理想状态下,我们不再需要学习复杂的非线性剪辑,也不需要理解光影参数,只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展 。
支撑这种「随心而动」体验的,是 PixVerse R1 背后的三大技术支柱:Omni原生多模态基础模型、自回归流式生成机制,以及一套专门为交互设计的瞬时响应引擎。
首先,是Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意,R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间,就在潜空间里完成了对物理世界的重构。
其次,为了消灭画面切换时的「闪烁」与「刷新感」,爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中,每一帧往往是孤立或弱相关的,但在 R1 的体系下,视频不再是由一个个「固定片段」拼接而成,而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时,每一帧的演变都极其丝滑,没有重新加载的割裂感。
最后,支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化,它将启动延迟压缩到了人类几乎感知不到的程度
在爱诗科技发布的技术报告中,他们将这种演进描述为从 Fix-length clip(固定片段) 向 Infinite visual stream(无限可视化流) 的范式转移。这意味着,AI 视频不再是一次性的烟花,而是一个可以无限延伸的数字宇宙。
当然,PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里,微小的误差可能会让物理模拟出现波动。
为了追求 1080P 的实时响应,团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实:与其追求一个只能在服务器里跑几小时才能出来的完美标本,不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。
3 当技术「隐形」,把世界还给想象
PixVerse R1 目前展示出的能力,本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放,其影响力将远超视频创作本身。
想象一下,当这种能力被 API 化,它将如何重塑数字娱乐?
比如未来的游戏 NPC 不再只有固定动作,基于实时生成技术,他们可以根据你的语气实时生成独特的表情动作和视觉反馈。
电影也不再有唯一的结局,而是变成每个人都能走进其中的开放世界,通过交互,都会看到一个属于自己的、实时编排的独一无二的故事。
对于这种范式转移,爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为,PixVerse R1 是一种全新的媒体形式。
「传统视频是被记录的历史,而 PixVerse R1 开创了‘正在发生的现在’的实时生成新纪元。」 王长虎表示,在这样的背景下,创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者,可以在观看的同时即时调整和生成新内容。
这种「所想即所现」(As You Think)的能力,让王长虎对未来的数字生态充满了想象:「无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能实时响应用户意图。我们相信,每个人都能成为动态叙事的创作者。
爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时,技术本身就会变得透明。PixVerse R1 正在做的,就是让「生成」这个繁琐的技术动作隐形,让位于人类最本能的「想象」与「表达」。
尽管 PixVerse R1 目前尚处于内测阶段,且暂未在国内上线体验,但它已然开启了「流动世界」的大门。
接下来,爱诗科技将采用内测码/定向邀请机制,一部分创作者将有机会先亲自触碰这个「流动的世界」 。
首个实时世界模型发布:视频媒介的「交互」时代开始了
头图来源:PixVerse 官网
如果你玩过 AI 视频,一定对「等待期」深有体会:在输入框敲下一串 Prompt,按下生成键,然后便得对着旋转圆圈等待至少几十秒或者几分钟。
而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作,让 AI 变得像个略有些笨重的远程工具,虽然好玩,但也没那么好玩。
直到我刚刚试用了爱诗科技发布的 PixVerse R1。
在「赛博朋克城市」的场景中,我并没有按下「生成」按钮,也没有盯着旋转的进度条发呆。
我只是在输入框输入我想要的画面,「开始下大雨,霓虹灯在湿润的地面上反射出来」,接着「 突然,城市大停电。只有紧急红灯亮着」,「快速向上飞,穿过摩天大楼到达城市的上层区域。」
视频来源:极客公园
画面中的光影立刻随着语意发生了流转。没有黑屏加载,没有重新渲染的割裂感,就像镜头真的听懂了我的指挥,实时向前推进。
一个 AI 模型正在以即时响应级的速度,为我「实时编织」一个从未存在的视觉世界。
这是爱诗科技刚刚发布的PixVerse R1 ,是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。
当视频不再是一个确定的「结果」,而变成了一个可以被实时干预、持续存在的「过程」时,它还是我们印象里的「视频」吗?
这种被称为「Playable Reality」(可玩现实)的新形态,究竟是噱头还是未来?
1 进度条的消亡
2024 年年初,Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到前所未有的水平,掀起了全球范围内的视频生成热潮。
但在 AI 视频行业狂飙突进的这两年里,我们虽然被 Sora、被各种视频大模型惊艳,但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的,更是心理上的。
过往,AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词,然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟,短则几十秒,但在人类的创作心流中,这几十秒足以让灵感断裂。
用户得到的是一个 MP4 文件,如果光影不对、构图不佳,只能修改提示词,再次进入漫长的等待循环。这种「输入-等待-输出」的异步逻辑,本质上是人类在迁就机器的算力和算法逻辑。
PixVerse R1 的出现,正在试图终结这种「迁就」。实时生成的真正意义,绝不仅仅是「快」。如果启动延迟降低的足够低,帧率也足够稳定在,人类的感知系统会发生错觉:你不再觉得自己是在使用一个工具,而是觉得你正处于一个「活着的」世界里。
视频来源:爱诗科技
可以看到,在这个视频里,PixVerse R1 展现出一种水流般的即时感。当指令发出,画面的色彩、材质、甚至物理规律会瞬间响应。
随着「A city wall ahead.Jump over it and enter the city」指令的输入,角色从树林场景瞬间传送到了中式城楼前的石桥上,正朝着城楼大门跑去;随着「Transform into a robot and fight」指令的输入,画面拉近,主角从小人变身机器人并且迅速进行了一番打斗,场景和角色动作的切换非常流畅自然。
这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度,令人困扰的「进度条」就此消亡,技术本身变得透明,它变成了感官的自然延伸。
而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月,爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1;2024 年 2 月,它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」,让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」,正是这种长期架构押注后的必然爆发。
2 Playable Reality,介于游戏与视频之间的新物种?
长期以来,视频和游戏被视为两条平行线:视频拥有高拟真的质感但缺乏互动,游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。
PixVerse R1 定义的「Playable Reality(可玩现实)」,正是这两条平行线的交叉点。它不是传统意义上的视频,因为它允许实时干预;它也不是传统意义上的游戏,因为它不是由程序员预设的代码逻辑驱动,而是由 AI 对现实世界的模拟能力(世界模型)驱动。
从确定的、封闭的、一次性交付的 MP4 文件,到被 R1 定义的「过程」,一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互,这个世界就会持续演化。
在这个创作过程中,用户不再是坐在屏幕前的观众,也不仅仅是复杂的参数调试者,而是变成了「共同创作者」,可以用语言、情绪、意图直接干预世界的走向。
这意味着视频创作门槛的进一步降低。理想状态下,我们不再需要学习复杂的非线性剪辑,也不需要理解光影参数,只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展 。
支撑这种「随心而动」体验的,是 PixVerse R1 背后的三大技术支柱:Omni原生多模态基础模型、自回归流式生成机制,以及一套专门为交互设计的瞬时响应引擎。
首先,是Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意,R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间,就在潜空间里完成了对物理世界的重构。
其次,为了消灭画面切换时的「闪烁」与「刷新感」,爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中,每一帧往往是孤立或弱相关的,但在 R1 的体系下,视频不再是由一个个「固定片段」拼接而成,而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时,每一帧的演变都极其丝滑,没有重新加载的割裂感。
最后,支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化,它将启动延迟压缩到了人类几乎感知不到的程度
在爱诗科技发布的技术报告中,他们将这种演进描述为从 Fix-length clip(固定片段) 向 Infinite visual stream(无限可视化流) 的范式转移。这意味着,AI 视频不再是一次性的烟花,而是一个可以无限延伸的数字宇宙。
当然,PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里,微小的误差可能会让物理模拟出现波动。
为了追求 1080P 的实时响应,团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实:与其追求一个只能在服务器里跑几小时才能出来的完美标本,不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。
3 当技术「隐形」,把世界还给想象
PixVerse R1 目前展示出的能力,本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放,其影响力将远超视频创作本身。
想象一下,当这种能力被 API 化,它将如何重塑数字娱乐?
比如未来的游戏 NPC 不再只有固定动作,基于实时生成技术,他们可以根据你的语气实时生成独特的表情动作和视觉反馈。
电影也不再有唯一的结局,而是变成每个人都能走进其中的开放世界,通过交互,都会看到一个属于自己的、实时编排的独一无二的故事。
对于这种范式转移,爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为,PixVerse R1 是一种全新的媒体形式。
「传统视频是被记录的历史,而 PixVerse R1 开创了‘正在发生的现在’的实时生成新纪元。」 王长虎表示,在这样的背景下,创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者,可以在观看的同时即时调整和生成新内容。
这种「所想即所现」(As You Think)的能力,让王长虎对未来的数字生态充满了想象:「无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能实时响应用户意图。我们相信,每个人都能成为动态叙事的创作者。
爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时,技术本身就会变得透明。PixVerse R1 正在做的,就是让「生成」这个繁琐的技术动作隐形,让位于人类最本能的「想象」与「表达」。
尽管 PixVerse R1 目前尚处于内测阶段,且暂未在国内上线体验,但它已然开启了「流动世界」的大门。
接下来,爱诗科技将采用内测码/定向邀请机制,一部分创作者将有机会先亲自触碰这个「流动的世界」 。
四位国产大模型「训练师」,聊了聊中国 AI 的 2026
2026 年 1 月 10 日,在由清华大学基础模型北京市重点实验室与智谱 AI 联合发起的 AGI-Next 前沿峰会上,代表中国大模型不同生态位的几股技术力量,少有地围坐一堂。
他们中有刚刚带领智谱在港股成功 IPO 的唐杰教授;有从 OpenAI 归来、首次以腾讯新身份亮相的姚顺雨;有阿里 Qwen 技术负责人林俊旸;以及长期在学术界与工业界穿梭的联邦学习奠基人杨强教授。
如果说一年前的共识是「追赶与开源」,那么站在 2026 年的开端,这场闭门会释放出的信号显得更为复杂且务实——中国大模型正在进入残酷但必要的「分化」时刻。
从右往左依次是林俊旸,杨强,唐杰,李广密以及大屏幕里的姚顺雨|图片来源:AGI-Next
会上,智谱 AI 的唐杰率先向行业泼了一盆冷水。尽管中国开源模型声量巨大,但他直言:「中美大模型的差距可能并没有缩小。」在 Scaling Law 边际效应递减的当下,堆砌算力的「暴力美学」正在失效。唐杰抛出了一个新的衡量范式——「智能效率(Intelligence Efficiency)」,即投入多少资源能换取多少智能增量,这或许将是下一阶段竞争的胜负手。
这种对「效率」与「路径」的焦虑,贯穿了整场对话。
作为横跨中美的技术实战派,姚顺雨和林俊旸在 To B 与 To C 的分化上达成了某种默契。姚顺雨指出,To C 的护城河不再是单纯的模型参数,而是「上下文(Context)」带来的情绪价值;而 To B 则是生产力比拼——「企业只愿意为最强的模型支付溢价」。
林俊旸给出了一个预测——未来 3-5 年,中国 AI 公司引领全球的概率或许只有 20%,但这 20% 的机会,正藏在那些「软硬结合」的缝隙与「笨笨的坚持」里。
从 Chat 到 Agent,从参数内卷到价值分化,AGI 的下一代路线究竟在何方?以下为 AGI-Next 圆桌对话内容,经极客公园编辑整理。关于大模型的下一个三年,答案或许就在其中。
01
分化时刻:To B 向生产力要溢价,
To C 向上下文要价值
李广密(主持人):2025 年,中国开源模型和 Coding 领域都迎来了爆发式增长。我们也观察到硅谷出现了一个明显的分化趋势:各家不再盲目 Follow 所有方向,而是专注于垂直领域,比如 Sora 专注视频、有的专注 Coding 或 Agent。
顺雨,作为横跨中美的从业者,你如何看待这种「分化」?特别是在 To C 和 To B 的不同路径上,你有哪些核心观察?
姚顺雨:很高兴参加这次活动。关于「分化」,我有两个主要观察:一是 To C 和 To B 在价值感知上的分化,二是垂直整合与应用分层模式的分化。
第一,To C 与 To B 的体感差异巨大。
在 To C 领域,大家提到 ChatGPT,感觉和去年相比差别并没有那么大。对于大多数普通用户,他们不需要模型具备推导「伽罗瓦理论」那样高深的智能。目前的 To C 产品更像是搜索引擎的加强版,用户往往还需要学习如何激发模型的智能。
在 To B 领域,Coding 正在重塑计算机行业,甚至改变了人机交互的方式——人不再写代码,而是用自然语言与电脑交流。在 To B 场景中,智能水平直接对应生产力。
To B 更愿意为高智能支付溢价: 假设一个高薪工程师每天处理 10 个任务,最强模型能做对 9 个,而次强模型只能做对 5 个。那剩下的 5 个错误需要花费巨大精力去排查。因此,在 To B 市场,头部强模型和普通模型的差距会越来越大,用户只愿意为最好的模型买单。
第二,整合模式的差异。
在 To C 端,垂直整合依然是主流。像 ChatGPT 或豆包,模型和产品是强耦合、紧密迭代的。
在 To B 端,模型层与应用层开始分层。过去大家认为垂直整合会更好,但现在看来,To B 场景需要极强的预训练模型作为底座,这很难由产品公司完成;而应用层则需要围绕模型构建复杂的环境(Context)。比如在 Coding Agent 领域,模型越来越强,但应用层通过工具链的配合,才能将模型的溢出能力转化为生产力。
李广密(主持人):顺雨,结合你现在的腾讯新身份,在中国的市场环境下,你接下来的关注重点是什么?有哪些关键词可以分享?
姚顺雨:腾讯是一家 To C 基因很强的公司。我们在思考如何让 AI 给用户提供更多实际价值。
To C 侧的核心是「上下文(Context)」而非单纯的模型参数。
很多时候,回答好一个用户问题,并不是非要更大的模型或更强的强化学习,而是需要更多的外部输入。
举个例子,问「今天吃什么」,去年问和今年问,答案本身区别不大。但如果模型知道「今天很冷」、「我在哪个商圈」、「我太太喜欢吃什么」、「我们之前的聊天记录提及过什么」,这个回答的价值就会完全不同。所以比如把微信聊天记录转发给元宝,给模型更多有用的输入,就会给用户带来一些额外价值。
所以,利用好额外的 Context,结合强模型,是 To C 产品的破局关键。
To B 侧则可以看到大公司的「内生数据」优势。
在中国做 To B 尤其是生产力工具(如 Coding Agent)确实有挑战。作为一家万人规模的大公司,我们思考的是如何先「服务好自己」。
相比于完全依赖外部标注数据或协议的创业公司,大公司的优势在于拥有丰富的真实业务场景,有海量的内部需求和场景可以打磨产品;还有真实世界的数据捕捉,创业公司可能需要雇人去设想和标注 Coding 数据,而我们如果能将内部数万工程师的真实开发过程、Debug 过程利用好,这将是比单纯标注更具价值的数据资产。
总结来说,在 To C 上做深上下文,在 To B 上利用好内部场景和真实数据,是我们目前的思考方向。
李广密:接下来想请教俊旸。阿里云在 To B 领域很强,之前你也提到全模态可能更多偏向 To C。你如何看待未来「通义千问」的生态位?
林俊旸:理论上我不便评论公司的战略,但公司基因是由一代一代人塑造的。顺雨到了腾讯之后,腾讯可能变成一个有顺雨基因的公司(笑)。无论 To B 还是 To C,核心都是解决真实的问题。所以问题的本质是,应该怎么让人类世界会变得更好?
「分化」是自然发生的。To C 的产品也会再分化,比如更偏向医疗,或者更偏向法律。
关于生态位,我之所以看好 Anthropic,并非单纯因为他们的 Coding 能力有多强,而是因为他们与 B 端客户的交流非常深入。
我之前与许多美国 API 厂商交流,他们都惊讶地发现,Coding 任务的 Token 消耗量竟然如此巨大——这一点目前中国市场还没达到同等量级。再比如 Anthropic 现在切入金融(Finance)领域,也正是他们在与客户深度交流中发现的真实机会。
因此,我认为模型公司的「分化」其实是顺应市场需求后的自然结果。我更愿意相信 AGI 的发展规律,一切顺其自然,服务好真实的人类需求。
无论是分化还是其他路径,我相信最终应顺其自然,聚焦于我们对 AGI 的理解,做 AGI 该做的事。
李广密:谢谢俊旸。杨强老师,您如何看待「分化」这个问题?
杨强:我更关注工业界与学术界的分化。一直以来工业界领跑,学术界观望。现在大模型进入稳态,学术界应该跟上,去解决工业界来不及解决的深层科学问题:
比如给定计算和能源资源,智能究竟能做到多好?如何平衡训练与推理的资源分配?
我早期的实验发现,记忆过多可能引入噪音干扰推理。这中间的平衡点在哪里?
幻觉与哥德尔不完备定理: 大模型无法自证清白,幻觉无法彻底根除。这就像经济学中「风险与收益」的平衡(天下没有免费的午餐)。这是数学界和算法界需要共同攻克的难题。
当 Agent 串联时,误差会指数级累积。我推荐大家读一读《我们为什么睡觉》,书中提到人类通过睡眠清理噪音来维持能力。大模型是否也需要类似的「睡眠」机制?这孕育着超越 Transformer 的新计算模式。
李广密:唐老师,智谱在 Coding 和长程 Agent 上表现很强。您怎么看这种分化?
唐杰:回望 2023 年,我们是国内最早做出 Chat(对话)系统的团队。当时的直觉很简单——必须赶紧上线。但等到 8、9 月份真正发布时,市面上已经有十几个大模型同时登场,结果是大家的用户量都没有预想中那么大。
经过一年的反思,意识到问题的症结在于:单纯的 Chat 并没有真正解决问题。我们最初预判 Chat 会替代搜索,但现实是,虽然很多人开始用模型辅助搜索,但 Google 并没有被替代,反而是 Google 自己革了自己的命。
从这个角度看,随着 DeepSeek 的出现,单纯的『Chat 之战』已经结束了。我们必须思考下一个战略赌注(Bet)是什么。
2025 年初,我们团队内部进行了长时间的激烈争论,最终决定 Bet on Coding(押注代码能力)。随后,我们将全部精力都压到了 Coding 上——事实证明,这一步走对了。」
02
新范式:自主学习的演进
与「智能效率」的博弈
李广密:看来大家都在根据资源禀赋做自己擅长的事。
下一个话题:新范式。预训练走了 3 年,强化学习也已成为共识。接下来的新范式,大家都在谈论「自主学习」(Self-learning)。顺雨,你在 OpenAI 工作过,你认为第三个范式会是什么?
姚顺雨:「自主学习」在硅谷已是共识,但我有两点观察:
它不是单一方法论,而是基于数据的任务定义。聊天变得个性化、写代码适应特定文档、像博士一样探索新科学,这些都是不同维度的自主学习;
它已经在发生了。ChatGPT 在适应用户风格,Claude 已经能编写自己项目 95% 的代码。现在的 AI 系统包含「模型」和「代码库」两部分,AI 正在帮助编写部署和使用它自己的代码。
这就像是一个渐进的过程(演变),而非突然的突变。
李广密:追问一下,要实现真正的自主学习,还有哪些关键条件或技术瓶颈需要突破?
姚顺雨:其实 2025 年已经看到信号了,比如 Cursor,他们每隔几小时就利用最新用户数据进行学习。之所以没觉得石破天惊,是因为基础模型能力还受限。
现在最大的问题是想象力。强化学习的成果我们能想象(如 O1 做数学题)。但对于「自主学习」的新范式,我们还没定义好验证它的「任务」——是一个能赚钱的交易系统?还是解决了人类未解的科学难题?我们需要先想象出它的样子。
李广密:如果 2027 年出现新范式,全球范围内哪家公司最可能引领?
姚顺雨:概率最大的还是 OpenAI。虽然商业化稀释了部分创新基因,但那里依然是最可能诞生新范式的土壤。
李广密:俊旸,你对 2026 年的新范式有什么看法?
林俊旸:从更务实的角度看,RL(强化学习)范式其实还处于早期阶段。它的 Compute(算力)并没有被充分 Scale(扩展),大量潜力尚未释放,全球范围内也都面临着 Infra(基础设施)的瓶颈。
关于下一代范式,我认为核心在于「自主学习」。我曾和一个朋友聊到,单纯的人机交互其实很难让 AI 变强,反而往往因为 Context(上下文)被拉长而导致模型「变笨」。
这就引出了 Test-time scaling(测试时扩展)的思考——我们能否通过让模型吐出更多 Token、进行更长时间的思考来变强?OpenAI 的 o 系列在一定程度上验证了这点。无论是通过 Coding 还是 AI Scientist(AI 科学家)去挑战那些人类未曾解决的难题,这种尝试都极具意义。AI 肯定需要自主进化,至于通过什么技术手段、更不更新参数,见仁见智。
另一个关键点是更强的主动性(Agency)。现在的 AI 必须由人类 Prompt(提示)才能启动,未来有没有可能让「环境」去 Prompt 它,让它自主决定去做什么?
但这引出了比「内容安全」更严峻的问题——「行为安全」。我最担心的不是 AI「说错话」,而是它主动「做错事」,甚至产生危险的意图(比如往会场扔炸弹)。这就好比养育孩子,赋予它能力的同时必须注入正确的价值观。尽管有风险,但我认为主动学习依然是极其重要的范式。
李广密:俊旸,关于「自主学习」和「主动性(Agency)」,你觉得我们会率先在哪类任务上看到突破?是模型自我提升,还是自动化的 AI 研究员?
林俊旸:我觉得「自动化的 AI 研究员」可能并不需要太复杂的自主学习,训练 AI 这事很快就会流程化,甚至被替代。我更看重对用户的深度理解。
以前做推荐系统,用户输入越持续,算法越简单越精准。在 AI 时代,挑战在于如何利用信息让 AI 真正成为「懂你」的工具。
推荐系统有明确指标(点击率、购买率),但在 AI 渗透生活的方方面面时,我们缺乏一个核心指标来衡量「AI 做得好不好」。这是目前技术上更大的挑战。
李广密:关于「记忆(Memory)」和个性化,2026 年能看到突破性跨越吗?
林俊旸:我个人认为,技术发展往往是线性的,但人类的感知是指数级的。
像 ChatGPT 的出现,对从业者是线性增长,对大众却是震撼。现在大家都在卷 Memory,但目前的 Memory 只是「记住了过去的事」,每次还要叫一遍名字,并不显得聪明。
真正的 Memory 应该像老朋友一样,不需要复述背景就能瞬间理解。达到这个临界点可能还需要一年左右。
我们每天看自己的工作觉得挺「土」的,Bug 很多,但正是这些线性的微小进步(比如 Coding 能力提升一点点),带来了巨大的生产力价值。未来算法与 Infra(基础设施)的结合大有可为。
李广密:有请杨强老师分享。
杨强:我长期研究联邦学习,核心思想是多中心协作。现在很多本地场景资源不足,且有隐私安全需求。未来的趋势是「通用大模型」与「本地/领域小模型」的协作。
像黄学东在 Zoom 做的尝试,建立一个大基座,允许各方接入。这种模式既保护隐私,又能利用大模型能力。这在医疗、金融场景会越来越多见。
李广密:有请唐杰老师。
唐杰:无论是持续学习、Memory(记忆机制),还是多模态,都可能孕育出新的范式变革。
为什么变革会在现在发生?过去,工业界确实跑得比学术界快太多。记得前两年我回清华时,很多老师手里的卡(GPU)数量几乎为零,而工业界动辄上万张,这个差距是万倍级的。
但到了 2025 年底、2026 年初,情况变了。高校的算力储备跟上来了,包括硅谷和国内的教授们,都开始深入研究模型架构和持续学习。工业界绝对 Dominating(统治)的局面,已经不复存在了。虽然算力差距可能还有 10 倍,但学术界「创新的基因」已经孵化出了种子。
更深层的原因在于效率瓶颈。创新的爆发,往往是因为对某件事投入巨大,但效率却不再提升。
继续 Scaling(扩大规模)肯定还有收益。数据量可以从 10T 堆到 30T,甚至 100T。但我们要算一笔账:Scaling 后的收益到底有多少?计算成本又是多少?如果花掉 10 亿、20 亿,却只换来微小的提升,这在商业上是不划算的。同理,如果每次创新都要把基座和 RL(强化学习)重训一遍,效率也太低了。
未来我们应该定义一个衡量收益的新范式——智能效率(Intelligence Efficiency)。
提升智能上限,Scaling 可能是最「笨」的办法。真正的挑战在于:如何用更少的 Scaling,获得同样的智能提升?
基于此,我相信 2026 年范式的改变一定会发生。我们也在努力,希望这个变化能发生在我们身上。
03
Agent,从聊天到替人类工作
李广密:大家对 Agent 的预期很高,希望 2026 年 Agent 能处理人类 1-2 周的工作量。顺雨,你花了很多时间做 Agent 研究,2026 年,Agent 真的能帮人类自动化 1-2 周的工作吗?从模型公司的角度出发,你怎么看待这个问题?
姚顺雨:To B 与 To C 有逻辑差异,To B(生产力)的逻辑很简单且一致——模型越强,解决任务越多,收益越大。这是一个不断上升的曲线,只要老老实实把预训练和后训练做好就行。
To C 的 DAU(日活)往往和模型智能程度不相关,甚至负相关。
目前除了模型本身,还有两个瓶颈。一个是环境和部署(Deployment)问题。
我在 To B 公司的经验是,即使模型不再变强,仅通过更好地部署现有模型到真实场景,就能带来 10 倍甚至 100 倍的收益。目前 AI 对 GDP 的影响还不到 1%,潜力巨大。
还有一个是教育。未来不是人类替代人类,而是「会用工具的人」替代「不会用工具的人」。与其纠结模型,不如教育大家用好 Claude、Kimi、智谱等工具,这是中国现阶段最有意义的事。
李广密:俊旸,通义千问也在做 Agent 生态,以及扶持生态的通用 Agent,你可以分享下吗?
林俊旸:这里可能涉及产品哲学的问题。虽然像 Manus 这样的产品确实很成功,但我更认同「模型即产品」。
我曾和 TML(Thinking Machine Lab)的朋友交流,他们提到一个观点叫「Researcher is Product」——研究员本身就是产品经理,能端到端地把东西做出来。今天我们内部的研究员,也都渴望去做更多面向真实世界的应用。
我相信接下来的 Agent 能实现这一愿景,这与「自我进化(Self-involvement)」和主动学习强相关。未来的 Agent 不应是单纯的你问我答(交互式),而应该是「托管式」的——你给它一个模糊的通用指令,它能在长周期的执行过程中自我决策、自我进化。这对模型能力上限和 Test Time Scaling(测试时扩展)提出了极高要求。
另一个关键点是环境交互。目前的 Agent 大多局限在电脑环境,不够复杂。我有做 AI for Science 的朋友,比如做 AlphaFold 制药,光在电脑里跑是不够的,必须去指挥机器人做实验才能得到反馈。现在这部分还在靠人力或外包,效率极低。
只有当 AI 能与真实物理世界交互,形成闭环,才是 Agent 真正能长时间工作的场景。电脑里的任务今年可能就能解决,但未来 3-5 年,Agent 与具身智能(Embodied AI)的结合,才会是更有意思的。
李广密:最后一个尖锐问题:通用 Agent 是创业者的机会,还是模型公司的时间问题?
林俊旸:我不能因为我做基础模型,就去做这个的创业导师。
借 Peak(Manus 联合创始人)说过的一句话,通用 Agent 最有意思的事情在于解决长尾问题,或者说今天 AI 最大的魅力在于解决「长尾问题」。
头部需求(比如热门商品推荐)容易解决,但真正的 AGI 在于——当你寻遍世界找不到解决方案时,AI 能帮你解决那个独特的角落问题。
如果你是一个「套壳高手」,能把产品做得比模型公司更好,那有机会。但如果你没信心,这个领域可能最终属于模型公司。因为模型公司遇到瓶颈时,可以通过「烧卡」、训模型来从底层解决问题,这是降维打击。
所以见仁见智吧。
李广密:关于解决长尾问题,模型公司拥有算力和数据,解决起来是不是很快?
林俊旸:这就是今天 RL(强化学习)最有魅力的地方——修问题比以前容易多了。
举个 To B 的例子:以前客户想做微调,需要配置数据比例,但他们的数据质量往往很差(垃圾数据),这让我们很头痛。但引入 RL 后,只要有 Query(提问),甚至不需要完美的标注,稍微训练一下就能把问题修正。
以前需要大量清洗和标注的工作,现在通过 RL 可以更低成本、更高效地解决,并且很容易合并到模型中。
李广密:有请杨强老师。
杨强:我认为 Agent 的演进可以划分为四个阶段,其核心差异在于:「目标(Goal)」和「规划(Planning)」的主导权,究竟是掌握在人手中,还是由 AI 自动定义。
我们目前仍处在最初级的阶段:目标由人设定,规划也由人拆解。说得直白点,现在的 Agent 系统及定义,本质上只是一种更高级的 Prompt Language(提示词语言)。但我预料未来会出现质变。大模型将通过观察人类的工作流,利用过程数据进行学习。最终,Agent 将进化为一个由大模型内生(Endogenous)的系统——即目标和规划完全由大模型自主定义,那才是真正的智能体。
李广密:有请唐杰老师。
唐杰:我认为决定 Agent 未来走势的有三个关键点:
首先是价值: Agent 解决的问题到底有多大价值?早期的 GPTs 死掉是因为太简单,只是 Prompt 的封装。必须真正帮人解决复杂问题。
其次是成本与边界: 这是一个矛盾。如果一个问题调一下 API 就能解决,那基座模型公司往往会把这个能力吸收到模型内部。做应用要在被基座覆盖之前找到立足点。
最后是速度: 这是一个时间窗口的问题。如果我们能领先半年把应用做深、把体验做好,就能活下来。大模型现在拼的就是速度,也许我们代码写对了,就能在 Coding 或 Agent 方向上走得更远。
04
未来,中国 AI 能否引领全球?
李广密:最后一个问题:展望未来 3-5 年,全球最领先的 AI 公司是中国团队的概率有多大?我们从「跟随者」变成「引领者」,需要具备哪些关键条件?
姚顺雨:我对此非常乐观,概率很高。
历史证明,任何技术路线一旦被验证,中国团队能迅速复现并在局部做得更好(如电动车、制造业)。
但要成为引领者,需要解决几个关键点,包括硬件瓶颈,尤其是光刻机和算力问题,如果我们能突破算力瓶颈,配合国内的电力和基建优势,将是巨大助力。
商业环境上,目前美国 To B 市场更成熟,付费意愿更强。中国公司需要更好的商业化环境,或者具备出海参与国际竞争的能力。
以及最重要的人才与文化,中国有极强的人才储备,但在「敢于探索新范式」的人还不够多。我们擅长在既定范式下用更少的卡、更高的效率把事情做绝,但目前缺的是「定义新范式」的冒险精神。
李广密:追问一下,关于研究文化,你觉得中国实验室和 OpenAI/DeepMind 相比,有什么差异?有哪些建议?
姚顺雨:每个地方的研究文化都很不一样,美国实验室的区别可能比中美实验室的差别还要大,在中国也一样。
研究文化的差异主要体现在两点,国内倾向于做「确定性高」的事。比如预训练一旦被证明可行,大家会迅速跟进并解决技术细节。但对于「长时记忆」、「持续学习」这种未被证明、不知道能不能做出来的方向,国内投入较少。我们需要更多耐心去沉淀这种探索未知的文化。
国内也比较看重榜单数字。DeepSeek 是一个很好的反例,他们不盲目追求榜单,而是关注「什么是正确的事」。Claude 在很多编程榜单上并非第一,但大家都公认它最好用。这需要大家走出榜单的束缚,坚持做自己认为正确、能真正提升用户体验的事情。
李广密:多谢顺雨。俊旸,你觉得未来 3-5 年中国公司引领全球的概率有多大?挑战在哪里?
林俊旸:这是一个「危险」的问题,但我还是想从概率的角度谈谈中美差异。
美国的 Compute(算力)规模可能比我们大 1-2 个数量级。更关键的区别在于,OpenAI 等公司将海量算力投入到了下一代 Research 的探索中;而我们相对捉襟见肘,光是应付当下的交付(Delivery),可能就已经耗尽了绝大部分算力。
这就引出了「富人创新」与「穷人创新」的辩证。
「富人」资源多,可能确实存在浪费卡的情况;但「穷人」因为资源匮乏,反而被逼出了算法与 Infra(基础设施)的极致联合优化——这是资源过剩时缺乏动力去做的。
这也让我想起关于软硬结合的遗憾。2021 年,阿里做芯片的同事曾问我:「能不能预测三年后的模型架构?还要不要做 Transformer?是不是多模态?」因为芯片流片周期需要三年。
当时我不敢承诺,回答说:「三年后我还在不在阿里都不知道。」那是一次典型的「鸡同鸭讲」,我们错过了机会。结果今天回看,果然还是 Transformer,果然还是多模态。我至今非常懊悔当时没有推他们一把。
穷则思变。虽然我们现在是「穷人」,但这种软硬协同设计的下一代创新,会不会正因为「穷」而发生在这里?
此外是人的变化。美国人天生有强烈的冒险精神——比如早期的电动车,哪怕天窗漏水、甚至有安全隐患,富豪们依然敢投、敢做。相比之下,中国资本过去倾向于做「安全」的事。
但好消息是,教育在变好。我们团队里的 00 后比我也许更具冒险精神。随着新一代人的成长和营商环境的改善,虽然概率可能没那么大,但我相信,创新真的有可能发生。
关于概率: 如果非要给一个数字,我觉得是 20%。这已经非常乐观了,因为历史积淀的差距是客观存在的。
李广密:面对算力差距拉大,你会感到恐惧吗?
林俊旸:干这一行不能有恐惧,要有强心脏。能参与大模型浪潮已经非常幸运。
我的心态是:关注价值而非排名。只要我的模型能为人类社会带来价值,解决实际问题,即便不是全球最强,我也愿意接受。
李广密:杨强老师,回顾 AI 周期,您怎么看?
杨强:我们可以参考互联网的发展史。虽然发源于美国,但中国很快赶上,并在应用层(如微信)做到世界第一。
AI 也是一种技术,中国人的聪明才智会将其发挥到极致:To C 领域,我非常看好,中国会百花齐放。
To B 领域虽然目前受限于付费意愿和企业文化,但也会跟上来。值得借鉴的是美国 Palantir 的模式——利用「本体(Ontology)」和前端工程师(FDE),将通用 AI 能力通过工程化手段迁移到具体企业场景中,弥合技术与应用的 Gap。
我相信中国 AI Native 公司会发展出类似的、适合本土的 To B 解决方案。
李广密:最后有请唐杰老师。
唐杰:首先必须承认,目前中美在 AI Lab 层面的研究确实存在差距。
但局势正在改变,中国的 90 后、00 后这一代企业和人才,表现远超以往。我曾开玩笑说,我们这代研究者可能是「最不幸的一代」:上有老一辈学者老当益壮,下有 00 后天才少年横空出世,夹在中间的我们仿佛被「无缝跳过」了,世界直接交给了下一代。
玩笑归玩笑,中国 AI 的机会恰恰蕴藏其中:
第一,是「人」的冒险精神。我们拥有一群真正敢于冒险的聪明人。现在的 90 后、00 后(包括在座的俊旸、顺雨,还有 Kimi)都展现出了极强的探索欲,愿意为了一个不确定的未来去冒巨大的风险。
第二,是「环境」的优化。正如刚才俊旸提到的「光交付占据算力」的困境,如果国家和政府能进一步改善营商环境,理顺大厂与创业公司的竞争关系,减轻企业的交付负担,让这群聪明人有更多时间专注于核心创新,这将是巨大的助力。
第三,回归个体,在于「心」的坚持。永远不要等待一个「完美的环境」,因为环境永远不会完美。
相反,我们是幸运的见证者,亲历了环境从匮乏到繁荣的过程,这份阅历本身就是财富。如果我们能保持一种「笨笨的坚持」,在认定的路上敢做、敢闯,也许走到最后的赢家就是我们。
李广密: 最后我也想呼吁,希望行业能给年轻的研究员们更多算力和耐心。让他们安心「搓卡」三五年,也许在不久的将来,我们就能看到中国自己的 Ilya Sutskever 诞生。
*头图来源:AGI-Next
