作者: admin
从代码世界的非线性狂飙,看 OpenClaw 点燃了什么?
最近 Founder Park 密集组织了两场关于 OpenClaw 的闭门交流。在很多创业者和开发者朋友的交流中,总能感觉到一种复杂的情绪,兴奋又焦虑,确定又迷茫……
2026 年初的 AI 圈,也弥漫着一种奇异的撕裂感。
Claude Code 的负责人 Boris Cherny 在 X 上坦言,已经两个月没亲手写过、甚至改过一行代码了。Andrej Karpathy 也公开了他的工作流变化:从 80% 手写代码,迅速倒置为 80% 由 AI 生成。他将「最热门的新编程语言是英语」作为了置顶内容,这是他在 2023 年 1 月发布的一条帖子。一边是 OpenClaw 在 GitHub 狂揽 18.7 万星标(还在持续飙升),一边是被安全专家警告「不要安装」。
与此同时,AI 也制造了一场席卷整个软件行业的海啸。一边是 Anthropic 发布了覆盖法律、金融等核心业务领域的 11 个专业插件,将 Claude Cowork 从辅助工具升级为自主执行复杂工作流的「数字员工」。一边是 SaaS 遭遇来自 AI 的威胁,迎来「SaaSpocalypse」(SaaS 末日),行业股票大跳水,软件股数千亿美元的市值说没就没。
这一切来得太快,快到我们甚至来不及形成一个稳定的观点。但有一点是确定的:我们可能正处在一个巨大的「范式断裂」时刻。
01 一条走了七十年的路,和它的转折点
我曾经多次走访硅谷的计算机博物馆,认真探寻了下我们人类与代码的关系,发现这其实是一部漫长的「驯化史」,大致可以分为三个阶段,但这三个阶段的底层逻辑,其实是同一个:提升「人」的生产力。
第一阶段,是「驯化期」(1950s – 1990s)这个时候,我们像是铁匠,把代码锻造成一个个「标准零件」。无论是 FORTRAN 的数学库,还是 Windows 的动态链接库(DLL),核心思想都是「复用」。我们把通用的逻辑封装起来,下次用的时候直接拿来装配,不用再费力重铸。这时的代码,是一个听话、可靠、毫无意外的工具。人类写一行,机器执行一行。
第二阶段,是「培育期」(1990s – 2020s)随着更智能的集成开发环境(IDE)成熟普及,代码开始变得有点「灵气」了。它不再只是被动地等待指令,而是会「猜」你想做什么,帮你自动补全、提示错误。人类依然是主导者,但代码不再是完全被动的字符——它在学习、在适应、在与开发者形成默契的对话。这是「伙伴化」的萌芽。
第三阶段,是「爆发期」(2020s – 2025)以 GitHub Copilot 为代表的大模型工具,把这种默契推向了极致。它不再是帮你补全一行代码,而是能写出整个函数甚至整个模块。它像一个能力超强的「副驾驶」,你只要告诉它目的地,它就能帮你处理大部分常规操作。我们与它的关系,变成了飞行员与智能副驾。
从「工具」到「伙伴」再到「副驾」,这条路走了七十年。它看起来在不断进化,但背后有一个从未改变的根本前提:这一切都是在放大「人」的生产力。
无论代码多智能,它始终是我们思想的延伸,是我们意志的执行者。方向盘始终握在我们手里。我们是那个生产者,代码是那个最高效的生产工具。
而在近期发生的一切,不再是关于如何让副驾更聪明,而是关于副驾突然对你说:「你到后座去吧,接下来我来开。」
02 两种「容器」正在被撑破
真正的转折点,发生在过去这短短的一年多时间里。代码的进化突然从线性增长,变成了一场「非线性」的溢出。当代码开始拥有我们无法完全预期的「自主性」时,它就像一种被注入系统的新能量,开始不可阻挡地溢出我们为它设定的所有「容器」。
这个溢出,导致了一环扣一环的连锁反应。
首先,撑破了「人机协作」的框架,生产关系被重构。
当 Claude Code 团队可以做到两个月内 100% 由 AI 完成开发时,意味着代码的自主性已经强大到可以「承包」整个生产环节。
一个深刻的转变发生了:「执行」这个环节,正在迅速地商品化。
过去,一个优秀程序员的价值,很大程度上体现在他能用多么优雅和高效的方式,把一个模糊的想法,翻译成精确的、机器可以稳定执行的代码。这个「翻译」过程,就是「执行」,它本身是有价值的。
但现在,这个价值正在被 AI 稀释。我们不再需要手把手地教机器「怎么做」,而只需要清晰地定义「做什么」和「为什么做」。
这不仅仅是「生产者」到「质检员」的角色变化,这是一种「认知价值」的迁移。人类的价值,正被迫从「如何实现」这个技术层面,上移到「意图定义」和「品味判断」这两个更抽象的层面。什么是好的产品?什么是值得解决的问题?AI 给出的十个方案里,哪一个才符合我们对美、效率和人性的最终追求?
这是一种新的认知分工:AI 负责不知疲倦地「执行」,而我们,必须成为更优秀的「思考者」和「决策者」。那个曾经由「执行力」定义的价值容器,已经被撑破了。
其次,撑破了「生产协同」的容器,代码产能正在疯狂增殖。
当代码的自主性足以「承包」执行环节后,它必然不满足于只待在我们的编辑器里。它会溢出,去重构整个数字世界的形态。
今年爆火的 OpenClaw 就是一个信号。它本质上已经不是一个「编程工具」了,而是一个能接管你整个操作系统的「AI 智能体框架」,是一支可以被赋予任务、在你的数字世界里主动穿行、调动资源来完成目标的「小分队」。
让 OpenClaw 帮你整理文件,这只是表层任务。更「吓人」的是,如果它在整理中发现一种无法处理的文件格式,它可能不会立刻放弃选择报错,而是会自己去搜索推断、寻找解法、调度工具,甚至创造工具。并且,OpenClaw 还具备自主迭代工具本身的能力。
这就是更本质的变化:代码的生产,正在从一种由人类规划的、目标明确的「建造行为」,变成一种由 AI 驱动的、为了达成被给定的目标而进行的「生态演化」。开源项目里开始涌入大量 AI 贡献的代码,其数量和速度,都远超人类贡献者。
这就给人类带来了一个前所未遇的、更棘手的问题:当代码的生产力被拉满甚至溢出,我们该如何管理和协同?
当一个大型项目中,有无数个 AI Agent 在同时提交代码,我们如何保证它们的目标是一致的?如何进行代码审查?如何整合这些甚至连我们都未曾规划过的、由 AI 即兴创造出来的「新功能」?
所以,这里被撑破的,不仅仅是「应用」的边界。更是我们过去对于「生产」和「协同」的认知边界。它把生产力推到了一个我们自己都不知道该如何运用的境地。
03 从工具到土壤:代码正在成为新世界的基础设施
当我们意识到,人的价值正在从「执行」向「定义」迁移,而代码产能正在疯狂增殖时,一幅全新的图景正在展开。代码,以及承载代码的软件,也在经历一次深刻的「质变」。
第一层质变,软件正在从「为人服务」的应用层,下沉为「为 AI 服务」的基础设施层。
软件股的暴跌,以及「SaaSpocalypse」(SaaS 末日)概念的出现,就是一个例证。
过去,我们使用软件的方式是打开一个图形界面(UI),去点击、输入、操作。软件的价值很大程度上体现在它的用户体验(UX)上。
但未来,你的主要交互对象是 AI 智能体。你不会再打开 Excel,而是直接对 AI 说「分析一下上个季度的销售数据,做成图表」;你也不会再登录 CRM,AI 会自动帮你同步所有客户信息。软件的最终用户会从「人」变成「AI」。
这意味着,传统软件的「壳」(UI/UX)价值在迅速降低,而它内在的「核」(API 接口)变得至关重要。软件本身并没有消失,而是变成了被 AI 调用的基础能力,像水和电一样,融入了整个智能生态的底层。这是 SaaS 公司商业模式面临的根本性挑战。
第二层质变,代码正在从「人类智慧的产物」,变成「AI 的母语」,人类放手建造的细节工作。
过去,代码是人类与机器沟通的中间语言。但现在,当 Anthropic 的 Opus 4.6 拥有 1M 上下文和自适应思考能力,能对整个代码库保持长程规划;OpenAI 的 GPT-5.3-Codex「可以在几天时间内从零开始构建功能高度复杂的游戏和应用程序」。这些模型不再需要人类把需求拆成逐行指令,它们直接用代码思考、用代码协作、用代码验证彼此的产出。
在这个过程中,人类正在从「施工现场」退到「设计室」。我们只负责提出目标(「我想要一个什么样的应用」),而不再关心具体的实现过程。这是自计算机发明以来,人类第一次在数字世界里,主动退出了数字世界的施工环节。
第三层质变,人的价值正在从「技术实现」,迁移到「价值定义」。
当 AI 包揽了从代码生产、测试、部署,到软件调用、运维监控的全流程,人类还剩下什么?
不只是程序员的职业转型,而是关乎未来世界里,人类作为一个物种的核心竞争力。
我们不再是「建筑工人」,甚至不只是「建筑师」,我们必须成为那个提出「我们为什么要建一座操场,而不是一座雕像?」的「定义者」。我们的价值,在于我们的意图、我们的审美、我们的道德判断,以及我们定义一个值得追求的目标的能力。
04 我们被自己的创造物,拽着向前跑
把这一切串起来,我能感受到一种强烈的反差感。
我们花了七十年,一步步地把代码这个工具打磨得越来越先进,期待着用它去解决我们提出的问题。但今天,我们亲手创造的这个技术环境,这个生产力被无限放大的新现实,正在反过来,疯狂地拉扯着我们向前跑。
过去,我们向技术要答案;现在,是技术在向我们提问。
这不再是一个关于「工具」的故事,这是一个关于「关系」的故事。我们与我们创造物之间的关系,正在发生倒置。我们不再是那个唯一推着石头上山的人,石头自己开始滚动,甚至反过来催促我们去为它寻找新的、更陡峭的山坡。
这其中有焦虑,有失控感,但更多的,是一种前所未有的机遇。因为商业的本质,最终还是关于人。而这个新环境,正在以前所未有的力量,迫使我们去思考更本质的问题,去成为更纯粹的「价值定义者」。
编程已死,编程万岁。
作为「打字员」的程序员会消逝,但会诞生更多作为「定义者」的人类。
开源界的 Opus 时刻:GLM-5 能否接住 Agentic Coding 的接力棒?
如果你问一个开发者,AI 编程最让人崩溃的时刻是什么?
他给你的答案很可能会是它在报错面前那句机械的「对不起,我理解错了」,然后复读一段同样错误的代码。
过去一年,Coding 大模型的进步,更多体现在「生成能力」上:一句话生成网页、组件、小游戏 —— 15 秒内搓出一个像素风网页、一个炫酷的 SVG 图标,或者一个能跑的贪吃蛇。这些 Demo 足够惊艳,但也足够「轻」,它们有点像是在 Vibe Coding(氛围感编程)时代产出的高级玩具。但当涉及到高并发架构、底层驱动适配或者复杂的系统重构,它们就成了「温室里的花朵」。
所以最近,硅谷的风向已经变了。
不管是 Claude Opus 4.6 还是 GPT-5.3,这些顶级大模型开始强调 Agentic Coding:不追求「秒出结果」,而是通过规划、拆解、反复运行,完成系统级任务。
这种从「前端审美」向「系统工程」的范式转移,曾被认为是闭源巨头的垄断区。直到我测试了 GLM-5,才意识到,开源社区的「架构师时代」提前开启了。
一、从「前端」到「系统工程」
之前谈起 AI Coding ,大多会想到一个熟悉的叙事里——一句话生成网页、一分钟做个小游戏、十秒钟搭个炫酷动效。它们强调的是「可视化爽感」:按钮会动、页面好看、特效丰富。
但真正进入工程现场的人都知道,能生成一个 Demo,不等于能撑起一个系统。
复杂任务的难度,并不在「写出代码」,而在于模块如何拆分、状态如何管理、异常如何兜底、性能如何优化,以及当系统开始变复杂时,是否还能维持结构稳定。
这也是我们选择复杂任务作为实测对象的原因。
GLM-5 的定位,与很多竞品不同。
如果说多数模型更像「优秀前端」——擅长快速生成交互界面和视觉效果,那么 GLM-5 更偏向「系统工程角色」。它强调多模块协作、长链路任务、生产环境可运行的结构稳定性。
为了验证这一点,我们设计了两个完全不同维度的实测案例。
视频来源:极客公园
第一个测试,一个看似轻松、实则高度系统化的任务——基于浏览器与摄像头,实现一个「AI 视觉隔空操控烟花」的春节主题互动游戏。
在实测视频中可以看到,用户站在摄像头前,通过手势控制烟花发射方向与节奏;烟花在空中绽放,伴随粒子特效与动态光效反馈,整体交互流畅自然。
但这并不是一个简单的前端动效项目。它至少包含以下几个核心模块:手势识别与视觉输入处理;手势坐标到发射逻辑的映射;烟花粒子系统与绽放特效;实时渲染与帧率控制;浏览器兼容与摄像头权限异常处理;交互状态管理与用户反馈机制
可以说是一个结构完整、体验流畅的小型交互系统。从实测过程看,GLM-5 并没有直接进入编码,而是先对整体架构进行规划:视觉输入模块、控制逻辑层、渲染层、特效层如何分离;数据流如何传递;哪些部分可能成为性能瓶颈。
随后,它逐层实现逻辑,从手势识别的数据处理开始,到发射轨迹计算,再到粒子爆炸效果的参数调优。
当渲染出现卡顿时,它主动建议减少粒子数量、优化循环结构;当手势识别误判时,它调整阈值与滤波策略。
视频里呈现出来的效果,是「看起来很自然的互动」。但背后体现的,是完整的工程链条:规划 → 编写 → 调试 → 性能优化 → 交互校正。
最终生成的代码可以直接运行,交互稳定,帧率平滑,异常情况可处理。更重要的是,它的工作方式呈现出清晰的系统思维:模块边界清楚,逻辑分层合理,而不是把所有功能堆叠在一个文件里。
第二个案例测试的,是结构系统能力。这个场景可以说是媒体工作的日常——导入一段采访速记,概括总结内容,输出选题角度和思路。
视频来源:极客公园
在实测中可以看到,操作流程非常直接:我粘贴了前段时间的一份采访速记内容,模型开始分析,随后输出内容总结和选题角度,从结果来看,它生成的选题角度还是很有操作性的。
相比视觉交互系统,录音整理看似简单,但它其实考验模型的「结构抽象能力」。一段真实采访录音,往往是高度非结构化的:观点跳跃、信息重复、主线与支线交织。所以在这个案例中,GLM-5 展现出的能力,是在系统层面。
首先是主题识别与主线抽取能力。 模型并没有按原始文本顺序生成摘要,而是先判断核心议题是什么,再围绕这一议题重新组织内容。这意味着它在内部完成了一次扫描,识别哪些信息属于主线,哪些属于补充或噪音。这种能力本质上是规划能力,也就是在输出之前,先建立一个抽象结构框架。
第二,是模块化重组能力。它会将分散在不同段落中的相关观点归类到同一个模块中。这种跨段整合能力,说明模型在处理长文本时具备全局一致性。
第三,逻辑顺序的主动调整能力。实际输出的提纲往往与原始录音顺序不同。可以看到,GLM-5 有在根据因果关系或论证逻辑重新排列层级。这体现的是一种「逻辑优先于原始输入顺序」的判断力。这种「先结构、后输出」的模式,正是系统工程思维的核心。
这两个案例,一个是实时视觉交互系统,一个是媒体信息结构处理系统,看似完全不同。但它们验证的是同一件事—— GLM-5 具备完整的任务闭环能力:规划 → 执行 → 调试 → 优化。
在烟花游戏中,这体现在模块分层、性能优化与异常处理;在录音处理器中,这体现在主题判断、结构拆解与逻辑重组。它们的共同点在于,模型并没有停留在「生成结果」,而是在维持一个可持续演进的结构。
视频来源:极客公园
我继续尝试了一个相对复杂的任务,「构建一个极简操作系统内核」。在这个实测中。真正值得注意的,并不是视频里代码最终跑通,而是 GLM-5 在整个过程中的行为方式。
它并没有接到任务就立刻进入生成状态,而是先明确任务边界,主动拆分模块,规划系统结构,再进入实现阶段。这种「结构先行」的路径,本质上是前面所说过工程思维——先定义系统如何组成,再讨论具体实现细节,而不是边写边拼。
在多轮编写、运行、报错、修正的循环中,GLM-5 也没有出现结构塌陷。每一次修改都围绕既定架构展开,而不是推翻重来或局部打补丁。这说明它在内部维持着一个完整的系统模型,能够在长链路任务中保持一致性。很多模型在上下文拉长后容易前后矛盾,而视频中的表现恰恰体现出它对整体结构的持续记忆能力。
还有它处理错误的方式。当报错出现时,它并没有停留在「可能是某一行代码问题」的表层猜测,而是先判断错误类型,区分逻辑问题、环境问题或依赖冲突,再规划排查路径。这是一种策略级 Debug,旨在修复问题路径。
如果结合工具调用来看,这种能力会更加明显。它不只是给出命令建议,还结合主动调度终端执行、分析日志、修复环境,再继续推进任务。这种行为已经有点接近一种「自动驾驶」式的工程推进。目标没有完成,它就持续迭代。
先规划再执行、在长链路中保持结构稳定、以策略方式排查问题,以及围绕目标持续推进——正是系统工程所需要的四个核心能力的叠加,让GLM-5 开始呈现出接近工程师工作方式的行为模式。
二、为什么 GLM-5 能接住「架构师」的接棒?
如果说第一部分的实测证明了 GLM-5「能干复杂活」,那接下来的问题就是:它凭什么能? 答案在于其一整套隐藏在输出背后的「工程级行为模式」。
关键的一点,是 GLM-5 明显引入了类似 Claude Opus 4.6 的思维链自检查机制。
在实际使用中可以感受到,它并不是接到任务就立刻开始「填代码」,而是会在后台进行多轮逻辑推演:预判模块之间的耦合关系、主动规避死循环路径、提前发现资源冲突和边界条件问题。 这种行为带来的直接变化是——为了确保方案在工程上站得住脚,它愿意慢下来,把问题想完整。
在复杂任务中,GLM-5 会先给出一个清晰的模块拆解:系统由哪些子模块组成、每个模块的输入输出是什么、哪些部分可以并行推进、哪些必须串行完成。然后再逐一攻克,而不是边写边想。 这让它的工作方式更像一个真正的工程师:先画架构图,再写实现细节。明显感觉到,它具备了一种「不把问题解决干净就不肯停下来的韧性」,而不是完成一个看似正确的局部就草草收尾。
这种差异,在和传统 Coding 模型的对比中尤其明显。 过往很多模型在遇到报错时,会迅速滑入一种熟悉的模式:道歉、复述错误信息、给出一个未经验证的修补建议;如果再次失败,就开始循环输出近似答案。 GLM-5 的处理方式则更接近老牌架构师。实测中,当项目因为环境依赖问题无法运行时,它并没有停留在表层报错信息,而是主动分析依赖树(Dependency Tree),判断冲突来源,并进一步指挥 OpenClaw 进行环境修复。
整个过程更像是「自动驾驶」式部署:模型不是被动响应,而是在持续读取日志、修正路径、验证结果。
另一个常被忽视、但在系统工程中极其重要的能力,是上下文完整性。
GLM-5 的百万级 Token 窗口,使它能够在同一上下文中理解整个项目的代码结构、历史修改、配置文件与运行日志。这意味着它已经能够站在全局视角判断一次修改会对哪些模块产生连锁反应。 在长链路任务中,这种能力直接决定了模型是「聪明但短视」,还是「稳健而可控」。
综合来看,GLM-5 真正接住「架构师」角色,主要就是因为它开始像架构师一样思考问题:先规划、再执行;持续校验、不断修正;关注系统整体,而不是单点成功。
这也是它能够完成第一部分中那些系统级实测任务的根本原因。
三、开源界的 Opus?
放到 2026 年的大模型生态中看,GLM-5 的价值更多在于它打破了一件此前几乎被默认接受的事:系统级智能,似乎只能存在于闭源模型里。
此前,Claude Opus 4.6 和 GPT-5.3 确实把「Agentic Coding」这条路跑通了——模型不再追求即时反馈,而是通过规划、拆解、反复运行,完成真正复杂的工程任务。但代价也很高:高强度任务的 Token 消耗极高,一次完整的系统级尝试,往往就意味着不菲的调用成本。
GLM-5 在这里提供了一个不同的解法。作为开源模型,它把「系统架构师级 AI」从云端和账单里,带回到了开发者自己的环境中。你可以在本地部署它,让它花时间去啃那些脏活、累活、大活:调日志、查依赖、改老代码、补边界条件。
这可以看作是一次性价比结构性的改变——架构师级智能不再是少数团队的特权。
如果用职业隐喻来理解这种差异,会更加直观。像 Kimi 2.5 这样的模型,更像是审美在线、交互感极强的优秀前端工程师,擅长 One-shot 生成、视觉呈现和快速反馈;而 GLM-5 的风格则明显不同,它更像一个守底线、重逻辑的资深系统架构师:关注模块关系、异常路径、可维护性和长期稳定运行。
这背后,其实是编程 AI 一次清晰的职业进阶——从追求「看起来很爽」的 Vibe Coding,走向强调鲁棒性和工程纪律的 Engineering。
更重要的是,GLM-5 的出现,让一人公司的概念变得更加可落地。
当一个开发者可以在本地拥有一个懂系统设计、能长期运行、能自我修正的 AI 合伙人时,很多原本需要团队规模才能完成的工程工作,开始被压缩到个人可控的范围内。接下来,GLM-5 有潜力成为一人公司中,负责核心工程实现的那位「数字合伙人」。
xAI 关键人物跑路,马斯克 AI 野心遭重创
作者|桦林舞王
编辑| 靖宇
正准备合并 SpaceX 和 xAI,创造一个 1.25 万亿美元估值的宇宙 AI 巨无霸的马斯克,想不到自己的巨饼,不是所有人都吃得下。
当地时间2026 年 2 月 10 日,xAI 联合创始人 Tony Wu,宣布从马斯克的 AI 公司离职。
这已经是继去年 8 月 Igor Babuschkin 离职后,xAI 失去的第二位联合创始人 。Wu 负责的恰恰是 AI 推理能力——这个被业内认为是下一代 AI 系统核心竞争力的关键技术方向。
一家成立才两年多的 AI 公司,连续失去两位联合创始人,这在硅谷并不常见。更关键的是,这发生在 AI 竞争最激烈、人才最稀缺的当下。
创始人纷纷出走,马斯克的AI 野心,还能继续吗?
01
推理专家走人
Tony Wu 在 xAI 的角色,远比表面看起来重要。
作为负责推理能力的技术负责人,Wu 直接向马斯克汇报。在当前的 AI 发展阶段,推理能力被认为是 GPT-4、Claude 这些大模型与真正「通用人工智能」之间的关键桥梁。
简单来说,Wu 负责的就是让 AI 能够「思考」,而不仅仅是「记忆和模仿」。
这个时候失去 Wu,对 xAI 来说打击是致命的。

Tony Wu 在 X 上发布了离职消息|图片来源:X
从技术角度看,AI 推理能力的突破需要长期的积累和持续的迭代。一个推理专家离开,带走的不仅仅是个人能力,还有整套的技术思路、实验数据,以及对未来研发方向的判断。在 AI 这个「以月计」的快速迭代行业,失去关键技术负责人往往意味着至少 6 个月的研发停滞。
更让人担心的是时机。OpenAI 刚刚发布了新的代码模型,在 AI Coding 上取得了显著突破;Anthropic 的 Claude 也在推理任务上表现越来越出色。这个时候失去推理团队的核心人物,xAI 很可能会在最关键的技术赛道上掉队。
有开发者在 X 上直言:「失去 Tony Wu,就像特斯拉失去电池技术负责人一样。表面上公司还在运转,但核心竞争力已经受到冲击。」
Tony Wu 不是唯一的一个,事实上,过去一年,xAI 创始团队的 12 名成员中,已经有 5 名离开,接近一半的离职率,效率堪比老马狂裁Twitter 之时。
为什么顶级 AI 人才,并不愿追随马斯克的 AI 愿景?
02
马式管理的「副作用」
连续两位联合创始人离职,让人不得不重新审视 xAI 内部到底发生了什么。
虽然官方没有透露具体的离职原因,但从马斯克在 Twitter、Tesla、SpaceX 的管理风格来看,问题可能不在薪酬,而在管理理念的冲突。
马斯克一直以「极限压榨」式的管理著称。
在 Twitter 的改造过程中,他曾经让员工睡在办公室,用「要么极度硬核,要么离开」的方式大规模裁员。这种管理风格,在制造业或者相对成熟的科技产品上或许有效,但 AI 研发需要的是创造性思维和长期专注,而不是简单的执行效率。
一位前 OpenAI 研究员在接受采访时表示:「AI 研究有自己的节奏。有时候一个算法突破需要几个月的静心思考,有时候需要反复试错。如果管理层总是催促『快一点,再快一点』,很容易让研究员产生挫败感。」
更关键的是技术路线的分歧。
马斯克曾经公开表示,xAI 要追求「最大程度的真实」和「理解宇宙」。这种宏大的愿景很鼓舞人心,但在具体技术实现上,往往需要更务实的路径选择。
当 CEO 的愿景与技术团队的判断发生冲突时,谁说了算?
在传统的 AI 研究机构,通常是技术专家有更大的话语权。但在马斯克的公司里,最终决策权往往掌握在他手中。
03
AI 的「人才血战」
把 xAI 的人才流失放在更大的背景下看,这其实是整个 AI 行业「人才血战」的一个缩影。
现在的 AI 行业,顶级人才的稀缺程度堪比上世纪的核物理学家。
一个优秀的 AI 研究员,可能同时收到 OpenAI、Anthropic、Google DeepMind 的 offer,年薪轻松超过 50 万美元,股权价值更是天文数字。
在这种环境下,留住人才的关键不仅仅是钱,更是平台和氛围 。研究员们更愿意去那些能让他们专注技术、有清晰研发路径、不被管理层频繁打扰的地方。
从这个角度看,OpenAI 和 Anthropic 确实有优势。
这两家公司都是由 AI 研究员主导的,技术团队在关键决策中有足够的话语权。相比之下, xAI 更像是一家「CEO 驱动」的公司——马斯克的个人意志往往会覆盖技术团队的判断 。
这不是说马斯克的方式不对,而是在 AI 这个特殊的行业,这种管理风格可能不是最优解。
Reddit 上有用户一针见血:「马斯克擅长的是工程化和产品化,但 AI 研究的前半程更像是科学研究,需要的是耐心和试错空间。」
现在的问题是,xAI 还有多少时间来调整?
在 AI 这个「赢家通吃」的游戏里,落后半年可能就意味着彻底出局。失去两位联合创始人,对于一家还在寻找技术突破口的 AI 公司来说,代价可能比想象的更加沉重。
毕竟,在这场 AI 军备竞赛中, 最稀缺的资源从来不是钱,而是那些真正懂得如何让机器「思考」的人 。
OpenClaw 之后,清华系团队给端侧 AI 找了一条「端云协同」的新路
2026 年都到 2 月了,你要是还没听说过 Agentic AI,大概率不只是断网这么简单——更像是手机都丢了。
我自己算是从头看着这波浪潮起来的。OpenClaw(当时还叫 ClawdBot)火出圈那阵子,很多人第一次真正「看懂」了一件事:我们想象中的 AI Agent 时代,关键从来不在它能不能聊得更像人,而在它能不能把事办完。
它能开浏览器、能点按钮、能把一个原本需要你反复切 App 的任务拆成步骤,一路执行到结束。你甚至会在某个瞬间产生错觉:屏幕那头像真的坐着一个很熟练的实习助理。
与此同时,自动化操作这股风,早就吹到手机上了。无论是豆包手机这类软硬件形态,还是各家手机大厂在系统助手上的「行动化」尝试,本质上都在做同一件事——把 AI 从对话框里拽出来,塞进系统和 App 的缝里,让它去完成那些「明明很简单但就是很烦」的操作链路:打车、下单咖啡、生成文档。

然而,单纯的云侧智能或单纯的端侧执行,都有着各自难以逾越的「天花板」。
云侧的 OpenClaw 拥有强大的推理能力,但它看不见你手机当下的屏幕,不知道你此刻的地理位置,更不敢直接操作你本地的微信去发个红包;而市面上常见的纯端侧助手,虽然能调用本地的数据和应用,却往往因为硬件算力限制,在面对高复杂、长流程任务时显得「智商不够用」。
移动端 AI Agent 的胜负手,早就不是「做云还是做端」的选择题,而是如何把两者的优势真正打通。近期,一家清华系团队「万象智维」选择用「小万」切入市场,押注的正是这样一套打通端云的能力体系: 让云端做「大脑」,负责复杂逻辑与规划;让端侧做「手脚」,负责感知与最后一公里执行。
01
不仅是「能动手」,
更是「分工明确」
在 AI Agent 的应用场景中,设备的定位差异始终是制约体验升级的关键。电脑与云服务器是天生的效率工具,凭借 7×24 小时不间断运行的优势,擅长承载复杂计算与长期执行类任务。而手机则是核心生活工具,沉淀着最细碎、最个人化的行为习惯和上下文数据。
传统的思路是:要么把所有数据传上云,但这面临隐私和延迟的挑战;要么在端侧硬跑大模型,但这会烧穿手机的电池和算力。
「万象智维」的解法是 「端侧 GUI + 云侧 CLI」 的技术分工。
在「小万」的产品架构中,手机被定位为 上下文的主要入口与执行终端 。它天然知道你是谁、你现在在什么时间和地点、你正在用哪些应用。而云端的 OpenClaw 则发挥其复杂推理与多任务调度能力,负责长期运行任务、系统级 API 操作等核心工作。

我们可以通过两个真实的场景,来看看这种「端云协同」是如何比单一端侧更聪明的:
场景一:复杂文档的「端-云-端」接力
当你收到一份几十页的技术文档时,单纯的端侧模型往往读不懂深层逻辑,而单纯的云端模型又无法直接操作你的本地 App。
在「小万」的流程里, 端侧 Agent 首先接管,利用本地算力提取文档的关键信息;随后,任务流转至 云端 ,由 OpenClaw 进行深度的逻辑梳理和摘要生成——这是手机本地算力难以企及的。最后,处理好的结论回传至手机,由 端侧 Agent 再次接手,询问你是否需要「发送给同事」或「保存到笔记」,并直接调用微信完成发送。
用户感知到的是一次流畅的服务,但后台其实发生了两次「端-云-端」的职能交接。
场景二:基于感知的智能通勤
早晨醒来, 端侧 Agent 基于本地传感器感知到「外面下雨了」,并读取了你本地日程中「早晨 9 点有会」的信息。
这些上下文被脱敏后发送给 云端 ,云端大脑迅速规划出一条避开拥堵的打车方案,并决策出「需要提前出发」。
当方案确定后,指令回到 端侧 。此时,「小万」直接在手机本地唤起打车 App,自动填写目的地、选择车型,并停在支付确认页面等待你点击。

这种「端侧感知、云侧决策、端侧执行」的高效协同模式,既规避了纯端侧智能能力不足的短板,也解决了纯云端智能缺乏场景感知和隐私顾虑的痛点。
02
真正解决的难点:
算力、成本与隐私
从 Demo 走向实用,一定会遇到一堆硬问题。先说最现实的: 成本与效率 。
把智能体装进手机听起来很容易,但现成方案没法直接照搬。高频调用的日常场景里,Token 成本绕不过去;手机端还要算清楚内存、功耗、温度、延迟。你可以在云端把模型堆得很大,手机端必须把每一次 Token、每一次访存、每一次调度都算明白。
哪怕是 OpenClaw,也会疯狂消耗大模型服务的 Tokens。不少网友在社交媒体吐槽账单太夸张,很多专业用户一天就能跑出数百美元。如果让手机里的每一个小动作都去问一遍云端大模型,这在商业上是跑不通的。
「万象智维」给出的路径,是算法与系统的深度协同优化,重点做了两件关键技术工作。
首先,是对端侧推理框架的「极限压榨」。
既然是协同,端侧就不能太弱。「万象智维」开发了一套名为「OmniInfer-VLM」的框架,旨在榨干手机 NPU 的性能。数据显示,在不牺牲精度的前提下,该框架能让多模态推理速度相对传统 CPU 方案提升接近 20 倍。

这意味着,像屏幕识别、OCR 提取、简单的意图判断这些高频操作,完全可以在本地毫秒级完成,无需联网,既快又省。
在此之上,是以「行为」为核心的记忆系统。
并不是所有任务都需要「思考」。现实中,我们每天的点咖啡、打卡路径是高度重复的。每次都从零推理不仅慢,也更容易出错。
团队引入了一套记忆系统,将用户的高频操作路径抽象成数学模型记录在本地。当你第十次点同一种咖啡时,系统不再需要云端的大脑重新推理「怎么点」,而是直接调用本地的行为记忆,进行自动化执行。
这不仅让执行速度更快,更重要的是,它大幅减少了对昂贵云端算力的调用次数——据测算,这种机制能让平均推理延迟降低约 1.49 倍。
此外,还有隐私的「护城河」。
在 Agent 时代,隐私不仅是数据,更是行为。相比于部分方案将每一帧截屏都上传云端进行分析,端云协同架构提供了一种折衷的安全性:敏感的上下文(如微信聊天记录、支付密码页面)始终保留在端侧处理;只有经过脱敏、任务需要的抽象指令才会发往云端。这虽然无法做到 100% 的物理隔绝,但相比纯云端接管,它在架构上为用户保留了数据的「所有权」。

03
落地与生态:
清华系团队的工程化答卷
AI 硬件需要的是一种低算力、但在高频场景下仍然足够顺的解决方案。想走到日常使用,总要面对一个现实:算力不可能无限,体验却必须够稳。
目前,这套方案已经不仅仅停留在 PPT 上。根据产品信息,「小万」目前已实现了端侧持久化的上下文记忆,在完全依靠端侧自身算力配合云端调度的条件下,支持约 40 款主流应用,覆盖约 150 个场景任务。无论是打车、消费、支付等日常任务,还是规划相关日程,都可以通过「小万」来完成。

这组数字虽然不能等同于「全能 Agent」,但却勾画了一张清晰的工程化路线图:先把高频、可验证的任务做扎实,再把覆盖面铺开。
而在部署上,「万象智维」同样把「本地化」当成核心能力设计:「小万」的端侧任务主要利用手机本地算力完成;云侧会为每位用户开设独立的虚拟云服务。对有本地部署需求的企业用户,他们还提供了本地化部署 OpenClaw 的方案,通过 API 无缝接入「小万」,进一步降低隐私顾虑。
这套成熟的工程化打法背后,是雄厚的技术积累。「万象智维」依托清华大学端智能研究团队孵化成立,核心团队在清华大学计算机系任炬副教授与清华大学智能产业研究院李元春助理教授的长期指导下,在端侧模型轻量化与高效推理领域有着扎实积累。公司成立后首轮融资便获得来自星连资本领投的数千万元天使轮投资,也侧面印证了行业对其技术路线的认可。
04
未来:从人机交互到
Agent-to-Agent
如果说 OpenClaw 让我们看到「Agent 可以动手」的可能性,那么「小万」更像在回答另一个问题:当动手发生在更多形态的端侧设备上,智能体还能不能把事办完,并且办得让人放心?
未来的端侧 AI,或许不会局限在手机这一个形态上。眼镜、手表、甚至是未来的新型终端,它们本质上都是一个个「端侧 Agent」。它们各自拥有不同的传感器和执行能力(有的能看,有的能跑),而云端则是一个通用的「超级大脑」。
「万象智维」正在构建的,正是连接这两者的中间层—— Agent-to-Agent 的交互网络 。
在这套网络中,任务不再被绑定在某一台设备上,而是由云端统一规划,分发给最合适的端侧设备去执行。移动端 AI 的「动手时代」已经开场。真正的分水岭,或许不在于谁的模型参数更大,而在于谁能用最工程化的手段,把聪明(云)和靠谱(端)真正结合在一起,解决那些用户每天都要做、又最怕出错的琐事。
千问大模型联合淘宝「悬赏」:用更好的模型,解决电商的经营难题
自 2023 年的大模型元年以来,电商一直是 AI 落地的重要场景。过去几年从平台到商家,电商行业的从业者纷纷探索利用 AI 生图、AI 客服、AI 辅助广告等工具降本增效,也取得了一定的成果。
而在刚刚结束的 2025 年,AI 行业再次迎来技术升级:今天的大模型不仅有了更强的分析、生图和生视频能力,更重要的是 Agentic AI 的出现,让 AI 有了更强的影响真实世界的能力,甚至让 AI 从真人的帮手,变成了真正的数字员工。
这也意味着 AI 与电商行业的结合有了更多的可能性。2 月 9 日,淘宝、千问大模型、阿里云联合发起了 2026「生意管家杯」电商 AI 挑战赛。大赛总奖金池的价值高达 350 万元,包括 50 万元现金奖励和 300 万元阿里云 Tokens。
大赛前期征集商家的真实经营痛点,再由全球 AI 开发者给出技术解决方案,最终通过专家评审投入实战对决。这意味着,这场比赛并不是单纯的炫技比拼,而是一场以真实商家需求为起点、以实际落地为目标的 AI 电商实战演习。
这场挑战赛也为外界提供了一个观察窗口:今天的千问大模型对于电商的理解力有多强?又如何推动 AI 能力落地电商场景?
01
迄今为止,AI 在电商中的应用价值大致分为两类:一类是通过自动化与规模化能力,承接高并发、强标准化的任务,让生意「更省力」;另一类则是通过模型分析与推理能力,洞察人群、商品与市场之间的复杂关系,推动生意「做得更大」。
这恰恰构成了 2026「生意管家杯」电商 AI 挑战赛的两大赛道,分别是「商家经营提效」和「商家经营增长」。
「商家经营提效」赛道聚焦商品管理、消费者服务、数据洞察等高人力消耗场景,是 AI 最适合切入的领域。「商家经营增长」赛道则围绕消费者运营、商品运营、营销推广等复杂场景,更依赖大模型对数据的理解和推理能力。
回顾 AI 电商的发展不难发现:底层大模型的能力,很大程度上决定了 AI 电商的探索上限。
过去,AI 在电商领域的尝试,大多以功能插件的单点工具形态存在,主要提升局部效率。而底层模型能力的跃迁,让 AI 开始具备贯穿「人、货、场」的可能性,最终成为电商体系中的智能中枢。
在这一节点,像阿里巴巴这样同时拥有顶尖自研大模型和中国领先的电商平台生态的独特业务集合体,率先具备了推动 AI 电商系统化演进的底层能力。
过去三年,千问大模型在高强度的业务需求牵引下持续迭代,实现了与全球顶尖模型的正面竞争。
以 1 月 26 日最新发布的 Qwen3-Max-Thinking 为例,其在数学推理、代码编程等 19 项权威基准测试中表现优异,多项指标超越 GPT-5.2、Gemini 3 Pro,持续保持国际顶尖模型水平。
Qwen3-Max-Thinking 与其他模型的测评分数对比。图源千问大模型。
在本次 2026「生意管家杯」电商 AI 挑战赛中,千问大模型和阿里云也向开发者释放了多项技术资源支持。包括阿里云千问大模型万亿 Tokens 奖池、数百小时魔搭社区免费 GPU 时长,以及阿里云半价云资源折扣。
在 4 月举行的决赛中,千问大模型还将派出产品技术专家,在现场直接参与指导和评选。
02
当 AI 深入电商经营一线,最直接的问题是:底层模型能力,具体如何落地到真实生意中呢?
过去几年,千问大模型在真实电商场景中的实践为参赛选手提供了范本。其能力落地并非单点突破,而是围绕「人、货、场」三大核心要素,构建起一套完整的 AI 电商解决方案。
首先,在「人」的维度上,AI 开始承担起原本高度依赖人力的服务与运营角色。
在客服场景里,千问大模型驱动的 AI 客服导购,可以依靠知识库自动处理 80% 的常见问题,遇到复杂问题则无缝转接人工。据应用案例统计,从纯人工换到「AI+人工」后,一位商家每年的客服人力成本可节省 75%。
除了 AI 客服,千问大模型还可以对拟人模型构建相应智能体,将真人形象训练为 AI 数字员工。人类下班后,IP 分身可以 24 小时陪伴粉丝聊天,数字店长能够代替人工抽检商品详情。
千问大模型生成的数字员工形象
其次,在「货」的维度上,AI 彻底改变内容生产方式,打造了一座不停歇的 AI 创意工作室
当传统设计师面对上百个 SKU 的作图需求焦头烂额时,有 AI 加持的设计师则显得尤为轻松。依靠 Qwen 模型和 Wan2.6 等多模态模型的生成能力,一张 360°产品底图输入进去,自动衍生多风格场景图、促销海报、短视频,甚至社交媒体九宫格。
Qwen-Image 2.0 生成电商产品海报模特图
此前,有电商商家反馈,每年在设计和文案上的人力成本高达 500 万,全面引入千问大模型之后降到 150 万,上新速度提升了 5 倍。
这并不仅仅是效率提升,更意味着「货」的表达能力被模型放大,商品不再受限于单一创意产能,而是进入可规模化试错、快速迭代的内容生产体系。
最后,在「场」的维度上,千问大模型正在推动营销与交互的智能化升级。
面对电商竞争进入精细化运营阶段的现实,传统「广撒网式」营销已无法满足需求。Qwen-3 和 Wan2.6 的结合,可以形成从投前决策到投后复盘的 AI Marketing 飞轮。
通过构建「生活场景化」用户标签体系、Lookalike 扩量与私域钩子匹配,商家能够实现精准获客。多模态视觉素材的自动生成、智能预算分配与动态出价,则让投放策略更加科学高效。
还有一个值得关注的场景是端侧交互的革新。随着轻量化模型和多模态交互套件在端侧落地,AI 可以直接进入用户的设备和生活场景。
比如,千问大模型面向电商小家电场景,可以打造部署于 App、小程序或智能硬件的本地化 AI 问答助手,创造新的交互入口。
从服务到商品,从内容到营销,再到端侧交互,千问大模型贯穿「人、货、场」,构建起一套可持续运转的智能经营系统。这种系统的场景范式,正是 AI 电商从概念走向真实生产力的分水岭。
03
过去,AI 大多停留在工具辅助的层面,传统电商的模式并未发生根本改变。随着用户行为逐渐迁移到模型对话窗口,大家开始想象:以 AI 为核心入口的原生电商形态会是怎样的?
在大模型能力的支持下,AI 原生电商的超级 Agent,正在成为连接电商、支付、内容与服务体系,并且能够主动完成任务的智能中枢。
处在 AI 原生电商从概念走向现实的时间窗口,这场 2026「生意管家杯」电商 AI 挑战赛,显得尤为值得关注。
无论是正在寻找突破口的 AI 创业团队、独立开发者、技术大咖,还是深耕垂直场景的 AI 应用厂商、生态服务商,以及高校和研究机构,这场比赛都提供了一次不可多得的实战机会。
当底层模型能力飞速迭代,平台开放真实场景与真实需求,谁能率先把 AI 能力转化为可落地的电商生产力,谁就有机会站在下一代电商形态的起跑线上。
【世界进行时】2026年2月6日
核裁军濒临崩溃,猜疑不断加深——但希望仍在
马斯克都忍不住转发的 AI 应用,是怎么做出来的?
前两天晚上,马斯克在X上转了一个小视频的帖子。视频里的问题是 “Which is the best LLM in the world?” 画面里有两个选项,Grok 和 Others。
在视频里的人始终点不到Grok的按钮,按钮还在不断变小。直到Grok 终于被点到,视频里的「马斯克」开始了搞怪舞蹈。

图片来源:Loopit
这个视频里可以互动起来的产品就是Loopit。
从百川智能离职后,陈炜鹏和李施政创办了涌跃智能。
他们bet的点有3个:
AI Coding 多模态生成融合能吃掉最大的智能增量、通用是最该坚持的产品品味、互动是内容的未来。
虽然AI Coding多模态生成的技术框架探索从没变化,但具体产品设想是模糊的。他们尝试过互动PPT、互动绘本、互动影游,但始终没能同时满足这3个信念。在探索的过程中,他们逐渐将注意力从「用代码提升生产力」,转向「用代码定义可交互的世界」。于是,与行业怎么把一件事做得更高效的主流不同,涌跃智能的产品Loopit 选择了另一个方向。

Loopit 使用页面|图片来源:极客公园
它没有瞄准提升生产力,也不打算做下一个游戏引擎,而是试图回答一个更模糊、也更有想象力的问题——如果内容不只是「被观看」,而是可以被「玩」,会发生什么?
精彩观点:
- 现在的 AI 应用面临的普遍问题是:要么想到做不到,要么做到了也没想象力。。
- 如果内容形态没有逃脱上一个时代的范畴,即使强如Sora,最终也只会沦为既有平台的供给。
- 互动内容是一种更高维的方式,一次性游戏、可以玩的视频等描述都只是其在低维概念的投影
- 在 AI 时代,内容的共识产生会非常快,因为每一个内容的生成上下文都是透明的,这使得 Remix(魔改) 变得极度简单。
- 我们不担心商业化,即使沿用广告模式,互动比观看更能俘获频注意力。
以下是极客公园与涌跃智能团队的对话,经编辑整理。
一、 不是游戏,也不是工具
极客公园: Loopit这款产品的定位是怎么样的?
陈炜鹏: 我们做的Loopit是一款面向 C 端的互动内容产品。在这个内容平台上,每一条内容都是可交互的。它能调用并「接管」手机硬件(如摄像头、麦克风、陀螺仪等权限)。比如,用户手指在屏幕上的位置会实时触发画面亮起或物理反馈,这种创意内容必须依赖硬件交互才能实现。
极客公园:这听起来像是一个通过 vibe Coding 生成的 Mini Game(小游戏)。
陈炜鹏:不完全是游戏。比如一些艺术类交互装置,其底层模态其实是视频,但前端呈现出交互效果。我们想传递的理念是:「让一切变得好玩。」
极客公园:也就是「Make the World Playable」。
陈炜鹏:没错。我们避开「Game」这个词,是因为不想被局限在游戏范畴,而是希望现实生活的一切都能转化为可交互的内容。
极客公园:如果拆解「互动内容平台」这个定义,互动的维度和程度具体该怎么描述?
陈炜鹏:互动的维度涵盖了当前手机硬件能处理的所有范围,比如陀螺仪、摄像头、声音传感器以及常规的点击操作。这些简单的定义可以组合出无限的可能性。
Loopit,意指「循环」。我认为所有的游戏、音乐甚至故事,本质上都是由一个个 Loop 组成的。比如在《星露谷物语》中,播种收割是一个小 Loop,一天的农活是中 Loop,而将手工农场升级为自动农场则是大 Loop。大循环嵌套小循环,就构成了整个世界。短剧的一集是闭环,音乐是节奏循环,这种有限的定义最终能组合出无限的可能。
极客公园:目前主要还是围绕手机终端的交互。
陈炜鹏:对,因为手机是我们的核心分发场景。
极客公园:除了调用硬件传感器,Loopit 相比传统 Web Coding 工具的优化点在哪里?
陈炜鹏:比如用户上传一段视频,Agent 可以自动生成一个「鱼眼镜头滤镜」的程序逻辑套用在视频上,瞬间将其转化为可实时操控的 3D 视角,并可干预互动。
二、AI Coding + 多模态,一次被 AI 技术推动的产品转向
极客公园:依然是 Vibe Coding ?
陈炜鹏:核心是 Vibe Coding 结合多模态生成。我们想打通屏幕与真实世界的界限。
极客公园:具体的创作交互过程是怎样的?需要用户具备专业的逻辑定义能力吗?
陈炜鹏:不需要,完全是基于自然语言的对话式修改。用户不需要设定具体参数,只需描述感受或目标并进行挑选,创意、编程、设计都交给Loopit。
极客公园:那 Loopit 这个产品,从明确形态到今天这个状态用了多久?
陈炜鹏:产品形态明确是 3 个月前,但底层的引擎技术我们磨了 7 个月。
极客公园:过程中最核心的技术难点是什么?毕竟你们磨了 7 个月逻辑。
陈炜鹏:核心难点在于 Code(代码) 与 多模态生成 的深度结合。代码负责保证整个交互过程和底层逻辑,而多模态则负责视觉张力的呈现。这两者在生成过程中相互影响、相互约束,要在这种双重约束下实现通用性并达到优质效果,技术难点很多。
。
极客公园:当时卡点的难点主要是在代码(Code)能力,还是多模态能力上?
陈炜鹏:卡在两者的结合上。我们满意的点在于构建了一个框架,未来不论是 Coding 还是多模态能力的提升,都会成为产品的助力。大家常说大模型应用是水涨船高,而我们这艘船下面,其实有「两片海」。
我是做语言模型的背景,另一位合伙人是做文生视频出身,且做出过国内领先的结果。。
极客公园:对于 Loopit 来说,模型侧的要求是否可以理解为:需要最旗舰的大语言模型提供的 Coding(编程)能力,以及当前顶尖的多模态模型能力?
陈炜鹏:对,我们集成了多种模型,涵盖了文生图、文生视频以及音频生成等多个维度。
极客公园:你们的思路从最初偏向 Pro C 的工具视角,逐渐转向了更广众的 C 端。这中间最重要的变量是这一年 AI Coding 技术的快速进展?
陈炜鹏:多模态和 Coding 技术的进展都非常快。不过我们一直没变的核心是「互动内容引擎」,即 AI Coding 与多模态的结合。至于包装成什么产品、面向什么用户,我们一直在根据技术环境进化。
最初尝试过互动 PPT、互动绘本、AVG(冒险游戏)等内容。随着 AI Coding 技术和多模态模型的进展我们开始向短内容、低门槛的方向迁移,并逐步看到了UGC平台的可能性。
三、重塑平台双边逻辑
极客公园:新平台的产生必须有新交互,从而脱离传统的分发渠道。
陈炜鹏:没错。如果内容模态没有逃脱上一个时代的范畴,即使强如Sora最终也只会沦为既有平台(如 TikTok)的供给。我们坚信互动内容能产生新的交互维度,这种维度是传统短视频平台无法通过增加一个 Tab 就能消化的。
陈炜鹏:基本上,我们现在看到的文生图、文生视频加 Coding(编程)能够组合的所有形态,都可以用这款产品做出来。例如互动故事书、交互式艺术作品,甚至是 Mini Game(小游戏)。
极客公园:所以你们的产品核心是在 App 侧,而不是 Web 端?
陈炜鹏:对,目标和用户不同,自然选择不同的端。
极客公园:目前大多数基于 Web Coding 的 AI 产品都偏向生产力工具,走向了 Pro C(专业消费者)端,重点在于拼 ARR(年度经常性收入)和渗透率。而在普通的 C 端用户层面,最近反而很少有人触碰。我们一直在期待 C 端能出现这种有趣的、真正达到 UGC(用户原创内容)层级的创新。
陈炜鹏:一个新的UGC内容平台产生需要两个条件:一是人人皆可创作(极低门槛);二是新的内容维度。这个新维度必须能提供传统分发渠道所不具备的价值。
极客公园:这种交互带来了很大的个性化。过去用户只能消费被封装死的既有内容,而交互能解锁新的维度,根据用户的心情或操作交付不同的价值。
陈炜鹏:交互是随着技术的解锁而解锁的。目前我们通过 Coding 定义状态机,从而创造出一个自由的交互空间。未来,像谷歌那样的纯 Prompt(提示词)驱动的世界模型会是另一种空间。最终这两者会合并,这只是技术解锁深度的问题。
极客公园:如果最终能一步到位直接生成可交互空间,那确实了不起。不过分步走更务实。
陈炜鹏:我们采取的是分步走的策略。在目前的产品定义里,未来的视频世界模型只是我接入的一个模态。过去多模态靠 Coding 或后台状态驱动,未来可以转为实时驱动。
四、靠 Remix 生长的社区
极客公园:目前内测的反馈如何?用户特征是怎样的?
陈炜鹏:我们正在海外进行内测,几千名用户小规模跑。其中核心创作者约 100 多人,主要由艺术系学生构成。
创作门槛被降到了极低。不少创作者在 TikTok 发布一个高质量伪交互作品大约需要 5 天,但在我们这里,两小时就能做出 5 个。一个 5 分钟的对话轮次就能完成一轮逻辑生成。
极客公园:目前内容池里已有的内容风格,是否会影响现阶段新用户的获取?比如让用户误以为这只是一个特定方向的平台。
陈炜鹏:这本质上是社区「破圈」的过程。我们有非常明确的取舍:不希望被定位为一个游戏平台。游戏市场通常是供大于求的,我们追求的不是纯粹的游戏开发。
极客公园:所以你们更希望呈现的是一种「Playable」(可玩式)的体验?让用户把日常生活中的各种事物变成可玩的交互内容?
陈炜鹏:没错,就是一种「可玩的体验」。
极客公园:在初期,你们核心瞄准的用户群体是哪一类?
陈炜鹏:主要是年轻人,特别是那些极具想象力和创造力的人群。具体来说,包括美术生、艺术生和设计师。从目前观察来看,大学生群体对产品的上手程度非常高,几乎没有门槛。
极客公园:感觉这些种子用户有点像早期 B 站的群体,脑洞很大,想法也比较独特。
陈炜鹏:是的,脑洞非常大。
极客公园:现在的计划是什么?重点打海外市场吗?
陈炜鹏:我们打算国内、国外同步推进。内容属性比较轻量,且没有很强的语言隔阂。下周国内会启动「体验官」招募,先采取邀请制小规模开放创作权限,但所有人都可以下载试玩。
极客公园:国内分享到微信朋友圈的功能打通了吗?
陈炜鹏:打通了,它是以网页链接的形式打开,用户可以在链接里直接进行交互。
五、基于「技术想象力」,构造互动内容产品
极客公园:你看起来不太像典型的 To C 创业者。
陈炜鹏:外界看我职业生涯跨度大,从搜狗做搜索、推荐到 Soul 做社交,但我认为核心逻辑是一脉相承的。在 Soul 期间,我管理过运营和产品,甚至负责过洛丽塔社群的运营,对 18-23 岁的年轻用户群体很有感觉。
极客公园:你之前在 Soul 的经历,对现在的项目有什么启发吗?
陈炜鹏:Soul 对我最大的启发不在于具体的经验,而在于产品价值观。过去我在搜狗做搜索和推荐,是在被定义的市场里把产品做得更好。但在 Soul 期间,我们只关心用户价值和创新体验,这对我做 Loopit 的理念很重要:也就是我们究竟能给用户提供什么样的增量价值和创新体验。
现在的 AI 应用面临的普遍问题是:要么想到做不到,要么做到了也没想象空间。我们要追求的是基于「技术想象力」去构造产品,提供增量。
极客公园:在百川智能的经历呢?
陈炜鹏:在百川负责通用模型训练的经历,加深了我对模型本身的理解。我的判断是: AI 时代核心变量就是技术,脱离技术无法思考产品。只有将技术与产品深度融合,才可能做出让用户尖叫的产品。。
极客公园:在互动内容平台中,社交扮演什么角色?
陈炜鹏:内容本身就具备社交属性。互动天然能产生人与人、人与内容的连接。内容会创造一个「场」,只要场域存在,关系自然会产生。
极客公园:你们的内容深度结合了手机硬件交互。但现在 AI 硬件(如 AI 眼镜、轻量化终端)发展很快,如果未来手机被更简单的终端取代,你们会担心吗?
陈炜鹏:我们完全不担心,甚至非常期待。我们提供的是一套通用框架。手机对我们而言只是「硬件能力的集合」。如果未来出现更先进的智能眼镜,对我们来说只是增加了一个新的 API(接口)和能力维度。只要内容本质上仍通过程序(Coding)实现,硬件的迁移对我们来说是天然友好的。
极客公园:现阶段推荐算法在平台中的比重高吗?
陈炜鹏:随着内容量的积累会更重。
极客公园:如果用一句话来传播 Loopit,你会如何定义?
陈炜鹏:第一,它是一个极具创新性、让人眼前一亮的产品;第二,它就是「可以玩的抖音」,让生活中的一切都变得好玩。
极客公园:用户创作出内容后,他们的动力主要来源于什么?
陈炜鹏:早期是「为爱发电」和获得认同感。过去的内容平台逻辑是:用户创造内容,获得他人追捧,从而产生愉悦感。 在 Loopit,创作动力多了一个维度:创作过程本身的探索性和成就感。这种通过技术实现脑洞的过程,本身就是一种高质量的消费体验。互动循环的核心在于反馈。创作者渴望有人参与互动,而这种良性循环长期发展下去,必然会催生顶部创作者的商业化需求。
关于内容商业化,我观察到一个演进路径:第一阶段是分发效率提升。 早期以推荐系统为主,讨论的是 Feed 流(信息流)的通话效率和广告位密度,核心是解决分发效率。
第二阶段是内容即广告(升维品质)。 到了直播和种草(如小红书)时代,讨论的是品质,即让广告等同于内容,从而提升广告本身的价值。
AI 生成的互动内容让「消费广告」与「消费内容」接近等同。比如海外火爆的「可乐熊」案例,用户在玩的过程中就已经在不知不觉中被植入了品牌概念。这种植入是无感的、潜移默化的,不像直播带货那样仍有明显的广告痕迹。
如果我们的终极目标是去制造一个世界,那么在这个世界里看到的所有广告,都应该是被自然植入其中的。
零下 20 度的田野里,它在拍星星,我们在合影丨 New Things
作者 | Li Yuan
编辑 | 郑玄
你有在晴朗的沙漠里看过清楚的银河吗?
一次这样的体验就仿佛能够净化灵魂。
但回到城市之后,我们很难产生抬头的欲望。即便偶尔望向夜空,几颗暗淡的孤星也显得索然无味。
不过,一台有趣的设备,意义是可以让平淡的生活产生变化。


这两张照片,是使用智能天文望远镜 Seestar S30 Pro 在城市光害和郊区光害下能拍出来的状态。
Seestar 的外观完全不像传统的笨重「炮筒」,更像是一台稍大号的投影仪。不同于传统的天文望远镜,你并不需要成为一名天文高手,也不需要了解复杂的坐标知识、处理繁琐的后期堆栈。只要把这台设备放在城市的空地上一分钟,就能直接拍出这样的深空大片。
作为从未接触过星空知识的小白,夜晚的星空从未变得如此有意义。
拍星空,不一定要大体积的天文望远镜
很多人对天文望远镜的认知,还停留在那种需要两人合力搬运的「炮筒」上。在圈子里,这种体积感曾是资深玩家的入场券。似乎口径越大、镜筒越长,才越能彰显探索宇宙的诚意。
因此第一次看到 Seestar S30 Pro 的时候,不少人其实很怀疑这台设备是不是只是一台小玩具。
Seestar S30 Pro 只有 1.65kg 重。折叠起来的大小和一台家用投影仪差不多,单手就能拎走。

不过,看成玩具,可就太小瞧 Seestar 了。
事实上,Seestar 的能够做到这么小,是源于其专利的折叠光路设计。
传统望远镜为了保证焦距,镜筒必须做得非常长。这种物理长度直接限制了设备的机动性。Seestar 实际上是通过在机身内部设计了一套镜片的反射体系,让光能够在机身内部完成长距离的跋涉,才保证了小巧的机身。
而在其背后,Seestar S30 Pro 还配备了真正严肃的成像方案:长焦端采用了 1/1.2 英寸的 IMX585,广角端则是 1/2 英寸的 IMX586。
这里有一个误解:在很多人的想象里,天文观测者观测星空的时候,应该和看望远镜一样,肉眼贴近「炮筒」观测。
事实上,现代天文望远镜早就不再是为人眼观察而设计的了。
人眼的瞬时快门只有 0.1 秒左右,感光能力存在天然的上限。即便盯着猎户座看一整夜,大脑也无法把那些微弱的光子攒成一张彩色的星云图。
因此现在无论在专业天文台还是资深玩家的设备后端,接入的大多都是专业的的影像传感器。
S30 Pro 使用的 IMX585 传感器,已经是天文摄影领域是相对性能很好的传感器,采用的是 ZWO ASI585MC 等专业天文相机的同款底片。这种基于 STARVIS 2 架构的传感器,核心优势在于高效的弱光采样能力。它能通过长时间的曝光,捕捉到肉眼根本无法察觉的深空细节。
这台看似轻便的设备,本质上就是折叠了一台大型专业天文望远镜,可以看作是一个针对星空摄影专门优化了的长焦相机。同时,还内置了照片叠加的算法,可以直接将叠加后的状态实时呈现在手机上。
在手机摄影的强力算法误导下,很多人看到清晰的月面环形山,漂亮的天体图,第一反应往往是 AI 生成的贴纸。
不过,其实只要试着拍一次飞鸟,就能看出长焦相机和 AI 生成的差别。
AI 并不能根据实时画面,合成出这种具备随机性和动态感的小鸟的一举一动。
银河、星野一键出片
当然,S30 Pro 并不只是给望远镜加了一个长焦镜头。
在 极客公园曾经介绍过的 S30 Pro 的前代产品 中,已经内置了一键找星的功能。它内置了一套自动化寻星系统,将原本需要手动调节赤道仪、校准极轴的繁琐过程,直接固化到了硬件底层。
只需要在 app 上选择要观测什么星体,剩下的对齐和跟踪都由机器自己完成。
但随着 S30 Pro 对摄像头传感器的升级,S30 Pro 解锁了更多的玩法。
首先是主摄传感器由 IMX662 提升到了 IMX585。传感器的幅面从 1/2.8 英寸 扩大到了 1/1.2 英寸 。在摄影圈里,底大一级压死人是不变的真理。
如果你用小底传感器去拍仙女座这种尺度巨大的星系,你往往只能拍到中心最亮的一团核心,外围的结构会被直接切掉。这种感觉就像是在用手机长焦看特写,虽然拍到了,但缺乏全局感。

从这两张社区中的 M42 星云的图就能看出一些差异。左图由 S30 Pro 拍摄,右图是 S30,更大的传感器让暗部的细节和层次感都更加清晰。
更重要的转折点在于另一颗拥有 63° 视场角的广角镜头。在过去,这颗镜头主要扮演找月亮、找太阳的辅助角色。它就像一个指路灯,帮你把视野对准目标。但在 S30 Pro 上,这颗镜头不再是配角,它具备了独立的星野实拍能力。
在天文摄影里,星野是一个巨大的范畴。它指的是不止拍摄某个孤立的球体,而是要把星空与大地的轮廓融合在一起。在这个分类里,银河和星轨是最核心的两个主角。
拍摄银河的逻辑,其实是一场与地球自转的博弈。
因为地球在不停地转动,天体相对于地面其实是动态的。如果你只是进行简单的长曝光,最后得到的只会是一团模糊的光影。为了出一张清晰的、有细节的银河大片,设备必须开启跟踪模式。
S30 Pro 的广角端现在支持这种动态跟踪。它通过长时间的曝光和机内实时叠加,让隐藏在黑暗中的细节显影。它在帮你把微弱的光子攒在一起,直到拼凑出完整的银河纹理。
而星轨则是完全不同的另一种拍摄逻辑。
在星轨模式下,机器保持不动,任由地球自转。它不再去抵消那种位移,而是选择记录这种位移。 星星在镜头前划出的轨迹,被算法一张张叠在一起,最终在手机屏幕上形成一种充满时间张力的同心圆。
这样的玩法让星空拍摄变得更加丰富多元。由于冬季北半球并不适合拍摄银河,笔者尝试拍摄了星轨。

看着星星在手机屏幕上不断延展,这种实时的反馈感,确实会让你产生一种和宇宙重新建立了连接的错觉。
它在拍星星,我们在合影
天文摄影曾经是一场极其孤独的苦修。在漫长的曝光时间里,你只能守在机器旁边,盯着漆黑的荒野发呆。但笔者惊喜地发现,Seestar S30 Pro 正在通过增加更多的互动逻辑,试图让这个等待的过程变得有意义。
最明显的变化是,S30 Pro 正在加入更多的科普功能,比如 GOTO 功能与星空标注的结合。
在 Seestar 的上一代设备中,已经可以通过 app 里的设置,一键寻找你想观测的星座、星云等。虽然照片很漂亮,但如果你抬头看天,依然很难把屏幕上的光点和真实的星空对应起来。
现在的 S30 Pro 增加了一个标注开关。当你把机器对准夜空,手机屏幕上会自动勾勒出星座的连线。你能清晰地看到大熊座的形状,看到猎户座的腰带到底由哪几颗星组成。
这种将虚拟星图与真实物理星点重合的瞬间,让星空不再只是一堆无意义的光斑,也是最好的寓教于乐的场景。

这种对交互的理解,最终落地在了一个极具生活方式感的卖点上:地景分离。
在传统的星野摄影里,这是一个物理层面的悖论。为了让星空清晰,机器必须跟着星星转动。但如果你想在画面里加入地景或者人物,转动的相机就会让地面的物体变得模糊一团。
如果你想和银河合影,通常需要极其复杂的后期技术。你得分别拍摄星空和地面,再回到电脑前进行手动合成。
S30 Pro 把这个过程内化了。它会利用算法,在地景和星空中找到一个平衡点。它会单独抓取一帧清晰的地景作为「底座」固定住,然后让背景的星空继续通过跟踪来累积细节。
曾经只有通过复杂的后期处理的功能,现在现在变成了小白都可以参与的一部分。
在北京零下 20 度的田野里,我和我的朋友坐在一旁,不断调整拍摄角度,试图把自己也放进那片星空里。虽然天气很冷,但这种「我也在画框里」的驱动力,让我们乐此不疲。
你可以拿着补光灯站在机器前,给自己打个光,或者和朋友一起坐在草地上指点江山。机器负责在那采集千万光年外的光子,而你负责在这定义这张照片的故事感。

这个尝试虽然不甚完美,但却富有人味儿。
虽然算法接管了几乎所有的技术细节,但当我们一次次进行构图选择,不断调整位置,按下快门,将自己和星空连接在一起的时候,天文摄影从一种冷冰冰的拍摄,变成了一次有温度的社交行为。
一键出片并不意味着浪漫的廉价化。相反,当操作的摩擦力被降到最低,人们才会有更多的精力去关注那片星空本身。
Seestar 的社区里,有人拍下了流星雨穿过地景的瞬间,有人记录下了。这些真实的情感绑定,才是硬件产品能够持续产生生命力的核心。
它给普通人递了一张宇宙的门票,但门票背后的风景怎么看,最终还是由人来决定。
当算法消解了所有的门槛,天文摄影究竟会变成一种像美颜相机一样的快消品,还是会成为一种让人重新审视自我与宇宙关系的媒介?
在万物皆可智能化的今天,我们或许并不缺一台更强大的望远镜,我们缺的是一个能让我们重新产生抬头欲望的契机。
*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
