Skip to content
  • 元宇宙社交空间入口
51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

苹果被曝新 Siri 再次延期,股价大跌4%;原荣耀 CEO 赵明官宣加入千里科技;Spotify 宣称其程序员不再写代码

苹果声明仍按计划 2026 年年内推出 AI 版 Siri,股价下跌 4%

2 月 13 日消息,针对彭博社关于「Siri 新功能推迟发布」的报道及随后的股价大跌,苹果公司向 CNBC 发表声明,确认新版 Siri 仍按计划将于 2026 年年内推出。

受该消息影响,苹果公司股价周四下跌 5%,抹去了全年涨势,2026 年下跌近 4%。

苹果公司为稳定投资者信心,随后向 CNBC 发表声明,明确表示公司仍按既定轨道推进,将确保今年(2026 年)发布新版 Siri。不过该媒体指出,苹果的声明更多是在保住「年度交付」的底线,而非反驳具体的版本跳票细节。

一旦正式上线,新版 Siri 有望改变 iPhone 的交互体验,它具备强大的「个人语境」理解能力,支持更丰富的 App 内深度操作。尤为引人注目的是其「屏幕感知」功能,用户可以直接针对屏幕上正在显示的内容提问,Siri 能无缝识别并执行相关的上下文操作,从而解决长期以来语音助手「看不见、听不懂」的痛点。(来源:IT 之家)

原荣耀 CEO 赵明官宣加入千里科技:非常荣幸,一个可以奋斗十年的事业

2 月 12 日消息,原荣耀 CEO 赵明在微博发文宣布:非常荣幸有缘际会千里科技,一个可以奋斗十年的事业,期待与 @ 印奇 兄弟携手一起打造 AI 商业闭环,助力千里腾飞。

千里科技董事长、阶跃星辰董事长印奇发文,对赵明入职表示欢迎:「骐骥驰骋,志在千里!」

早些时候的消息称,吸引赵明加入千里科技的一个重要原因,是已经做了 20 多年手机和通信的他觉得,AI 是下一个值得再投入 20 年的事业——去年 9 月,赵明在一场媒体沟通会上说,「我在寻找能够让我更加兴奋、值得再投入 10 年甚至更久时间去做的事情。」(来源:澎湃新闻)

谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级:推进科学、研究和工程应用,可达数学、物理与化学奥赛金牌水平

2 月 13 日消息,谷歌昨晚宣布对 Gemini 3 Deep Think 进行重大升级,号称是专门针对科学、研究与工程场景的开发的「推理模式」,旨在推动智能前沿发展。

据介绍,新版 Deep Think 由谷歌开发人员与各行业科学家、研究人员共同合作完成,目标是应对真实科研环境中的常见复杂问题:缺少清晰边界、未必存在唯一解,且数据往往杂乱或不完整。

此次升级的一个关键变化是,Deep Think 的可用范围进一步扩大。谷歌称,更新后的 Deep Think 从当地时间 2 月 12 日起在 Gemini 应用中向 Google AI Ultra 订阅用户开放。

在能力表现方面,谷歌强调新版 Deep Think 在数学、算法与编程等高难推理任务上继续提升。该模式在不使用工具的情况下,在终极人类考试(Humanity’s Last Exam)上取得 48.4% 的成绩;在 ARC-AGI-2 上达到 84.6%,并由 ARC Prize Foundation 验证;在 Codeforces 竞赛编程基准上获得 3455 的 Elo;并在 2025 年国际数学奥林匹克竞赛(IMO 2025)上达到金牌水平表现。

除数学与编程之外,谷歌还强调新版 Deep Think 在化学、物理等科学领域同样具备更强能力。官方称,该模式在 2025 年国际物理奥林匹克与国际化学奥林匹克的笔试部分取得金牌级结果,同时在理论物理相关的 CMT-Benchmark 上获得 50.5% 的得分。(来源:网易)

OpenAI 发布 GPT-5.3-Codex-Spark 模型:专为实时编程而生,搭载英伟达竞争对手芯片

2 月 13 日消息,半导体初创公司 Cerebras 与 OpenAI 宣布推出最新的 GPT-5.3-Codex-Spark 模型,主打实时编程。这也是 OpenAI 与 Cerebras 合作的首个公开发布成果。

该模型是其最新代码自动化软件 Codex 的轻量级但更快速版本,旨在与 Alphabet 旗下谷歌及 Anthropic 等公司在 AI 编程助手市场展开竞争。

据介绍,Codex-Spark 主要面向对交互速度要求极高的实时软件开发场景,可实现超 1000 tokens/s 的推理速度,从而实现近乎即时响应的编码反馈。

OpenAI 在公告中指出,近年来「agentic coding」正逐渐改变软件开发方式,机器能够在较少人工监督下持续工作数小时甚至数天。但这种模式也可能带来新的问题,包括开发者等待时间变长、对过程的掌控感降低。

OpenAI 表示,软件开发本质上是迭代过程,需要开发者在过程中不断掌控方向、决定审美与决策,因此 Codex-Spark 被设计为与 Codex 进行实时协作的模型,强调「快速、响应及时、可引导」,让开发者保持在工作中的主导位置。(来源:财联社)

Spotify 宣称 AI 让其开发人员自去年 12 月起未编写过一行代码

据 Spotify 本周在第四季度财报电话会议上披露的信息,该公司最优秀的开发者自去年 12 月以来没有编写过一行代码。这一惊人声明由 Spotify 联席首席执行官古斯塔夫·索德斯特伦姆做出,同时他还阐述了公司如何利用人工智能技术加速产品开发进程。

AI 编码技术似乎已在 Spotify 达到转折点。该音乐流媒体巨头透露,其工程师正在使用一套名为「Honk」的内部系统来提升编码速度和产品开发效率。该系统借助生成式 AI 技术,特别是 Claude Code 工具,实现了远程实时代码部署功能。

索德斯特伦姆在电话会议上举了一个具体例子,展示了这一技术的实际应用场景:”Spotify 的一名工程师在早上通勤途中,可以通过手机上的 Slack 告诉 Claude 修复一个漏洞或为 iOS 应用添加新功能。当 Claude 完成这项工作后,工程师会在手机的 Slack 上收到新版本应用的推送,然后就可以将其合并到生产环境中,这一切都在他们抵达办公室之前完成”。Spotify 认为这套系统”极大地”加速了编码和部署速度。(来源:cnbeta)

小米汽车:能为第一代 SU7 提供至少 10 年备件保障能力

2 月 12 日消息,今天晚间,小米汽车官微发布第 210 集答网友问,其中主要涉及第一代 SU7 停产及新一代 SU7 到店日程等问题。

小米汽车宣布,第一代 SU7 停产后,官方仍会提供和以往一样的全部维修及保养服务。同时,小米汽车为第一代 SU7 准备了充足的配件和供应商生产能力,至少能够满足 10 年的备件保障能力。春节期间,小米汽车服务不打烊。

新一代 SU7 的卡布里蓝实车已在北京小米汽车超级工厂店开始展示,2 月 13 日(IT 之家注:明天)开始将在北京、上海、杭州、广州、深圳、成都、武汉的部分小米汽车商场门店进行展示。小米汽车将尽快提拉进度,在新车上市发布会前将实车陆续送抵更多小米汽车销售门店。待新一代小米 SU7 在 4 月上市后,全国小米汽车销售门店即可提供试驾服务。(来源:搜狐)

启动马达存在缺陷:宝马将全球召回数十万辆汽车,影响 16 款车型

2 月 12 日消息,宝马发言人昨天向法新社证实,由于启动马达存在潜在火灾风险,公司将在全球召回数十万辆汽车。

本次受影响的车型共计 16 款,均配备 2020 年 7 月-2022 年 7 月间生产的启动马达,这些马达的故障原因主要是因为电磁铁会随着时间推移过度磨损发生短路,进而导致启动马达局部过热,最坏的情况下可能导致行驶途中发生车辆起火。

据悉,本次召回将影响全球数十万辆宝马汽车,公司将寄送函件通知车主,让他们尽快更换可能有缺陷的马达。

宝马官方在声明中建议,车主不应在发动机引擎运转的情况下使车辆处于无人看管的状态,尤其是使用远程启动功能时。(来源:新浪财经)

电池存在起火风险,奔驰宣布在美国召回超万辆 EQB 电动汽车

2 月 13 日消息,美国国家公路交通安全管理局(NHTSA)表示,梅赛德斯-奔驰将在美国召回 11895 辆汽车。

IT 之家查询官方公告获悉,此次召回的原因是其高压电池(EB330)可能因内部短路导致热失控和起火风险,影响车型主要为 2022-2024 款 EQB 系列车型。

作为补救措施,梅赛德斯-奔驰将通过经销商免费为用户更换高压电池;监管机构建议车主将车辆停放在室外、远离建筑物,并限制充电。(来源:央视新闻)

索尼 WF-1000XM6 无线耳机正式发布,降噪性能再提升 25%

时隔两年,索尼终于推出了新一代旗舰级无线耳机 WF-1000XM6,作为 WF-1000XM5 的继任者,索尼自信地表示这是迄今为止最出色的耳机产品。在音频处理方面,索尼为 WF-1000XM6 配备了升级版的集成处理器 V2,该处理器现已支持 32 位音频处理,相较于前代的 24 位音频深度有了显著提升。

新耳机采用了继承自头戴式 WH-1000XM6 的 QN3e 降噪芯片,索尼宣称其降噪效果比前代产品提升了 25%,尤其在中高频段表现更为出色。降噪系统配备了自适应降噪优化器,能够实时分析外部噪音,并根据用户的佩戴方式动态调整声音和降噪效果。为了增强降噪能力,升级后的系统新增了两个外向麦克风,使每只耳机的麦克风总数达到四个。索尼还表示,XM6 的环境音模式听起来更加自然逼真。在连接稳定性方面,耳机内部天线的尺寸是 XM5 的 1.5 倍,能够提供更可靠的连接体验。

续航方面,WF-1000XM6 单次充电可提供 8 小时的使用时间,与前代产品保持一致。充电盒可提供两次完整充电,总续航时间达 24 小时。耳机保留了无线充电功能,并具备 IPX4 级防水性能。WF-1000XM6 将推出银色和黑色两种配色,售价为 300 欧元。(来源:cnbeta)

脑虎科技脑机接口技术迭代,首位植入的瘫痪患者可脑控置办年货、写「福」字

2 月 12 日消息,NeuroXess 脑虎科技 2 月 11 日通过公众号宣布,去年 10 月完成国内首例「全植入、全无线、全功能」脑机接口临床植入的患者,通过最新技术迭代,已能独立完成置办年货、书写「福」字、发送红包等日常活动。

据悉,该患者因高位截瘫已卧床八年,通过脑控绘画软件书写「福」字,还能以意念操控手机,在微信群发送新年红包与祝福。

其在术后 1 天即转入普通病房,术后 5 天首次开机成功实现意念操控。经过系统训练,在标准测试中,该患者的脑控解码速率达到 5.2 BPS,与国际顶尖水平相当。

脑虎科技在推文中介绍了其最新研发的 XessKey(随芯控)连接组件。该组件形似普通 U 盘,即插即用,让使用者能够自由选择平板电脑、个人电脑等日常设备进行脑控交互,操作起来如同使用手机一般自然流畅。(来源:IT 之家)

 

展示量: 11

从代码世界的非线性狂飙,看 OpenClaw 点燃了什么?

最近 Founder Park 密集组织了两场关于 OpenClaw 的闭门交流。在很多创业者和开发者朋友的交流中,总能感觉到一种复杂的情绪,兴奋又焦虑,确定又迷茫……

2026 年初的 AI 圈,也弥漫着一种奇异的撕裂感。

Claude Code 的负责人 Boris Cherny 在 X 上坦言,已经两个月没亲手写过、甚至改过一行代码了。Andrej Karpathy 也公开了他的工作流变化:从 80% 手写代码,迅速倒置为 80% 由 AI 生成。他将「最热门的新编程语言是英语」作为了置顶内容,这是他在 2023 年 1 月发布的一条帖子。一边是 OpenClaw 在 GitHub 狂揽 18.7 万星标(还在持续飙升),一边是被安全专家警告「不要安装」。

与此同时,AI 也制造了一场席卷整个软件行业的海啸。一边是 Anthropic 发布了覆盖法律、金融等核心业务领域的 11 个专业插件,将 Claude Cowork 从辅助工具升级为自主执行复杂工作流的「数字员工」。一边是 SaaS 遭遇来自 AI 的威胁,迎来「SaaSpocalypse」(SaaS 末日),行业股票大跳水,软件股数千亿美元的市值说没就没。

这一切来得太快,快到我们甚至来不及形成一个稳定的观点。但有一点是确定的:我们可能正处在一个巨大的「范式断裂」时刻。

01 一条走了七十年的路,和它的转折点

我曾经多次走访硅谷的计算机博物馆,认真探寻了下我们人类与代码的关系,发现这其实是一部漫长的「驯化史」,大致可以分为三个阶段,但这三个阶段的底层逻辑,其实是同一个:提升「人」的生产力。

第一阶段,是「驯化期」(1950s – 1990s)这个时候,我们像是铁匠,把代码锻造成一个个「标准零件」。无论是 FORTRAN 的数学库,还是 Windows 的动态链接库(DLL),核心思想都是「复用」。我们把通用的逻辑封装起来,下次用的时候直接拿来装配,不用再费力重铸。这时的代码,是一个听话、可靠、毫无意外的工具。人类写一行,机器执行一行。

第二阶段,是「培育期」(1990s – 2020s)随着更智能的集成开发环境(IDE)成熟普及,代码开始变得有点「灵气」了。它不再只是被动地等待指令,而是会「猜」你想做什么,帮你自动补全、提示错误。人类依然是主导者,但代码不再是完全被动的字符——它在学习、在适应、在与开发者形成默契的对话。这是「伙伴化」的萌芽。

第三阶段,是「爆发期」(2020s – 2025)以 GitHub Copilot 为代表的大模型工具,把这种默契推向了极致。它不再是帮你补全一行代码,而是能写出整个函数甚至整个模块。它像一个能力超强的「副驾驶」,你只要告诉它目的地,它就能帮你处理大部分常规操作。我们与它的关系,变成了飞行员与智能副驾。

从「工具」到「伙伴」再到「副驾」,这条路走了七十年。它看起来在不断进化,但背后有一个从未改变的根本前提:这一切都是在放大「人」的生产力。

无论代码多智能,它始终是我们思想的延伸,是我们意志的执行者。方向盘始终握在我们手里。我们是那个生产者,代码是那个最高效的生产工具。

而在近期发生的一切,不再是关于如何让副驾更聪明,而是关于副驾突然对你说:「你到后座去吧,接下来我来开。」

02 两种「容器」正在被撑破

真正的转折点,发生在过去这短短的一年多时间里。代码的进化突然从线性增长,变成了一场「非线性」的溢出。当代码开始拥有我们无法完全预期的「自主性」时,它就像一种被注入系统的新能量,开始不可阻挡地溢出我们为它设定的所有「容器」。

这个溢出,导致了一环扣一环的连锁反应。

首先,撑破了「人机协作」的框架,生产关系被重构。

当 Claude Code 团队可以做到两个月内 100% 由 AI 完成开发时,意味着代码的自主性已经强大到可以「承包」整个生产环节。

一个深刻的转变发生了:「执行」这个环节,正在迅速地商品化。

过去,一个优秀程序员的价值,很大程度上体现在他能用多么优雅和高效的方式,把一个模糊的想法,翻译成精确的、机器可以稳定执行的代码。这个「翻译」过程,就是「执行」,它本身是有价值的。

但现在,这个价值正在被 AI 稀释。我们不再需要手把手地教机器「怎么做」,而只需要清晰地定义「做什么」和「为什么做」。

这不仅仅是「生产者」到「质检员」的角色变化,这是一种「认知价值」的迁移。人类的价值,正被迫从「如何实现」这个技术层面,上移到「意图定义」和「品味判断」这两个更抽象的层面。什么是好的产品?什么是值得解决的问题?AI 给出的十个方案里,哪一个才符合我们对美、效率和人性的最终追求?

这是一种新的认知分工:AI 负责不知疲倦地「执行」,而我们,必须成为更优秀的「思考者」和「决策者」。那个曾经由「执行力」定义的价值容器,已经被撑破了。

其次,撑破了「生产协同」的容器,代码产能正在疯狂增殖。

当代码的自主性足以「承包」执行环节后,它必然不满足于只待在我们的编辑器里。它会溢出,去重构整个数字世界的形态。

今年爆火的 OpenClaw 就是一个信号。它本质上已经不是一个「编程工具」了,而是一个能接管你整个操作系统的「AI 智能体框架」,是一支可以被赋予任务、在你的数字世界里主动穿行、调动资源来完成目标的「小分队」。

让 OpenClaw 帮你整理文件,这只是表层任务。更「吓人」的是,如果它在整理中发现一种无法处理的文件格式,它可能不会立刻放弃选择报错,而是会自己去搜索推断、寻找解法、调度工具,甚至创造工具。并且,OpenClaw 还具备自主迭代工具本身的能力。

这就是更本质的变化:代码的生产,正在从一种由人类规划的、目标明确的「建造行为」,变成一种由 AI 驱动的、为了达成被给定的目标而进行的「生态演化」。开源项目里开始涌入大量 AI 贡献的代码,其数量和速度,都远超人类贡献者。

这就给人类带来了一个前所未遇的、更棘手的问题:当代码的生产力被拉满甚至溢出,我们该如何管理和协同?

当一个大型项目中,有无数个 AI Agent 在同时提交代码,我们如何保证它们的目标是一致的?如何进行代码审查?如何整合这些甚至连我们都未曾规划过的、由 AI 即兴创造出来的「新功能」?

所以,这里被撑破的,不仅仅是「应用」的边界。更是我们过去对于「生产」和「协同」的认知边界。它把生产力推到了一个我们自己都不知道该如何运用的境地。

03 从工具到土壤:代码正在成为新世界的基础设施

当我们意识到,人的价值正在从「执行」向「定义」迁移,而代码产能正在疯狂增殖时,一幅全新的图景正在展开。代码,以及承载代码的软件,也在经历一次深刻的「质变」。

第一层质变,软件正在从「为人服务」的应用层,下沉为「为 AI 服务」的基础设施层。

软件股的暴跌,以及「SaaSpocalypse」(SaaS 末日)概念的出现,就是一个例证。

过去,我们使用软件的方式是打开一个图形界面(UI),去点击、输入、操作。软件的价值很大程度上体现在它的用户体验(UX)上。

但未来,你的主要交互对象是 AI 智能体。你不会再打开 Excel,而是直接对 AI 说「分析一下上个季度的销售数据,做成图表」;你也不会再登录 CRM,AI 会自动帮你同步所有客户信息。软件的最终用户会从「人」变成「AI」。

这意味着,传统软件的「壳」(UI/UX)价值在迅速降低,而它内在的「核」(API 接口)变得至关重要。软件本身并没有消失,而是变成了被 AI 调用的基础能力,像水和电一样,融入了整个智能生态的底层。这是 SaaS 公司商业模式面临的根本性挑战。

第二层质变,代码正在从「人类智慧的产物」,变成「AI 的母语」,人类放手建造的细节工作。

过去,代码是人类与机器沟通的中间语言。但现在,当 Anthropic 的 Opus 4.6 拥有 1M 上下文和自适应思考能力,能对整个代码库保持长程规划;OpenAI 的 GPT-5.3-Codex「可以在几天时间内从零开始构建功能高度复杂的游戏和应用程序」。这些模型不再需要人类把需求拆成逐行指令,它们直接用代码思考、用代码协作、用代码验证彼此的产出。

在这个过程中,人类正在从「施工现场」退到「设计室」。我们只负责提出目标(「我想要一个什么样的应用」),而不再关心具体的实现过程。这是自计算机发明以来,人类第一次在数字世界里,主动退出了数字世界的施工环节。

第三层质变,人的价值正在从「技术实现」,迁移到「价值定义」。

当 AI 包揽了从代码生产、测试、部署,到软件调用、运维监控的全流程,人类还剩下什么?

不只是程序员的职业转型,而是关乎未来世界里,人类作为一个物种的核心竞争力。

我们不再是「建筑工人」,甚至不只是「建筑师」,我们必须成为那个提出「我们为什么要建一座操场,而不是一座雕像?」的「定义者」。我们的价值,在于我们的意图、我们的审美、我们的道德判断,以及我们定义一个值得追求的目标的能力。

04 我们被自己的创造物,拽着向前跑

把这一切串起来,我能感受到一种强烈的反差感。

我们花了七十年,一步步地把代码这个工具打磨得越来越先进,期待着用它去解决我们提出的问题。但今天,我们亲手创造的这个技术环境,这个生产力被无限放大的新现实,正在反过来,疯狂地拉扯着我们向前跑。

过去,我们向技术要答案;现在,是技术在向我们提问。

这不再是一个关于「工具」的故事,这是一个关于「关系」的故事。我们与我们创造物之间的关系,正在发生倒置。我们不再是那个唯一推着石头上山的人,石头自己开始滚动,甚至反过来催促我们去为它寻找新的、更陡峭的山坡。

这其中有焦虑,有失控感,但更多的,是一种前所未有的机遇。因为商业的本质,最终还是关于人。而这个新环境,正在以前所未有的力量,迫使我们去思考更本质的问题,去成为更纯粹的「价值定义者」。

编程已死,编程万岁。

作为「打字员」的程序员会消逝,但会诞生更多作为「定义者」的人类。

 

展示量: 13

开源界的 Opus 时刻:GLM-5 能否接住 Agentic Coding 的接力棒?

 

如果你问一个开发者,AI 编程最让人崩溃的时刻是什么?

他给你的答案很可能会是它在报错面前那句机械的「对不起,我理解错了」,然后复读一段同样错误的代码。

过去一年,Coding 大模型的进步,更多体现在「生成能力」上:一句话生成网页、组件、小游戏 —— 15 秒内搓出一个像素风网页、一个炫酷的 SVG 图标,或者一个能跑的贪吃蛇。这些 Demo 足够惊艳,但也足够「轻」,它们有点像是在 Vibe Coding(氛围感编程)时代产出的高级玩具。但当涉及到高并发架构、底层驱动适配或者复杂的系统重构,它们就成了「温室里的花朵」。

所以最近,硅谷的风向已经变了。

不管是 Claude Opus 4.6 还是 GPT-5.3,这些顶级大模型开始强调 Agentic Coding:不追求「秒出结果」,而是通过规划、拆解、反复运行,完成系统级任务。

这种从「前端审美」向「系统工程」的范式转移,曾被认为是闭源巨头的垄断区。直到我测试了 GLM-5,才意识到,开源社区的「架构师时代」提前开启了。

一、从「前端」到「系统工程」

之前谈起 AI Coding ,大多会想到一个熟悉的叙事里——一句话生成网页、一分钟做个小游戏、十秒钟搭个炫酷动效。它们强调的是「可视化爽感」:按钮会动、页面好看、特效丰富。

但真正进入工程现场的人都知道,能生成一个 Demo,不等于能撑起一个系统。

复杂任务的难度,并不在「写出代码」,而在于模块如何拆分、状态如何管理、异常如何兜底、性能如何优化,以及当系统开始变复杂时,是否还能维持结构稳定。

这也是我们选择复杂任务作为实测对象的原因。

GLM-5 的定位,与很多竞品不同。

如果说多数模型更像「优秀前端」——擅长快速生成交互界面和视觉效果,那么 GLM-5 更偏向「系统工程角色」。它强调多模块协作、长链路任务、生产环境可运行的结构稳定性。

为了验证这一点,我们设计了两个完全不同维度的实测案例。

视频来源:极客公园

第一个测试,一个看似轻松、实则高度系统化的任务——基于浏览器与摄像头,实现一个「AI 视觉隔空操控烟花」的春节主题互动游戏。

在实测视频中可以看到,用户站在摄像头前,通过手势控制烟花发射方向与节奏;烟花在空中绽放,伴随粒子特效与动态光效反馈,整体交互流畅自然。

但这并不是一个简单的前端动效项目。它至少包含以下几个核心模块:手势识别与视觉输入处理;手势坐标到发射逻辑的映射;烟花粒子系统与绽放特效;实时渲染与帧率控制;浏览器兼容与摄像头权限异常处理;交互状态管理与用户反馈机制

可以说是一个结构完整、体验流畅的小型交互系统。从实测过程看,GLM-5 并没有直接进入编码,而是先对整体架构进行规划:视觉输入模块、控制逻辑层、渲染层、特效层如何分离;数据流如何传递;哪些部分可能成为性能瓶颈。

随后,它逐层实现逻辑,从手势识别的数据处理开始,到发射轨迹计算,再到粒子爆炸效果的参数调优。

当渲染出现卡顿时,它主动建议减少粒子数量、优化循环结构;当手势识别误判时,它调整阈值与滤波策略。

视频里呈现出来的效果,是「看起来很自然的互动」。但背后体现的,是完整的工程链条:规划 → 编写 → 调试 → 性能优化 → 交互校正。

最终生成的代码可以直接运行,交互稳定,帧率平滑,异常情况可处理。更重要的是,它的工作方式呈现出清晰的系统思维:模块边界清楚,逻辑分层合理,而不是把所有功能堆叠在一个文件里。

第二个案例测试的,是结构系统能力。这个场景可以说是媒体工作的日常——导入一段采访速记,概括总结内容,输出选题角度和思路。

视频来源:极客公园

在实测中可以看到,操作流程非常直接:我粘贴了前段时间的一份采访速记内容,模型开始分析,随后输出内容总结和选题角度,从结果来看,它生成的选题角度还是很有操作性的。

相比视觉交互系统,录音整理看似简单,但它其实考验模型的「结构抽象能力」。一段真实采访录音,往往是高度非结构化的:观点跳跃、信息重复、主线与支线交织。所以在这个案例中,GLM-5 展现出的能力,是在系统层面。

首先是主题识别与主线抽取能力。 模型并没有按原始文本顺序生成摘要,而是先判断核心议题是什么,再围绕这一议题重新组织内容。这意味着它在内部完成了一次扫描,识别哪些信息属于主线,哪些属于补充或噪音。这种能力本质上是规划能力,也就是在输出之前,先建立一个抽象结构框架。

第二,是模块化重组能力。它会将分散在不同段落中的相关观点归类到同一个模块中。这种跨段整合能力,说明模型在处理长文本时具备全局一致性。

第三,逻辑顺序的主动调整能力。实际输出的提纲往往与原始录音顺序不同。可以看到,GLM-5 有在根据因果关系或论证逻辑重新排列层级。这体现的是一种「逻辑优先于原始输入顺序」的判断力。这种「先结构、后输出」的模式,正是系统工程思维的核心。

这两个案例,一个是实时视觉交互系统,一个是媒体信息结构处理系统,看似完全不同。但它们验证的是同一件事—— GLM-5 具备完整的任务闭环能力:规划 → 执行 → 调试 → 优化。

在烟花游戏中,这体现在模块分层、性能优化与异常处理;在录音处理器中,这体现在主题判断、结构拆解与逻辑重组。它们的共同点在于,模型并没有停留在「生成结果」,而是在维持一个可持续演进的结构。

 

视频来源:极客公园

我继续尝试了一个相对复杂的任务,「构建一个极简操作系统内核」。在这个实测中。真正值得注意的,并不是视频里代码最终跑通,而是 GLM-5 在整个过程中的行为方式。

它并没有接到任务就立刻进入生成状态,而是先明确任务边界,主动拆分模块,规划系统结构,再进入实现阶段。这种「结构先行」的路径,本质上是前面所说过工程思维——先定义系统如何组成,再讨论具体实现细节,而不是边写边拼。

在多轮编写、运行、报错、修正的循环中,GLM-5 也没有出现结构塌陷。每一次修改都围绕既定架构展开,而不是推翻重来或局部打补丁。这说明它在内部维持着一个完整的系统模型,能够在长链路任务中保持一致性。很多模型在上下文拉长后容易前后矛盾,而视频中的表现恰恰体现出它对整体结构的持续记忆能力。

还有它处理错误的方式。当报错出现时,它并没有停留在「可能是某一行代码问题」的表层猜测,而是先判断错误类型,区分逻辑问题、环境问题或依赖冲突,再规划排查路径。这是一种策略级 Debug,旨在修复问题路径。

如果结合工具调用来看,这种能力会更加明显。它不只是给出命令建议,还结合主动调度终端执行、分析日志、修复环境,再继续推进任务。这种行为已经有点接近一种「自动驾驶」式的工程推进。目标没有完成,它就持续迭代。

先规划再执行、在长链路中保持结构稳定、以策略方式排查问题,以及围绕目标持续推进——正是系统工程所需要的四个核心能力的叠加,让GLM-5 开始呈现出接近工程师工作方式的行为模式。

二、为什么 GLM-5 能接住「架构师」的接棒?

如果说第一部分的实测证明了 GLM-5「能干复杂活」,那接下来的问题就是:它凭什么能? 答案在于其一整套隐藏在输出背后的「工程级行为模式」。

关键的一点,是 GLM-5 明显引入了类似 Claude Opus 4.6 的思维链自检查机制。

在实际使用中可以感受到,它并不是接到任务就立刻开始「填代码」,而是会在后台进行多轮逻辑推演:预判模块之间的耦合关系、主动规避死循环路径、提前发现资源冲突和边界条件问题。 这种行为带来的直接变化是——为了确保方案在工程上站得住脚,它愿意慢下来,把问题想完整。

在复杂任务中,GLM-5 会先给出一个清晰的模块拆解:系统由哪些子模块组成、每个模块的输入输出是什么、哪些部分可以并行推进、哪些必须串行完成。然后再逐一攻克,而不是边写边想。 这让它的工作方式更像一个真正的工程师:先画架构图,再写实现细节。明显感觉到,它具备了一种「不把问题解决干净就不肯停下来的韧性」,而不是完成一个看似正确的局部就草草收尾。

这种差异,在和传统 Coding 模型的对比中尤其明显。 过往很多模型在遇到报错时,会迅速滑入一种熟悉的模式:道歉、复述错误信息、给出一个未经验证的修补建议;如果再次失败,就开始循环输出近似答案。 GLM-5 的处理方式则更接近老牌架构师。实测中,当项目因为环境依赖问题无法运行时,它并没有停留在表层报错信息,而是主动分析依赖树(Dependency Tree),判断冲突来源,并进一步指挥 OpenClaw 进行环境修复。

整个过程更像是「自动驾驶」式部署:模型不是被动响应,而是在持续读取日志、修正路径、验证结果。

另一个常被忽视、但在系统工程中极其重要的能力,是上下文完整性。

GLM-5 的百万级 Token 窗口,使它能够在同一上下文中理解整个项目的代码结构、历史修改、配置文件与运行日志。这意味着它已经能够站在全局视角判断一次修改会对哪些模块产生连锁反应。 在长链路任务中,这种能力直接决定了模型是「聪明但短视」,还是「稳健而可控」。

综合来看,GLM-5 真正接住「架构师」角色,主要就是因为它开始像架构师一样思考问题:先规划、再执行;持续校验、不断修正;关注系统整体,而不是单点成功。

这也是它能够完成第一部分中那些系统级实测任务的根本原因。

三、开源界的 Opus?

放到 2026 年的大模型生态中看,GLM-5 的价值更多在于它打破了一件此前几乎被默认接受的事:系统级智能,似乎只能存在于闭源模型里。

此前,Claude Opus 4.6 和 GPT-5.3 确实把「Agentic Coding」这条路跑通了——模型不再追求即时反馈,而是通过规划、拆解、反复运行,完成真正复杂的工程任务。但代价也很高:高强度任务的 Token 消耗极高,一次完整的系统级尝试,往往就意味着不菲的调用成本。

GLM-5 在这里提供了一个不同的解法。作为开源模型,它把「系统架构师级 AI」从云端和账单里,带回到了开发者自己的环境中。你可以在本地部署它,让它花时间去啃那些脏活、累活、大活:调日志、查依赖、改老代码、补边界条件。

这可以看作是一次性价比结构性的改变——架构师级智能不再是少数团队的特权。

如果用职业隐喻来理解这种差异,会更加直观。像 Kimi 2.5 这样的模型,更像是审美在线、交互感极强的优秀前端工程师,擅长 One-shot 生成、视觉呈现和快速反馈;而 GLM-5 的风格则明显不同,它更像一个守底线、重逻辑的资深系统架构师:关注模块关系、异常路径、可维护性和长期稳定运行。

这背后,其实是编程 AI 一次清晰的职业进阶——从追求「看起来很爽」的 Vibe Coding,走向强调鲁棒性和工程纪律的 Engineering。

更重要的是,GLM-5 的出现,让一人公司的概念变得更加可落地。

当一个开发者可以在本地拥有一个懂系统设计、能长期运行、能自我修正的 AI 合伙人时,很多原本需要团队规模才能完成的工程工作,开始被压缩到个人可控的范围内。接下来,GLM-5 有潜力成为一人公司中,负责核心工程实现的那位「数字合伙人」。

展示量: 12

xAI 关键人物跑路,马斯克 AI 野心遭重创

作者|桦林舞王

编辑| 靖宇

 

正准备合并 SpaceX 和 xAI,创造一个 1.25 万亿美元估值的宇宙 AI 巨无霸的马斯克,想不到自己的巨饼,不是所有人都吃得下。

当地时间2026 年 2 月 10 日,xAI 联合创始人 Tony Wu,宣布从马斯克的 AI 公司离职。

这已经是继去年 8 月 Igor Babuschkin 离职后,xAI 失去的第二位联合创始人 。Wu 负责的恰恰是 AI 推理能力——这个被业内认为是下一代 AI 系统核心竞争力的关键技术方向。

一家成立才两年多的 AI 公司,连续失去两位联合创始人,这在硅谷并不常见。更关键的是,这发生在 AI 竞争最激烈、人才最稀缺的当下。

创始人纷纷出走,马斯克的AI 野心,还能继续吗?

 

01

推理专家走人

 

Tony Wu 在 xAI 的角色,远比表面看起来重要。

作为负责推理能力的技术负责人,Wu 直接向马斯克汇报。在当前的 AI 发展阶段,推理能力被认为是 GPT-4、Claude 这些大模型与真正「通用人工智能」之间的关键桥梁。

简单来说,Wu 负责的就是让 AI 能够「思考」,而不仅仅是「记忆和模仿」。

这个时候失去 Wu,对 xAI 来说打击是致命的。

Tony Wu 在 X 上发布了离职消息|图片来源:X

从技术角度看,AI 推理能力的突破需要长期的积累和持续的迭代。一个推理专家离开,带走的不仅仅是个人能力,还有整套的技术思路、实验数据,以及对未来研发方向的判断。在 AI 这个「以月计」的快速迭代行业,失去关键技术负责人往往意味着至少 6 个月的研发停滞。

更让人担心的是时机。OpenAI 刚刚发布了新的代码模型,在 AI Coding 上取得了显著突破;Anthropic 的 Claude 也在推理任务上表现越来越出色。这个时候失去推理团队的核心人物,xAI 很可能会在最关键的技术赛道上掉队。

有开发者在 X 上直言:「失去 Tony Wu,就像特斯拉失去电池技术负责人一样。表面上公司还在运转,但核心竞争力已经受到冲击。」

Tony Wu 不是唯一的一个,事实上,过去一年,xAI 创始团队的 12 名成员中,已经有 5 名离开,接近一半的离职率,效率堪比老马狂裁Twitter 之时。

为什么顶级 AI 人才,并不愿追随马斯克的 AI 愿景?

 

02

马式管理的「副作用」

 

连续两位联合创始人离职,让人不得不重新审视 xAI 内部到底发生了什么。

虽然官方没有透露具体的离职原因,但从马斯克在 Twitter、Tesla、SpaceX 的管理风格来看,问题可能不在薪酬,而在管理理念的冲突。

马斯克一直以「极限压榨」式的管理著称。

在 Twitter 的改造过程中,他曾经让员工睡在办公室,用「要么极度硬核,要么离开」的方式大规模裁员。这种管理风格,在制造业或者相对成熟的科技产品上或许有效,但 AI 研发需要的是创造性思维和长期专注,而不是简单的执行效率。

一位前 OpenAI 研究员在接受采访时表示:「AI 研究有自己的节奏。有时候一个算法突破需要几个月的静心思考,有时候需要反复试错。如果管理层总是催促『快一点,再快一点』,很容易让研究员产生挫败感。」

更关键的是技术路线的分歧。

马斯克曾经公开表示,xAI 要追求「最大程度的真实」和「理解宇宙」。这种宏大的愿景很鼓舞人心,但在具体技术实现上,往往需要更务实的路径选择。

当 CEO 的愿景与技术团队的判断发生冲突时,谁说了算?

在传统的 AI 研究机构,通常是技术专家有更大的话语权。但在马斯克的公司里,最终决策权往往掌握在他手中。

 

03

AI 的「人才血战」

 

把 xAI 的人才流失放在更大的背景下看,这其实是整个 AI 行业「人才血战」的一个缩影。

现在的 AI 行业,顶级人才的稀缺程度堪比上世纪的核物理学家。

一个优秀的 AI 研究员,可能同时收到 OpenAI、Anthropic、Google DeepMind 的 offer,年薪轻松超过 50 万美元,股权价值更是天文数字。

在这种环境下,留住人才的关键不仅仅是钱,更是平台和氛围 。研究员们更愿意去那些能让他们专注技术、有清晰研发路径、不被管理层频繁打扰的地方。

从这个角度看,OpenAI 和 Anthropic 确实有优势。

这两家公司都是由 AI 研究员主导的,技术团队在关键决策中有足够的话语权。相比之下, xAI 更像是一家「CEO 驱动」的公司——马斯克的个人意志往往会覆盖技术团队的判断 。

这不是说马斯克的方式不对,而是在 AI 这个特殊的行业,这种管理风格可能不是最优解。

Reddit 上有用户一针见血:「马斯克擅长的是工程化和产品化,但 AI 研究的前半程更像是科学研究,需要的是耐心和试错空间。」

现在的问题是,xAI 还有多少时间来调整?

在 AI 这个「赢家通吃」的游戏里,落后半年可能就意味着彻底出局。失去两位联合创始人,对于一家还在寻找技术突破口的 AI 公司来说,代价可能比想象的更加沉重。

毕竟,在这场 AI 军备竞赛中, 最稀缺的资源从来不是钱,而是那些真正懂得如何让机器「思考」的人 。

展示量: 15

​OpenClaw 之后,清华系团队给端侧 AI 找了一条「端云协同」的新路

2026 年都到 2 月了,你要是还没听说过 Agentic AI,大概率不只是断网这么简单——更像是手机都丢了。

我自己算是从头看着这波浪潮起来的。OpenClaw(当时还叫 ClawdBot)火出圈那阵子,很多人第一次真正「看懂」了一件事:我们想象中的 AI Agent 时代,关键从来不在它能不能聊得更像人,而在它能不能把事办完。

它能开浏览器、能点按钮、能把一个原本需要你反复切 App 的任务拆成步骤,一路执行到结束。你甚至会在某个瞬间产生错觉:屏幕那头像真的坐着一个很熟练的实习助理。

与此同时,自动化操作这股风,早就吹到手机上了。无论是豆包手机这类软硬件形态,还是各家手机大厂在系统助手上的「行动化」尝试,本质上都在做同一件事——把 AI 从对话框里拽出来,塞进系统和 App 的缝里,让它去完成那些「明明很简单但就是很烦」的操作链路:打车、下单咖啡、生成文档。

然而,单纯的云侧智能或单纯的端侧执行,都有着各自难以逾越的「天花板」。

云侧的 OpenClaw 拥有强大的推理能力,但它看不见你手机当下的屏幕,不知道你此刻的地理位置,更不敢直接操作你本地的微信去发个红包;而市面上常见的纯端侧助手,虽然能调用本地的数据和应用,却往往因为硬件算力限制,在面对高复杂、长流程任务时显得「智商不够用」。

移动端 AI Agent 的胜负手,早就不是「做云还是做端」的选择题,而是如何把两者的优势真正打通。近期,一家清华系团队「万象智维」选择用「小万」切入市场,押注的正是这样一套打通端云的能力体系: 让云端做「大脑」,负责复杂逻辑与规划;让端侧做「手脚」,负责感知与最后一公里执行。

 

01

不仅是「能动手」,

更是「分工明确」

 

在 AI Agent 的应用场景中,设备的定位差异始终是制约体验升级的关键。电脑与云服务器是天生的效率工具,凭借 7×24 小时不间断运行的优势,擅长承载复杂计算与长期执行类任务。而手机则是核心生活工具,沉淀着最细碎、最个人化的行为习惯和上下文数据。

传统的思路是:要么把所有数据传上云,但这面临隐私和延迟的挑战;要么在端侧硬跑大模型,但这会烧穿手机的电池和算力。

「万象智维」的解法是 「端侧 GUI + 云侧 CLI」 的技术分工。

在「小万」的产品架构中,手机被定位为 上下文的主要入口与执行终端 。它天然知道你是谁、你现在在什么时间和地点、你正在用哪些应用。而云端的 OpenClaw 则发挥其复杂推理与多任务调度能力,负责长期运行任务、系统级 API 操作等核心工作。

我们可以通过两个真实的场景,来看看这种「端云协同」是如何比单一端侧更聪明的:

场景一:复杂文档的「端-云-端」接力

当你收到一份几十页的技术文档时,单纯的端侧模型往往读不懂深层逻辑,而单纯的云端模型又无法直接操作你的本地 App。

在「小万」的流程里, 端侧 Agent 首先接管,利用本地算力提取文档的关键信息;随后,任务流转至 云端 ,由 OpenClaw 进行深度的逻辑梳理和摘要生成——这是手机本地算力难以企及的。最后,处理好的结论回传至手机,由 端侧 Agent 再次接手,询问你是否需要「发送给同事」或「保存到笔记」,并直接调用微信完成发送。

用户感知到的是一次流畅的服务,但后台其实发生了两次「端-云-端」的职能交接。

场景二:基于感知的智能通勤

早晨醒来, 端侧 Agent 基于本地传感器感知到「外面下雨了」,并读取了你本地日程中「早晨 9 点有会」的信息。

这些上下文被脱敏后发送给 云端 ,云端大脑迅速规划出一条避开拥堵的打车方案,并决策出「需要提前出发」。

当方案确定后,指令回到 端侧 。此时,「小万」直接在手机本地唤起打车 App,自动填写目的地、选择车型,并停在支付确认页面等待你点击。

这种「端侧感知、云侧决策、端侧执行」的高效协同模式,既规避了纯端侧智能能力不足的短板,也解决了纯云端智能缺乏场景感知和隐私顾虑的痛点。

 

02

真正解决的难点:

算力、成本与隐私

 

从 Demo 走向实用,一定会遇到一堆硬问题。先说最现实的: 成本与效率 。

把智能体装进手机听起来很容易,但现成方案没法直接照搬。高频调用的日常场景里,Token 成本绕不过去;手机端还要算清楚内存、功耗、温度、延迟。你可以在云端把模型堆得很大,手机端必须把每一次 Token、每一次访存、每一次调度都算明白。

哪怕是 OpenClaw,也会疯狂消耗大模型服务的 Tokens。不少网友在社交媒体吐槽账单太夸张,很多专业用户一天就能跑出数百美元。如果让手机里的每一个小动作都去问一遍云端大模型,这在商业上是跑不通的。

「万象智维」给出的路径,是算法与系统的深度协同优化,重点做了两件关键技术工作。

首先,是对端侧推理框架的「极限压榨」。

既然是协同,端侧就不能太弱。「万象智维」开发了一套名为「OmniInfer-VLM」的框架,旨在榨干手机 NPU 的性能。数据显示,在不牺牲精度的前提下,该框架能让多模态推理速度相对传统 CPU 方案提升接近 20 倍。

这意味着,像屏幕识别、OCR 提取、简单的意图判断这些高频操作,完全可以在本地毫秒级完成,无需联网,既快又省。

在此之上,是以「行为」为核心的记忆系统。

并不是所有任务都需要「思考」。现实中,我们每天的点咖啡、打卡路径是高度重复的。每次都从零推理不仅慢,也更容易出错。

团队引入了一套记忆系统,将用户的高频操作路径抽象成数学模型记录在本地。当你第十次点同一种咖啡时,系统不再需要云端的大脑重新推理「怎么点」,而是直接调用本地的行为记忆,进行自动化执行。

这不仅让执行速度更快,更重要的是,它大幅减少了对昂贵云端算力的调用次数——据测算,这种机制能让平均推理延迟降低约 1.49 倍。

此外,还有隐私的「护城河」。

在 Agent 时代,隐私不仅是数据,更是行为。相比于部分方案将每一帧截屏都上传云端进行分析,端云协同架构提供了一种折衷的安全性:敏感的上下文(如微信聊天记录、支付密码页面)始终保留在端侧处理;只有经过脱敏、任务需要的抽象指令才会发往云端。这虽然无法做到 100% 的物理隔绝,但相比纯云端接管,它在架构上为用户保留了数据的「所有权」。

 

03

落地与生态:

清华系团队的工程化答卷

 

AI 硬件需要的是一种低算力、但在高频场景下仍然足够顺的解决方案。想走到日常使用,总要面对一个现实:算力不可能无限,体验却必须够稳。

目前,这套方案已经不仅仅停留在 PPT 上。根据产品信息,「小万」目前已实现了端侧持久化的上下文记忆,在完全依靠端侧自身算力配合云端调度的条件下,支持约 40 款主流应用,覆盖约 150 个场景任务。无论是打车、消费、支付等日常任务,还是规划相关日程,都可以通过「小万」来完成。

这组数字虽然不能等同于「全能 Agent」,但却勾画了一张清晰的工程化路线图:先把高频、可验证的任务做扎实,再把覆盖面铺开。

而在部署上,「万象智维」同样把「本地化」当成核心能力设计:「小万」的端侧任务主要利用手机本地算力完成;云侧会为每位用户开设独立的虚拟云服务。对有本地部署需求的企业用户,他们还提供了本地化部署 OpenClaw 的方案,通过 API 无缝接入「小万」,进一步降低隐私顾虑。

这套成熟的工程化打法背后,是雄厚的技术积累。「万象智维」依托清华大学端智能研究团队孵化成立,核心团队在清华大学计算机系任炬副教授与清华大学智能产业研究院李元春助理教授的长期指导下,在端侧模型轻量化与高效推理领域有着扎实积累。公司成立后首轮融资便获得来自星连资本领投的数千万元天使轮投资,也侧面印证了行业对其技术路线的认可。

 

04

未来:从人机交互到

Agent-to-Agent

 

如果说 OpenClaw 让我们看到「Agent 可以动手」的可能性,那么「小万」更像在回答另一个问题:当动手发生在更多形态的端侧设备上,智能体还能不能把事办完,并且办得让人放心?

未来的端侧 AI,或许不会局限在手机这一个形态上。眼镜、手表、甚至是未来的新型终端,它们本质上都是一个个「端侧 Agent」。它们各自拥有不同的传感器和执行能力(有的能看,有的能跑),而云端则是一个通用的「超级大脑」。

「万象智维」正在构建的,正是连接这两者的中间层—— Agent-to-Agent 的交互网络 。

在这套网络中,任务不再被绑定在某一台设备上,而是由云端统一规划,分发给最合适的端侧设备去执行。移动端 AI 的「动手时代」已经开场。真正的分水岭,或许不在于谁的模型参数更大,而在于谁能用最工程化的手段,把聪明(云)和靠谱(端)真正结合在一起,解决那些用户每天都要做、又最怕出错的琐事。

展示量: 15

千问大模型联合淘宝「悬赏」:用更好的模型,解决电商的经营难题

自 2023 年的大模型元年以来,电商一直是 AI 落地的重要场景。过去几年从平台到商家,电商行业的从业者纷纷探索利用 AI 生图、AI 客服、AI 辅助广告等工具降本增效,也取得了一定的成果。

而在刚刚结束的 2025 年,AI 行业再次迎来技术升级:今天的大模型不仅有了更强的分析、生图和生视频能力,更重要的是 Agentic AI 的出现,让 AI 有了更强的影响真实世界的能力,甚至让 AI 从真人的帮手,变成了真正的数字员工。

这也意味着 AI 与电商行业的结合有了更多的可能性。2 月 9 日,淘宝、千问大模型、阿里云联合发起了 2026「生意管家杯」电商 AI 挑战赛。大赛总奖金池的价值高达 350 万元,包括 50 万元现金奖励和 300 万元阿里云 Tokens。

大赛前期征集商家的真实经营痛点,再由全球 AI 开发者给出技术解决方案,最终通过专家评审投入实战对决。这意味着,这场比赛并不是单纯的炫技比拼,而是一场以真实商家需求为起点、以实际落地为目标的 AI 电商实战演习。

这场挑战赛也为外界提供了一个观察窗口:今天的千问大模型对于电商的理解力有多强?又如何推动 AI 能力落地电商场景?

 

01

当 AI 贯穿「人、货、场」,
电商发生了什么变化?
 

迄今为止,AI 在电商中的应用价值大致分为两类:一类是通过自动化与规模化能力,承接高并发、强标准化的任务,让生意「更省力」;另一类则是通过模型分析与推理能力,洞察人群、商品与市场之间的复杂关系,推动生意「做得更大」。

这恰恰构成了 2026「生意管家杯」电商 AI 挑战赛的两大赛道,分别是「商家经营提效」和「商家经营增长」。

「商家经营提效」赛道聚焦商品管理、消费者服务、数据洞察等高人力消耗场景,是 AI 最适合切入的领域。「商家经营增长」赛道则围绕消费者运营、商品运营、营销推广等复杂场景,更依赖大模型对数据的理解和推理能力。

回顾 AI 电商的发展不难发现:底层大模型的能力,很大程度上决定了 AI 电商的探索上限。

过去,AI 在电商领域的尝试,大多以功能插件的单点工具形态存在,主要提升局部效率。而底层模型能力的跃迁,让 AI 开始具备贯穿「人、货、场」的可能性,最终成为电商体系中的智能中枢。

在这一节点,像阿里巴巴这样同时拥有顶尖自研大模型和中国领先的电商平台生态的独特业务集合体,率先具备了推动 AI 电商系统化演进的底层能力。

过去三年,千问大模型在高强度的业务需求牵引下持续迭代,实现了与全球顶尖模型的正面竞争。

以 1 月 26 日最新发布的 Qwen3-Max-Thinking 为例,其在数学推理、代码编程等 19 项权威基准测试中表现优异,多项指标超越 GPT-5.2、Gemini 3 Pro,持续保持国际顶尖模型水平。

Qwen3-Max-Thinking 与其他模型的测评分数对比。图源千问大模型。

 

在本次 2026「生意管家杯」电商 AI 挑战赛中,千问大模型和阿里云也向开发者释放了多项技术资源支持。包括阿里云千问大模型万亿 Tokens 奖池、数百小时魔搭社区免费 GPU 时长,以及阿里云半价云资源折扣。

在 4 月举行的决赛中,千问大模型还将派出产品技术专家,在现场直接参与指导和评选。

 

02

从模型能力到电商生产力,
千问大模型如何助力?
 

当 AI 深入电商经营一线,最直接的问题是:底层模型能力,具体如何落地到真实生意中呢?

过去几年,千问大模型在真实电商场景中的实践为参赛选手提供了范本。其能力落地并非单点突破,而是围绕「人、货、场」三大核心要素,构建起一套完整的 AI 电商解决方案。

首先,在「人」的维度上,AI 开始承担起原本高度依赖人力的服务与运营角色。

在客服场景里,千问大模型驱动的 AI 客服导购,可以依靠知识库自动处理 80% 的常见问题,遇到复杂问题则无缝转接人工。据应用案例统计,从纯人工换到「AI+人工」后,一位商家每年的客服人力成本可节省 75%。

除了 AI 客服,千问大模型还可以对拟人模型构建相应智能体,将真人形象训练为 AI 数字员工。人类下班后,IP 分身可以 24 小时陪伴粉丝聊天,数字店长能够代替人工抽检商品详情。

千问大模型生成的数字员工形象

 

其次,在「货」的维度上,AI 彻底改变内容生产方式,打造了一座不停歇的 AI 创意工作室

当传统设计师面对上百个 SKU 的作图需求焦头烂额时,有 AI 加持的设计师则显得尤为轻松。依靠 Qwen 模型和 Wan2.6 等多模态模型的生成能力,一张 360°产品底图输入进去,自动衍生多风格场景图、促销海报、短视频,甚至社交媒体九宫格。

Qwen-Image 2.0 生成电商产品海报模特图

 

此前,有电商商家反馈,每年在设计和文案上的人力成本高达 500 万,全面引入千问大模型之后降到 150 万,上新速度提升了 5 倍。

这并不仅仅是效率提升,更意味着「货」的表达能力被模型放大,商品不再受限于单一创意产能,而是进入可规模化试错、快速迭代的内容生产体系。

最后,在「场」的维度上,千问大模型正在推动营销与交互的智能化升级。

面对电商竞争进入精细化运营阶段的现实,传统「广撒网式」营销已无法满足需求。Qwen-3 和 Wan2.6 的结合,可以形成从投前决策到投后复盘的 AI Marketing 飞轮。

通过构建「生活场景化」用户标签体系、Lookalike 扩量与私域钩子匹配,商家能够实现精准获客。多模态视觉素材的自动生成、智能预算分配与动态出价,则让投放策略更加科学高效。

还有一个值得关注的场景是端侧交互的革新。随着轻量化模型和多模态交互套件在端侧落地,AI 可以直接进入用户的设备和生活场景。

比如,千问大模型面向电商小家电场景,可以打造部署于 App、小程序或智能硬件的本地化 AI 问答助手,创造新的交互入口。

从服务到商品,从内容到营销,再到端侧交互,千问大模型贯穿「人、货、场」,构建起一套可持续运转的智能经营系统。这种系统的场景范式,正是 AI 电商从概念走向真实生产力的分水岭。

 

03

从 AI 加持传统电商,
到 AI 原生电商
 

过去,AI 大多停留在工具辅助的层面,传统电商的模式并未发生根本改变。随着用户行为逐渐迁移到模型对话窗口,大家开始想象:以 AI 为核心入口的原生电商形态会是怎样的?

在大模型能力的支持下,AI 原生电商的超级 Agent,正在成为连接电商、支付、内容与服务体系,并且能够主动完成任务的智能中枢。

处在 AI 原生电商从概念走向现实的时间窗口,这场 2026「生意管家杯」电商 AI 挑战赛,显得尤为值得关注。

无论是正在寻找突破口的 AI 创业团队、独立开发者、技术大咖,还是深耕垂直场景的 AI 应用厂商、生态服务商,以及高校和研究机构,这场比赛都提供了一次不可多得的实战机会。

当底层模型能力飞速迭代,平台开放真实场景与真实需求,谁能率先把 AI 能力转化为可落地的电商生产力,谁就有机会站在下一代电商形态的起跑线上。

*头图来源:淘宝
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
展示量: 15

马斯克都忍不住转发的 AI 应用,是怎么做出来的?

 

前两天晚上,马斯克在X上转了一个小视频的帖子。视频里的问题是 “Which is the best LLM in the world?” 画面里有两个选项,Grok 和 Others。

在视频里的人始终点不到Grok的按钮,按钮还在不断变小。直到Grok 终于被点到,视频里的「马斯克」开始了搞怪舞蹈。

图片来源:Loopit

这个视频里可以互动起来的产品就是Loopit。

从百川智能离职后,陈炜鹏和李施政创办了涌跃智能。

他们bet的点有3个:

AI Coding 多模态生成融合能吃掉最大的智能增量、通用是最该坚持的产品品味、互动是内容的未来。

虽然AI Coding多模态生成的技术框架探索从没变化,但具体产品设想是模糊的。他们尝试过互动PPT、互动绘本、互动影游,但始终没能同时满足这3个信念。在探索的过程中,他们逐渐将注意力从「用代码提升生产力」,转向「用代码定义可交互的世界」。于是,与行业怎么把一件事做得更高效的主流不同,涌跃智能的产品Loopit 选择了另一个方向。

 

Loopit 使用页面|图片来源:极客公园

 

它没有瞄准提升生产力,也不打算做下一个游戏引擎,而是试图回答一个更模糊、也更有想象力的问题——如果内容不只是「被观看」,而是可以被「玩」,会发生什么?

 

精彩观点:

  • 现在的 AI 应用面临的普遍问题是:要么想到做不到,要么做到了也没想象力。。
  • 如果内容形态没有逃脱上一个时代的范畴,即使强如Sora,最终也只会沦为既有平台的供给。
  • 互动内容是一种更高维的方式,一次性游戏、可以玩的视频等描述都只是其在低维概念的投影
  • 在 AI 时代,内容的共识产生会非常快,因为每一个内容的生成上下文都是透明的,这使得 Remix(魔改) 变得极度简单。
  • 我们不担心商业化,即使沿用广告模式,互动比观看更能俘获频注意力。

 

以下是极客公园与涌跃智能团队的对话,经编辑整理。

一、 不是游戏,也不是工具

极客公园: Loopit这款产品的定位是怎么样的?

陈炜鹏: 我们做的Loopit是一款面向 C 端的互动内容产品。在这个内容平台上,每一条内容都是可交互的。它能调用并「接管」手机硬件(如摄像头、麦克风、陀螺仪等权限)。比如,用户手指在屏幕上的位置会实时触发画面亮起或物理反馈,这种创意内容必须依赖硬件交互才能实现。

极客公园:这听起来像是一个通过 vibe Coding 生成的 Mini Game(小游戏)。

陈炜鹏:不完全是游戏。比如一些艺术类交互装置,其底层模态其实是视频,但前端呈现出交互效果。我们想传递的理念是:「让一切变得好玩。」

极客公园:也就是「Make the World Playable」。

陈炜鹏:没错。我们避开「Game」这个词,是因为不想被局限在游戏范畴,而是希望现实生活的一切都能转化为可交互的内容。

极客公园:如果拆解「互动内容平台」这个定义,互动的维度和程度具体该怎么描述?

陈炜鹏:互动的维度涵盖了当前手机硬件能处理的所有范围,比如陀螺仪、摄像头、声音传感器以及常规的点击操作。这些简单的定义可以组合出无限的可能性。

Loopit,意指「循环」。我认为所有的游戏、音乐甚至故事,本质上都是由一个个 Loop 组成的。比如在《星露谷物语》中,播种收割是一个小 Loop,一天的农活是中 Loop,而将手工农场升级为自动农场则是大 Loop。大循环嵌套小循环,就构成了整个世界。短剧的一集是闭环,音乐是节奏循环,这种有限的定义最终能组合出无限的可能。

极客公园:目前主要还是围绕手机终端的交互。

陈炜鹏:对,因为手机是我们的核心分发场景。

极客公园:除了调用硬件传感器,Loopit 相比传统 Web Coding 工具的优化点在哪里?

陈炜鹏:比如用户上传一段视频,Agent 可以自动生成一个「鱼眼镜头滤镜」的程序逻辑套用在视频上,瞬间将其转化为可实时操控的 3D 视角,并可干预互动。

 

二、AI Coding + 多模态,一次被 AI 技术推动的产品转向

极客公园:依然是 Vibe Coding ?

陈炜鹏:核心是 Vibe Coding 结合多模态生成。我们想打通屏幕与真实世界的界限。

极客公园:具体的创作交互过程是怎样的?需要用户具备专业的逻辑定义能力吗?

陈炜鹏:不需要,完全是基于自然语言的对话式修改。用户不需要设定具体参数,只需描述感受或目标并进行挑选,创意、编程、设计都交给Loopit。

极客公园:那 Loopit 这个产品,从明确形态到今天这个状态用了多久?

陈炜鹏:产品形态明确是 3 个月前,但底层的引擎技术我们磨了 7 个月。

极客公园:过程中最核心的技术难点是什么?毕竟你们磨了 7 个月逻辑。

陈炜鹏:核心难点在于 Code(代码) 与 多模态生成 的深度结合。代码负责保证整个交互过程和底层逻辑,而多模态则负责视觉张力的呈现。这两者在生成过程中相互影响、相互约束,要在这种双重约束下实现通用性并达到优质效果,技术难点很多。

。

极客公园:当时卡点的难点主要是在代码(Code)能力,还是多模态能力上?

陈炜鹏:卡在两者的结合上。我们满意的点在于构建了一个框架,未来不论是 Coding 还是多模态能力的提升,都会成为产品的助力。大家常说大模型应用是水涨船高,而我们这艘船下面,其实有「两片海」。

我是做语言模型的背景,另一位合伙人是做文生视频出身,且做出过国内领先的结果。。

极客公园:对于 Loopit 来说,模型侧的要求是否可以理解为:需要最旗舰的大语言模型提供的 Coding(编程)能力,以及当前顶尖的多模态模型能力?

陈炜鹏:对,我们集成了多种模型,涵盖了文生图、文生视频以及音频生成等多个维度。

极客公园:你们的思路从最初偏向 Pro C 的工具视角,逐渐转向了更广众的 C 端。这中间最重要的变量是这一年 AI Coding 技术的快速进展?

陈炜鹏:多模态和 Coding 技术的进展都非常快。不过我们一直没变的核心是「互动内容引擎」,即 AI Coding 与多模态的结合。至于包装成什么产品、面向什么用户,我们一直在根据技术环境进化。

最初尝试过互动 PPT、互动绘本、AVG(冒险游戏)等内容。随着 AI Coding 技术和多模态模型的进展我们开始向短内容、低门槛的方向迁移,并逐步看到了UGC平台的可能性。

 

三、重塑平台双边逻辑

极客公园:新平台的产生必须有新交互,从而脱离传统的分发渠道。

陈炜鹏:没错。如果内容模态没有逃脱上一个时代的范畴,即使强如Sora最终也只会沦为既有平台(如 TikTok)的供给。我们坚信互动内容能产生新的交互维度,这种维度是传统短视频平台无法通过增加一个 Tab 就能消化的。

陈炜鹏:基本上,我们现在看到的文生图、文生视频加 Coding(编程)能够组合的所有形态,都可以用这款产品做出来。例如互动故事书、交互式艺术作品,甚至是 Mini Game(小游戏)。

极客公园:所以你们的产品核心是在 App 侧,而不是 Web 端?

陈炜鹏:对,目标和用户不同,自然选择不同的端。

 

极客公园:目前大多数基于 Web Coding 的 AI 产品都偏向生产力工具,走向了 Pro C(专业消费者)端,重点在于拼 ARR(年度经常性收入)和渗透率。而在普通的 C 端用户层面,最近反而很少有人触碰。我们一直在期待 C 端能出现这种有趣的、真正达到 UGC(用户原创内容)层级的创新。

陈炜鹏:一个新的UGC内容平台产生需要两个条件:一是人人皆可创作(极低门槛);二是新的内容维度。这个新维度必须能提供传统分发渠道所不具备的价值。

极客公园:这种交互带来了很大的个性化。过去用户只能消费被封装死的既有内容,而交互能解锁新的维度,根据用户的心情或操作交付不同的价值。

陈炜鹏:交互是随着技术的解锁而解锁的。目前我们通过 Coding 定义状态机,从而创造出一个自由的交互空间。未来,像谷歌那样的纯 Prompt(提示词)驱动的世界模型会是另一种空间。最终这两者会合并,这只是技术解锁深度的问题。

极客公园:如果最终能一步到位直接生成可交互空间,那确实了不起。不过分步走更务实。

陈炜鹏:我们采取的是分步走的策略。在目前的产品定义里,未来的视频世界模型只是我接入的一个模态。过去多模态靠 Coding 或后台状态驱动,未来可以转为实时驱动。

 

四、靠 Remix 生长的社区

极客公园:目前内测的反馈如何?用户特征是怎样的?

陈炜鹏:我们正在海外进行内测,几千名用户小规模跑。其中核心创作者约 100 多人,主要由艺术系学生构成。

创作门槛被降到了极低。不少创作者在 TikTok 发布一个高质量伪交互作品大约需要 5 天,但在我们这里,两小时就能做出 5 个。一个 5 分钟的对话轮次就能完成一轮逻辑生成。

极客公园:目前内容池里已有的内容风格,是否会影响现阶段新用户的获取?比如让用户误以为这只是一个特定方向的平台。

陈炜鹏:这本质上是社区「破圈」的过程。我们有非常明确的取舍:不希望被定位为一个游戏平台。游戏市场通常是供大于求的,我们追求的不是纯粹的游戏开发。

极客公园:所以你们更希望呈现的是一种「Playable」(可玩式)的体验?让用户把日常生活中的各种事物变成可玩的交互内容?

陈炜鹏:没错,就是一种「可玩的体验」。

极客公园:在初期,你们核心瞄准的用户群体是哪一类?

陈炜鹏:主要是年轻人,特别是那些极具想象力和创造力的人群。具体来说,包括美术生、艺术生和设计师。从目前观察来看,大学生群体对产品的上手程度非常高,几乎没有门槛。

极客公园:感觉这些种子用户有点像早期 B 站的群体,脑洞很大,想法也比较独特。

陈炜鹏:是的,脑洞非常大。

极客公园:现在的计划是什么?重点打海外市场吗?

陈炜鹏:我们打算国内、国外同步推进。内容属性比较轻量,且没有很强的语言隔阂。下周国内会启动「体验官」招募,先采取邀请制小规模开放创作权限,但所有人都可以下载试玩。

极客公园:国内分享到微信朋友圈的功能打通了吗?

陈炜鹏:打通了,它是以网页链接的形式打开,用户可以在链接里直接进行交互。

 

五、基于「技术想象力」,构造互动内容产品

极客公园:你看起来不太像典型的 To C 创业者。

陈炜鹏:外界看我职业生涯跨度大,从搜狗做搜索、推荐到 Soul 做社交,但我认为核心逻辑是一脉相承的。在 Soul 期间,我管理过运营和产品,甚至负责过洛丽塔社群的运营,对 18-23 岁的年轻用户群体很有感觉。

极客公园:你之前在 Soul 的经历,对现在的项目有什么启发吗?

陈炜鹏:Soul 对我最大的启发不在于具体的经验,而在于产品价值观。过去我在搜狗做搜索和推荐,是在被定义的市场里把产品做得更好。但在 Soul 期间,我们只关心用户价值和创新体验,这对我做 Loopit 的理念很重要:也就是我们究竟能给用户提供什么样的增量价值和创新体验。

现在的 AI 应用面临的普遍问题是:要么想到做不到,要么做到了也没想象空间。我们要追求的是基于「技术想象力」去构造产品,提供增量。

极客公园:在百川智能的经历呢?

陈炜鹏:在百川负责通用模型训练的经历,加深了我对模型本身的理解。我的判断是: AI 时代核心变量就是技术,脱离技术无法思考产品。只有将技术与产品深度融合,才可能做出让用户尖叫的产品。。

极客公园:在互动内容平台中,社交扮演什么角色?

陈炜鹏:内容本身就具备社交属性。互动天然能产生人与人、人与内容的连接。内容会创造一个「场」,只要场域存在,关系自然会产生。

极客公园:你们的内容深度结合了手机硬件交互。但现在 AI 硬件(如 AI 眼镜、轻量化终端)发展很快,如果未来手机被更简单的终端取代,你们会担心吗?

陈炜鹏:我们完全不担心,甚至非常期待。我们提供的是一套通用框架。手机对我们而言只是「硬件能力的集合」。如果未来出现更先进的智能眼镜,对我们来说只是增加了一个新的 API(接口)和能力维度。只要内容本质上仍通过程序(Coding)实现,硬件的迁移对我们来说是天然友好的。

极客公园:现阶段推荐算法在平台中的比重高吗?

陈炜鹏:随着内容量的积累会更重。

极客公园:如果用一句话来传播 Loopit,你会如何定义?

陈炜鹏:第一,它是一个极具创新性、让人眼前一亮的产品;第二,它就是「可以玩的抖音」,让生活中的一切都变得好玩。

极客公园:用户创作出内容后,他们的动力主要来源于什么?

陈炜鹏:早期是「为爱发电」和获得认同感。过去的内容平台逻辑是:用户创造内容,获得他人追捧,从而产生愉悦感。 在 Loopit,创作动力多了一个维度:创作过程本身的探索性和成就感。这种通过技术实现脑洞的过程,本身就是一种高质量的消费体验。互动循环的核心在于反馈。创作者渴望有人参与互动,而这种良性循环长期发展下去,必然会催生顶部创作者的商业化需求。

关于内容商业化,我观察到一个演进路径:第一阶段是分发效率提升。 早期以推荐系统为主,讨论的是 Feed 流(信息流)的通话效率和广告位密度,核心是解决分发效率。

第二阶段是内容即广告(升维品质)。 到了直播和种草(如小红书)时代,讨论的是品质,即让广告等同于内容,从而提升广告本身的价值。

AI 生成的互动内容让「消费广告」与「消费内容」接近等同。比如海外火爆的「可乐熊」案例,用户在玩的过程中就已经在不知不觉中被植入了品牌概念。这种植入是无感的、潜移默化的,不像直播带货那样仍有明显的广告痕迹。

如果我们的终极目标是去制造一个世界,那么在这个世界里看到的所有广告,都应该是被自然植入其中的。

展示量: 13

零下 20 度的田野里,它在拍星星,我们在合影丨 New Things

作者 | Li Yuan

编辑 | 郑玄

你有在晴朗的沙漠里看过清楚的银河吗?

一次这样的体验就仿佛能够净化灵魂。

但回到城市之后,我们很难产生抬头的欲望。即便偶尔望向夜空,几颗暗淡的孤星也显得索然无味。

不过,一台有趣的设备,意义是可以让平淡的生活产生变化。

 

 

 

 

这两张照片,是使用智能天文望远镜 Seestar S30 Pro 在城市光害和郊区光害下能拍出来的状态。

Seestar 的外观完全不像传统的笨重「炮筒」,更像是一台稍大号的投影仪。不同于传统的天文望远镜,你并不需要成为一名天文高手,也不需要了解复杂的坐标知识、处理繁琐的后期堆栈。只要把这台设备放在城市的空地上一分钟,就能直接拍出这样的深空大片。

作为从未接触过星空知识的小白,夜晚的星空从未变得如此有意义。

 

拍星空,不一定要大体积的天文望远镜

很多人对天文望远镜的认知,还停留在那种需要两人合力搬运的「炮筒」上。在圈子里,这种体积感曾是资深玩家的入场券。似乎口径越大、镜筒越长,才越能彰显探索宇宙的诚意。

因此第一次看到 Seestar S30 Pro 的时候,不少人其实很怀疑这台设备是不是只是一台小玩具。

Seestar S30 Pro 只有 1.65kg 重。折叠起来的大小和一台家用投影仪差不多,单手就能拎走。

 

 

不过,看成玩具,可就太小瞧 Seestar 了。

事实上,Seestar 的能够做到这么小,是源于其专利的折叠光路设计。

传统望远镜为了保证焦距,镜筒必须做得非常长。这种物理长度直接限制了设备的机动性。Seestar 实际上是通过在机身内部设计了一套镜片的反射体系,让光能够在机身内部完成长距离的跋涉,才保证了小巧的机身。

而在其背后,Seestar S30 Pro 还配备了真正严肃的成像方案:长焦端采用了 1/1.2 英寸的 IMX585,广角端则是 1/2 英寸的 IMX586。

这里有一个误解:在很多人的想象里,天文观测者观测星空的时候,应该和看望远镜一样,肉眼贴近「炮筒」观测。

事实上,现代天文望远镜早就不再是为人眼观察而设计的了。

人眼的瞬时快门只有 0.1 秒左右,感光能力存在天然的上限。即便盯着猎户座看一整夜,大脑也无法把那些微弱的光子攒成一张彩色的星云图。

因此现在无论在专业天文台还是资深玩家的设备后端,接入的大多都是专业的的影像传感器。

S30 Pro 使用的 IMX585 传感器,已经是天文摄影领域是相对性能很好的传感器,采用的是 ZWO ASI585MC 等专业天文相机的同款底片。这种基于 STARVIS 2 架构的传感器,核心优势在于高效的弱光采样能力。它能通过长时间的曝光,捕捉到肉眼根本无法察觉的深空细节。

这台看似轻便的设备,本质上就是折叠了一台大型专业天文望远镜,可以看作是一个针对星空摄影专门优化了的长焦相机。同时,还内置了照片叠加的算法,可以直接将叠加后的状态实时呈现在手机上。

在手机摄影的强力算法误导下,很多人看到清晰的月面环形山,漂亮的天体图,第一反应往往是 AI 生成的贴纸。

不过,其实只要试着拍一次飞鸟,就能看出长焦相机和 AI 生成的差别。

AI 并不能根据实时画面,合成出这种具备随机性和动态感的小鸟的一举一动。

 

银河、星野一键出片

当然,S30 Pro 并不只是给望远镜加了一个长焦镜头。

在 极客公园曾经介绍过的 S30 Pro 的前代产品 中,已经内置了一键找星的功能。它内置了一套自动化寻星系统,将原本需要手动调节赤道仪、校准极轴的繁琐过程,直接固化到了硬件底层。

只需要在 app 上选择要观测什么星体,剩下的对齐和跟踪都由机器自己完成。

但随着 S30 Pro 对摄像头传感器的升级,S30 Pro 解锁了更多的玩法。

首先是主摄传感器由 IMX662 提升到了 IMX585。传感器的幅面从 1/2.8 英寸 扩大到了 1/1.2 英寸 。在摄影圈里,底大一级压死人是不变的真理。

如果你用小底传感器去拍仙女座这种尺度巨大的星系,你往往只能拍到中心最亮的一团核心,外围的结构会被直接切掉。这种感觉就像是在用手机长焦看特写,虽然拍到了,但缺乏全局感。

 

 

从这两张社区中的 M42 星云的图就能看出一些差异。左图由 S30 Pro 拍摄,右图是 S30,更大的传感器让暗部的细节和层次感都更加清晰。

更重要的转折点在于另一颗拥有 63° 视场角的广角镜头。在过去,这颗镜头主要扮演找月亮、找太阳的辅助角色。它就像一个指路灯,帮你把视野对准目标。但在 S30 Pro 上,这颗镜头不再是配角,它具备了独立的星野实拍能力。

在天文摄影里,星野是一个巨大的范畴。它指的是不止拍摄某个孤立的球体,而是要把星空与大地的轮廓融合在一起。在这个分类里,银河和星轨是最核心的两个主角。

拍摄银河的逻辑,其实是一场与地球自转的博弈。

因为地球在不停地转动,天体相对于地面其实是动态的。如果你只是进行简单的长曝光,最后得到的只会是一团模糊的光影。为了出一张清晰的、有细节的银河大片,设备必须开启跟踪模式。

S30 Pro 的广角端现在支持这种动态跟踪。它通过长时间的曝光和机内实时叠加,让隐藏在黑暗中的细节显影。它在帮你把微弱的光子攒在一起,直到拼凑出完整的银河纹理。

而星轨则是完全不同的另一种拍摄逻辑。

在星轨模式下,机器保持不动,任由地球自转。它不再去抵消那种位移,而是选择记录这种位移。 星星在镜头前划出的轨迹,被算法一张张叠在一起,最终在手机屏幕上形成一种充满时间张力的同心圆。

这样的玩法让星空拍摄变得更加丰富多元。由于冬季北半球并不适合拍摄银河,笔者尝试拍摄了星轨。

 

 

看着星星在手机屏幕上不断延展,这种实时的反馈感,确实会让你产生一种和宇宙重新建立了连接的错觉。

 

它在拍星星,我们在合影

天文摄影曾经是一场极其孤独的苦修。在漫长的曝光时间里,你只能守在机器旁边,盯着漆黑的荒野发呆。但笔者惊喜地发现,Seestar S30 Pro 正在通过增加更多的互动逻辑,试图让这个等待的过程变得有意义。

最明显的变化是,S30 Pro 正在加入更多的科普功能,比如 GOTO 功能与星空标注的结合。

在 Seestar 的上一代设备中,已经可以通过 app 里的设置,一键寻找你想观测的星座、星云等。虽然照片很漂亮,但如果你抬头看天,依然很难把屏幕上的光点和真实的星空对应起来。

现在的 S30 Pro 增加了一个标注开关。当你把机器对准夜空,手机屏幕上会自动勾勒出星座的连线。你能清晰地看到大熊座的形状,看到猎户座的腰带到底由哪几颗星组成。

这种将虚拟星图与真实物理星点重合的瞬间,让星空不再只是一堆无意义的光斑,也是最好的寓教于乐的场景。

 

 

这种对交互的理解,最终落地在了一个极具生活方式感的卖点上:地景分离。

在传统的星野摄影里,这是一个物理层面的悖论。为了让星空清晰,机器必须跟着星星转动。但如果你想在画面里加入地景或者人物,转动的相机就会让地面的物体变得模糊一团。

如果你想和银河合影,通常需要极其复杂的后期技术。你得分别拍摄星空和地面,再回到电脑前进行手动合成。

S30 Pro 把这个过程内化了。它会利用算法,在地景和星空中找到一个平衡点。它会单独抓取一帧清晰的地景作为「底座」固定住,然后让背景的星空继续通过跟踪来累积细节。

曾经只有通过复杂的后期处理的功能,现在现在变成了小白都可以参与的一部分。

在北京零下 20 度的田野里,我和我的朋友坐在一旁,不断调整拍摄角度,试图把自己也放进那片星空里。虽然天气很冷,但这种「我也在画框里」的驱动力,让我们乐此不疲。

你可以拿着补光灯站在机器前,给自己打个光,或者和朋友一起坐在草地上指点江山。机器负责在那采集千万光年外的光子,而你负责在这定义这张照片的故事感。

 

 

这个尝试虽然不甚完美,但却富有人味儿。

虽然算法接管了几乎所有的技术细节,但当我们一次次进行构图选择,不断调整位置,按下快门,将自己和星空连接在一起的时候,天文摄影从一种冷冰冰的拍摄,变成了一次有温度的社交行为。

一键出片并不意味着浪漫的廉价化。相反,当操作的摩擦力被降到最低,人们才会有更多的精力去关注那片星空本身。

Seestar 的社区里,有人拍下了流星雨穿过地景的瞬间,有人记录下了。这些真实的情感绑定,才是硬件产品能够持续产生生命力的核心。

它给普通人递了一张宇宙的门票,但门票背后的风景怎么看,最终还是由人来决定。

当算法消解了所有的门槛,天文摄影究竟会变成一种像美颜相机一样的快消品,还是会成为一种让人重新审视自我与宇宙关系的媒介?

在万物皆可智能化的今天,我们或许并不缺一台更强大的望远镜,我们缺的是一个能让我们重新产生抬头欲望的契机。

*头图来源:极客公园

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

展示量: 12

雷军宣布初代小米 SU7 正式停产;《黑神话:钟馗》发布六分钟实机预告;字节、阿里、腾讯连发多个新模型|极客早知道

国家互联网应急中心预警:新型 RCtea 僵尸网络快速蔓延,我国近万台物联网设备已中招

2 月 10 日消息,国家互联网应急中心(CNCERT)发布《关于 RCtea 僵尸网络大范围传播的风险提示》。

CNCERT 近期监测发现了一个名为 RCtea 的新型僵尸网络正在互联网上快速传播,该网络自 2025 年 12 月下旬开始活跃,主要针对物联网设备发起攻击。

监测数据显示,2026 年 1 月 20 日至 25 日期间,我国境内已确认的受感染设备达 9827 台,单日最高活跃设备数 4870 台,单日最高控制服务器访问量 27.8 万次。该僵尸网络采用高度复杂的加密技术和反追踪机制,目前正处于快速扩张阶段,已具备发起多种 DDoS 攻击的能力。

RCtea 僵尸网络主要针对 ARM 和 MIPS 架构设备发起攻击,包括路由器、摄像头等物联网设备,暂未发现针对传统 Linux 服务器或主机的样本。其传播方式主要依赖 Telnet 暴力破解,利用内置的常见弱口令列表进行设备入侵。为规避安全检测,该木马采用多重防护措施:启动时需特定参数激活核心功能;使用 RC4、ChaCha20 及 TEA 算法变种进行数据加密;为进程设置最高级别内存保护;采用随机 6 字符文件名;执行后会在控制台输出“here we are”调试标记。

CNCERT 建议用户及时修复系统漏洞,包括历史漏洞和最新漏洞;设置高强度密码,建议使用 16 位以上包含大小写字母、数字和符号的组合,并定期更换;发现感染后立即核实受控情况和入侵途径,对受害设备进行清理。(来源:IT 之家)

 

GitHub Copilot 集成 GPT‑5.3‑Codex 代理式开发任务提速 25%

今日,GitHub 宣布,OpenAI 最新的代码生成模型 GPT‑5.3‑Codex 已正式在 GitHub Copilot 中开始推送。该公司表示,在内部使用的多项基准测试中,新模型在推理能力以及对依赖多种工具的复杂、长时工作流的执行方面都有明显提升。在实际应用中,GPT‑5.3‑Codex 在「代理式」(agentic)编码任务上的整体性能相比之前的 GPT‑5.2‑Codex 提升约 25%,显著缩短了开发者在这类任务上的等待时间。

目前,要想使用这一新模型,用户需要订阅 Copilot Pro、Pro+、Business 或 Enterprise 等付费方案。支持选择 GPT‑5.3‑Codex 的环境包括 Visual Studio Code(涵盖聊天、提问、代码编辑和智能代理等模式)、GitHub.com 网页端、GitHub 移动客户端(iOS 和 Android)、GitHub CLI 命令行工具以及 GitHub Copilot Coding Agent。如果用户暂时还未在界面中看到该选项,则意味着本次更新仍处于分批逐步推送阶段。

对于在企业或团队环境中统一配置 Copilot 的用户,GitHub 说明,使用 Copilot Enterprise 或 Copilot Business 方案的组织管理员,需要在 Copilot 设置中显式开启 GPT‑5.3‑Codex 相关策略,才能让团队成员使用该模型。GitHub 表示,此次升级将对负责复杂软件架构设计和自动化重构的开发者带来最大收益,因为新模型专门针对代理式工作流进行了优化。通过将依赖工具链的自动化任务耗时缩短约四分之一,这一更新有望明显缓解以往大规模 AI 辅助代码生成中常见的延迟问题。(来源:cnBeta)

 

CounterPoint 报告 2025 全球手机存量:8 大品牌破 2 亿,苹果三星断层领先

2 月 10日,Counterpoint Research 发布博文,报告称 2025 年全球智能手机活跃设备存量同比增长 2%,换机周期延长至近四年。

目前全球已有八家智能手机厂商的活跃设备存量超过 2 亿台,这八大品牌合计占据了全球超过 80% 的活跃设备份额,呈现出强者愈强的竞争格局。

细分到厂商方面,在所有厂商中,苹果与三星展现出断层式的领先优势,是仅有的两家活跃设备数突破 10 亿大关的品牌,两者合计占据了全球 44% 的份额。附上相关图表如下:

 

(来源:IT之家)

 

累计交付近 37 万辆 雷军宣布初代小米 SU7 正式停产

2 月 11 日消息,昨晚,小米 CEO 雷军开启小年夜直播,这是雷军 2026 年开年以来的第五场直播。

雷军在今晚的直播中透露,最后一辆初代小米 SU7 量产下线,正在运送途中,将安排车主提车,这也意味着初代小米 SU7 正式停产。

据雷军介绍,初代小米 SU7 累计交付量接近 37 万辆。购买最后一辆初代 SU7 的车主是一位 50 多岁的老米粉,从事石油行业,曾长期在国外生活,回国后第一时间选择购买小米汽车。

资料显示,初代小米 SU7 于 2024 年 3 月 28 日正式发布,提供标准版、Pro 版和 Max 版,售价分别为 21.59 万元、24.59 万元和 29.99 万元。据了解,新一代 SU7 预计 2026 年 4 月上市,同样提供标准、Pro、Max 三个版本,预售价分别为 22.99 万元、25.99 万元和 30.99 万元。

新一代小米 SU7 全系标配 V6s Plus 超级电机,全系标配激光雷达、700TOPS 辅助驾驶算力、4D 毫米波雷达、Xiaomi HAD 端到端辅助驾驶。

在安全方面,新一代 SU7 还将全系标配 2200MPa 小米超强钢「内嵌式防滚架」,进一步强化车身结构安全。(来源:快科技)

 

《黑神话:钟馗》发布 6 分钟实机预告 冯骥发文:别太严肃 差不多得了

2 月 10 日,游戏科学官方发布了《黑神话:钟馗》贺岁性质的 6 分钟「实机小短片」。简要展示了似乎是人和鬼共同烹制菜肴的内容。《黑神话:钟馗》是游戏科学继《黑神话:悟空》后,推出的全新作品,本作最早于 2025 年科隆游戏展上亮相,目前仍在开发当中,发售时间暂未确定。

视频发布的同时,游戏科学创始人兼游戏制作人冯骥也发微博谈到了这支实机视频。

他这样写道:「不知各位看完后,是会心微笑?一头雾水?还是马上分析出一堆细节隐喻、剧情方向或者新的技术 feature?(……)别这么严肃,差不多得了。」

他也在微博中回答了大家的疑惑,毕竟这支短片没有操作没有战斗没有玩法更没有钟馗,因为「根本没做啊(bushi」。此外,他还解释了为什么这支短片是以「吃」为主题,因为「只有吃这件事,才能带来最高频也最稳定的幸福感」。文末,他也向各位玩家献上了新年的祝福:「即将到来的马年,祝大家总是享受吃饭,偶尔享受做饭;常有不错的胃口,最好还有人一起愉快的用餐。人生不只游戏,还有很多、很多好吃的东西。」(来源:快科技)

 

传百度临近春节秘密启动「O 计划」,内部人士:与百度 App 有关

近日,网传百度内部启动代号「O 计划」项目,内部人士对新浪科技透露该计划与百度 App 有关。

据此前媒体报道,百度 APP 旗下文心助手月活用户数已突破 2 亿,与豆包、千问形成国内三大亿级 AI 入口。百度也曾以 5 亿红包最早入局春节 AI 战,并拿下《2026 北京广播电视台春节联欢晚会》首席 AI 合作伙伴身份。对比行业玩家春节主阵地多为独立 App,而百度包括此次「O 计划」若仍围绕百度 App 展开,可见其仍是百度重点的 AI 入口。(来源:新浪科技)

 

淘宝闪购:三四线城市年货订单增幅超 580%

2 月 11 日消息,临近小年,即时零售平台年货旺销,淘宝闪购年货销量同比增长超 347%,三四线城市年货订单同比增长超 580%,其中大庆、咸阳、宜昌、潍坊、湛江等城市订单同比增长超一二线主流城市。返乡潮下,下沉市场逐渐成为当下年货节的消费主场。

此外,今年春节,淘宝闪购携手全国零售商超及品质仓门店全程「不打烊」,营业商户数同比增长 32.9%,年货节商品总量较去年显著提升,乡县地区 30 分钟送达已成常态,全国重点城市连锁商超及淘宝便利店等合作门店,春节期间线上门店营业率超过九成。(来源:新浪科技)

 

互联网大厂春节红包大战首日战报出炉 千问 App 日活暴涨 727.7%

2 月 11 日消息,QuestMobile 发布数据显示,新春活动启动后,多款 AI 应用迎来用户规模快速增长。

其中,在新春活动首日(2 月 6 日),阿里旗下千问 App 日活跃用户(DAU)暴涨 727.7%,达到 5848 万,较前一日净增超过 5100 万,增长幅度十分显著。相比之下,腾讯元宝在活动首日(2 月 1 日)的 DAU 规模为 2399 万,较前一日增长 2.1 倍,同样实现明显拉升。(来源:快科技)

 

米哈游法务部:终止与汇业律所合作,远景能源撤诉

2 月 10 日消息,米哈游法务部今日发布《关于终止与上海市汇业律师事务所合作的声明》,宣布终止与原常年法律顾问汇业律所的一切合作关系,停止委托其处理任何与米哈游相关的法律事务,同时将上海市汇业律师事务所永久列入公司合作方黑名单,永不合作。

这份声明同时提到,远景能源有限公司已向江阴市人民法院申请撤回前述其与米哈游之间网络侵权责任纠纷案件的起诉,江阴市人民法院已裁定准许其撤诉。(来源:IT 之家)

 

字节跳动图像生成模型 Seedream 5.0 上线,可免费体验

2 月 10 日,字节跳动旗下图像生成模型 Seedream 5.0 正式上线,在视频编辑应用剪映、剪映海外版 CapCut、字节 AI 创作平台小云雀均已可用。同时,该模型在即梦 AI 平台开启灰度测试,图片生成可限时免费体验。

据悉,新模型主要增强体现在准确性与智能水平、更快的图像创建表现力以及联网知识整合能力。在智能水平方面,Seedream 5.0 能够深入理解提示词语义,生成与用户意图匹配度更高、细节更精准、布局更清晰的图像。针对风格化效果,模型的图像到图像功能增强了风格化表现,提供更清晰细节、精致纹理和平衡的照明效果。本次升级还新增了编辑功能,用户可以通过控制笔刷精准选择并调整相应元素。(来源:新浪科技)

 

腾讯混元推出 0.3B 端侧模型,内存占用仅 600MB

2 月 10 日,腾讯混元宣布,基于首个产业级 2Bit 端侧量化方案,正式推出一款面向消费级硬件场景的「极小」模型 HY-1.8B-2Bit,等效参数量仅有 0.3B,内存占用仅 600MB,比常用的一些手机应用还小。

据介绍,通过对此前混元的小尺寸语言模型——HY-1.8B-Instruct 进行 2 比特量化感知训练(QAT)产出,这一模型对比原始精度模型等效参数量降低了 6 倍,并且在沿用原模型全思考能力同时,在真实端侧设备上对比原始精度模型生成速度提升 2—3 倍,可大幅提升使用体验。(来源:IT 之家)

 

千问发布最新图像模型 Qwen-Image-2.0,超长文字渲染,摄影级真实质感

2 月 10 日,阿里巴巴正式发布新一代图像生成及编辑模型 Qwen-Image-2.0。作为千问大模型的图像生成模型底座,Qwen-Image-2.0 集生图和编辑于一体,在 AI Arena 文生图评测中斩获 1029 分,超过 Seedream4.5、Flux2-Max 等模型,仅次于谷歌 Nano Banana Pro 和 GPT Image1.5。Qwen-Image-2.0 支持 1K token 的超长文字输入和 2K 高分辨率,可准确渲染复杂指令,轻松生成专业的 PPT 及信息图,质感媲美专业级摄影师;同时,千问新模型拥有极强中文汉字渲染能力,数百字的古文全文几乎都能完全渲染在图片中。

Qwen-Image-2.0 在 Qwen-Image 和 Qwen-Image-Edit 两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中去,以更轻量的模型架构,实现了生图和改图性能的大幅提升。Qwen-Image-2.0 生图质感尤为细腻,小至老人皱纹的褶皱,大到浩然宇宙,模型生成的人物、自然、建筑等常用图片都极其逼真。在权威评测 AI Arena 中,千问新模型在图像生成中得分 1029,位列第三;在图片编辑中得分 1034,仅次于 Nano Banana Pro。(来源:阿里)

 

机器人首次拥有时空记忆!阿里达摩院开源具身大脑基模 RynnBrain

2 月 10 日消息,阿里巴巴达摩院发布具身智能大脑基础模型 RynnBrain,并一次性开源了包括 30B MoE 在内的 7 个全系列模型。RynnBrain 首次让机器人拥有了时空记忆和空间推理能力,智能水平实现大幅跃升。

在 16 项具身开源评测榜单上刷新纪录(SOTA),超越谷歌 Gemini Robotics ER1.5 等行业顶尖模型。

据介绍,RynnBrain 模型创造性地引入了时空记忆和物理世界推理,这是机器人与环境互动所需的两项基本能力。

时空记忆能力可让机器人在其完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹,从而赋予机器人全局时空回溯能力。

物理空间推理不同于传统的纯文本推理范式,RynnBrain 采用文本与空间定位交错进行的推理策略,确保其推理过程紧密扎根于物理环境,大大减弱了幻觉问题。

例如,运行 RynnBrain 模型的机器人,在执行 A 任务中被突然打断要求先做 B 任务,它能记住 A 任务的时间和空间状态,等完成 B 后继续工作。(来源:快科技)

 

iKKO Mind One AI 小手机国行上市:主摄可翻转、方形 AMOLED 面板,2899 元

制造商 iKKO 旗下 Mind One AI 小手机国行版本现已在天猫发售,该机主打迷你外观,整合 AI 助手,还能安装全键盘保护壳,国内销售的均为 Pro 版机型,8GB RAM + 256GB 存储定价 2899 元。

IT 之家注:Pro 版机型配 H9 硬度面板(海外标准版使用 H7 硬度面板),同时 Pro 版号称内置的 AI 助手可以在全球 60 多个国家地区免费使用,无需支付移动流量 / Wi-Fi 费用。

该机整体尺寸为 86 x 72mm,厚度为 8.9 mm,配备一块 4 英寸方形 AMOLED 面板,手机背面提供可以翻转的 50MP 索尼 1/1.56 英寸主摄。机器搭载联发科 MT8781 平台,匹配 8GB RAM 和 256GB 存储,内置安卓 15 和一款 iKKO AI OS 系统,提供 Nano SIM 卡槽 + vSIM(注:不是 eSIM)。其他方面,该机(在海外市场)提供一款全键盘保护壳,相应保护壳提供 3.5mm 耳机接口,同时内置 DAC 芯片(CS43198),强调有线外放音质。(来源:IT 之家)

 

传奇程序员 John Carmack 设想用 200 公里光纤代替内存

传奇程序员约翰 · 卡马克(John Carmack)于 2 月 7 日在 X 平台发布推文,提出一项颠覆性构想:利用长达 200 公里的光纤线路替代传统的 DRAM,充当 AI 数据的二级缓存(L2 Cache)。

卡马克认为,在 AI 模型训练与推理过程中,为了追求极致的带宽和极低的延迟,传统的 DRAM(动态随机存取存储器)可能并非唯一解。他设想构建一个物理上长达 200 公里的光纤环路,利用光信号在纤维中传输的时间差来暂时「存储」数据。

卡马克指出,目前的单模光纤技术已能在 200 公里的距离上实现 256 Tb/s 的传输速率。根据计算,在这个长度的光纤内部,任意时刻都有约 32GB 的数据处于「飞行传输」状态。

这意味着,这根光纤本质上变成了一个拥有 32 TB/s 超高带宽、容量为 32GB 的存储器。这种「在传输中存储」的方式,特别适合处理具有确定性权重参考模式的神经网络数据。

这一前卫设计让不少资深技术专家联想到了计算机发展初期的「延迟线存储器」(Delay-line memory)。计算机先驱们早在上世纪中叶,曾利用水银管或加金酒(Gin)混合液作为介质,通过声波的传播延迟来存储数据。

卡马克的方案在原理上与其异曲同工,只是将介质换成了光纤,载体换成了光子。相比需要持续供电刷新才能保存数据的 DRAM,光传输的能耗极低,这在 AI 能耗日益庞大的今天具有巨大的理论吸引力。

不过这项技术也面临巨大的技术挑战,尽管光传输节能,但铺设或盘绕 200 公里长的光纤本身成本极高,且配套的光放大器和数字信号处理器(DSP)也会消耗额外能源,可能抵消部分节能优势。

埃隆 · 马斯克(Elon Musk)认同这个颠覆性构想,认为这是有趣的想法,使用高折射率材料,可以进一步减慢光速,增加每公里存储的数据量,甚至在讨论中提出了更为激进的「真空存储」设想,但这些目前更多停留在物理思维实验阶段。(来源: IT 之家)

 

展示量: 34

Pro-C 的「拥挤」与 Consumer C 的「空荡」

AI 创投圈中一个清晰的「共识」正在形成。

近期走访了不少创业者,他们反馈的信号,无论是在北美市场还是国内,生产力类的 AI 应用,其 Pro-C(专业级消费者)用户的付费天花板正在被一次次打破。

比如 Manus 在一月首次出现了几十个月度消费达到 5000 美元的用户。5000 美元/月是 Manus 目前系统设定的个人月度充值上限,对应了每月 120 万积分额度。前阵子,在和 YouWare 明超平直播交流的时候,他的产品里也开始批量出现类似的突破上限的情况。

同时像 Lovable 这样的产品,20 万付费用户就支持了 2 亿美金量级的 ARR,而其典型用户对应的是数百万付费用户级的市场,现在的渗透率才是个位数。

这些信号共同指向一个结论:AI 能力服务 Pro-C 这条路,商业和技术上都通了。

正在形成的共识——ToPro-C 的「新瓶新酒」

ToPro-C 的模式,本质上是把过去 ToB 的生意,用一种全新的 ToC 方式来做,是一种「新瓶装新酒」。它不再是传统 SaaS 那套 SLG(Sales-Led Growth,销售驱动增长)的打法,而是彻底的 PLG(Product-Led Growth,产品驱动增长)。

「新酒」(AI 能力)要装进「新瓶」(增长的方式、商业模式,包括团队组织)里,才是通向下个时代的创新(更详细的可以参见我在 AGI Playground 2025 大会上的演讲:聊过 200 个团队后的暴论:不要拿 AI 造工具,要建设「新关系」)。

ToPro-C 的核心逻辑非常性感:那些能用你的产品赚到钱的人,是你最好的用户。他们能带来超越过去软件天花板的 ARR 和 LTV。

Pro-C 可能是分析师、研究员、程序员、设计师、内容创作者……他们可能是某家大公司里的「特种兵」小团队,也可能是近几年涌现的超级个体。他们有一个共同的特征:他们使用 AI,不是为了「省时间」或「找乐子」,而是为了「赚钱」。他们的使用场景天然处在一套商业闭环中,也可能连接着一个组织的预算。

这就建立了一个全新的价值交换模型。对于普通的 C 端用户,AI 产品的费用大概率会被视为「个人开销」归入「成本中心」。而对于 Pro-C,你的产品可能是他们驱动”利润引擎”的关键要素。

这些用户,看起来是 C(Consumer),但他们的决策和消费行为,完全是由 B(Business)的价值逻辑驱动的。你帮助他们提高了生产力,他们就愿意为你的产品支付与这份生产力相匹配的费用。你的产品越强大,就能让用户赚得越多;用户赚得越多,就越依赖你,也越愿意为你的服务支付更高的费用。这是一个极其健康的价值闭环,也为 AI 应用找到了一个可持续、高 LTV 的商业模型。

ToC 不会一直「too early」,但需要在全球抓「非共识机遇」

今天,ToPro-C 正在迅速地从「非共识」滑向「共识」。

共识意味着安全和确定性,但创业的游戏规则往往是,当一个地方从「无人区」变成「拥堵路段」时,价值发现的红利期就结束了,接下来是残酷的执行和效率之战。

当所有人都挤在同一条赛道里,用相似的思路解决相似的问题,很快就会陷入功能与价格的残酷内卷。但比内卷更可怕的,是一种集体性的「创新惰性」。当一条「被验证」的路摆在面前,人们会下意识地放弃探索其他可能性的艰苦工作,整个行业的思维都会因此而「收窄」。

所以,当大家的重心都被集体晃向 Pro-C 时,反而值得思考的是,这里是不是出现了一个新的「错位」的机会:如果说 ToPro-C 的本质是「把 C 当 B 做」,那么在 Consumer C 这一侧,是不是能够通过技术,让普通用户也可以拥有 Pro 级的表达能力?

过去两年,AI 应用在 ToC 方面的探索的确有些拉胯。大家普遍的体感要么是「光有热闹没留存」,要么是「算不过来账」。这背后确实有客观原因:模型成本高,用户付费意愿低,除了「有点意思」,似乎带不来足够「有用」的价值,用户留存更是一大难题。现在回头看,大部分都是 too early。

过去,一个普通用户想要用 AI 进行单纯的「表达型创造」,比如画个有意思的图、做个好玩的视频,所要付出的时间成本、操作门槛都非常高。对于娱乐和自我表达来说,这种摩擦力是很要命的,用户玩个两三次就不玩了。

但我们必须用发展的眼光看问题,最近业界的几个发展,已经让人闻到了不一样的味道。

最近的视频生成模型,比如可灵 3.0、Seedance 2.0 等展现出了令人惊叹的进化,OpenClaw 也让大家看到了 agent 能力的极大演进。在一些创业项目中,我也看到了 agent 将 Vibe Coding 和多模态能力融合后展现出的交互潜力。这些技术的交汇意味着「表达型创造」的门槛正在无限趋近于零。

可以看到,支撑 ToC 产品的底层技术环境,正在发生剧烈的、非线性的变化。而这些变化,正在为 ToC 创造一个全新的、富含养分的土壤。

我们不知道今天是不是依旧「too early」,但我们可以很确定当这些「富养分」的元素足够多时,ToC 领域就可能存在「开天辟地」的机会。新的内容格式 + 新的内容生产方式,可以形成启动双边平台的破局点。当年的图文、短视频,都是如此。当普通用户也能够轻松创造出高质量的 AI 内容时,优质的 AIGC 内容资产就将持续累积,就可以支撑起另一批用户的「内容消费」。AI 时代在娱乐和内容消费维度的平台级机会,大概率也会以这种方式展开。

无论是 ToPro-C 还是 ToC,从获取更高生存概率的视角,都不能只盯着中国市场,甚至应该更坚决地先在全球市场展开。

国内的巨头们,「过于勤奋」,且有很多「应激」动作。

海外市场,虽然也有巨头,但他们的反应机制往往不会那么「应激」,生态也更为开放。在海外市场,创业者可以拥有更长的发育时期,可以更从容地摸透市场、打磨产品、积累用户,建立起自己的优势。退一步,即便巨头入场,你也可以收获一个较为体面的收购价。今年我们看到 Manus 这样的公司,用事实证明了中国团队完全有能力服务全球的高价值用户。

出海不是为了「高大上」,而是为了活得更久、活得更好。

AI 这一波的创业机遇刚徐徐展开,期待 2026 年能看到更多团队在全球市场探寻开天辟地、水银泻地的机会,这样才会更让人兴奋吧。

展示量: 15

文章分页

上一页 1 … 5 6 7 … 114 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间