Skip to content
  • 51蛙吖蛙元宇宙社交空间官网
51蛙吖蛙 – 元宇宙社交

51蛙吖蛙 – 元宇宙社交

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

摩尔线程回应「75亿理财」:符合公司股东利益;OpenAI卖「周边」,上线秒空;宇树发「机器人App Store」

摩尔线程回应「拟用 75 亿元闲置募资现金理财」:符合公司及全体股东利益

12 月 12 日晚间,摩尔线程智能科技(北京)股份有限公司发布公告,计划使用不超过 75 亿元的部分闲置募集资金进行现金管理。

作为「国产 GPU 第一股」在科创板上市的摩尔线程,扣除发行费用后,首次公开发行人民币普通股实际募集资金净额 75.76 亿元。这意味着,此次摩尔线程拟用于现金管理的资金,最高额度占到了上市募集资金净额的 99%。

在未扣除发行费用时,摩尔线程首次公开发行人民币普通股募集资金总额为 80 亿元。这笔资金原本规划分配至 3 个研发项目,并用于补充流动资金。

然而目前,原本拟投入研发项目和补充流动资金的募集资金,大部分被摩尔线程认定为闲置募集资金,且其中多数可能被用于现金管理。

公告发布后,迅速引发外界热议,舆论集中在「摩尔线程拟用不超 75 亿元买理财」这一话题上。

对此,摩尔线程相关负责人表示,「公司前期明确披露了募集资金的项目计划,所募 75 亿资金有分阶段、明确的研发、技术升级等一系列使用安排,也将严格按照既定募投项目计划的推进。项目实施周期为三年,资金支出将根据项目进度分阶段拨付。因为项目是分阶段投入,当前公司拟对部分尚未暂时闲置的募集资金进行现金管理,以合理提高资金收益,符合公司及全体股东的利益。」(来源:快科技)

宇树首发人形机器人 App Store:复杂动作直接下载,对优秀开发者提供奖励

宇树科技昨日发布视频,宣布首发人形机器人「App Store」。用户可以将训练好的舞蹈、武术、干活等模型一键上传分享,也可以下载其他开发者开发的动作部署到机器人。

同时,宇树还表示「欢迎全球用户和开发者,一起共同开发和分享。对于优秀开发者,会有奖励。」

根据宇树科技官方介绍,其 App Store 内包含用户广场、动作库等内容,用户可以在其中自行下载各项动作和预设,一键 get 复杂操作。

宇树科技表示,未来随着官方的开发,以及其他开发者、用户的分享,将会建立一个庞大的数据库,普通用户可以体验到的内容也能越来越丰富。而且通过移动端 App 就能操作安装,非常便捷。(来源:IT 之家)

 

甲骨文退出自研 AI 芯片赛道,董事长埃里森阐述背后原因

科技媒体 CRN 于 12 月 11 日发布博文,报道称甲骨文(Oracle)董事长拉里・埃里森(Larry Ellison)宣布,公司已出售其持有的芯片设计公司 Ampere Computing 的股份,并从中获利约 27 亿美元(现汇率约合 190.73 亿元人民币)(税前)。

日本投资巨头软银集团(SoftBank Group)于上月斥资 65 亿美元全现金收购了芯片设计公司 Ampere Computing。作为 Ampere 的早期支持者,Oracle 在此次交易中出售了其持有的约 29% 股份,并因此获得了约 27 亿美元的税前收益。

这笔交易不仅让软银在 AI 基础设施领域(如美国的 Stargate 项目)获得了关键筹码,也标志着 Oracle 正式结束了其在通用服务器芯片设计领域的直接投资。

在财报电话会议上,埃里森阐述了出售理由。他明确表示,公司不再认为在云数据中心设计、制造和使用自研芯片具有战略价值。

作为替代,Oracle 承诺实施「芯片中立」(Chip Neutrality)政策。Ellison 强调,为了在未来几年应对 AI 技术的剧烈变化,Oracle 必须保持敏捷,虽然公司将继续大规模采购英伟达的 GPU,但也需要具备部署客户所需的任何类型芯片的能力,而不是被绑定在自研架构上。(来源:IT 之家)

 

马斯克 xAI 与萨尔瓦多政府达成合作,Grok 未来两年进入 5000 余所公立学校

当地时间 12 月 10 日,马斯克旗下 xAI 宣布与萨尔瓦多政府达成合作,将在全国范围内推广聊天机器人 Grok,覆盖 100 多万名学生。根据规划,未来两年 Grok 将进入 5000 多所公立学校,成为 AI 教育项目的重要组成部分。

据英国《卫报》报道,萨尔瓦多总统纳伊布・布克尔选择让 Grok 参与全国课堂课程设计。这名总统以积极推动技术应用著称,不仅推动比特币成为法定货币,也率先将 X 作为政治沟通平台。他更是表示,「萨尔瓦多不是等待未来发生,而是主动创造未来。这项合作将带来超乎寻常的成果。」

据悉,xAI 并非首个进入公立学校体系的 AI 企业。OpenAI 已在今年 2 月与爱沙尼亚合作,为全国中学师生提供定制版 ChatGPT。另外,哥伦比亚农村学生自 2023 年开始使用 Meta 公司的 AI 聊天机器人,结果一年后,当地教师却将成绩下滑和挂科归因于这项技术。(来源:IT 之家)

特斯拉 Model S 被发现搭载激光雷达测试,有望加入 Robotaxi 车队

近日在加州,有目击者发现特斯拉 Model S 车型搭载激光雷达(LiDAR)设备正在进行验证测试。

目前,特斯拉将其 Model Y 用于 Robotaxi 自动驾驶出租车车队。Model Y 尺寸适中,是特斯拉产品线中最畅销的车型,适用于多种应用场景。

然而,测试似乎已扩展至特斯拉旗下一款高端旗舰车型。目击到的 Model S 车辆配备了此前仅见于 Model Y 的全套验证测试设备。尽管此前已多次在美国各地发现 Robotaxi 测试「骡车」(mules),但 Model S 的加入尚属首次。

特斯拉选择少量 Model S 参与测试显然有其深意,这或许暗示着,特斯拉未来可能在其 Robotaxi 平台中引入更高端、更豪华的车型。不妨参考现有出行平台的做法:Uber 有 Uber Black,Lyft 也有 Lyft Black,这些服务通过豪华车型搭配更个性化的出行体验,从而收取更高费用。

特斯拉很可能正在试水这一细分市场,并考虑将 Model S 纳入其网约车车队。(来源:IT 之家)

 

Anthropic 首席科学家卡普兰:AI 可能会在「失控」中不断增强,最终反过来支配人类

据外媒 Futurism 报道,Anthropic 首席科学家贾里德・卡普兰警告,人类正站在一个与 AI 相关的重大分岔口。

卡普兰认为,决定权暂时仍在人类手中,但窗口期正在迅速缩小。他在接受《卫报》采访时表示,最迟到 2030 年,甚至可能在 2027 年,人类就必须决定是否让 AI 模型完全自行训练,并承担由此带来的「终极风险」。一旦触发所谓的「智能爆炸」,AI 可能进化为通用人工智能,在科学和医学等领域为人类带来巨大收益,也可能在失控中不断增强,最终反过来支配人类。

卡普兰直言,这是一条充满不确定性的道路,人类并不知道终点在哪里。(来源:IT 之家)

 

国家出手管控卖车标价与交付时间!比亚迪、北汽率先响应

12 月 13 日消息,近日,国家市场监督管理总局就《汽车行业价格行为合规指南(征求意见稿)》(下称「意见稿」)公开征求意见,提出两大核心要求:明码标价规则、交付时间明确告知。

此外,还提到价格欺诈禁止、促销行为规范、服务收费规范、「付费解锁」功能规定以及汽车生产企业价格行为规范。

《意见稿》发布后,北汽、比亚迪率先响应。

北汽表示:北汽集团作为国有汽车骨干企业,对此表示坚决支持并积极响应。

比亚迪汽车表示:比亚迪坚持长期主义,我们将以《指南》为指引,持续优化自身的价格管理和合规体系建设。(来源:快科技)

国产 3A《影之刃零》定档 2026 年 9 月 9 日,游戏制作人梁其伟发文致谢

12 月 13 日消息,国产单机 3A 游戏《影之刃零》在 TGA 2025 颁奖典礼上公布了最新宣传视频,同时宣布将于 2026 年 9 月 9 日发售。对此,该游戏的制作人梁其伟发文致谢。

梁其伟透露,TGA 颁奖典礼结束后,《影之刃零》团队收获了许多同行祝贺和祝福。这只是一个开始,中国游戏一定会更好,一定会变成每年都有大作在全场引起沸腾。中国市场是世界上最大的游戏市场,而中国也必将产生与市场规模匹配的创作规模。

梁其伟在表示感谢的同时,回顾游戏过往的预告片与实机试玩经历,强调游戏还是要以完整扎实的体验呈现给玩家最为重要,后续游戏团队将聚焦数值循环、剧情悬念等细节打磨,推进研发。

文中还透露了游戏的主角魂与女主角沐小葵,均启用了全新的写实脸模,片中婴儿造型由三位小朋友联袂演出。而面对玩家们对游戏剧情的种种猜想,梁其伟表示很喜欢其中关于「时空旅行」「无限循环」的猜测。

他最后表示,事实上,定档对我们来说也是一段最艰难的旅途的开始。行百里者半九十,我们希望在最后的几个月中,能够交上一份不令大家失望的答卷。我已经预想到接下来的内容制作,打磨和优化方面的艰苦工作,我们团队会把这趟旅途奋力走到终点。(来源:IT 之家)

 

机器学习团队打造出全球最大的三维建筑地图

德国科研团队近日发布了名为「GlobalBuildingAtlas(全球建筑图谱)」的全新数据集,构建出迄今为止最为详尽的全球三维建筑地图,覆盖了地球表面约 97% 的建筑物,总量超过 27.5 亿栋,以细小的三维多边形形式呈现人类建成环境的空间分布。

该成果被视为在城市规划、气候研究以及人类发展监测等领域的一项重要基础设施,有望长期用于追踪全球城市化进程与居住条件变化。

这一项目由慕尼黑工业大学的朱晓香(Xiaoxiang Zhu)领衔的团队开展,依托高分辨率卫星影像、深度学习算法以及用于推算建筑高度的激光扫描技术构建数据集。

研究人员首先选取了来自欧洲、北美和大洋洲 168 座城市的资料作为参考,对算法进行训练,随后向系统输入约 80 万张拍摄于 2019 年的卫星图像,要求模型自动预测每一栋建筑的高度、体积与占地面积。GlobalBuildingAtlas 的空间分辨率达到 3 米×3 米,并被设计为可定期更新,从而形成一个动态演进的全球建筑数据库。(来源:cnBeta)

OpenAI 开始「卖周边」:帽子、T 恤、Sora 主题收藏卡……

OpenAI 成立 10 周年之际,ChatGPT 正式「走进现实世界」,一系列实体周边商品正式上线。

12 月 12 日,OpenAI 在 X 平台宣布「OpenAI Supply Co.」商店正式开张。该商店原本类似内部员工专区,需要公司邮箱登录,多数商品也是早期设计存档。目前,已有部分商品向普通用户开放购买。

该网站在 2024 年 7 月仍标注为「即将上线」状态,而此次是首次面向员工以外的用户开门迎客。消息一出,OpenAI 粉丝迅速涌入,OpenAI 宣告所有产品已经售罄。

据悉,整个商店的核心主题围绕 AGI 展开。目前,AGI 正被视为 AI 终极目标的里程碑,是多家公司激烈争夺的心头好。(来源:IT 之家)

 

浏览量: 4

深聊豆包手机:该关注这场「技术核试验」的什么?

​最近,字节跳动和中兴努比亚合作的「豆包手机」成了科技圈最热、最出圈的话题,甚至引发了社会层面的热议。一时间,关于「封杀」、「反制」的讨论甚嚣尘上。大家都在吃瓜,看大厂之间的攻防战。

如果我们把目光只停留在「谁封了谁」这种问题,就会错过重点。真正的重点,应该是如何看清和手机做了深度整合的豆包手机助手的技术创新到底是什么?以及就算字节这次看似只是扔了个「小炮仗」,但它可能引发的「蝴蝶效应」该如何推导?

以下是我的一些信息梳理和推理思考,和大家一起探讨。

01 热闹之下,真刀真枪的技术如何?

我们不妨先放下巨头冲突的喧嚣,先从技术的视角,拆解一下「豆包手机」的技术,看看它只是简单的「外挂」,还是真正的系统级创新?

通过手机圈内的专家(@ZEALER @ 老戴Donald)对数据的抓包和系统日志的观测,可以发现豆包的技术实现路径,非常「硬核」,绝对是目前看到的第一个具有强泛化能力的 GUI Agent(图形用户界面智能体)。

豆包手机有一个「独立的大脑」。从内存占用上观测,其 Native 堆(大概率是 C 或 C++ 语言编写,直接运行在 CPU 上,跑在安卓虚拟机之外)大小达到了 160MB,这部分是直接连 CPU 的;而跑在安卓虚拟机上的 Java 堆(Dalvik)只有 6MB。这意味着豆包手机里推测是有一个本地推理框架,拥有极高的系统权限和执行效率。它不是一个简单的 APP 外壳,而是把 AI 模型的一部分能力直接埋进了系统底层。

同时,从进程占用和数据包的角度推测,豆包手机拥有一双「独立的眼睛」。它读取屏幕的方式,拿的是非常底层的 GPU 的渲染缓冲区,而不是传统的截屏路径。可以理解为手机里实际上运行着一块虚拟的专属 AI 屏幕,这块屏幕分辨率和人眼看到的一样,锁定 60 帧,亮度为零的无头屏幕(人眼不可见),永远处于「解锁」和「受信任」状态。更重要的是,这块虚拟屏幕和人看的物理屏幕焦点可以分离,不需要抢你的操控,也不需要一直占着你的屏幕。也就是说,你可以在手机上刷着短视频,而 AI 可以在后台的那块虚拟屏幕上帮你去订票、去比价。实现人机互不干扰,真正的「双核」操作。

再看豆包手机是怎么「动手」的?它没有走常规的安卓无障碍路径,而是直接向虚拟屏幕注入事件。这是一种系统级的特权,只有和手机厂商深度合作才能做到。这也是为什么字节必须找中兴合作,因为只有拿到系统底层的权限,才能突破安卓的围墙。

豆包手机是真正的「云端协同」。圈内技术大神通过日志分析,看到当豆包手机助手要做自动化操作的时候,大概每 3 到 5 秒会向云端发送约 250k 的数据包(推理是单帧的 AI 专属屏幕的截图),然后获得 1k 左右的反馈指令。这说明手机在做操作时,是云端的大模型大脑在实时看着屏幕,进行推理,然后下达指令,例如:打开应用、点击屏幕、输入文本、滑动屏幕、等待、记笔记、停止。

从技术层面看,这绝对是业界第一个具有强泛化能力的 GUI Agent。 这种泛化能力之高,能把系统底层权限和云端大模型结合得这么顺滑,不得不说,字节的技术工程能力确实值得点赞。

02 不是「偷袭珍珠港」,而是一次「核试验」

技术看完了,再看意图。

这两天,微信封禁、阿里设限、银行风控,满城风雨。很多人问我:字节这是要向所有大厂宣战吗?这是要「偷袭珍珠港」吗?

我的判断是:不是。

首先,从个人渠道了解到的豆包手机的备货量,以及豆包内部「不知道能活几天」的心理预期来看,他们自己心里很清楚,这更像是一次技术实验和试探,而不是为了立刻大批量出货去席卷市场。

这更像是一次「核试验」。

我猜测字节没有想靠这一款工程机就颠覆巨头的生态,这更多是一次技术实验和边界试探。他们想验证的是:当 AI 真正拥有了系统级权限,真正接管了 GUI,用户体验能做到什么突破?

但坦率地说,这次试验在战术执行上,显得有些像个「新兵蛋子」。行动上有些粗糙了,甚至浪费了一个很好的契机。

这本该是一次珍贵的「核试验」,目的是为了测试技术边界、收集用户反馈。要达成这个目标,就得让它「活」得久一点,反馈拿得足一点。

任何变革的核心问题,都是「谁是敌人?谁是朋友?」。而且大部分时候用户不是朋友,是上帝。即便是为了用户好,用户发现这个手机影响了自己的日常应用的使用,肯定是不行的。

所以这个实验最好的方式就是不要上来就引来尖锐矛盾。不是「直捣黄龙」几乎一下子就把所有的平台方都惊成了敌人,也堵了自己实验的路线。

具体点说,比如一上来如果没有开启操控微信、操控淘宝等大平台的能力(实际上就是目前沟通调整后的状态),这个实验可以低调一点,进行得会更有意义一些。毕竟类似 RPA 型(机器人流程自动化)的工具确实与大部分 APP 的用户协议冲突,如果对方一点不包容地封掉,于情于理都不是问题。而今天这些具有「履约能力」的大平台既不可替代,也没道理把大门敞开给豆包。

所以如果复盘这次行动:技术上很创新,战略上很对头,但在行动上有优化空间。

当然,大多数时候贫穷限制了我们的想象。不管是这次手机出货因此受到影响,或者这场试验即便有浪费,可能对字节也不是问题。资源足够充沛的时候,战术上的细腻是次要的。

03 价值漂移:从「应用内闭环」到「直连物理世界」

核心的问题是,豆包手机这个「技术核试验」,响过之后,会留下什么?

我认为,要看到未来商业生态格局中一种「价值漂移」的可能性。

在这场「价值漂移」中,最核心的问题依然是那个:谁会是 Agent 的朋友?谁是它的敌人?

如果只站在今天移动互联网的存量格局里,不得不承认,会是「敌多友少」的局面。

现有的互联网平台,无论是阿里、腾讯还是美团,它们的商业模式建立在「需求和供给的集结」之上。它们把离散的需求和供给集结在平台上,通过分发流量、广告推荐来获利。它们在意 DAU,在意用户习惯和时长,在意自己的生态闭环。

而 AI Agent 的逻辑会是「直连」。

当 Agent 把那些大平台变成「货架」和「履约执行者」,用户不需要再自己打开 APP,不再贡献活跃度,不再看广告,只把需求交给 Agent 去后台下单——这对平台来说,就是一种「降维打击」。只要平台还在意自身的生态闭环,它们注定会视 Agent 为敌人。

当然我们不能上来就想终局,要看到即便这种变化不可阻挡,这种变化会先从局部分流开始,还不会一下子带来颠覆。就算是 Agent 时代,现有的 APP 也不一定立即会失去自身的价值。例如有些需求是需要「逛」的,比如买服饰、看视频,现有的应用和平台依旧存在价值。

同时,GUI Agent 的技术不会只有豆包具备,相信各家都有在探索和推进。智谱最近就开源了类似的技术,加上字节的这次演示,GUI Agent 正在成为一种行业标配。 接下来,也许所有的大厂都会被迫卷入这场追赶,相信淘宝会有自己的 Agent,微信也会有。大家最终可能都会在自己的 APP 里内置一个「超级助理」,也都会被迫进化,被迫去适应这个「机器能操控能下单」的新世界。

当我们不武断地从「这是一场立即马上的革命」和「这是根本搞不成的闹剧」的二元思维中跳出来,我们才会看到一些「灰度」的价值。因为现有的移动互联网的商业世界虽然严密,但不是没有缝隙,不是没有变化的可能。

大家可以想象一个场景:你家孩子的遥控车遥控器没电了,你需要新的电池了。以前「省钱至上」的你,路径是:研究下这是几号电池,打开(可能不止一个)电商 APP -> 搜索 -> 比价 -> 下单。

未来,如果你的手机里有一个足够信任的 Agent,你可能只是手机拍了下电池发给豆包,随口说一句:「这个电池没电了,帮我买点。」

这时候,Agent 可能不需要再去逛淘宝、京东、拼多多了。如果像南孚这样的电池厂商,直接在官网上开放了专门为 Agent 准备的数据接口,你的 Agent 就可以直接连到厂商,下单、支付,通过现有的物流体系发货。而且这电池未必会比平台买的贵。

所以 Agent 有可能直连物质世界,抹平中间商,让需求端(用户)直连供给端(工厂/品牌)。

对于这些拥有好产品、好服务,但不擅长搞流量、不想被平台「收租」的品牌和厂商来说,Agent 就是朋友。它们不在意用户是否逛了商场,它们只在意自己的商品是否卖出去了。那么,这个世界上就出现了很多豆包手机的朋友。

这就是我说的「价值漂移」。

未来,Agent 可能会成为新的入口、打开新的通道。如果现有平台不合作,不愿意开放数据,那么 Agent 可能会连接更小的垂类平台,甚至可能会跳过平台,直接连接那些愿意开放的垂直厂商、品牌官网。变革未必不能从微小但有意义的地方开始。

当然,这还是一个很远的推演。眼下,豆包手机还需要解决很多问题——安全问题、隐私问题需要重点应对,与各方的谈判协商也还要持续进行。

我们作为吃瓜群众,不要因为现在的混乱就否定了这个方向。我们可能正在目睹一个新的「人机交互」时代的萌芽。毕竟原来的那套「APP 孤岛」的移动互联网玩法,在 AI 时代也应该要变一变了。

所以,不管是大厂还是创业者,或者是商家,每一个商业世界的玩家都得思考一下:当 AI Agent 推动商业生态价值漂移,我在哪里?

 

浏览量: 4

测测任永亮:为什么一家泛心理公司,要造个「有身体」的机器人?

整理|连冉

编辑| 靖宇

在这个狂飙猛进的 AI 时代,任永亮的视角显得独特且柔软。

作为中国最大的泛心理在线社区「测测」的掌舵人,他在 IF 2026 的舞台上,从一个 INTP 的压力与自省出发,剖析了技术如何回应人类最隐秘的渴望——被看见、被接纳、被爱。

对于 5000 万用户而言,测测或许是「恋爱脑必备 APP」,也可能是失恋时的精神支柱;但在任永亮眼中,这更像是一个在人生旷野中指引方向的古老指南针。

面对通用大模型的强势崛起,任永亮坦诚地分享了从「激进的技术信仰」到「焦虑恐惧」,再到如今「坦然笃定」的心路历程。他意识到,垂直领域 AI 公司的生存空间,在于「类人」能力的温度。

在此次大会上,任永亮不仅展示了最新的 陪伴智能体「陪伴小星」 ,更 首次阐述了测测向「具身智能」进军的终极逻辑——打造拥有「共感体」能力的机器人。

为何一家泛心理公司要做机器人?任永亮给出了答案,是 为了「无条件的积极关注」 。他认为,纯粹的线上智能体如同异地恋的朋友,看得见摸不着;而传统的工业机器人只会打拳击、拧螺丝。

测测想做的,是给大模型装上身体和同理心,让它成为一位「爱的使者」。它不是为了替代父母或伴侣,而是为了在原子化社会的缝隙中,提供一种可触碰的、高质量的情感在场。

这是一位理工男跨越 13 年的自我重构,也是对科技尽头的一次深情定义: 当机器开始理解「爱」,或许我们才能更好地理解「人」。

以下是心言集团(测测)创始人兼 CEO 任永亮在极客公园创新大会 2026 上,关于测测到底是什么,关于心理 AI 如何从「在线陪伴」走向「具身智能」,并在技术洪流中重构人类情感连接的演讲实录,由极客公园整理。

嘉宾观点:

· 测测就像是一个古老的指南针,它可能不一定永远精准,但它能在你孤独的旷野中给你一个方向,给你积极的反馈。

· 心理服务最大的价值不是给你答案。无论是咨询师还是 AI,其核心价值不在于专业水平的高低,而在于有没有能力构建一段信任的、良好的关系。

· 真爱是「无条件的积极关注」。这是人类底层的情感操作系统,也是我们做垂直领域陪伴智能体所追求的终极价值。

· 对于垂直领域的 AI 公司,没必要去跟通用大模型比拼底座能力。我们要比拼的是「类人」的能力、感性的能力,这才是泛心理公司的生存空间。

· 智能加上具身,有可能危害人类;只有加上同理心,才能服务人类。我们追求的是「共感体」技术,让 AI 真正具备关爱人类的能力。

· 人与 AI 最大的不同,在于人天然就是一个「品牌」。在图灵测试中,知道对方「是人」这个信息本身,就已经决定了最终的信任分值。

· 技术让「自我」变得空前强大,但也让我们对「他人」的关注越来越少。我们需要陪伴机器人,是为了在减少无效社交的同时,帮我们更清楚地思考「我是谁」,从而建立更深度的连接。

任永亮在 IF 2026 舞台上|图源:极客公园

 

任永亮:大家下午好,今天这个大场面,对于一个 INTP 来说压力有点大。我给大家分享一下我通过做测测的过程,对于情绪价值的一些理解。

 

01

测测是什么:从「恋爱脑神器」

到人生旷野的指南针

 

测测是什么?

现场很多观众都举手表示用过测测|图片来源:极客公园

 

我们官方的定义是:中国最大的泛心理在线社区。但我发现,在小红书的 AMA(Ask Me Anything)活动中,用户给出了更有趣的定义:有人说它是「恋爱脑必备 APP」,有人说是失恋时的精神支柱,还有人说这是「最不愿意让男朋友看到的 APP」——因为她所有的暧昧对象都在这上面测过匹配度。

除去这些标签,测测内部拥有丰富的工具、各类智能体以及两万多名咨询师。

但我认为,它最重要的本质,是一个 帮助每个人构建内在秩序感的工具 。其他所有功能都只是途径,而非最终目的。

为什么中国有 5000 多万用户选择用测测解决情感问题?

我想从心理学角度分享一下。心理学家埃里克森认为,人至少会经历两次出生:第一次是生命体的诞生,脱离母体;第二次是社会性的诞生,即「社会自我」的建立。与其他动物不同,小马生下来就会奔跑,而人需要经历漫长的社会化过程才能真正成熟。

我们有个同事的飞书签名是: 「人生是旷野,而非轨道」。 每个人进入社会的过程,就是步入旷野的过程。在旷野中,我们不断寻找方向。

测测就像一个古老的指南针,它未必永远精准,但它能给你一个方向、一个积极的反馈,让你在孤独的旷野中找到属于自己的路。

 

02

理工男的自我重构与 AI 焦虑曲线

 

我的创业历程,恰恰印证了测测对用户的意义。

刚上大学时,我从县城来到首都,面临学习模式的切换,更经历了从「学霸」到「学弱」的落差。这对一个刚步入社会的年轻人来说是巨大的冲击,这种迷茫与我们用户的感受是一致的。

很多人感叹,虽然大学过得苦,但人生的高光时刻仿佛停留在考上大学的那一刻,往后便是面临社会的「毒打」、评价体系的巨变以及各种冲突。

我创业,本质上是为了解决「我到底是谁」的问题。大学时期,我原本的自我认知破碎了,我需要一步步重建自我:

• 2011 年,我开始创业;

• 2013 年,我们将产品定位为工具;

• 2016 年,转型为平台;

• 2017 年,引入咨询师并开始涉足 AI;

• 2019 年,推出对话式 AI;

• 2023 年,全面接入大模型;

• 如今,我们进入了更广泛的泛心理领域。

这是一个构建自我的旅程。作为一个对科学有崇高信仰的理工男,我竟然成为了五千万女性用户的朋友,这就是我自我构建的结果。

2022 年,AI 浪潮席卷而来。彼时我正值 30 岁到 40 岁的过渡期,本以为在移动互联网领域能做的事已近尾声,面临「中年危机」时,大模型出现了。

面对 AI,我经历了剧烈的情绪起伏。

起初是狂热,作为激进的技术主义者,我认为大模型与心理咨询领域太契合了,于是拼尽全力、付出巨大代价构建了大模型团队。但随后陷入了恐惧——技术进展太快,训练成本太高,对人才要求太苛刻,这根本不是中小公司能承受的。

我们无法触碰通用大模型的边界,但它的能力却在不断溢出。这让每个垂直领域的 AI 公司都感到焦虑。

随着 AI 化的深入以及像 DeepSeek 这样优秀的国产大模型的发展,我已经进入了相对坦然的状态。

我有三点核心思考:

第一, 人的价值不可替代 。无论是咨询师还是其他角色,只要是人类,就拥有 AI 目前不具备的独特价值。

第二, 开源生态提供了生存空间 。随着技术开源生态的建立,垂直领域公司有了立足之地。

第三, 垂直公司无需比拼底座能力 。我们没必要去跟通用模型卷基础能力,那是开源底座的事。 我们要比拼的是「类人」的能力、感性的能力,这才是泛心理公司应该追求的护城河。

 

03

AI 时代的「无条件积极关注」

 

我们最近推出了最新的陪伴智能体——「陪伴小星」,这是我们在垂直行业深耕的结果。虽然目前还在内测,但已获得不少好评。

大家可能会问:一个陪伴型 AI,真的能解决用户的问题吗?

做情感产品十多年,我总结出心理服务最大的价值: 不在于提供答案,而在于构建关系。 心理咨询师的好坏,不在于专业水平高低或收费多少,而在于他是否有能力与咨询者建立一段信任的、良好的关系。

人本主义心理学家罗杰斯提出过一个概念: 无条件的积极关注 。这是人类底层的情感操作系统,也是人际关系的最高境界。

人类底层的情感操作系统|图片来源:极客公园

 

什么是真爱?

真爱就是无条件的积极关注。热恋时,你觉得对方哪里都好,这就是「无条件」。一旦开始问「你到底爱不爱我」,往往是在审视条件——比如秒回信息就是积极,不秒回就是不积极。

现代人之所以痛苦、迷茫,就是因为生活中得到的「无条件积极关注」太少了。因此,垂直领域陪伴 AI 的核心价值,就是提供这种无条件的积极关注。

 

04

为什么泛心理公司要造「有身体」的机器人?

 

数据显示,「陪伴小星」最受 IN(内向直觉型)人群的喜爱。在测测的用户中,E 人(外向型)虽多,但使用陪伴产品的主要是 I 人(内向型)。I 人往往有社交压力,倾向于通过虚拟方式获取情绪价值。

但是现有的智能体更像是一个「异地恋」的朋友:缺乏实体:你看得见却摸不着,感受不到真实的温度;被动关注:它存在于手机里,你不打开,它就无法找到你,无法真正做到「主动的积极关注」。

基于此,我认为下一代 AI 形态必须进化。 我们想在大模型基础上,给它加上身体(具身智能),再加上同理心,构建一个「共感体」。

如果只有智能和具身,它可能对人类构成威胁;但如果加上同理心,它就能真正服务人类、关爱人类。

这也源于我个人的「第三次出生」——成为父亲。我也面临很多育儿困境:孩子说话晚、我没有时间高质量陪伴、用职场逻辑回答孩子问题时的尴尬。在这个 AI 时代,我们也担心如何培养孩子的技能。

放眼社会,结婚率和出生率下降,本质是因为谈恋爱太难、养孩子太难。如果我们能打造出具备「无条件积极关注」能力的机器人,或许能改善这一现状。

极客公园的张鹏老师曾问我:测测做机器人有什么优势?从物理或硬核 AI 角度,我们确实没有独特优势。但作为一家深耕泛心理 13 年的公司, 我们最懂「情绪价值」 。

测测要用心理学的视角,重新做一遍机器人|图片来源:极客公园

 

我们希望打造一款 有情感能力的机器人 ,从「智能体」过渡到「共感体」。我们定义的机器人,不应该只是打拳击、拧螺丝的工业品,也不应是手机里安静等待的程序。

它应该是一位「爱的使者」, 不能代替你谈恋爱,但在你孤独时能提供陪伴;不能代替父母,但在你无助或缺席时,能将爱传递给孩子。

爱是无条件的积极关注,爱是我们找到内心秩序的终极力量。

 

05

人为什么需要陪伴机器人?

 

最后,针对用户常问的几个问题,我做一个简短回复:

第一个问题是 AI 与真人的关系,最大的不同点在哪里?

短期看,真人是看得见摸得着的。但未来仿生机器人也会具备这一能力。

根本的区别在于: 人天然就是一个「品牌」。 图灵测试中有个现象:如果告诉测试者对方是机器人,打分就会偏低;如果告诉他是人,打分就会变高。「是否为人」这个认知本身,就决定了交互效果。这是人类最大的价值。

第二个问题是:人为什么需要陪伴机器人?

工业革命以来,技术让「自我」变得越来越强大。 自我越强大,对他人的关注就越少 ,也就越难做到「无条件的积极关注」。

我们需要陪伴机器人,正是因为我们越来越关注自己。我们需要一种技术,能够填补人与人之间的情感空缺,让每个人的情感需求得到更好的满足。

在测测,遇见更好的自己|图片来源:极客公园

 

第三个问题是:过度依赖机器人,会不会让人与外界的连接变浅?

首先,目前的机器人还做不到让人过度依赖。其次,假设做到了,我相信人与人之间的交流频率可能会降低,但 深度会加深,强度会增强 。因为机器人帮你过滤了大量无效社交,让你更清楚自己是谁、想成为什么样的人、想找什么样的伴侣度过一生。它能帮助你更好地思考人生方向。

这就是我做陪伴机器人的初心:帮助每个人更好地找到自己,想清楚人生的方向、伴侣的方向甚至下一代的方向到底往哪走。谢谢大家。

浏览量: 5

我看 MiniMax 闫俊杰:「心舟」已过万重山

作者|张鹏

编辑| Li Yuan

最近,《罗永浩的十字路口》访谈 MiniMax 创始人闫俊杰的视频在我的朋友圈刷屏了。

这是一场我看着挺惊喜的对话。两个看似处于平行世界的人——一个是互联网初代网红、公认东半球语言大师+自信东半球最好产品人罗永浩;一个是过去极度低调、表达天赋算不上有优势,但是绝对堪称 AI 技术极客的闫俊杰。

这两位硬生生聊了四个小时的「马拉松式」的访谈,其实源于我个把月之前的拉群介绍。客观地说,拉群的时候,我当时是有点担心罗老师能不能说服闫俊杰出来和他进行这种马拉松对话。

闫俊杰毕竟一个典型的理工男,业界也都知道他平时鲜有接受采访或者公开做访谈。面对老罗这样洞察力和表达力都十分犀利的提问者,会不会因为彼此担心变成一场「尬聊」而搁浅?

结果证明,罗老师绝对可以的,他的访谈频谱极其宽广,在视频播客领域一骑绝尘是理所应当的。不过,更重要的是,闫俊杰在这次访谈里让我看到了有意思的变化。甚至可以说是个阶段性的蜕变。

今天我就说说我看到的闫俊杰和他最近这些变化到底是什么?

01

一定要搞一次「纯粹」的技术创业

过去 20 多年,我深度交流、了解、持续观察过大几百个创业者。如果我非要给闫俊杰贴一个标签,那在我眼里, 「渴望 纯粹 」的 技术 创业者可能是最贴切的 。

这要从他「小时候」说起。其实闫俊杰认识我,比我认识他早。因为我们俩第一次见面时候他和我说,早在他大学时期,他就是我当年做科技杂志主编时候的读者,甚至现在竟然还着记得一些当时我每期《编者的话》里关于科技趋势的一些「暴论」观点。

我这辈子做内容一直围着技术趋势和产品创新在转,可能从来没有赢得过「大众」读者群。所以得知一个当时的大学生就对这些「小众科技内容」如数家珍,看得出来他首先是个「真极客」。

「真极客」对技术的趋势都是敏感的。外界往往觉得中国这一波大模型创业浪潮是被 2022 年底的 ChatGPT 引爆的,但在闫俊杰的时间表里,他早在 2021 年底就已经出发了。

在创建自己的公司之前,他是商汤最年轻的 CTO。他在商汤科技 7 年,经历了 AI 1.0 时代的整个周期。我记得 2023 年极客公园前沿社冬季会晤的一场闭门交流中,闫俊杰曾经分享过那个技术时代的无奈:那是一个模型不通用,只能靠工具补齐的时代。A 有需求就为 A 定制一个模型,B 有需求就为 B 定制一个模型。业内唯一能做的通用化努力,只是把生产工具做通用了,用来更批量地生产那些注定无法通用的模型。

这种范式看起来热闹,但本质上没有跳出做项目的桎梏,边际成本极高,社会价值却很薄。这个技术底座上,根本不可能做一个「纯粹」的技术创业。这一度让他很沮丧和迷茫。

说白了: 如果继续沿着旧路走,为了定制模型而把工具做通用,是死路一条。真正的出路必须反过来——把模型本身变成通用的。 只有模型足够通用,定制成本才会归零,技术才能真正普惠。

这个认知的转折点发生在 2020 年的一个深夜。当他第一次读到 CLIP 的论文时,那种冲击感让他激动的两三天没睡着觉。他在那篇论文里看到了一个惊人的未来:文本和图像之间的柏林墙倒塌了,它们在深度学习的底层本质上是统一的。这意味着 AI 1.0 的死结解开了:只要预训练模型做得足够好,AI 就通用地处理世间万物。

在这次老罗的采访中,他又一次提到:「当这件事发生时,如果你真的相信人工智能,你就应该去做点什么。」于是,他几乎立即决定 All in 开始自己的 AI 创业。

当 2022 年末 ChatGPT 横空出世的时候,刚开始创业的 MiniMax,其旗下的 Glow 每天处理着数以亿计的 Token,体量一度超过早期的 ChatGPT。这看起来似乎还不错,但实际上是令人担忧的。

我曾经问过闫俊杰他有没有遗憾当时 Glow 这个产品形态的选择问题?闫俊杰的思考有点不一样,他觉得 Glow 停留在娱乐层面,并非产品定位的主动选择,而是被当时的技术水位锁死了边界—— 是一个模型的技术能力,决定了一个产品的最终形态。

这一认知,被随后的一次事故残酷的印证了:仅仅因为一次参数调整导致对话智能度轻微下降,三天内活跃用户就跌去了 30%。

这让他进一步确信,依托技术创新的商业回报不是靠运营、技巧和工程复杂度堆砌的,而是底层技术能力的直接映射。在这个逻辑里, 追求 AGI 与追求商业回报不再是两条平行线,而是完全重合的同一条曲线——智能每提升一分,用户的留存时长就增加一分。漂亮的商业数据不再是技术的对立面,而是检验模型是否逼近 AGI 真相的唯一试卷 。而这,就是所谓「更纯粹的技术创业」。

自此之后,MiniMax 所有不太容易被人理解的决策,都基于这套逻辑。比如 2023 年,当大多数人还在研究如何复现 LLaMA 时,MiniMax 决定要做 MoE(混合专家模型)。在当时,除了不开源的 OpenAI,外界几乎没有成熟参考,这是一片无人区。选择这条路,意味着没有开源社区的作业可抄,一切都要摸黑探索。代价是惨重的——MiniMax 经历了 3 到 4 次严重的预训练失败,每一次模型崩了,就意味着两个月的研发周期白费,以及单次高达 1500 万美金的算力成本打了水漂。

时代给了搞技术的新环境,这时候最关键的就是不能有「烧钱的羞耻感」,这背后核心是要有信仰和够坚定。如果相信 MoE 架构的上限更高。 为了那个能支撑起大几千亿参数的上限,他需要更纯粹,必须忽略「算小账」。

在这次罗永浩的对谈里,他讲到的敢于在全模态上做研发,也是同样的逻辑。

在创业第一天,他的动力和决心都是来自于一个论断:真正的 AGI 一定是多模态的。但是对于一个早期资源有限的创业公司,真要要坚持文本、语音、视觉三线并行确实很少见,因为在旁人眼中这是「兵力分散」。

最终让闫俊杰坚持践行这个论断的,本质上还是基于第一性原理的「纯粹」。他发自内心的相信 Scaling Law,相信不同模态在深度学习层面是等价的,那么即便早期众所周知的算力限制,不能上来就搞「原生多模态」,但是 MiniMax 还是坚持把它们作为三个独立模型训练。看得出来,他始终在为最终的融合做准备。

选择单独的模态聚焦「放卫星」维持「技术形象」,是资源有限条件下的「精神胜利法」。但如果更纯粹一些去看技术竞争的底层,还是需要直面有限资源,但不能放弃解决根本问题。

哪怕要走之字形路线,要有点悲壮的长期「追赶」,也没关系。因为这才是那个「更纯粹的选择」。

02

在「冲击」里才能锻造「道路自信」

我相信对闫俊杰和国内其它很多大模型创业者,2025 年都是天崩开局。

2025 年春节,DeepSeek R1 的突然爆发,给整个国内大模型行业带来了巨大的冲击。那种震撼感,不亚于当年的 ChatGPT,几乎在一段时间内把所有国内大模型创业者都「干自闭了」,所有人都沉默了相当长时间。

我看到在和老罗的采访中,闫俊杰也很坦诚地回溯了那个时刻,他也陷入了长久的自我反思。别人的成果突破带来的冲击,直接让他开始自省: 是技术路线有问题吗? 是我们的团队降低了要求? 还是 我们 搞了其他的杂念, 在追求 AGI 的路上不够坚定了?

我相信对于国内所有的大模型公司,「自省」之后,都面临着选择。一方面是国内同级生里出现了得高分的同学,这已经动摇了大家反正都相对落后硅谷的「模糊状态」,这时候必须对于是否要继续海量投入,继续在模型本身较劲追赶甚至寻求超越做选择。

面对国内本身就看重尽早产生商业收入的「资本审美」,如果你不能破釜沉舟在技术上紧紧咬住,甚至能保持领先的极少数,那就真不如尽早思考「开源节流」的事情了。

据我了解,闫俊杰的选择是把自己更彻底地扔进模型技术这个更纯粹的维度去死磕。曾经被外界还有猜测所谓依托模型可用能力「沿途下蛋」做产品工厂,去抓用户提收入,进而支撑估值逻辑的另一种路线,反而明确不存在了。闫俊杰的选择是「华山只有一条路」和「狭路相逢不能躲」。

有意思的是,他还做了一个极其实用、也极其简单有效的决定——在 战略上坚决聚焦技术,同时组织上, 发更多的钱 ! 用这种最直接实在的方式,让大家把丢掉的信心捡回来,把分散的注意力聚回来。还是那个逻辑,忠于目标,做该做的有效动作,不要有「羞耻感」。

在我看来 2025 年这一年,MiniMax 的聚焦和坚定之后,确实连续打赢了三场坚定信心的硬仗:

(1) 架构创新的抢跑: 2025 年 1 月,当行业还在 Transformer 的舒适区里内卷时,MiniMax 率先发布了国内首个线性注意力架构(Linear Attention)模型 MiniMax-Text 01;6 月,更是开源了全球首个大规模混合架构推理模型 MiniMax-M1。

虽然后来的 M2 模型并未完全沿用这一特定架构,但 这种敢于偏离主流的探索本身, 在我看来是有 含金量 的。 它证明了 MiniMax 绝不是只会等着硅谷发论文再跟进的好学生,而是真正严肃的 AGI 挑战者——敢于为了更高的上限,去试错别人没走过的路,去无人区寻找更优解。

(2) 底层算法的反向输出: 在 M1 模型中,MiniMax 还提出了一种全新的强化学习算法 CISPO 。这不仅仅是一个技术名词,因为随后硅谷巨头 Meta 发布的 ScaleRL 训练框架也采用了这一算法。这是中国创业公司在底层算法逻辑上,对国际巨头的一次罕见且硬核的技术输出。

(3) 定义交互的新标准: 到了 10 月,随着 M2 模型的发布,MiniMax 首次将 Interleaved Thinking(交错思维链)推向了行业标准。这种让模型「像人一样边想边做」的能力,迅速获得了 OpenRouter 等国外知名开发者平台的支持。随后,不少大模型公司才纷纷跟进。这一次,不再是硅谷定义规则,而是 MiniMax 在定义什么是「更好的交互」。

这三场战役之后,在和老罗的对谈中,我其实反而看到了和年初时候相比,一种不一样状态的闫俊杰:似乎一种松弛感出现了。这种松弛感,可能也是因为他手里拼图的最后一块—— 文本模型 ,终于拼上了。

他和老罗的交流里,其实有一段很重要的信息。当时非常坦诚地盘点了一下 MiniMax 的家底: 两年前,他们的语音模型做到了国际领先;一年前,视频生成模型也冲到了国际前列;连音乐模型现在也是全球三强。 唯独语言模型,之前一直还要差点火候。但随着这次新模型 M2 的发布,MiniMax 的语言模型得到了国际开发者的认可,开始被用来做 Agent 和写代码——这意味着 MiniMax 补齐了最后一块短板。

他向老罗描绘了一个比外界认知更加残酷的 AI 技术竞争格局。他认为在美国,真正能坐在大模型牌桌上的其实只有四家公司: OpenAI 、Google、Anthropic,以及 X.AI 。那么他心中 MiniMax 的位置,则是成为 全球极少数具备全模态整合能力的公司 。 「客观来看,我们可能是中国唯一一家,在文本、视频、语音、音乐全模态上都做到国际领先的公司。」

而让他在这个全球技术格局中保持自信的,是 中国公司独特的「效率优势」 。比如他跟老罗算了一笔账:美国的这四家核心公司,估值和收入可能是中国公司的 100 倍,但技术领先幅度可能只剩下 5%。 「中国公司花美国同行 1/50 的钱,做出来的效果只差 5%,而且这个差距还在缩小。」

闫俊杰相信当全模态的数据和模型完成最终整合时,将通向一个从量变到质变的时刻。「我们现在还没有合在一起。我觉得实际上现在是我们最虚弱的时候。」

这句话的坦诚是符合闫俊杰的性格的,但这句「现在是我们最脆弱的时候」在公开访谈里说出来,是不符合他这些年来对外沟通的谨慎风格的。这种变化,只能说明他内心应该已经完成某种印证「道路自信」的构建。

能说自己现在很脆弱的人,大多不那么脆弱。他已经看到了某种明确技术能力上的自信。其实闫俊杰是一位非常关注底层逻辑的人,但如果有自信,一定是因为一些底层逻辑得到了验证。比如过去两年外界对谷歌一度非常看衰,觉得巨头掉队了。但闫俊杰却一直非常笃定地跟我说:「谷歌一定会追上来」,「他们的 TPU,非常值得关注进展」。

现在看来他说的是对的,他看透了算力基建对模型迭代的决定性支撑,以及 TPU 和模型深度共振的意义。今年 Google 的帝国反击战,确实也和其充分利用了 TPU 这个阵地,进行了充分发挥优势的技术突破紧密相关。

那么从这个访谈里看到的 MiniMax 多模态模型能力「分头并进,最终融合」的路径,可能就是闫俊杰道路自信里重要的底层逻辑。

从他这次和老罗的交流细节来看,有理由相信,「天崩开局」的 2025,可能也恰恰是闫俊杰自身「道路自信」最终建立的 2025。

03

商业世界里谈理想和追求,

不应该再有「羞耻感」

曾几何时,在中国做一家真正的技术公司,想很纯粹的依托技术本身形成大的商业价值闭环,是无比艰难的。过去很多年,所谓技术公司跑到最后,技术本身都往往只是个在最终价值创造中看似不可或缺,但其实也占比很少的东西。

这可能来自于技术本身在特定时期的局限,也一定和我们的特定时期的商业环境有关。但不管怎样,那些出发时候带着技术信仰和热情的创业者们,很多人也被商业世界的调教到要不就是放弃最初的目标,要不就是不得不接受现实,去适配环境,甚至被环境所改造。

由于几乎没有新兴技术创业公司的成功案例,以至于一段时间以来,技术理想这个真正的「核动力」,在一个人或者公司没做出伟大成果之前,都是「不足为外人道也」。甚至是在商业世界你公开说「理想和追求」,都成了有点「羞耻感」的东西,因为很少有人理解和相信,还会觉得你装 X。

但到了今天这个新的技术时代和新的社会环境,情况也应该开始改变了。很多人觉得只有硅谷可以支持「技术理想」,但我觉得不要简单接受结论,而是要拆解为什么是这样,以及改变怎样才能发生。

历史可以告诉未来,但历史不会就是未来。这种改变需要的可能就是一个合适的技术时代和一个足够成功的案例,之后星星之火未必不能燎原。

就像很多人都没意识到,DJI 这样的一家公司,在深圳就激励了多少新的硬件创业者敢于鄙视「性价比」,进而敢于要做全球最好的产品,拿到最高的毛利,然后做更伟大的公司。今天这不就是新的常态吗?

「纯粹」是有意义的,把更高的技术追求和更大的商业价值结果变成一个统一逻辑,开始成为越来越符合时代和环境的技术创业路径。

看了闫俊杰和罗永浩这这四个小时的交流,能感受到闫俊杰这几年的从思考到实践的闭环,正在打破了一种隐形的「理想主义羞耻感」,不再把技术追求包裹到某个流行的,为了取悦投资人的商业故事里,而是写下一个自带生命力的、统一的新故事。

它的好处是,你不再对世界有局促和含蓄,而变成了坦荡—— 只要你自己足够相信 这个「大一统」故事 , 就可以说出来和值得做下去。该羞耻的是那些只看见历史,而不敢下注未来的人,不是这些技术创业者们。

在和老罗的采访中,闫俊杰有一段说的挺好的:如果要反思技术做得好,到底需要什么。他把它总结为两个词,一个是想象力,一个是自信。美国企业在自信方面做得很好,他们敢于讲我要引领这个行业。中国科技企业要更上一个层面,要引领世界,归根到底也需要坦荡的自信。

世界总有人会相信和支持你,管他是因为发自内心的认同,还是不明就里的 FOMO。时代给了技术创业者伟大的机遇,如果本身所有投资人最终都要浪费 95% 的钱(这就是风险投资投资的本质),就让他们都浪费在「哥伦布」身上,这才更有意义。

闫俊杰打了个样,我希望他继续纵情向前。也希望更多新一代中国技术创业者们,在这一个全新的技术时代,保持纯粹,「心舟飞渡万重山」。

*头图来源: 《罗永浩的十字路口》

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

浏览量: 5

语核科技翟星吉:离钱最近的 Agent,才是 AI ToB 的唯一出路

在 AI Agent 创业的热潮中,翟星吉和他创立的语核科技,选择了一条看起来有些「反共识」的路径——专注于 ToB 的销售场景,帮助企业打造「数字员工」。

在他看来,AI Agent 必须贴近企业的核心业务流程,解决最实际的问题,才能真正创造价值。「离钱近」不仅是语核的产品策略,也折射出这位 95 后创业者对 AI Agent ToB 赛道的冷静思考。

在极客公园创新大会 2026「重塑关系专场」的小场深谈中,翟星吉分享了他个人转型之路、团队构建心得以及语核科技在 AI Agent 商业化探索中的思考与迭代。

翟星吉关于 AI ToB 与 AI 创业的精彩观点:

  • ToB 的核心是解决「堵塞点」而非制造「工具」 传统的 SaaS 往往因为无法直接量化价值而陷入销售困境,AI Agent 必须切入企业最核心的业务流,解决那些不仅重要而且「堵塞」的问题。只有解决了这些痛点,客户才会有立即付费的意愿,而不是仅仅将其视为一个可有可无的管理工具。
  • AI 的本质是杠杆,要撬动高价值生产力 工具作为杠杆,其产出取决于使用者的基础价值。C 端普通用户的单位时间价值有限,杠杆效应不明显;而企业主、职场精英以及企业组织本身是为了高效构建生产力而存在的,在这些场景下,AI 带来的效率提升(如转化率微小的提升)能被巨大的基数放大,产生显著的商业回报。
  • 人机协作的演进:从 L2 到 L4 目前的 Agent 处于 L2 级别(人机协作),主要替代初级员工的繁琐工作,需要人类专家审核;未来的目标是迈向 L4(高度自治),届时 Agent 将具备与高级员工对等的业务理解与执行能力。在这个阶段,企业实际上是在为「结果」付费,而非为「人头」发工资。
  • 创业者的核心竞争力是「认知迭代速度」 在快速变化的 AI 时代,最重要的素质是保持开放心态和极高的认知斜率。团队需要具备「滑跪」的能力——即便上一秒在激烈争论,下一秒发现对方正确时也能立刻采纳并执行。勇气在于快速决策,更在于发现错误后快速修正。
  • Agent 将重塑组织形态 正如工业革命将手工作坊变为流水线工厂,Agent 的普及最终会引发组织形态的变革。未来的公司可能呈现出极高的人效比,通过「人类规划器 + AI 执行器」的模式,甚至可能演化为一种新形态的人力资源外包平台,企业仅需少量核心人员即可驱动大规模的 AI 劳动力。

以下为翟星吉在活动中的对谈实录:

 

01

从「震撼」到「创业」,

机会比恐惧更重要

 

主持人 :大家好,我是极客公园的编辑主持人,今天很高兴看到大家来到极客公园创新大会的现场。这边是非常年轻的创业者翟星吉,因为年初的时候 Manus 特别火,AI Agent 激起了大家非常高的兴趣,也有对 AI 的焦虑。今天我们特别把星吉请来和大家聊一下,语核科技做 ToB 端 AI Agent 的时候有什么样的体会,包括在探索整个 AI Agent 行业方面有什么好的看法。首先,想请星吉介绍一下自己,让大家熟悉一下。

翟星吉 :谢谢极客公园的邀请。我是翟星吉,语核科技创始人兼 CEO。我们是一家比较年轻的公司,2023 年 5 月份成立,到现在两年半的时间。我 1996 年出生,本科读的是电气工程,毕业之后去了帆软软件,是中国最大的 BI 大数据和低代码公司,在里面工作了 5 年。大模型出来之后,我第一波出来开始和 CTO 一起创立了这家公司。我们现在主要做 AI Agent 数字员工,侧重的是技术销售这个场景。简单来说,就是当采购方需要购买复杂产品或服务时,我们的 Agent 能帮助供应商理解客户复杂的业务需求,用自己的产品线进行配单、报价和技术支持,最终促成成交。

主持人 :听起来是非常垂直的方向。你大学学的是电气工程,和写代码有关吗?

翟星吉: 有一些相关,我对嵌入式开发很感兴趣,自学了不少,也打过一些比赛。但电气工程主要面向强电,和纯软件还是不太一样。毕业后进入帆软,才算真正深入 ToB 软件行业。

主持人 :你第一次接触大语言模型是什么时候?当时是什么感受?

翟星吉 :2022 年底,2023 年初,ChatGPT 发布之后。我的一个同事告诉我这个东西真不错,一定要试一试。我试完之后受到了极大的震撼。那个时候我在做产品,一直认为产品经理就是输入大量信息,在脑子里抽象、解构、组织成逻辑,再输出结果。我做了一件事,丢了用户的原始数据进去,让 ChatGPT 3.5 梳理产品场景。它确实没那么聪明,不过也还能看,大概 60 分的水平。我一直认为做到顶尖的产品经理依赖天赋,但其实 60 分已经做到了比较普通的水平。所以,当我发现 ChatGPT 真能达到这个「普通」的基准线时,我的认知被刷新了。当天试完之后,我就跟我们现在的 COO 打电话,说这个东西一定和工业革命一样厉害,可以把以前人脑子里做的很多事情完全做到,它可以是外置大脑,把很多思路思维解构出来无限放大。

主持人 :一开始是兴奋,后来有感到恐惧吗?你评价自己当时作为产品经理是多少分?

翟星吉 :90 分。我不担心,我看到更多的是机会。我对价值很敏感,判断力和决策力也比较强。我看到这件事情的时候就知道有无限大的价值,我思考的不是怎么被替代,而是能用它干什么。当天用完之后几乎就决策我们要创业做大模型相关的产品。做什么不重要,但一定要做。

主持人: 这个执行力也非常快,ChatGPT 是 2022 年底出的,你相当于 2023 年 3、4 月份就开始创业了。

翟星吉: 应该是再早一点。我还走过一些弯路,因为我没有真正意义上机器学习的技术背景,所以 1、2 月份学了半个多月相关的内容,但发现这个东西没那么大用处。我应该写 prompt,应该调模型做事情,所以就放弃了,开始构建应用。

主持人: 在奇绩,陆奇给过你们什么重要的建议吗?

翟星吉: 最好的一定是他在宏观上宏观趋势上的判断,第二是帮我们梳理团队基因和每个人想要什么,第三是教我们如何系统性地迭代产品、技术、商业化与组织。

 

02

从 ToC 到 ToB,

找到「离钱近」的场景

 

主持人 :听说语核并不是你的第一个创业项目,之前有过其他尝试吗?

翟星吉 :语核是我的第一个创业公司,但中间经历过一次比较大的方向调整,现在是第二个创业项目。我们公司 2023 年 5 月成立以后,相对蛮顺利的,3 个月后拿到奇绩创坛的投资。那个阶段我们在产品定义上比较成功,但在商业思考上却不够深刻,导致商业选择不够正确。

主持人 :当时想做的是什么产品?

翟星吉 :2023 年我们一开始做的是 ToC 的桌面端 AI 助手,核心功能跟莫妮卡差不多,划词选中后快速解释、翻译、总结,帮用户便捷使用模型。面向大学生用户,三四个月做到了十几万用户、日活过万,但商业化不太理想。去年 4 月,我们停下来复盘了半年,才决定转向 ToB 的 AI Agent 方向。

主持人 :为什么从 ToC 转向 ToB,语核这个产品你们怎么把它想出来要做 Agent 的?

翟星吉 :我们复盘发现,大模型带来的是生产力变革,工具本质是杠杆,杠杆撬动的是使用它的人的生产力价值。普通 C 端用户的时间价值不高,基数小,杠杆效应就小。我们要找生产力价值更高的用户。两类人群符合要求:一是合伙制企业里的合伙人,他们是超级个体;二是企业里的职场精英和中高层,他们也是个人生产力很强的人。或者直接面向企业级市场,企业本身就是为了高效构建生产力而存在的组织。只要能帮企业提高一点点效率,比如把 100 个线索成交 5 个变成成交 6 个,营收增长率就是 20%。基数足够大,杠杆效应就足够大。我们最终选择了 ToB 市场,当时只是定了这个大方向,具体做什么场景,怎么做,面向谁,不断选择、不断修正、不断迭代就好了。

主持人 :那为什么最终选择 Sales 这个场景?

翟星吉 :我们有一个核心认知:要做企业最核心业务流里的东西,解决核心问题。以前在传统 SaaS 公司,销售成本很高,因为卖软件本质上不会对企业的经营带来直接改善,效果无法量化,需要画饼说服对方这个在管理上有价值。我们想解决实际业务流中特别堵塞的点,解决后客户马上愿意付钱。Sales 场景就完美契合,我们不是做 Sales 本身,而是做售前解决方案专家,为 Sales 提供武器弹药。比如帮留学中介机构分析客户画像,推定制化方案和成功案例,提高成单率。

主持人 :最终的实际应用效果怎么样?

翟星吉 :我们第一个客户是一家留学中介机构。去年留学市场在萎缩,用我们产品前,他们营收同比下滑;使用我们的产品后,营收变成正增长 10%。我们收了几十万,但带给客户的增量营收是千万级。这让我们开始思考商业模式是不是出现了问题:给客户赚这么多钱,但他只付这么点钱。后来发现,用户决策有价值锚点,取决于他认为值多少钱,而不是成本多少。传统 SaaS 按成本定价,是因为用户无法量化系统价值。我们能够给客户新的价值锚点:带来的增量价值是多少。

 

03

如何制造「数字员工」

 

主持人 :中国真正赚钱的 SaaS 没有几家,里面有非常多的难点,所以像语核这边用 AI 做这个事情也是非常好的改革。大家现在在飞书或者钉钉里也有一些 AI 助手或者数字员工这样的同事,帮你做会议纪要,提醒日历上的事件。你能不能从一个 AI 员工的制造者角度来跟大家分享,我们怎么去制造所谓的 AI 数字员工,包括在这个过程中你们看到的一些难点是什么?是人和 AI 的交互吗?还是其他的?

翟星吉 :我们看到最大的难点是选择本身。Agent 最终能带来多大价值,取决于它做的事情本身价值够不够大。我们秉承的观点是帮用户解决最核心业务流程里最核心的堵塞点,他一听到就愿意付钱。技术上要能真正实现承诺。不能给用户描绘宏大愿景,但技术上只能做到人类初级员工水平,最终业务用不起来。

主持人 :数字员工目前难以做到中级或顶级 Sales,可能的难点是在哪?是因为人际关系吗?我知道销售涉及到人情往来,你跟客户的关系是你成绩的一部分。

翟星吉 :我们在选择的时候,如果岗位强交互、强关联,特别是建立在线下沟通和信任关系上,那么这个岗位不适合用 Agent。我们做的不是 Sales 本身,而是售前解决方案专家,为 Sales 解决武器弹药。难点是 Agent 能否足够好理解公司上下文、业务上下文和用户预期,有足够强的计划能力,懂人类专家的 knowhow。

主持人: 相当于是 Sales 最好的工具。

翟星吉: 可以理解是这样。在人的业务流程里,它是多工种协作的,一些工种最后会被 Agent 替代,有的工种相对比较靠前,能更容易实现。

主持人 :哪些职业近期容易被 AI 取代?

翟星吉 :容易实现的 Agent 一定是岗位本身 SOP 清晰、创造性弱的工作,特别是一些信息重组、加工类工作。比如常规翻译、速记、单据录入等,飞书的会议纪要就很好用。我不会提具体职业,但 SOP 清晰、创造力不强,这两点特征能辐射出很多岗位。

 

04

年轻团队如何攻克「老登」场景

 

主持人 :听说你的 CTO 是从 GitHub 上「挖」来的,还让人家大二辍学?

翟星吉: 他是 2003 年的,我们认识时他才大二。2023 年 3 月,我在 GitHub trending 榜上找基于 OpenAI API 的项目,一个个联系作者。那时候看好 AI 机会的人会自然聚在一起,就像移动互联网初期一样。

主持人: 怎么说服他加入的?父母没意见吗?

翟星吉: 价值观对齐是关键。我们都对技术充满热情,有极客精神。他当时拿了去清华还是什么的夏令营 offer 但拒绝了,是很有主见的人。父母最初有顾虑,但看到他的决心后也很支持。

主持人: 我会比较好奇语核的团队,因为你是 1996 年的,你从 GitHub 上挖来的 CTO 是 2003 年的,这么年轻的团队反而选择 B 端销售这种,我认为非常「老登」的场景,你们认为这里面有反差感吗?

翟星吉 :还好,我以前的公司也很年轻。我 2023 年离职的时候平均年龄是 27、28 岁,也是很年轻的团队,但做中国 ToB 行业营收将近 20 亿,经营模型很健康。ToB 公司分产品型和服务型,如果做产品型公司,产品不一定需要很「老」。我们团队平均年龄 24 岁,分产研和营销端。产研招非典型路径下的年轻人,比如辍学创业、连续创业者;营销端有经验的人,懂客户和场景。我们的人才组织工作做得特别好,有很好的培养体系,能让团队快速成长。

主持人 :传统的 SaaS 有个悲剧的地方,你这边谈一个客户就需要留下一组人谈定制化。现在的 AI native 的公司怎么解决这个难题?

翟星吉 :在我的视角看的 SaaS,以前不成立的核心有两个,一是天花板不够高,第二是定制化,但定制化还是由于天花板不够高导致的。为什么天花板不够高?本质是企业为管理本身付钱的意愿不够。加上定制化需求,导致商业模式问题。对我们来说,第一是把价值讲清楚,让用户愿意为价值本身付钱,天花板可能更高,我们还是蛮相信它对标的就是人力资源市场。第二是提高产品在合同中的核心占比,只做和 Agent 相关的部分,不做七七八八的事情,这是我们的解法。我们单个客户的履约周期相对比较短,可能一个月左右,标准来讲是这样,并且投入资源不会太多。

 

05

AI 如何重塑组织

 

主持人 :语核作为一家 AI 原生公司,你们团队内部怎么用 AI?

翟星吉 :如何经营一家 AI Native 的公司,我们内部是完全重构了业务流。比如做战略规划时,人做上层规划器,让模型执行所有研究工作,用 Deep Research 产品快速出分析报告。我们很重视内部一个叫 Agent 数字化运营的岗位,这个岗的核心价值就是帮助团队定义业务流程,找哪些环节可以用 Agent 重构。比如营销端,新客户进来后,用 Agent 生成完整背调报告;见过客户后,基于增量信息迭代报告;客户需求进来后,用 Agent 生成初稿解决方案。每个环节都重构掉,包括 HR 面试记录、总结等。

主持人 :我猜你们团队应该非常少的人,非常精简的架构。

翟星吉 :人确实不多,特意控制人效比,希望能做成高生产力组织。我们做的事就是帮助企业用数字员工提效,自己一定得是最佳实践。

 

06

Agent 未来展望与创业心得

 

主持人 :现在是 2025 年底,如果让你来想,我知道这一定是很难,你认为 AI Agent 下一个会引爆的点在哪里?或者说创业者该关注哪些方向?

翟星吉 :这确实是很难的问题,所以我坦率先讲不知道。但我会有一个观点,就是可以关注那些「最有理想的人」在做什么,他们追逐的方向大概率就是未来趋势。现在 Agent 还处于单点突破阶段,但点会连成面,最终引发组织形态的变革。就像工业革命把手工作坊变成流水线企业,Agent 将催生全新的人机协作组织形态。

主持人 :你对语核有什么期望吗?现在都是点,会做成全平台吗?

翟星吉 :首先从出发点看,我们是技术驱动加愿景驱动的公司,所以一定会不遗余力地将底层生产力变革赋能到真正有价值的地方,不会给自己设太多限,不管是 ToC,还是 ToB,这个都不重要,我们的愿景就是要把生产力带给大家。短期来说,我们会继续深耕数字员工,明年计划推出第二个数字员工,形成员工矩阵。每个数字员工都要做到 90% 以上的准确率,具备足够的业务价值和技术壁垒。长期来看,最终可能就是一个新时代的人力资源外包公司,企业注册一个账号就能获得大量 AI 劳动力,快速把公司运转起来。

主持人 :听起来非常诱人,大家以后都是 1 人公司,1 个人加 100 个 Agent。到现在你创业大概有两年多的时间,我相信你肯定是百感交集,大家都知道创业 1 年相当于别人活 5 年,甚至 10 年。你会有什么总结或心得给到台下的大家吗?如果他们想创业的话,你会给大家什么样的建议?

翟星吉 :首先别人给的建议都不重要,这是最重要的。但我可以分享四点心得:第一要有勇气探索未知,找到自己真正想要的;第二要有快速判断和果断决策的能力,以及坚持这个决策的勇气;第三要有把愿景变成现实的执行力,仰望星空,脚踏实地;第四也是最重要的,要有开放的心态和快速迭代的能力,不断修正自己的选择。我觉得这是一个优秀的人才或者说优秀的创业团队应该保持的状态,要完成这四点蛮难的。

主持人: 如果能完成这四点,所有人都是创业者了。所以最重要的是保持开放和快速迭代?

翟星吉 :没错。这是最难的,也是最重要的,我们现在招聘就很注重这一点。这个时代最大的竞争力就是认知迭代速度,你的斜率要足够陡。首先就是要坚定地选择,去落地、实践,而不是空想;其次是心态足够的开放,能听进去不同的意见,不断跟别人碰撞、交流,要拥抱冲突,有勇气找出正确答案,再修正自己的决策。我们团队讲究「滑跪」的能力,就是说我上一秒还在和你激烈争论,下一秒发现你是对的,就立刻采纳你的观点。快速修正、快速执行,这才是关键。

 

07

提问互动精选

 

主持人 :最后有一个特殊的环节,我们选了一些小红书用户想问你的问题,我代表观众来问一下你。第一个问题:以前买 SaaS 是买工具,用不好是自己的问题。现在如果买语核的数字员工,性质就不一样了,万一数字员工说了什么不该说的,闯祸了,这个锅是谁的?

翟星吉 :这是很好的问题。这个问题本质和自动驾驶一样,我们现在的状态是 L2,是人机协作,目标是 L4。当前特别严肃的场景,Agent 生成内容需要人工审核。我们先替代初级员工,变成初级和高级协作状态。当 Agent 准确性足够强,与人类高级员工水平对等时,会直接跳到 L4,这个基础上犯的错当然是我们的 Agent 承担,毋庸置疑。这个时候最好的商业模式就是,你把发给人的工资发给我就好了,人背 KPI,我们的 Agent 也可以负责。

主持人 :刚才你说 L2 级的员工可以替代一些初级员工需要做的繁琐的事情,一个老生常谈的问题,如果把新手的工作用 Agent 取代了,以后会出现类似人才断档吗?没办法从初级升到高级,在语核内部,咱们怎么解决这个问题?

翟星吉 :我们的视角可能有效不同。我们做业务专家型 Agent,要和人类专家对话梳理,把他们的 SOP 和思考路径拿出来。这些知识以前在专家脑子里,初级员工成长靠老专家带,速度慢。如果工作做好,可以把老专家的知识体系方法论梳理清楚,初级员工成长更快,不会在初级状态待很多年。未来的目标是解放生产力,让每个人发挥自己的创造力,做自己真正想做的事,让 Agent 来做执行工作,我们想要加速这个过程。

主持人 :现在搭建 Agent 门槛越来越低,客户看到你们的逻辑,在内部复刻一套,怎么避免这种风险?

翟星吉 :没办法避免。但做 Agent 需要业务专家和能力把业务知识系统化方法论化,以及技术基建工作。企业端可能做不好这两点,这还是蛮有难度的。另外,我们站在更宏观视角,看到 N 个企业的需求,做更抽象的解决方案,更接近第一性原理。单点企业输入信息不够多,不一定能看到更大的 picture,但我能拿到更多的信息,我就能看到更好的东西。

现场观众提问 :谢谢翟星吉的分享,我记录了一个问题。因为我们也是一家 ToB 的公司,已经有很好的 Revenue,正面临 PMF 这个阶段,您讲的挺有借鉴意义。想请问贵公司的产品在降本和增效里是怎么样的定位?我觉得这个蛮影响我们产品的方向,所以请翟总详细介绍一下,谢谢。

翟星吉 :我们是两者都认可的。我们认为这个时代有足够价值的 Agent,要么是能帮企业赚来新的钱,要么帮他省掉很多钱,至少是原来的 1/5。这不是二选一的问题,而是这两点能做到一点都足够好。我们的产品定位上是两者都不排斥,具体到复杂的 Agent,可能是多个子 Agent 组成的 Multi Agent 系统,有的服务于增量营收,有的服务于降本,就像人类的岗位里面也会存在不同的工作,我觉得不冲突。

主持人 :今天非常高兴能和星吉聊 Agent。近期我们也会做成节目发在极客公园平台上,大家有什么想问的可以在播客下留言,我们会转给星吉。大家也可以关注星吉的公众号「语核科技」,非常感谢大家!

浏览量: 5

OpenAI 发 GPT-5.2,瞄准专业用户;超越苹果,华为重夺第一;迪士尼 10 亿美元投资 OpenAI

OpenAI 推出 GPT-5.2 瞄准「代理型 AI」竞争前沿

OpenAI 宣布推出最新大模型系列 GPT-5.2,将其定位为「迄今为止最适合日常专业使用」的模型,同时被视为在愈发激烈的「代理型 AI」竞争中的关键一步。 

据介绍,GPT-5.2 系列包含 Instant、Thinking 和 Pro 等不同版本,相比 GPT-5.1,在制作电子表格、构建演示文稿、编写代码、理解长文本、处理图像、调用工具以及执行复杂多步骤任务等方面都有明显提升。OpenAI 在对外材料中强调,该系列模型整体精度更高,「幻觉」更少,尤其是 Thinking 模型在专业场景下更适合用作高可靠性的智能代理内核。

GPT-5.2 将从即日起陆续在 ChatGPT 中上线,率先向 ChatGPT Plus、Pro、Go、Business 和 Enterprise 等付费用户开放。(来源:cnBeta.COM)

连续两周超越苹果 华为重夺中国手机市场份额第一

12 月 11 日消息,据市场研究咨询机构 BCI 最新发布的数据显示,自华为 Mate80 系列发布以来,华为手机国内市场份额连续 2 周超越苹果,重夺国内市场份额第一。
华为重夺中国手机市场份额第一离不开 Mate80 系列的加持。
11 月 28 日,Mate80 系列正式开售,线上线下行情火爆。据媒体报道,Mate80 系列正式开售前 6 天,预订人数已超过 200 万,首批 30 万台现货不到一分钟全部售罄。(来源:TechWeb)

微软消费者 AI 业务负责人苏莱曼:要创造「符合人类利益」的超级智能

12 月 12 日消息,北京时间今天凌晨,据彭博社报道,微软消费者生成式 AI 主管穆斯塔法・苏莱曼强调,要推动一种「符合人类利益」的超级智能,并承诺如果出现危及人类的结果,就会立刻停止。
苏莱曼在彭博《The Mishal Husain Show》节目中表示,公司绝不会继续推动任何可能脱离控制的系统,这种观点本应是行业常识,但目前仍属少见。
去年年初,微软收购了苏莱曼的初创公司 Inflection AI 的知识产权和大部分员工。之后,苏莱曼加入微软。
此前,微软的大部分 AI 工具主要依赖 OpenAI,而在苏莱曼入职后,微软便开始责成其开发能够与业内最佳产品相媲美的产品。(来源:IT 之家)

谷歌 Gemini 3 实战浏览器:AI 整理标签页,生成交互式 Web 应用

12 月 12 日消息,谷歌昨日(12 月 11 日)发布博文,宣布基于 Gemini 技术,推出 AI 实验浏览器项目 Disco,将用户的浏览器标签页直接转化为定制化的 Web 应用。
Disco 的核心亮点在于其首发功能 GenTabs,该功能利用谷歌 Gemini 模型,将用户浏览器中打开的标签页瞬间转化为定制化的 Web 应用程序。
谷歌希望通过这一工具,让浏览器不再仅仅是信息的展示窗口,而是变成能够主动协助用户完成任务的生产力平台。(来源:IT 之家)

钉钉发布新版本:上线 AI 灵动回复功能,可自动回复同事聊天

12 月 11 日晚间消息,近日,钉钉 8.1.10 版本正式发布上线。在这一版本中,用户呼声较高的听记 AI 问答和 DingTalk A1 录音卡升级均已实现。此外,钉钉聊天框新上线了 AI 灵动回复功能,AI 自动给出高情商回复建议。用户将钉钉更新至最新版本,均可使用以上功能。
上新 AI 问答功能后,AI 听记不仅能记录并转写总结,还能基于沟通内容检索信息,回答问题,识别沟通中提到的待办和行动。在学习、面试、项目沟通、销售拜访、咨询时,钉钉用户都可以在 AI 听记的转写纪要详情页面,使用 AI 问答功能,与 AI 协作完成具体的工作,实现效率提升,不再需要翻找原文。(来源:新浪科技)

迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频

12 月 11 日消息,OpenAI 官宣,迪士尼公司与 OpenAI 达成协议,使迪士尼成为 Sora(OpenAI 的 AI 生成视频平台)的第一个主要内容授权合作伙伴,共同探索想象性叙事的新可能性。
作为这项为期三年的新授权协议的一部分,Sora 将能够生成由用户提示的短视频,供粉丝观看和分享,这些视频将基于迪士尼、漫威、皮克斯和星球大战品牌中超过 200 个动画、面具和生物角色,包括服装、道具、车辆和标志性环境。
此外,ChatGPT Images 也将能够将用户的几句话在几秒钟内转化为完整生成的图像。该协议不包括任何人物肖像或声音。(来源:IT 之家)

Opera「AI 智能体浏览器」Neon 上线:月费 19.9 美元,号称每周都有大变化

12 月 11 日消息,据外媒 TechCrunch 报道,经过数个月测试后,Opera 的 AI 浏览器 Neon 现已正式向公众推出,用户需要每月支付 19.90 美元(注:现汇率约合 140.8 元人民币)。Opera 在 5 月首次公布 Neon,并在 10 月向部分用户开放早期体验。
Neon 与 Perplexity 的 Comet、OpenAI 的 Atlas 等产品一样,将 AI 聊天机器人直接整合进浏览器界面。用户能够向 AI 询问网页内容、让 AI 生成小程序和视频,并让 AI 代办各种任务。(来源:IT 之家)

苹果 Shazam 上线「热门片段」功能,揭示音乐中最受欢迎的段落

12 月 12 日消息,苹果的第一方音乐识别应用 Shazam 昨天上线了一项名为「热门片段」的新功能,可展示一首音乐中最受听众欢迎的片段。
结合苹果官方新闻稿,这项功能可以展示用户在何时调用 Shazam 识别音乐,适用于 Shazam 音乐排行榜中的热门歌曲,还能够展示歌曲各个段落的受欢迎程度。
不过需要注意的是,这项功能目前还没有在 iOS、macOS 版 Shazam 上线,目前尚不清楚苹果何时会给这两个平台推送新功能,而且该功能基本上只覆盖一些比较热门的歌曲,稍微小众冷门的歌就没法展示。(来源:IT 之家)

人类史上首次!英伟达投资公司在太空中训练首个 AI 模型

12 月 11 日消息,由英伟达投资的轨道数据中心初创公司 Starcloud 近日宣布,已成功实现人类首次在太空中训练大语言模型。
上月中旬,Starcloud 发射了一颗搭载英伟达 H100 芯片的卫星。该公司透露,这颗卫星目前正在轨道上运行基于谷歌开源模型 Gemma 的应用。
此外,Starcloud 还使用莎士比亚全集训练了由 OpenAI 创始成员 Andrej Karpathy 开发的 NanoGPT 模型,使其能够以莎士比亚风格的英语进行表达。(来源:快科技)

 
浏览量: 4

朱啸虎投资,Refly.AI黄巍:n8n、扣子太难用,Vibe Workflow才是更大众的解决方案

种子轮拿到数百万美元融资、估值近千万,朱啸虎的金沙江创投、高瓴创投和 Classin 共同投资。

Refly.AI 给自己的定位是更适合大众的 Vibe Workflow 产品。

为什么要做 Vibe Workflow?原因很简单,现在的 Workflow 产品 n8n、扣子都太难用,以及团队对于 Workflow 价值的认可。

他们的目标,是让不会技术的人也能轻松把自己的流程经验复制并分享给其他人,实现价值。

不仅仅是用 AI 来降低搭建 Workflow 的难度,Refly.AI 还把 n8n 中的节点升级成为单独的 agent,每个 agent 配上 2-3 个工具。在保留 agent 动态性的同时,获得传统 Workflow 的可控性与稳定性。

看起来有些激进,但 Refly.AI 确信这样的方式才是有效利用模型能力的最好方式。

为什么如此笃定?既然做 Workflow,怎么控制成本,怎么保证完成度?Refly.AI 取代 n8n 的底气又来自哪里?

在 Refly.AI 的新版本发布之际,我们和创始人& CEO 黄巍聊了聊,想搞清楚,AI-native 的 Workflow 应该长什么样。

以下内容经 Founder Park 编辑整理。


超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

 

 

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;
  • 不定期赠送热门新品的邀请码、会员码;
  • 最精准的AI产品曝光渠道

 

01

Vibe Workflow:

agent 的智能+workflow 的可控

 

Founder Park:Refly.AI 现阶段的功能定位,也就是 Vibe Workflow,应该怎么理解?

黄巍: 从 AGI 发展主线来看,一端是以 Manus 为代表的 Agent 形态,本质上这是一套基于自然语言驱动的 Workflow:用户给出一句指令,系统自动完成后续任务。另一端则是以 n8n、Dify 或纯代码为代表的传统 Workflow,更强调精确性,可以对程序行为进行细致建模。

在实际使用中,这两种都存在明显问题。以 Manus 为例,整体成本高、稳定性不足、执行时间难以预期,更关键的是,同一位用户多次提交相同指令时,产出的结果往往并不一致。而在 n8n 或 Dify 等工具中,一旦流程稍微复杂,就需要通过编写代码来维护 if-else 等控制逻辑,对非程序员用户非常不友好,也抬高了使用门槛。

我们认为 Workflow 本身有价值,希望在保留 Agent 动态性的同时,获得传统 Workflow 的可控性与稳定性,所以 把 Agent 和 Workflow 结合,统称为「Vibe Workflow」。

它的核心特点有几层:

首先,搭建成本无限降低,一句话就可以搭 Workflow。产品的核心在于将 Agent 进行白盒化,提供一套「Agent Editor」,并在此基础上对 Workflow 的底层结构进行了重构:每一个节点本身都是一个 Agent,用户只需为 Agent 编写 prompt、选择合适的 tools,系统即可完成多步规划与问题求解;相比之下,传统 Workflow 中的单个节点往往只负责调用一个 API 或执行一段代码。

第二,我们给每个 Agent 一台沙箱,让它操作电脑去写代码、根据我们给的 tools 做数据拉取等操作,再做可视化呈现,解决 if-else 逻辑。传统 Workflow 里复杂的 code 流程,现在全都可以省略,变成一个节点。内部测试显示,在相同任务下,一个 Refly.AI 节点可以替代大约 20 个 n8n 节点的功能。

Refly.AI 的交互形式

这样, 用户面向的 Workflow 被极大地简化了,所有操作都是自然语言表达,不需要懂搭建逻辑 。同时,我们让每个节点任务足够简单,即使像 Kimi K2 这样的模型,也能近乎 100% 完美解决问题。再通过稳定的编排引擎串联起来,只要我们的节点数量和复杂度上去了,理论上我们可以解决无限的问题。在我们内部有一个说法,Refly.AI 已经达到了所谓的 AGI。

Founder Park:如果每个节点都是一个 Agent,成本会比 n8n 贵很多,会比 Manus 便宜很多吗?

黄巍: 整体算下来,通过 copilot 配合,用 n8n 搭一个 8 到 10 个节点的流程,可能要花 3 到 6 个小时,加上中间的调试成本,估计至少也是大几十万 token 的消耗。但是在 Refly.AI,一句话生成 Workflow 本身消耗的 token 是非常低的,可能也就几千甚至上万个 token,现在 Kimi K2 这样的模型已经能够非常好地完成这个任务。

执行层面,我们让每个任务都变得简单,每个任务被简化为简短具体的 Prompt,可一次性执行完毕。该过程仅消耗 1 至 2 个积分,成本约 0.1 至 1 元。相比 Manus 单任务数美元的成本,这降低了至少 5 至 7 倍,而且其他人可以复用这个成果。后续调用时,token 消耗可能仅为原本的 50% 甚至 10%。

Founder Park:传统 n8n 的很多节点有确定的结果。但你们的 workflow 有四五个 Agent 节点,如果每个节点输出确定性达不到 100%,四五个节点下来,折损就会比较大。这个怎么解决?

黄巍: 这是这是产品选择上的一个折中。既然选择了 Vibe Workflow,并且每个节点都是 Agent,肯定达不到 n8n 的准确度。我们放弃了一部分的准确性和稳定性,去换取更大用户规模的使用。

核心策略在于通过大幅降低使用成本与门槛,来平衡用户对准确率的诉求。本质上,这是 试图用门槛降低 10 倍的优势,去换取稳定性降低 1 到 2 倍的代价。

我们的场景和 n8n 也不一样。n8n 多用于 RSS 监听与分析,而我们更强调内容产出。用户组合多模态、音频、视频模型,产出一篇报告或一个数字人视频。这些模态对准确率的要求不高,只要 70% 内容是对的,听上去有用,用户就觉得 OK。

我们完全放弃算了数字或企业自动化操作这种非常准确的场景。虽然是 workflow,但更强调为用户产出一个创作结果,比如小红书文案或概念讲解 PPT,用户获取结果后可下载并进行二次微调。

我们希望为用户提供 80% 有用的结果,用户愿意为它付费,并做二次编辑。未来我们还会提供大量的编辑能力,让用户闭环地完成编辑工作,但这是长远考虑。

Founder Park:也就是说,Refly.AI 现在能满足大部分 C 端用户有 AI 参与的一些内容生成型的任务。

黄巍: 对,我们不是做那种企业里需要 100% 稳定的 automation 任务。

Founder Park:那你们现在定义的核心用户画像大概是什么样子的?

黄巍: 早期,我们更倾向于那些有 n8n、Dify 使用经验,但觉得搭建很复杂,或者在寻求简单替代方案的用户。以前他可能用了别人的 Workflow,或者复刻某个大 V 的 Workflow,觉得挺好用,但自己不会改。

我们希望这群人来到我们平台,为此,我们在产品设计里有一个非常重要的动作,就是把 n8n、Claude Skills 或者其他 Workflow 平台做迁移,甚至是产品化的迁移功能。也就是说,你可以一键把那边的东西导过来,放在我们平台上运行。这是我们的第一批用户。

第二个场景,是我们自己有体感、也确实能解决问题的场景,就是现在定义的自媒体场景。为什么选这个?因为我们发现,现在模型每天都在更新,今天是 Gemini,明天是 Claude Opus。这些模型单点使用不会产生多大作用,但很多自媒体用户想把它们串起来,比如把 Claude Opus 和 Gemini 串成两到三个节点的工作流,做一个完整的产出,然后拿它去写文章、录视频。这类需求非常多。

另外,还有很多用户觉得每天跟热点压力很大,经常跟不过来。那能不能用 Refly.AI 搭一个工作流,每天自动抓热点,再按照自己的风格,批量生成文章或播客内容,然后去做推广和投放?我们自己也活跃在 Twitter,有大概 3 万粉丝,对这个场景有比较强的实感,也看到这里确实需要这样的工具。所以这是我们第二波重点的小规模场景:一方面我们有体感,另一方面用户确实有需求。

第三个方面,是这个方向的 ROI 和放大效应都非常大。如果有一个自媒体用户觉得这个工具有价值,用起来了,其实就相当于把他的粉丝一并覆盖和辐射到了。这也是我们早期重点面向的用户群。

在这个基础上,如果我们能把自媒体场景打深打透,还可以继续向外扩张。比如教育场景,或者职场白领场景,像写报告、监控内容、做产品分析等;再比如偏金融场景:某个财报发布了,希望基于它,用「巴菲特视角」写一篇财报分析等等。我们往外扩的时候,会更多聚焦在这类偏赚钱、偏职场、偏教育的场景。

 

02

用户的行为数据才是真正的数据飞轮

 

Founder Park:你们希望用足够多的 Workflow 模板来帮助很多普通用户解决他们的痛点问题。用 Workflow,是现阶段解决这个问题比较好的方式吗?

黄巍: 从长期来看,理想状态当然是:用户只需要说一句话,系统就能端到端帮他把事情做完。这是一个大家都在追求的美好愿景。但就目前来说,大家对模型的发展和能力边界都有一个基本共识:模型可以解决一部分问题,但仍然离不开人的参与。

所以现在会有「Context Engineer」这样的角色,强调要充分感知用户丰富的 context 和 memory。模型有能力解决问题、调用工具、写代码,但前提是:它要真正理解你的 context,要「活在」你的 environment 里,跟你保持同频协作,才能更好地帮你解决问题。

我们提出 Vibe Workflow,就是希望先把这个环境 build 出来: 用户来到 Refly.AI,可以把自己的知识,以及更重要的——自己的行为(action)沉淀下来 。

Action 是最关键的。

在传统的 Dify 时代,大家更多只讲「知识库」:你把知识丢进来,但知识本身的价值有限,因为模型不知道用户在真实完成一个任务时,具体的执行步骤是怎么走的,用户的思考路径是什么。缺少行为,这些知识其实很难发挥真正价值。

在 Refly.AI 里,从技术底层看,用户在跟 AI 交互的过程中,其实是在同步沉淀知识 + 行为。举个例子:你有一个需求,要抓 Product Hunt 上的内容发到自己邮箱。在这个过程中,你会不断表达个性化偏好:想抓周榜、日榜还是月榜?你希望抓完之后不仅生成音频,还想生成一个「双口相声」版本发给你?这些都是你的 preference。

在这个过程中,模型帮用户完成了第一层冷启动,而用户把个性化知识融进了自己的行为里,这整套交互就构成了用户和 Workflow 之间的一种「个性化经验 + action」。

对平台来说,这意味着:我们采集到了你最有价值的数据——你是如何围绕一个任务,完成一系列行为的。这有点类似今年大家常提到的 DeepSeek 的「思维链数据」:即模型在完成一个任务时,每一步的思考和执行路径。我们其实就在帮助用户沉淀这种「思维链行为数据」。

Refly.AI 目前推荐的 Workflow 模板

第二点是:一个用户在工作场景中的思维模式,其实是相对有限且可枚举的。比如一个内容工作者,日常工作大体就是几条路径:关注热点 → 做选题 → 产出内容 → 做分发。这些行为是可以被枚举出来的。

这就意味着,一旦平台能够把你的这些行为路径都枚举出来,真正感知到你作为内容创作者,在这个环境里可能产生的各种动作,我们就可以对「你这个人」做一个建模:在下一个时间点,出现类似情境时,你大概率会采取什么 action,我们是可以去做「predict next action」的。

有了这样的数据和预测能力,本质上我们就是在收集大规模用户在工作场景中的行为数据。

当数据量足够大,再配合持续的算法设计和尝试,我们就可以迈向下一步:在未来的移动端场景里,用户来到 Refly.AI,只需要表达一句话,我们就可以真正实现端到端、无接管地帮他把任务做完,而且结果是高度符合他个人习惯和预期的——因为我们掌握的是他最关键的行为数据。

这就是我们的一个更长远的目标:通过持续收集和建模用户的 action 行为数据,在工作场景下,有可能率先实现一种真正意义上的 AGI—— 一句话,端到端、无接管地帮你把工作执行完。这是我们长期的思考方向。

Founder Park:也就是说,Workflow 只是你们切入这个事情现阶段的一种方式。

黄巍: 对,它既是一种切入方式,也是收集用户 action 和思维链数据的最好方式 。 我们是在搭建一个环境,用来收集用户最有价值的数据。

如果只是一款 chatbot 产品,跟用户简单聊几句,没有任何真实的行为交互,你几乎收集不到他的行为数据。你最多知道他喜欢什么、不喜欢什么、现在在哪里,这类数据是非常浅的。我们希望走得更深一层,真正感知用户的 preference、action,以及他是如何完成一项工作的。我们认为,Workflow 是一个非常好的环境和媒介。

所以我们的出发点就是: 把 Workflow 这件事做得足够简单,让更多人进来用 。比如用户量从 20 万扩展到 2000 万,一旦有了这种规模的数据和偏好,我们就有能力去做「predict next action」——预测用户下一步行为。 这其实就是我们在技术层面更底层的意义。

Founder Park: 如果用户需求的 Workflow 是由模型给他生成的,那你们想要收集的 action 具体是指哪些?

黄巍: 如果你让 AI 帮你完成一件事,模型一次性就搞定了,那我们其实收集不到什么有价值的数据。我们真正希望看到的是那些中长程、复杂问题的解决过程。

在 Refly.AI 里,一个节点大致相当于 n8n 里的很多节点,我们等于是把底层那些细碎、价值不高的 action 屏蔽掉了。真正有价值的是:当用户要完成一个动作,需要很多步,而模型一次性解决不了,他就不得不和模型持续交互。

模型先生成一个 Workflow,如果用户去改某个节点的 tool 或 prompt,这其实就是在给模型做「审阅和反馈」——这是第一层反馈。

第二层是:以模型当前的能力,一次生成不到你想要的结果是很常见的。你在第二阶段、第三阶段继续生成,这些新生成要怎么基于现有的内容去参考和调整?这里面又会产生一轮反馈和交互。

最后,当你经过多次生成和修改,觉得这个 Workflow 差不多达到了目标,就会去运行它。如果这次运行没有报错、结果符合预期,这本身就是一次非常强的正反馈:说明你和 AI 之间围绕这个任务的整个交互路径,是成功的。

对我们来说,这意味着我们拿到了 用户在完成一个中长程、甚至更复杂任务的过程中,如何和 AI 交互,以及如何判断任务对不对、好不好的一整套强反馈信号。

而且,这个 Workflow 还可以被发布成模板到社区。其他用户来跑,如果觉得解决了自己的问题,会去评分、点赞,这又形成了新一层反馈。

所以在这个环境里,我们可以持续拿到多维度的反馈数据:

  • 这个任务最终有没有价值?完成过程中需要人接管多少次?
  • 整体完成效率高不高?比如:
  • 之前他要一个小时才能做完,下次是不是能缩短到半小时?
  • 现在要消耗 80 万个 token,未来能不能优化到 40 万?
  • 之前必须用 Claude Sonnet 4,能不能在不损失效果的前提下换成 Kimi K2?

在这些维度上,其实都有非常多可以优化的空间和场景。

Founder Park:这些 action 数据可以形成数据飞轮吗?

黄巍: 简单来说有几个层面:如果模型一次性生成,用户觉得结果很好,直接分享出去,这本身就是一个正向反馈;但如果用户需要反复交互、多次人工接管,或者觉得使用成本很高,这些也是非常有价值的反馈信号,会促使我们去优化产品,比如:能不能把原来需要三次接管,优化成一次甚至零次?

和传统 chatbot 不同的是,在那里用户问完一个问题转身就走,你很难拿到完整的反馈链路。而在我们的产品里,用户是带着一个明确目标来的:从提出需求,到完成目标,中间必须走完一条清晰的路径,整个流程会在系统里被完整记录。

在这个过程中,用户一方面会贡献自己的经验,另一方面也会直接给 AI 反馈:哪里错了、哪里没有满足预期。可能一开始,用户和 AI 需要三轮交互才能达成目标,我们的目标就是把这个交互次数、时间成本不断往下压,让效率越来越高。

基于这些数据,我们可以持续优化 prompt 和我们自己微调的小模型。比如:AI 怎么更好地根据用户意图拆分任务?怎么在上千个 tools 里快速选出最相关的那一个?这些都有非常明确的优化空间,也都有清晰的反馈指标,推动产品持续迭代,这就是我们所说的「数据飞轮」。

 

03

从画布到 workflow,

做能 scale、低门槛的产品

 

Founder Park:Refly.AI 从之前的画布定位到现在 vibe workflow,这中间经历了哪些变化?

黄巍: 现在这个产品形态,跟我之前在飞书的经历有很大关系。

我在飞书负责过字节最早一批「大模型 + 低代码 + Workflow」的项目 Aily,Coze 的核心成员也来自那支团队。所以,我们这批人对「AI + Workflow」有比较系统的认知。我自己在飞书做过程序员、产品、销售、设计和运营等各种岗位,等于把第一代低代码 Workflow 的全链路都跑了一遍:数据建模、流程编排、界面搭建、发布运营和权限体系。

第二阶段,是我们在飞书内部做的「AI 前沿 + 低代码」项目。简单说,就是用 AI 重构低代码的所有模块:AI 生成数据模型、生成流程、生成界面,甚至生成全栈应用。后来这个方向产品化,变成了 Aily。我们当时有一个判断:在 AI 时代,低代码会长出一种新形态——只要有一个足够强的 Workflow,就能承载搭建 App 的全过程。界面可以交给 AI 生成,数据可以作为 Workflow 的一个 tool,在流程运行过程中读写。

但产品对外之后,我们发现一个现实问题:即使给 Workflow 加了 AI,故事很美好、内部体验也不错,普通用户依然用不起来。本质形态还是传统 Workflow,只是加了一些 AI 节点,更像是 n8n 的进化版。我的总结是两点:

第一,Workflow 的价值是确定的,但要真正规模化,一定要让普通人能用得上;

第二,用户愿意为「先进的生产经验和流程」付费——飞书之所以能卖出去,很重要的一点是,大家希望买到的是字节跳动这家公司的先进流程。

这也是 Refly.AI 商业化的核心假设: 如果一个流程本身有价值,把它封装起来,是可以被规模化销售的。

即使不会搭建 Workflow,也可以找到自己需要的直接运行。

回到创业。我们一开始就想做 Workflow,但两个人团队上来就啃这么大的工程不现实,所以先从一个更小的切口做起:围绕「用户的 context 很有价值」这个命题,做了一个剪藏插件,让用户保存文章,再基于文章做总结和每日归档。后来发现最大的问题是 data connection 很难规模化,这条路就暂时放下了。

紧接着,随着 ChatGPT Canvas 和 Claude Artifacts 出来,我们意识到:如果已经收集了那么多 context,只做「总结」太浪费了,应该让用户在这上面写东西、创作内容,也就是 DeepResearch 的最初形态。但我们很快发现,这种形态要管理大量复杂 context,对普通用户的门槛非常高。

于是我们切到「画布」形态,把这个产品推向市场,结果火得很快,也顺利拿到了一轮融资。融资之后我开始反思:虽然有一批愿意付费的用户,但大多是专业用户,小白用户还是看不懂、用不顺。这时候我们有了资源,就回到最初想做的事情——Workflow。

接下来,我们做了几层降复杂度的尝试:

  • 第一步,把原来一个画布里可能上百个节点,收敛成只针对一个具体问题的 5–8 个节点的 Workflow;
  • 第二步,在此基础上引入 agent,让 AI 来生成 Workflow 本身,进一步降低搭建成本。

再往下,就是现在的路径:从「深度画布」到「可落地的 Workflow」,再到「把 Workflow 封装成一个个模板」。这意味着,大部分用户只需要消费别人封装好的流程,少部分高阶用户来生产和分享流程。通过这一系列演进,我们一边降低复杂度,一边放大使用的泛化性,让「AI + Workflow」真正有机会被更广泛的人用起来。

Founder Park:这算是你们几次不同方向的探索吗?还是在你看来核心方向是一致的?

黄巍: 对我来说,这是一个从模糊到逐渐确定的过程。

我决定创业,一个很直接的原因是参与了字节第一批超大规模的「AI + Workflow」项目。那段时间节奏非常高强度,项目结束后再回到常规的上班状态,明显有种「打完仗又回去种田」的不适应,所以干脆选择出来试一试。

刚出来的时候,其实并没有想清楚要做什么方向。因为在飞书期间做过浏览器插件,就先把这段经验用起来,再加上看到 Monica 这类产品,有些被「点燃」了,就先动手做起来。具体要做到哪里、产品最终会长成什么样,当时并不明确。

后面更多是边做边学,通过不断和用户交互,一点点看清哪些是真需求、哪些有机会被更多人用,于是产品方向也就从一开始的模糊,逐步收敛到后来相对确定的形态。

Founder Park: 也就是说,一开始从字节出来时,你其实还没下定决心要继续做 workflow,只是先往前走。做到画布这个形态时,验证出了一些基础的 PMF,你们觉得这条路可以走下去,而这条路又刚好和你之前对「用 Workflow 形式来承载」的想法接上了。

黄巍: 对,是这么一个思考的过程。

Founder Park:整个团队在这个产品上真正「找到感觉」,大概是哪个时间点?

黄巍: 如果说一个明确的时间节点,是 8 月上旬。那时候投资人提醒我们,今年要再做一轮融资,我们也在想:下一轮要讲什么故事?当时我们手里有一款生成式画布产品,用户和收入都不错,但我心里一直觉得,有点「解释不清楚」。这个形态很复杂,我很难想象它的长期走向,直觉上它不是一个能 scale 的好形态。

其实这款画布之前在市场上是爆过的。大概在 3 月份,推特上有好几周大家都在讨论 Refly.AI,很多投资人来找我们。但说实话,我们当时也没完全搞清楚它为什么会爆,只是顺着用户需求一路做下来,做着做着就火了,然后去拿融资。等融资回来、冷静下来再看,问题就很清晰:这个产品很难 scale。

再加上 8 月份的压力,我们之前有这个经历,又从画布过渡到 Workflow,有了一些技术上和产品上的积累,觉得这个事情是很容易去做的,就试着去做一下。

但实践下来没有那么容易。从 8 月确定要做,到 9 月初我们做出了第一个版本,但那个版本问题非常多。之后一个多月,我们一边修 bug,一边在这些问题中找平衡点。画布转到 Workflow,本身就有很多历史债务要清,同时还要重新思考:这个形态怎么 scale、怎么商业化。折腾到 11 月底,整体才算相对稳定下来。

有了这次转型的经历,我们发现这条路在逻辑上非常自洽,而且和团队背景高度匹配。后面我们招人也是往这个思路上靠。 我们这支团队现在在「Vibe Workflow」的赛道里面,可能就是全球最有竞争力的团队。我们对这个事情的理解是最深的,做的产品也最超前。

Founder Park:现在这个 Vibe Workflow 的产品,彻底想清楚的时候,是有什么特殊契机吗?

黄巍: 大概是 8 月初有了一个模糊的想法,到 8 月底整个产品架构才真正被想清楚。

这个产品本身是分层的,工程复杂度非常高:

  • 第一层,是让 agent 来生成 Workflow,本身 Workflow 的设计就得适合被 agent 生成。现在像 n8n、Dify,要做到这一点会有比较重的历史包袱。
  • 第二层,是把 Workflow 设计成「每个节点本身就是一个 agent」,再通过执行引擎把这些 agent 串起来,这一层工程量也很大。
  • 第三层,要让 Workflow 真正有价值,就必须有成规模的 tools 体系,覆盖 input、action、output 等不同类型。光 tools 这一层,单独拎出来都可以是一个创业方向。在此基础上,我们又给 agent 配了一台「虚拟电脑」,让它能写代码、调用 tools、操作文件,从而把类似 n8n 那种搭建复杂度进一步压下去。

这几层叠在一起,不是一个普通团队可以轻易抄过去就跑起来的。

我们当时的思路是从画布产品一路推演过来的。那时候我们已经把多模态能力都加进来了,可以在画布里生成视频、音频等各种东西。但问题也很明显:堆了这么多能力在一个画布里,用户进来根本不知道第一步要干什么、下一步该怎么走。一方面是产品引导本身有问题,另一方面,我当时心里其实已经隐约在想 Workflow 这条路,但还没下决心去落地。

转折点是,我们招了一些很优秀的同事进来。有一次我把这个 Workflow 的想法讲给他听,他周末花了两天,把一个完整方案写了出来。我们看完之后觉得:这件事情是说得通的,那就开始干吧。

后面边做边验证,大概半个月左右,我们发现这个方案不仅在工程上是闭环的,还把我们之前很多的疑惑都解释清楚了:哪些方向其实不适合我们做,哪些地方是我们真正有竞争力的。这时候,我们对「Vibe Workflow」的产品形态,才算彻底想明白。

 

04

我们不相信「一人公司」的通才理论

 

Founder Park:你们团队现在大概十三四个人,分工是什么样子的?

黄巍: 我们在测试这件事上踩过很大的坑。

我之前在公司里很多角色都干过,唯独没做过测试,写代码也基本不写测试,所以一开始对测试的价值是有偏见的。扩团队时,我理想中的研发同学是那种端到端的人:既懂用户需求,又能写代码、自己测、自己上线,看结果复盘。后来发现,这种人早期很难大规模招到,要么在明星创业公司,要么在大厂里,我们又没做 PR,在市场上声量有限。

其次,我们的产品因为是 Workflow,很复杂,好多 bug。我们发了一版测试版给用户去用,全是 bug。当时痛定思痛,觉得得招个测试进来。两天之内就招到了人,进来之后,整个节奏立刻不一样:测试同学每天 push 我们修问题,产品质量稳定性肉眼可见地上来了。

在这个基础之上我懂得一个道理,现在大家鼓吹的所谓「一人公司」,或者一个人可以把所有事情干完,我觉得是很美好的愿望。但互联网分工这套方法论,已经被无数家公司验证过,我们不应该把它丢弃掉。

我们的教训是:团队职能一定要尽量完备——产品、运营、增长、设计、测试、研发、算法都要有人,才不会在关键环节出现盲区。

我们的原则是:

  • 在「非重度」方向,每个方向至少招一个特别优秀的人,把这件事完整跑通,只有在确实需要扩张时才上第二个、第三个。
  • 在「重度」方向,比如研发、算法、模型调优,会投入更多人力。

现在团队大致的分工是:所有方向上至少有一个能把事情落地的人。在研发层面,一部分人做偏运营向的开发,大概两个人;做模型和工程调优的,两到三个人;再做底层的 workflow 和 tools 基座开发的,三到四个人。大概是这么一个分工。

Founder Park:现在大家讲究 AI 时代的团队是招一些通才,但你这边好像是要招一些在确定岗位上很擅长的人,这会有矛盾吗?

黄巍: 我们是从 0 开始摸爬滚打过来的,对这一点的感受非常直接: 通才当然重要,但前提是你真的能招到通才。 这有点像「通用 agent」——大家都在说,但现实里没那么多。

现实情况是,模型的能力没有大家鼓吹的那么厉害,没达到替代一个人的地步。比如模型不会让一个写代码的人去搞设计,他能搞点轻微的设计,但搞不了生产型的设计。所以我们更强调的是,招这个领域的专才,然后我们给他加一层 AI,他比所谓的通才要好几个数量级。这一点我们现在在团队里已经验证得比较充分了。

比如我们招一个设计同学,给他配非常完备的 AI 工具,他只需要专注在把整个产品的框架设计好,尽量的兼容通用,其他的细节可以让 AI 帮他完成。我们觉得这种是一种非常高效率的协作方式。

所以对我们来说,最理想的状态就是招专才,并且是非常专、非常优秀的人,我们给他配最强大的 AI,让他把这个事情干到之前 3 到 5 倍甚至 10 倍的效果。

Founder Park:那你们现阶段还需要再扩招吗?

黄巍: 会,而且是持续扩招。

我最近有一个比较坚定的结论:不管是在大公司还是创业公司,团队在人力配置上应该是「饱和式」的,而不是刚刚好够用。原因有几个:

  • 方向未来一定会变化;
  • 会遇到各种突发情况,比如核心同学离职,或者突然有一个新的大模型出来,你需要快速兼容、改造;
  • 很多机会窗口期很短,人不够就会明显跟不上节奏。

另外,我们内部有一个共识:做好产品,和做好增长、商业化,是同等重要的事情。所以在增长这块,我们也会搭一个相对完整的团队:投放、内容、KOL 运营、增长产品经理、增长工程师,这些角色我们都会补齐。

 

05

站在模型肩膀上做产品,

才不会被取代

 

Founder Park:现在的大模型,给它太多工具之后会陷入不知道怎么选的地步。这个问题现在你们是怎么解决的?

黄巍: 我们对 AI 的使用方式不同,我们是让它从 1000 种工具里「选择」工具,而不是直接用这些工具去「执行」。 「选择」和「执行」这两个任务的复杂度是不一样的,「选择」这个任务非常简单。

要模型一边从几百上千个工具里挑,一边把活干完,这个事情太复杂了。所以我们把任务拆成两块:一个模型专门负责挑工具、写 action 和 workflow;另一个模型只负责执行具体任务。

我们每个 agent 节点实际能用的工具不超过 3 个,通常只有一到两个,对应的 prompt 也非常简单。我们的目标是:每个 agent 节点只做一件非常具体的小事,一到两个工具就能搞定,然后把复杂任务拆成 5~10 个这样的小任务。

这样做有两个好处:

  • 不同模型各司其职。像 Kimi K2 这种适合执行的模型,就专注把单个步骤做好——便宜、准、稳定、速度快;像 GPT-5、Claude Sonnet 4.5 这种更强的模型,就负责从成千上万的工具中筛选、规划,把任务拆解成一条条可执行的 workflow。
  • 我们可以用一个稳定的编排引擎,把这些简单节点串起来,完成非常复杂的任务,而不是指望某一个「大而全」的 agent。

本质上,这是我们对模型边界的一种利用方式:不用去强碰模型当下还「不擅长」的能力,而是把问题拆到模型能稳定发挥的区间,让产品形态和模型能力「贴合」增长,而不是被拖着走。

我们的产品做了一件非常巧妙的事情:让贵的、强的模型去做拆任务,让简单的模型去做执行。

这样模型能力的增长不会吃掉我们,而是会让我们变得更强。一旦我们收集到可用的数据,钱和人到位,拆任务这一层完全可以用自研或微调模型替代;执行层也可以不断优化,比如原来要 4 个节点,现在压缩到 1 个节点。

这个过程极度考验我们对模型能力、边界的认知,以及怎么去提前几个月把我们的产品放在这个点上,等待模型的增长。比如后面发了新的模型、新的 API,我们很快就可以接入,并且让用户可以一句话生成流程,去做自媒体传播。这就是我们怎么去设计产品和做增长的一些思考。

Founder Park:对 Refly.AI 来说,现在阶段的核心壁垒,是技术壁垒还是运营壁垒?

黄巍: 现阶段,在我们产品还没有完全大规模面世之前,我们可能对自己的技术壁垒会有一些信心。

首先,我们可能是这个地球上最懂「AI + Workflow」的那批人。第二,我们在正式对外之前,已经组建了一支非常能打仗的团队。这是我刻意为之的,我不希望我们还没准备好就草率地暴露出去,结果这个方向火了,后续却和我们无关了,团队组织能力一定要到位。

在这个基础上,我们有一个比较清晰的产品判断: AI 越往前走,真正有价值的产品,一定是在非常复杂的系统工程之上,让用户「感知到的体验」尽可能简单。 不是说产品本身要做成一个很简单的小玩具,而是底层可以极其复杂,但呈现给用户的路径要是顺滑、低门槛的。这中间要始终顺着 AI 能力的演进做设计,而不是逆势搞一些反人性的形态。

以我们目前的工程复杂度,任何一家小公司,比如 15-20 人的团队,很难在 3-6 个月之内超过我们。即便短期某些功能形态看上去追上来了,也很难知道我们下一步会做什么迭代。对大厂而言,我自己有大厂经历,要在内部复刻一个同等复杂的系统,至少得拉一个 50–100 人的团队,全力干一两年。除非我们已经证明这是一个千亿级甚至更大的市场,否则大多数大厂不会一上来就投这么重的资源。

所以,我们会给自己一个 3–6 个月的「加速窗口期」。在这段时间里,只要资金到位、增长团队到位,技术和产品这套复杂度放出去,短期应该是没有特别直接的对手,我们也有机会在市场上快速完成一轮增长和商业化验证。

Founder Park:这么设计,会不会被某一个模型厂商绑架?比如受限于单一模型的成本或能力?

黄巍: 不会,反而可以说,我们现在的做法在某种意义上是偏「激进」的。

我之前跟一些字节同事聊,他们会觉得我们的方向挺超前:现在就把每个节点都改成一个 agent,再去编排 agent,这个路径是不是太早了?一开始我们自己也有类似的疑问——和 n8n 那种相对静态的 Workflow 比,我们的做法一开始确实不够稳定、成本也偏高,早期 bug 特别多,那个阶段我们也反复在问:这条路到底是不是可行的?

但一路走下来,我们会发现,这件事是说得通的:

  • 每个节点都是一个 agent;
  • 每个节点做尽量简单的事;
  • 整条链路通过编排引擎串起来。

无论未来模型怎么迭代,我们都是在模型之上再加了一层抽象,相当于「站在模型肩膀上」:模型越强,我们越强;模型越便宜,我们越便宜。同时,我们还会沉淀自己的行为数据,可以进一步优化自研模型和商业模式。

更重要的是,这个抽象层可以天然兼容不同模型、不同模态,统一放到同一套 workflow 架构里,完成数据的 INPUT、PROCESS 和 OUTPUT。这让我们不会被某一个模型厂商锁死。

Founder Park:如何不被模型所取代,除了跑得快以外,还有其他补充吗?

黄巍: 我觉得核心还是认识到模型的边界。模型厂商非常懂模型,他只切了他看起来显而易见的那部分能力。但实际上,模型是一个巨大的宝藏,你可以从里面剥离出对你这个行业最有价值的那部分能力。

比如我们做 Vibe Workflow,是因为当时看到一个趋势,GPT-5 发布之后,ChatGPT 把所有的功能选择都收到了一个按钮里,希望用户只需要表达需求,它自动做路由。这对我最大的震撼是, 这么大的一个产品竟然能做这个事情,意味着现在整个模型的工具调用(tool use)的速度和准确性已经迈过了那个极限 。我们认识到这一点之后,就选择了 Vibe Workflow,我们觉得这个事情是一定可行的。

这个能力不像生成 PPT 那么花哨,但是它对你的产品有用,并且能产生巨大的化学效应。也就是说,模型是一个巨大的宝藏,它有很多切面。你如果能从里面找到一个切面,对你的产品产生杠杆效应,即使不需要和模型厂商竞赛也是可以的。你不要去打它的主方向,你从里面抽点皮毛出来,把你这个产品做好,至少也是一个几十亿、数百亿美金的规模。早期你的野心不要那么大,能做到 Canva 那样,就意味着我们的目标没有那么高,我们也可以切到模型的一个切面,切到自己的一块肉。

去挑选一个差异化的赛道,在这个赛道里面我们做到最大,也能活得非常好。比如马斯克的第一次创业,也不是做了特斯拉或者 SpaceX。所以我觉得第一次创业不要搞那么大,简单点,先搞出来,人生还很长,一点点来。

 

06

创业早期可以慢一点,

关键是「别做错事」

 

Founder Park:想象一下 Refly.AI 的终局,会成为一个 Workflow 的分发平台,还是大家创作内容的一个新平台?

黄巍: 短期内,我们觉得它有可能是一个新的原生内容平台的机会。

AI 来了之后,大家都在想 AI 时代的社区和内容平台是什么样子的。AI 最大的能力在于它可以生成内容,以及它的主动性和自动化。那未来的 AI 内容平台,是不是内容可以极度个性化地定制?用户表达一句话可以生成内容,并对它做编辑、消费和修改。内容是丰富多样的,不只是视频。比如我现在需要听个播客,平台就可以实时为我生成一段只服务于我的播客, 有点像 OpenAI 现在推的 ChatGPT Pulse。

长期的终局,就像我们说的,我们拿到的是用户在一个工作生命周期里所有的行为和意图数据。那未来是不是我们能给用户一个更简单的交互方式?他只需要一个无时不在、感知不到的硬件,就能去和 AI 做交互,完成自己的任务。比如他走在路上说「你帮我开一辆特斯拉去接我的女儿」,他可以去做这种侵入到物理世界的 action,并且这个 action 本身的价值、准确率和个性化都非常高。

这是我们认为长远的、Refly.AI 希望达到的终局。我们设置了一个环境和媒介,去承接用户全方位、多维度的意图和行为数据。 我们希望这些数据最终能够构建一个用户的数字化版本,能帮助用户进入到物理世界去干一些事情。

短期内,我们希望可能是在做一个 AI 原生的内容平台的机会。但更加现实一点,我们就是在卖模板,做一个很土的生意,卖 AI 时代的 Workflow 模板。

Founder Park:那你预期明年整个 AI 行业有哪些新的技术和发展,会对你们有助力?

黄巍: 我自己有两个非常期待的方向。

第一,是让「修小问题」这件事真正被 AI 自动化掉。我们每天都有大量细碎的小 bug,要改代码、测、上线。理想状态是,这些小问题可以端到端地被 AI 自动修复和发布,让人从重复劳动中彻底解放出来,去做更有创造性的事情。

第二,是模型在「编辑能力」上的进步,而不只是生成。

现在模型在生成上已经很强了,但生成完一个 PPT、视频或网页之后,我还要为它造一个编辑器,让用户去细调。如果未来模型能以很低的成本精准理解 input,做细粒度的编辑,那么 Refly.AI 这类工具的上限会被大幅抬高——很多我们今天需要自己造的「编辑能力」,都可以交给模型。

那 Refly.AI 会变成什么?它会变成 AI 时代的创作者工具。以前你剪一个视频用的是剪映,发布的载体是抖音。未来,你去做内容创作,跑的是一个流程,这个流程产出的结果就是一个视频、一个音频、一个文本,甚至是一个网页。

一旦模型的编辑能力变得非常强,未来所有内容的载体其实都是一条流程,这会催生出一个 AI-native 的原生内容平台。这个内容平台相比之前最大的变化就是,它的内容是实时生产、实时更新,并且每个内容都可以由人去做个性化甚至「入镜」,按需消费。这是我们看到的,可能是下一代内容平台的机会。

Founder Park:如果现在有大厂的人或者创业者也是做 AI 应用,你会给他们什么建议?

黄巍: 我只能从我自己的经验出发。我觉得看一个事情,可能要把它拉长到一个维度去看。一个事情在半年这个维度可能看上去很有价值,但拉到 1~2 年,你要问自己:这个产品还能活吗?现在大家都在讲快速落地、快速试错、快速拿结果,但从我的视角,早期可以慢一点,关键是「别做错事」。

假如我们今天来一个概念就抄,明天来一个概念就抄,没有自己的产品主张,就容易陷入「热度成瘾」。 我们宁愿早期慢一点,但是一定要拉长时间维度,在这个行业内做到不可替代,把事情做对。

第二点,就是老生常谈的,它会不会被模型吃掉?这个事情一定要想清楚。你是不是在做一个模型之上的东西,还是会被模型吃掉的东西?有些人可能偷懒就不去想了,比如 OpenAI 做了浏览器,你也去做个浏览器,甚至比他做得还慢,这种是不值得去做的。

我们内部有一个心法:产品一定要比模型的能力迭代要快 3-6 个月,并且要在 3-6 个月之内把自己的想法实践落地,并推向市场和商业化。如果我们能不断地重复这样的周期,我们就能跑赢这个市场,跑赢模型厂商。

第三点建议,招人层面的,就是早期一定不要有偏见。历史上被证明有价值的分工和合作一定有它的道理,存在即合理。不要因为自己的偏见,或者因为他人表达的所谓「通才」的看法,就觉得一定就是那样的。还是要回归常识、回归本质。

早期一定要找到那种价值观和想法对齐的团队。我们也面过、发过很多背景非常优秀的人的 offer,包括给一些斯坦福的学生发过 offer。但我们会发现,虽然他们的背景和履历非常优秀,但如果把他们放在一个高压、要去战斗的环境之下,他们学校里的履历是很难派上用场的。放到一个战争的环境之下,考验的不是你答一道题的能力,而是你怎么去面对全方位的竞争,去找到自己的道路。

早期团队,确实要找到那种调性相投的,而不是一味地去看名校背景或光鲜履历。真正能打仗的人,他不一定是履历光鲜的,可能就是普普通通,但他确实能把事情干成。

注:Refly.AI 本身是开源项目,开源仓库地址:

https://github.com/refly-ai/refly

浏览量: 4

2026 硬件觉醒:AI 硬件迎来「安卓时刻」

作者|汤一涛

编辑| 靖宇

北京 798 艺术区,当《钢铁侠》中贾维斯的经典片段再次投射在巨幕上时,台下观众的眼神里既有对终极智能的向往,也有一丝熟悉的审慎——类似的场景在过去数年的科技发布会上反复上演,但现实中的 AI 硬件,似乎总与那个理想形态隔着一层无法逾越的技术冰墙。

在 IF 2026 的舞台上,无界方舟联合创始人小乔的分享,选择以攀登者的身份直面现实、解决行业难题。

她指出,尽管 2025 年被誉为 AI 硬件的「第二波浪潮元年」,各种形态的桌面机器人、陪伴硬件、可穿戴设备和具身智能层出不穷,但成功找到 PMF 的产品以垂直品类为主,因为单一场景相对更好实现。因为要将强大的 AI 大模型落地为真正的消费级硬件,仍需跨越三大天堑:从零搭建完整框架如同在峭壁上开凿登山道,复杂工程链路堪比穿越冰川裂缝,定制化适配更是需要在岩壁上精准安装每一颗铆钉。这些难题叠加成「技术冰墙」——模型调用成本居高不下,研发周期以年为单位,最终留给用户的往往仍是冰冷的体验。

小乔表示:「AI 大模型只是 『 脑细胞 』 ,而硬件更需要一个完整的 『 神经系统 』 。」

这个系统需要将 交互、记忆、执行 、 形象 这四大原子能力无缝融合,形成拟人化的认知与行为闭环。这正是无界方舟过去几年深耕的方向,其成果便是 EVA OS——一个为新一代 AI 硬件设计的操作系统 ,其核心能力已全面开源,在本次极客公园的舞台上正式发布。

EVA OS 的诞生,不只是连接,更是「融入」——将拟人的认知与感知能力,深度融入硬件的基因。 让每一个设备从单纯执行命令的工具,进化为 「 高智商 伙伴 」 :能听懂对话背后的情绪,记住用户偏好,甚至主动预判需求 和完成任务 。

 

01

如何 定义 硬件的「神经系统」?

 

智能系统的生命力,源于硬件与算法的深度耦合。 EVA OS 通过重构交互、记忆、执行与形象四大原子能力,为硬件铺设了完整且高效的 「 神经系统 」 ,使其获得拟人的认知与行为能力。

【交互层】:从「信号响应」到「语境理解」的毫秒革命

EVA OS 重新定义了硬件与人的对话方式,将机械的指令响应升级为连贯的语境理解。它能在毫秒级延迟内实现全双工自然交流,并依据场景动态切换交互角色,让硬件真正理解对话中的情绪与意图。

现场演示中,EVA OS 除了展现出多模态交互能力外,还体现了更丰富的 AI 反馈方式:通过韵律建模实现即兴说唱,通过音色克隆技术复现多维声纹,通过视频语义解析模块输出智能解说等,将交互从简单的问答拓展为丰富的「对话场」。

【记忆层】:构建多模态的终身记忆

EVA OS 为硬件构建了连续的个人认知图谱,解决了行业方案长期记忆薄弱、易出现信息幻觉的痛点。它融合长短期记忆,不仅能关联多模态信息,更能主动提示关键过往,使设备从被动应答变为「真正懂你的长期伙伴」。

与仅依赖文本的传统向量数据库不同,EVA OS 的记忆系统具备视觉维度 ,从而可以满足更多场景需求 。小乔分享了实测案例:当询问「同事需要我帮忙点什么饮料」或「我的耳机在哪」时,系统不仅能调取记忆片段,还能结合视觉线索给出具体建议。「我真的在那个位置找到了耳机。」她补充道。—— 它记住的不仅是事实,更是与你共同成长的生命体验 。

【执行层】:构建 从「 认知决策」到 「 物理致动」 的端到端闭环

EVA OS 成功跨越了数字智能与物理世界之间的执行鸿沟。在软件层面,除支持标准的 API/MCP 接口调用外,更集成了 Computer Use/Mobile Use 能力,通过拟人化的 GUI 自动化交互,实现了对封闭或无接口软件的精准操控。在硬件层面,EVA OS 具备底层致动能力,可直接驱动实体机械结构。这一架构让 AI 硬件完成了从「多模态交互」到「全场景执行」的质变。

现场展示了 EVA OS 正在交付的实际案例:系统能够自主操作手机,打开各类 APP 进行分析处理,并独立完成任务链,展示了其在复杂物理环境中的行动潜力。

【形象层】:为硬件赋予 实时 形象

EVA OS 支持各类硬件输出由大模型驱动的表情、二次元、数字人等各类形象。与业界常见的串行链路驱动不同, EVA OS 采用 业界少见的 并行链路, 让表情、声音与动作同步发生 ,从而实现了音画同步、实时驱动,带来了毫秒级低延迟的输出效果,确保反馈的一致性与实时性。

 

02

「 行业 样板间 」 :周预定 量

突破 1 万台的爆款 产品

 

在无界方舟的战略布局中,首款消费级产品「奇多多 AI 学伴」承担着双重使命——既是 EVA OS 技术的原型验证平台,更是重构早教产品价值锚点的行业样板间。这款面向 0-10 岁儿童的 AI 学伴机器人,标志着 AI 早教产品从「陪伴噱头」回归「科学早教本质」。

面对传统 AI 玩具体验欠佳、近 70% 家庭依赖老人带娃、业界缺少 3-10 岁儿童的优质早教产品等问题,奇多多以「能看、会说、懂成长」的智能学伴形态,给出高质量科学解决方案。自发布以来,奇多多销量迅速破万,成为智能硬件领域的焦点。

奇多多基于无界方舟自研的「AI 大脑」EVA OS,是集成视觉识别与个性化记忆引擎的 AI 原生产品。技术上,其端到端实时互动多模态大模型,实现了视频交互毫秒级低延迟反馈。「全能阅读」支持任意书本实时朗读、翻译、指读的功能,不限于绘本、报刊、课本、卡片等载体,无需提前录入资料,任意材料都可实时识别和阅读;「AI 识物科普」可实时识别任意物品并展开科普,打通孩子「边看 – 边问 – 边学」的认知链路。

效果是显著的,在与外国语学校的 AI 研学合作中,孩子们识字、记忆英文单词的速度 提升至之前的 4 倍 ,阅读量 提升至 3.3 倍 。更令人触动的是, 83% 的内向儿童开始主动与 奇多多 及身边 小朋友 交流 。小乔强调,Broca’s Area 语言中枢仅在 0-10 岁活跃,10 岁开始关闭,因此语言互动能力的培养对孩子来说必不可少。

「奇多多做对了什么?」小乔总结出一个寻找 AI 硬件产品与市场契合点(PMF)的精准公式: PMF = 用户精准 + 刚需场景 + 技术成熟度。 而 EVA OS 的核心价值,正是将最难把控的「技术成熟度」变为一项可配置、可达标的稳定服务。

 

03

开源与效率革命:1 天与 95%

 

发布会的真正高潮,是 EVA OS 核心能力 正式 面向全球开发者开源 ,这也是业内首个面向 AI 硬件的开源 AIOS 。

开源的背后,是两项具有颠覆性的效率进阶:

  1. 时间折叠: 硬件原型研发周期可从几个月降低为 1 天。
  2. 成本塌缩: AI 链路成本可降低 95%。

实现路径被简化为两步: 第一步,在云端定义大脑。 通过可视化平台,像勾勒角色一样,自由配置硬件的人格特质、声音、记忆规则与交互逻辑。 第二步,在实体完成灌注。 通过兼容 Arduino、Raspberry Pi 等主流板卡的 EVA OS 开发套件,将云端 Agent 与硬件连接。

这意味着,最复杂的多模态融合与底层工程适配工作已被前置解决。一个创新的硬件想法,从概念到功能原型的时间单位,从「季度」变成了「天」;曾经令初创团队望而却步的 AI 成本,被削减了一个数量级。从此,开发像搭积木一样,初创团队只需关注产品定义本身,技术层面可在开源生态中获取即插即用的 AI 大脑能力。

 

04

结语:从「无法攀登」到「登顶路线」

 

「 硬件只是载体,而新一代 AI 硬件,本质是要 「 更像人 」 。」在演讲尾声,小乔将焦点拉回到最初的梦想——「贾维斯」。她坦言,理想的 AI 伙伴依然遥远,但路径正在变得清晰:「「AI 越强,人应该更强」。这需要我们科技创业者们、AI 伙伴们一起抱团前进,共同实现科技普惠、行业共荣。」

EVA OS 的开源,相当于为 AI 硬件开发者铺设了一条「高速公路」,为攀登 AI 硬件险峰的创业者开拓了穿越技术屏障的「登顶路线」 。这套系统不仅实现了工具链的革命性突破,更成为了智能硬件从「功能载体」向「数字生命」进化的转折点。这必将开启创新的闸门,催生出真正多元化、个性化的爆款硬件生态。

下一代 AI 硬件的竞争,不仅靠外形,更要靠智能。站在技术屏障消融的历史节点,无界方舟所见,不只是千亿级市场的喷薄,更有开放生态主导、多元智能共生的新文明形态,正在觉醒。

如果你也是那个对 AI 硬件有执着的创造者、开发者或梦想家,欢迎访问 EVA OS 的 GitHub 主页,加入这场从开源开始的智能革新。

https://github.com/AutoArk/EVA-OS

欢迎开发者前往探索与共建

复制链接至浏览器直达 EVA OS GitHub 主页

开源内容包括平台和手机 App 端。其中,平台支持多种自定义 solution 配置,涵盖音视频能力接入、TTS 音色选择、agent 选择、MCP 工具选择、实时多模态大模型使用等。同时,代码和文档同步上线 GitHub,开放给全球用户。

Upcoming 内容

  • 🔌 嵌入式 SDK:ESP32/RK/MCU 硬件级深度适配
  • ☁️ 端云协同:云端算力调度+设备端指令精准下发
  • 🧠 智能记忆系统:设备级短期交互记忆+长期偏好记忆,多模态技术
  • 🔧 MCP 工具扩展:开放第三方工具接入接口
  • 🎭 自定义数字人:支持照片生成专属 Avatar
  • 🏢 企业级能力:多模型混合部署+高并发承载方案
  • ···
浏览量: 3

Teeni.AI 袁琳:10 后与 AI 的共生关系,将如空气般自然

整理|汤一涛

编辑| 靖宇

如果说 80 后、90 后是互联网的原住民,那么 10 后,则是 AI 时代的原生用户。

在未来十年,AI 将成为 10 后这一代生活的基本元素,像空气一样自然而然地融入他们的世界。对于这一代人来说,AI 不再是一个简单的工具,而是将与他们的学习、创作、情感和成长深度交织在一起。

作为推动这一进程的企业,Teeni.AI 在这一领域进行了深入的探索与实践。袁琳,Teeni.AI 的创始人兼 CEO,在本次活动中分享了她对于 10 后如何与 AI 共生的洞察与经验。

嘉宾精彩观点:

10 后视 AI 为如空气般自然的生存要素,关注重点已从「如何使用工具」转向「工具带来的效率变革」。

青少年对 AI 的需求已超越单纯的「寻求标准答案」,转向寻求情感共鸣与心理理解的「伙伴式社交」

AI 应作为激发创意的「脚手架」而非「代笔者」,通过苏格拉底式引导帮助孩子拆解任务并提升逻辑思维。

我们需要为 10 后创造一个健康、纯净的 AI 环境,成为他们成长的智能伙伴。

未来的人机关系将从简单的「交互」走向深度的「共生」,AI 将进化为具备共情力、能与孩子共同成长的智能伙伴。

以下为袁琳在极客公园创新大会 2026 上的演讲,由极客公园整理:

各位极客公园的朋友们,大家下午好。我是 Teeni.AI 的创始人袁琳。今天我在这里主要给大家分享我们这两年来服务于百万 10 后的一些洞察,这些主要来自用户的反馈。

我们的产品经理曾问了一位 10 岁小用户:你觉得 AI 怎么样?这个孩子回答,AI 不就是跟空气一样吗?为什么你们老是问我们它有什么特别的。

正是因为这句话,让我们对当下大模型时代的新产品的定义和交互方式做出了调整。接下来我会简单介绍一下,我们认为现在正在发生的一种代际变迁,90 后在大模型时代会考虑「我该怎么使用这个工具?」,而 10 后则会问「这个工具给我的效率带来了什么变化?」

10 后的典型特点就是,他们视 AI 为生活中的一部分,就像空气一样。

基于这一点,接下来我想分享一些我们 Teeni.AI 这几年积累的数据。

目前,Teeni.AI 服务的 10 后用户已经接近 100 万,且全部为端上用户。我们的年留存率达到了 55%,这一成绩刷新了所有青少年产品的数据。而日调用量最高已达到 30 亿 token,这也可能刷新了青少终端大模型的纪录。

此外,我们的日均使用时长也令人感到自豪。目前,10 后用户在我们平台上的日均 AI 使用时长为 32 分钟,智能终端的使用时长达 3.5 小时,这个数据相比普通的手机助手高出了 8 倍。

这些数据充分说明,10 后对 AI 的依赖程度和粘性都非常高。

Teeni.AI 刷新了国内青少年 AI 大模型的调用纪录

 

 

01

从「寻求答案」转向「思维训练与情感共鸣」,

打造去干扰的「随身智能体」

 

在 AI 与教育结合时,会遇到哪些问题?

首先,很多家长会问,AI 会不会让下一代失去思考?

为了回答这个问题,我们用用户数据来说明,AI 其实能够帮助孩子提升思维方式,甚至颠覆传统教育的模式。根据我们的数据,91% 的孩子在与 AI 互动时,能够比较明确自己的沟通逻辑。他们并不直接向 AI 寻求答案,而是进行一对一的对话,这种互动本身就是一种新的思维训练。

另一个常见的问题是:如果孩子不懂 AI,那么作为家长或教育者,我们是否需要干预孩子使用 AI 并进行管控呢?

我们的数据也给出了不同的答案。78% 的孩子能够自行建立使用 AI 的规则,并且在训练 AI。很多孩子会要求他的 Agent 与自己进行类似自己性格的对话,甚至把自己的爱好和表达方式输入到 AI 中,让 AI 更好地理解自己。

第三个值得关注的问题是,孩子们是否只是要求 AI 给出标准答案?

这个数据也是比较让我们触动的。我们发现,84% 的孩子会寻求 AI 的理解和共鸣,而不仅仅是让 AI 提供一个标准答案。很多时候,孩子们会通过 AI 倾诉情绪和情感,这也是我们在 10 后身上看到的一个与众不同的现象。

基于这些数据,我也给大家分享一下,我们做了哪些事情。

为了更好地帮助 10 后用户专注于与 AI 的互动,Teeni.AI 设计了一款专属硬件。我们的智能体设备不仅仅是一个简单的 AI 助手,它还是一个能够专注于学习和成长的终端。

我们主要做了 2 个动作,第一就是给孩子一个专属的 AI 的终端。

普通手机,手机中的游戏、短视频等干扰元素,容易打断孩子的注意力。而我们的专属硬件,通过设计专用 AI 按键,创建了一个最小单位的交互方式,避免了这些干扰,帮助孩子在与 AI 互动时保持更高的专注度。

第二,是我今天想重点给大家分享的,Teeni.AI 在打造 α 时代的多模态随身智能体,我们称之为 Mobile Agent,实际上它是「移动设备+AI 智能体(Mobile Devices+AI Agent)」的结合体。

α 时代=移动设备 + AI 智能体

 

10 后希望的 Mobile Agent 是什么样的呢?

第一,它是多模态的

第二,一定是可随身携带的

第三,一定是陪他成长的智能体

基于这些特性,我们的超级智能体也具备三个特点:

第一,可看、可听、可说,会记忆

第二,有规划

第三,有共情的能力

我们跟通义实验室用了一年半的时间,给当下的 10 后打造了一个专用的青少年大模型。接下来给大家介绍一下我们的大模型有哪些特点,做了哪些技术上的储备。

Teeni.AI 青少年专属大模型的特点

 

第一,是 理解力优化 。为什么要这么做?

儿童说话跟成人不一样的地方是有很多模糊的表达,比如他说「有个毛茸茸的东西在跑」,AI 可以马上理解说的是小狗。要做到这一点,其实是需要输入大量的语料库,然后让 AI 具备青少年语言理解力。

第二就是 知识结构的定制 。我们的 AI 系统为 3-15 岁的孩子量身定制了专门的知识体系。

第三是 安全护栏 ,这是我们认为的底线。我们与阿里云合作,构建了五层内容护栏,确保青少年用户使用过程中不会接触到不当内容。

第四,也是最重要的一部分,是 共情式的回答 。AI 在与孩子互动时,首先要建立共情,与孩子形成伙伴关系;然后采用苏格拉底式的引导方式,帮助孩子更好地表达自己。

以上也是我们的青少年大模型不同于通用大模型的一些点。

接下来给大家介绍,我们的青少年大模型所具备的核心能力。

第一个必需的能力是长期的记忆和人格化。

91% 的孩子在与 AI 的互动中有社交需求,需要 AI 记住他们的偏好、习惯以及小细节。例如,孩子的 AI 会记住他有一个宠物叫「小黑」,喜欢吃胡萝卜,几天后 Teeni 会提问:「你给小黑喂胡萝卜了吗?」这样的记忆能力让孩子感觉 AI 像是一个真正的伙伴。

我觉得其实对于孩子来说,记住其实就是一种尊重。最核心的一点,就是你要记住孩子认为他至关重要的小事,那这时候陪伴的关系才会真正地建立。这是我们打造的第一个能力,就是长期记忆和人格化。

对孩子来说,长期记忆带来的是尊重

 

第二个大模型能力是规划和引导。

AI 当下对于 10 后来说,其实更多的会充当创意的脚手架。AI 能够帮助孩子将复杂的创意任务分解为可执行的小步骤。例如,一个孩子可能想做一个太空探索的视频创意,这是一个宏大的立意点,如果这个时候没有人引导他,有可能这个想法就破灭了。

所以我们的智能体会把复杂的任务分解成一个个小步骤,引导他从构思脚本、生成图像到制作视频,完成整个创作过程。

Teeni.AI 为孩子拆解复杂任务

 

第三个,也是比较触动我们的点,是情感和互动。

84% 的孩子在与 AI 互动时,跟 AI 深度交流并进行情感表达。很多孩子其实情绪上都需要有人倾听和输出。当孩子感到沮丧时,可能是他考试差了一点,他跟 AI 说我是不是有点笨,会有自我怀疑,因为孩子的成长有很多时候都在自我探索。

这时候 AI 会告诉他,别灰心,下次再努力。AI 能够与他们进行情感共鸣,给予鼓励和支持。

为了做到这点,我们做了一个语音的情感识别,加上上下文理解,以及 Teeni.AI 的共情策略库。

84% 的孩子在与 AI 互动时,会进行情感交流

 

基于这三块能力,我们的智能体能够给 10 后拓展新的学习和创造的可能。

 

02

让 AI 这层「空气」更纯净,

从人机交互走向人机共生

 

我们将在 2026 年 CES 发布的一系列产品,旨在承载我们目前在青少年大模型方面的能力,以及为孩子们提供专属的智能伙伴。这一路走来,已经花费了 12 年的时间,而 Teeni.AI 这个青少年产品也是我们团队三年心血的结晶。我们的青少年大模型是与阿里通义合作一年多时间共同打造的成果。

Teeni.AI 将在 2026 CES 发布的产品

 

基于我们当前积累的技术和能力,我们将推出全球专为 10 后设计的硬件,让世界和孩子们对话。未来,这些硬件将包括四种载体,从对话智能体到 AI 随身机器人。正如乔布斯曾说过,「电脑是人脑的自行车」,我们认为 AI 是孩子们的「发动机」。它不仅是一个冷冰冰的工具,更是一个真正陪伴孩子成长的智能体。这个方向也是我们公司在明年全球发展的核心目标,欢迎大家关注。

展望未来,我们认为会有三大变化:

  1. 硬件进化:
  2. 从一个通用的终端,发展成多场景适用的伙伴;
  3. 工具转变:
  4. 由原来单纯的工具,发展成具有理解力和成长能力的智能体;
  5. 价值重估:
  6. 过去工具和效率是主要考量,未来对 10 后而言,AI 将更多体现为共情的创造力和陪伴。

我们认为,未来的趋势是从简单的人机交互,向深度的人机共生发展。我们 Teeni.AI 期望在这一过程中,能够真正陪伴孩子们成长。未来 10 年,AI 对于 10 后将像空气般自然。作为父母、创业者和教育者,我们的责任是什么?是让这个「空气」更纯净、更有营养。我们打造的不是完美的机器,而是与 10 后这一代共同成长的智能伙伴。

谢谢大家!如果在座的朋友对青少年教育或青少年发展有兴趣,欢迎私下与我交流。

浏览量: 3

XREAL 徐驰:智能眼镜,拉开了「Agent as Hardware」的新时代

整理|Moonshot

编辑| 靖宇

 

人类获取的 90% 信息来自视觉。当 AI 成为人类的随身智能设备时,视觉同样是最关键的部分。AI 如何帮助我们从「看到」,走向「看清」整个世界?

大模型已不再满足于被困在服务器的机箱里,它们渴望「身体」,渴望感官,渴望新的增量数据。

于是,过去看似沉寂的 AR/XR 行业也在 AI 的推动下重新升温:从头戴式设备,到轻量化眼镜,再到多模态感知硬件,各类厂商都看到了「下一个 iPhone」般的机会。

其中,最被看好的赛道就是眼镜,35g 级别的轻量化 AI 眼镜被视为未来十年的主流形态。

图源:极客公园

 

过去几年,AI 眼镜从概念走向产品,从工程样机变成轻量化可佩戴设备,Meta Ray-Ban 的走红验证了「AI+眼镜」的潜力,它们开始成为 AI 的视觉入口、听觉入口、长期记忆的生成器。

但现实与愿景之间仍隔着坚硬的技术鸿沟。显示、续航、重量、计算、散热,每一个都是牵引整个行业多年的「物理难题」。而且没有任何一台设备能同时做到轻量化全天候佩戴、高清显示、强大算力,这是智能眼镜行业的「不可能三角」。

在徐驰看来,当下就像 20 年前,那个智能手机爆发前夜、充满碎片化与混沌的时刻,市场上虽有百万级爆款,但生态割裂,缺乏统一的交互标准。

在极客公园创新大会 2026 上,XREAL 创始人兼 CEO 徐驰试图回答一个时代级的问题: 我们应该如何为 AI 赋予视觉「身体」?又是什么设备,可以真正点亮属于 AI 时代的 iPhone 时刻? 以下是徐驰的演讲实录,由极客公园整理。

嘉宾精彩观点:

• 下一代人机交互的终极形态,应当是「无感交互」。

• 眼镜作为距离人眼最近的设备,是天然适合成为下一个终端的载体。

• 今天的 AI 似乎缺乏触觉,也缺乏视觉,仿佛被困在了计算机的服务器里。

• 当你不断赋予 AI 对 3D 真实世界的感知能力时,它的能力也会随之显著提升。

• Agent 不应仅仅是软件,更应该是一个「硬件化的 Agent」。

• 眼镜所带来的「增量数据」,很可能是 AI 通向 AGI 的必经之路。

• 今天的 AI 眼镜仍然面临着「不可能三角」的挑战:全天候舒适佩戴、极佳的显示效果以及强大的 AI 智能化。

• 如果 AI 终端的竞争是一场万米长跑,那么向下深耕、打好基础,跑对方向比今天的抢跑更重要。

• 我们经常会陷入一个误区,试图用一种单一的产品形态去想象未来。

 

极客公园的朋友们,大家下午好,我是徐驰。

今天,我不打算聊某一款具体的产品,而是想和大家探讨一个话题:如果 AI 需要一个实体,下一代的它应该长什么样?

在进入正题之前,先简要介绍一下目前元宇宙的 AR 体验现状,也是我们 XREAL 团队过去十年在这个行业耕耘的成果。

我们一直致力于无缝连接数字世界与真实世界。在这个过程中,我们见证了行业的起伏,也深知其中的艰难,而近年来 AI 的异军突起,让我们惊喜地发现,XREAL 所做的事业正与 AI 发生快速的融合。

图源:极客公园

 

简单回顾我的经历,我在国内完成学业,随后在国外的几家科技大厂工作,有幸亲眼见证了 AI 行业与 XREAL 所处的 XR 领域最前沿的发展图景。

 

01

无感与「五感」

 

随着近年来 AI 能力的飞速跃升,我们发现,过去想象中的交互方式:从手机上的「触控屏幕」,到我们在 XREAL 头显、眼镜中设想的手势及多模态操作,其实都算不上最自然的交互。相比之下,人与人之间的交流才是最自然的。

因此, 我们认为下一代人机交互的终极形态,应当是「无感交互」。 就像人与人之间若能心有灵犀,你便能「想我之所想,见我之所见」,最终无需多言,就能懂得我真正想要什么。

在这场轰轰烈烈的 AI 革命中,我们意识到,AI 需要一双「眼睛」。在终端设备更迭的过程中, 我们的目标是希望在未来二十年里,让大家能够从屏幕中抬起头来。 回顾过去的变革,我们的注意力始终被禁锢在面前的屏幕上; 而眼镜,作为距离人眼最近的设备,是天然适合成为下一个终端的载体。

图源:极客公园

 

同时,AI 的能力不断惊艳着我们,每一代模型都有着更强的推理能力,甚至具备了更强的多 Agent 处理能力。

但 今天的 AI 似乎缺乏触觉,也缺乏视觉,仿佛被困在了计算机的服务器里。 它就像一位饱读诗书、通晓人类千年文明精华的智者,却始终无法睁开眼睛看世界。我们相信,眼镜将是 AI 在下一阶段最好的载体,我们要赋予它全新的视觉能力。

在谷歌的 IO 大会上,他们提出了未来 AI 的发展目标:在变得越来越强大的同时,也要越来越个性化、越来越主动化。要实现这两点,前提是 AI 需要了解你的历史,需要拥有你生活中的上下文。

特别是随着 Gemini 3 等新技术的登场,我们将会迎来更多惊喜。随着大模型从单纯的语言模型走向多模态模型,我们发现, 当你不断赋予 AI 对 3D 真实世界的感知能力时,它的能力也会随之显著提升。

但我始终认为,手机绝不是 AI 天然的最佳载体。我很喜欢一部大约十年前的电影《Her》,讲述了男主角与 AI 产生情感羁绊的故事。其中有一个桥段让我印象深刻:AI 角色 Samantha 对男主角说,「我想看看你的世界」,于是男主角用别针将手机摄像头固定在衬衫口袋上,以此让它看见外部世界。

今天我们所做的,就是打造一个「更好的手机」、一枚「更好的别针」,让 AI 能够真正伴随我们,更好地理解我们的生活。

《Her》电影男主角用摄像头帮虚拟女友「看世界」|图源:Netflix

 

此外,在 AI 的基础上,我们衍生出了越来越多的 Agent。这些 Agent 能够更好地理解你的诉求,帮你完成一系列复杂的任务。

以前我们提到的 Agent 大多运行在手机或电脑上,属于软件形态。而今天,我们提出了一个全新的概念: Agent 不应仅仅是软件,更应该是一个「硬件化的 Agent」,这样才能最大范围地释放 AI 的能力。

这将对我们今天的硬件结构带来全新的定义。让我们重新审视「摄像头」,它不再仅仅是用来拍照或录像的工具,在全天候 AI 眼镜上,它将成为 AI 理解世界的眼睛;「麦克风」也不再只是录音功能,而是变成了 AI 的耳朵,能更好地感知周围声音的信息量。 视觉与听觉的结合,已经覆盖了我们获取信息的 99%。

在交互层面,我们也希望引入新的概念。未来的显示界面,很可能变得像人与人交流时的面部表情一样,能够更好地与大家进行 AI 互动。最终,我们希望通过端侧算力与云端能力的结合,构建出如同人类神经系统般的架构——既能加速处理,又能通过端侧机制很好地保护隐私。

综合这些因素,未来的 Agent 将不再是一个单纯的软件概念,而是硬件与软件的深度结合。它将附着在一个完美的载体上,为大家提供全天候的多模态 AI 体验。

同时我们坚信, 眼镜所带来的「增量数据」,很可能是 AI 通向 AGI 的必经之路。

 

02

增量数据才能让 AI to AGI

 

观察今天的数据现状,我们主要利用存量数据来训练大模型。公域数据构成了大模型的基础语料库。

在不同的大公司内部,还有私域数据,例如谷歌拥有你的文档、Gmail 等信息,能让办公相关的背景信息更加充实;国内像小红书这样的平台,也涵盖了非常有价值的私域数据。

但我想表达的是,现有的无论是公域还是私域的存量数据,都已接近枯竭。 如果我们想把 AI 带入下一阶段,让它变得更个性化、更主动、更强大,我们需要的是「增量数据」。

徐驰认为,AI 眼镜或将成为「最后一块」屏幕式硬件|图源:极客公园

 

未来,我们看到两个巨大的增量数据来源:一个是眼镜,一个是机器人。在具身智能机器人大规模普及之前,我们相信,戴在眼前的眼镜将是为 AI 提供更多个性化增量数据的最佳入口和途径。

虽然想象很美好,但现实中这个行业依然面临着重重挑战。我们有许多困难需要克服,尤其是无法突破的一些物理规律。

今天的 AI 眼镜仍然面临着「不可能三角」的挑战:全天候舒适佩戴、极佳的显示效果以及强大的 AI 智能化。 目前没有任何一款设备能同时完美解决这三点,能解决其中两点就已经非常出色了。

回顾这个行业十年的起伏,新一波浪潮因 AI 的赋能而呈现出产品井喷的状态。我们看到一个明显的变化:早期产品形态以头盔为主,但在 2024、2025 年之后,轻量化眼镜将逐渐成为主流。这也是整个 XR 行业从小众市场走向大众普及的必然阶段。

从另一个角度来看时机。在该领域投入最大的巨头 Meta,依然在持续加大投入,却尚未迎来明显的拐点。这可能是 XREAL 的投资人最不愿看到的一张图,让人感觉似乎遥遥无期。

前景如此美好,现实却如此艰难,到底是什么制约了眼镜的发展?让我们回看到二十年前。

 

03

AI 眼镜的终极形态

 

现在的眼镜行业特别像 2005、2006 年智能手机的前夜。在苹果 iPhone 出现之前,手机生态呈现出全面的碎片化。虽然当时很多设备销量很高,不乏百万级爆款,但对开发者而言,为这些不同形态的设备做适配简直是噩梦,交互方式在不同平台间的迁移成本极高。

如果我们相信 XR 行业会像手机一样成为通用的计算终端平台,那么我们就必须有能力将这样的生态逐渐统一起来。

我们常说, 如果 AI 终端的竞争是一场万米长跑,那么向下深耕、打好基础,跑对方向比今天的抢跑更重要。

展望十年之后, 我们经常会陷入一个误区,试图用一种单一的产品形态去想象未来。 就像我戴眼镜一样,我希望未来的智能眼镜能像今天的近视镜一样轻巧。但很可惜,正如我们曾想把手机的功能全部塞进手表里一样,这涉及到无法逾越的物理客观规律。

图源:极客公园

 

因此,我们认为即便在十年甚至更远的未来,智能眼镜很可能会存在「二元化」的产品形态:

第一种形态, 主打「全天候」 。

十年后,这种眼镜可能做到 35 克以下,与现在的近视眼镜无异。它能真正实现全天候佩戴,AI 将「住」在你的眼镜里,24 小时伴随你,或者至少在你醒着的时候一直陪伴。

它需要极强的多模态 AI 能力。但受限于物理规律,这种轻量化眼镜有一个致命问题:它的显示效果做到极致,可能也只能达到今天汽车 HUD 的水平,非常透明、无感,但无法用来观看高清电影,注定只能承载一部分功能。

第二种形态,则以 更好的显示效果为基准 。

它虽然也能全天候携带,但未必是全天候佩戴。它更像是一副「近视眼镜 + 墨镜」的组合,用户根据不同场景选择不同的设备。它有机会承载更丰富的生态内容。我们相信最终它的重量会比今天轻巧很多,大约做到 50 到 60 克。

既然我们预想了这样的形态,为什么海外巨头在今天明显不如当年 iPhone 时代那样「给力」了?这些巨头投入了巨额研发资金,拥有全球最优秀的工程师,却依然没有拿出像当年 iPhone、特斯拉、大疆那样让人惊艳的产品。

这背后反映了一个趋势:过去二十年,我们见证了美国及西方许多科技公司硬件创新的全面「空心化」。我们深刻体会到,变革正在发生, 「定义」往往源于美国,但不仅仅是制造,越来越多的「创造」正在向中国靠拢。

图源:极客公园

 

那么,「iPhone 时刻」何时到来?今天距离那个时刻还差什么?我认为有四个关键挑战需要解决:

第一是 硬件微型化 。回顾所有大厂的第一代产品形态,包括苹果 2024 年推出的 Apple Vision Pro,大家都能看到,厂商都希望做一个「大而全」的产品。但他们忽略了一点:只有微型化,才能让产品进一步向大众普及。

XREAL 在这方面做得最好的一点,就是从第一天起就坚信「只有小型化才有机会」。我们将所有研发力量都投入到如何实现小型化上,包括在芯片、显示和制造工艺上的突破,这让我们在相关领域取得了代际领先。

第二是 多模态 AI 。我们需要真正赋予 AI 一个 3D 化的世界模型。在这方面,越来越多的模型从 LLM 迁移到了 LMM,AI 能够陪我们打游戏、看视频,并通过上下文快速理解复杂的多模态信息。

第三是 生态统一 。大家记得 iPhone 问世后发生了什么吗?它彻底统一了交互方式,随后 iOS 和安卓两大生态彻底统一了开发者的接口,这直接导致了内容赛道的井喷式增长。

第四,也是更重要的一点,是如何让 AI 真正实现个性化 。在 AI 基础之上,我们需要 让 AI 拥有「长期记忆」 。这是什么概念?比如今天我见到一个人,AI 会帮我回忆过去三年我们在哪些场合见过、交流过什么核心信息、他对我有过什么意见、还有什么重要事务需要处理。这与我们大脑的结构是一样的。目前的 AI 记忆大多是基于长文本输入的短期记忆,我们相信在两到三年内,基于 AI 大模型的长期记忆会有所突破。

如果攻克了这四点,我们相信一个真正具备「iPhone 时刻」意义的产品将会问世。这一突破预计在未来两到三年内发生,届时大家将看到像初代 iPhone 一样令人惊艳、值得期待的全新全天候 AI 智能眼镜。

我们希望这个时间点是 2027 年,如果真是 2027 年,那恰好是 20 年的轮回:从 2007 年初代 iPhone 到 2027 年。

 

04

下一个 iPhone 的风口,由谁引领?

 

到底谁能引爆这场革命?过去我们希望像苹果、特斯拉这样的公司能帮我们定义好产品,其他人直接「效仿」。但在今天的时代,基于我们观察到的趋势,很可能没有一家公司能包揽一切,我们更有可能看到的是一个「全球联盟」。

举个简单的例子,在今年的谷歌 I/O 大会上,我们与谷歌联合发布了关于 Project Astra 的轻量化眼镜探索。这让我们第一次有了当年 iPhone 问世时的感觉。

我们发现所有的要素都开始成熟了:硬件形态足够轻巧,体验足够好,拥有足够开放的第三方内容生态,让开发者能快速移植或开发全新内容。

最重要的是用户交互。苹果在 iPhone 上引入了多点触控,统一了智能手机最重要的交互点;今天,我们认为 AI 将是 XR 最好的交互方式。就像电影《Her》里那样, 我们通过让 AI 住进眼镜里,以无感的方式结合 AI 实现全新的交互。

图源:极客公园

 

大家可以设想一下,拥有了海量现有的安卓生态内容,结合焕然一新的 AI 交互,再加上轻量化的产品体验,我们可以期待安卓 XR 在未来几年给大家带来的变革。同时,这也是第一个原生的 AI 操作系统。我们相信,在巨头的争夺下,中国公司也有机会通过联盟的方式,参与到全球产品的定义和竞争中去。

虽然今天 AI 的「大脑」是在大洋彼岸被创造和定义的,但我们相信,承载它的「眼镜」将越来越多地在中国诞生,中国今天是全球硬件制造业创新的核心基地。

同样,我们也相信眼镜可能是我们在座各位有生之年遇到的「最后一块屏」的机会。我们希望这块人类所需的「最后之屏」,能由我们这一代人亲眼见证,甚至有机会去参与、引领和定义。

虽然我不认为目前的成果已经达到了初代 iPhone 那般惊艳的程度,但这可能是我们和谷歌一起,在过去两年联合打造的、现阶段最好的「版本答案」。

我们希望能给大家带来惊喜,让大家看到未来几年这个行业将会涌现出怎样不同的产品形态和体验。

谢谢大家。

浏览量: 3

文章分页

上一页 1 … 10 11 12 … 100 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间