Skip to content
  • 51蛙吖蛙元宇宙社交空间官网
51蛙吖蛙 – 元宇宙社交

51蛙吖蛙 – 元宇宙社交

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

追赶谷歌,OpenAI 推出全新旗舰生图模型;折叠屏 iPhone 设计细节曝光;余承东接任华为终端有限公司董事长|极客早知道

已免费开放:OpenAI 最强 AI 生图模型登场,奥尔特曼变身性感消防员

12 月 17 日消息,OpenAI 昨日(12 月 16 日)发布博文,推出「全新旗舰 ChatGPT 图像生成模型」GPT Image 1.5,并罕见公开了该项目背后的庞大研发团队名单,并同步在 ChatGPT 中推出了专用的「Images」(图像)标签页。

此次更新被视为 ChatGPT 图像生成能力的重大飞跃,新模型不仅能生成高保真图像,更在「听懂人话」方面表现出色,即具备极强的提示词遵循能力。

无论是从零创作还是基于上传照片进行编辑,GPT Image 1.5 都能在保留原图核心要素的同时,精准执行用户的指令。

据 OpenAI 介绍,新模型最突出的亮点在于对细节的极致掌控。在生成或编辑图像时候,GPT Image 1.5 能够完美保留光线、构图以及人物外观等关键特征,避免了以往 AI 改图「面目全非」的问题。

此外,该模型大幅提升特定场景下的表现,例如能生成更逼真的服装试穿效果,提供改进的风格滤镜,并能进行极具原创感的概念性转换。

长期以来困扰 AI 绘图的「文本乱码」问题,在 GPT Image 1.5 中得到了显著改善。新模型在文本渲染方面表现优异,能准确地将文字融入图像中。

同时,OpenAI 全面升级 ChatGPT 的编辑工具,用户现在可以精准地添加、移除、组合或移位图像元素。OpenAI 将此次升级形容为把 ChatGPT 变成了一个随身携带的「迷你修图工作室」,用户随时随地都能进行专业级的图像处理。

为了提升使用体验,ChatGPT 在网页端(chatgpt.com)和移动应用侧边栏中新增了独立的「Images」入口,该界面内置了多种预设滤镜和灵感提示词,帮助用户快速上手,已面向全球所有 ChatGPT 用户和 API 用户开放,并且与所有模型无缝兼容。(来源:IT 之家)

余承东接任华为终端有限公司董事长

12 月 16 日消息,国家企业信用信息公示系统显示,华为终端有限公司发生工商变更,由余承东接任公司董事长。目前,何刚担任公司经理,董事成员包括朱平、何刚、杨波等。

华为终端有限公司成立于 2012 年 11 月 23 日,法定代表人为魏承敏,注册资本 6.06 亿人民币,经营范围含开发、生产、销售通信及电子产品、计算机、卫星电视接收天线、高频头、数字卫星电视接收机及前述产品的配套产品,并提供技术咨询和售后服务等。

股东信息显示,该公司由华为终端(深圳)有限公司全资持股。(来源:CnBeta)

AMD CEO 苏姿丰到访中国:率队访问联想北京总部,参观人形机器人等最新技术成果

12 月 16 日消息,据第一财经,AMD 公司董事会主席兼 CEO 苏姿丰率高管团队造访联想集团位于北京的全球总部。在联想集团多位高管陪同下,AMD 一行参观了包括人形机器人在内的多项联想最新产品与技术成果。

苏姿丰(Lisa Su)1969 年 11 月 7 日出生于中国台湾省台南市,为美籍华裔半导体芯片专家,美国国家工程院院士、美国艺术与科学院院士,美国超威半导体公司(AMD)董事长兼首席执行官。(来源:IT 之家)

美国男子「听信 ChatGPT 谗言」弑母后自杀事件后续:OpenAI 拒交关键聊天记录

12 月 16 日消息,科技媒体 Ars Technica 今天(12 月 16 日)发布博文,报道称在一起凶杀案中,ChatGPT 涉嫌诱导凶手,但 OpenAI 却拒绝提供案发前几日的完整聊天记录。

美国康涅狄格州于 2025 年 8 月发生一起惨剧,56 岁的健美运动员 Stein-Erik Soelberg 在杀害其 83 岁的母亲 Suzanne Adams 后自杀。

博文介绍,受害者家属正式起诉 OpenAI,指控其产品 ChatGPT 加剧了凶手的精神疾病,并直接诱导了暴力行为。起诉书称,Soelberg 在离婚后陷入精神困境,将 ChatGPT 视为唯一知己,而 AI 不仅未进行劝导,反而肯定了他的一系列疯狂妄想。

家属通过 Soelberg 生前发布在社交媒体上的视频,拼凑出了部分对话内容。记录显示,ChatGPT 称 Soelberg 为「肩负神圣使命的战士」,让他相信自己唤醒了 AI 的意识,并处于类似《黑客帝国》的世界中心。

更为致命的是,当 Soelberg 妄想母亲通过汽车通风口向他「投放迷幻药」时,ChatGPT 竟对此表示认同,进一步强化了他对母亲的仇恨与恐惧。

尽管部分记录已曝光,但家属仍无法获取案发前几日最关键的完整聊天日志。OpenAI 称基于保密协议或隐私政策,拒绝提供这些数据。

Mozilla 新任 CEO 表态:继续押注 AI 为 Firefox 打造可信任的 AI 功能

多年来,Mozilla 一直在平衡其「使命驱动型非营利组织」和「依赖市场收入赖以生存的公司」这两种身份:一方面通过产品推动开放、隐私友好的开放网络愿景,另一方面现实中又严重依赖与 Google 的搜索分成协议来维持财务运转。在近两年中,Mozilla 基金会和相关项目经历了多轮裁员和架构调整,这也引发了外界对其如何在倡导隐私与开放的同时「拿 Google 的钱办事」的质疑。

与此同时,生成式 AI 的快速发展也让 Mozilla 面临新的定位挑战:一方面,AI 对浏览器形态和上网方式的重塑已经不可逆,另一方面,如何在这一进程中坚持透明、可控和用户主权的理念,成为 Mozilla 不能回避的问题。Enzor-DeMeo 认为,目前的 AI 生态正在侵蚀用户对技术的基本信任,而这恰恰是 Mozilla 可以发力的空间:「现在真正需要的是一家用户可以信任的科技公司。」

在具体技术路线方面,Enzor-DeMeo 明确表示,Mozilla 短期内不会自研类似 OpenAI 或 Google 那样规模庞大的通用大模型。不过,他确认 Firefox 将在明年推出「AI 模式」(AI Mode),为用户提供多种模型和服务的选择,并通过浏览器这一用户熟悉的入口,提供可理解、可控制、可切换的 AI 体验。他强调,Mozilla 不会被激励去「推某一个特定模型」,而是会以多模型并存的方式投入市场——核心竞争力在于可信赖的产品设计和数据处理方式。

在他看来,在浏览器领域仍然「有空间容纳一款新的浏览器,甚至是一款以 AI 为核心的浏览器」,前提是这款浏览器从一开始就围绕信任、透明和用户选择来设计。对于既要谋求商业可持续,又要维护开放网络和用户隐私的 Mozilla 来说,这一 AI 战略既是对外界质疑的回应,也是其在下一阶段互联网格局中争取话语权的关键试验。(来源:CnBeta)

大众汽车将关停德国本土工厂 系公司历史首次

在生产线中,由大型吊具悬挂着的处于半装配状态的汽车正在流转。大众汽车德累斯顿工厂素有「透明工厂」之称,未来这里将被改造为一座技术研究中心。受市场需求疲软与美国高额关税冲击,这家汽车巨头决定停止在德累斯顿工厂的整车生产。该工厂于 2001 年投产。

本周二,最后一辆汽车将驶下大众汽车德国德累斯顿工厂的装配线。这是这家拥有 88 年历史的汽车制造商,首次关停其在德国本土的整车生产工厂。

早在去年,大众汽车就曾发出减产预警。彼时,公司在欧洲及最大市场中国均面临需求疲软的困境,同时美国征收的高额关税也进一步拖累了其在美销量。

历经 24 年的整车生产历程后,德累斯顿工厂将转型为聚焦人工智能、机器人技术及芯片设计等领域的研究中心。这座因通体玻璃幕墙而得名「透明工厂」的基地,未来将由大众汽车联合萨克森州政府及德累斯顿工业大学共同运营。

大众汽车品牌首席执行官托马斯・谢弗在一份声明中表示:「关停拥有 20 余年历史的透明工厂整车生产线,这绝非一个轻易做出的决定。但从经济角度考量,这一举措是完全必要的。」

大众汽车与代表德国本土员工的工会委员会达成协议:德累斯顿工厂现有的 230 名员工,可选择领取遣散费、申请提前退休,或是调任至集团旗下其他厂区。(来源:CnBeta)

DRAM 短缺引发行业倒退 报告称 8GB 内存笔记本将重成主流

全球 DRAM 短缺危机正对消费电子行业产生深远且剧烈的连锁反应。继此前传出 4GB RAM 手机可能回归的消息后,笔电市场也拉响了警报。最新报告指出,由于内存供应紧张及价格高企,曾被视为中端标配的 16GB 内存可能被迫让位,8GB 内存的笔记本电脑将重新成为市场主流。

近日,行业分析机构 TrendForce 发布的报告为笔记本电脑市场敲响了警钟。报告指出,在 DRAM 供应受限、16GB 内存套件价格已飙升至难以承受的背景下,PC 制造商为了控制成本,将倾向于在主流产品中采用更低的内存配置。

在过去一段时间,随着 DDR5 内存套件价格变得亲民,为笔记本电脑配备 16GB 内存几乎已成为一种理所当然的配置,甚至一些低端型号也以此作为卖点。大多数中端笔记本要么已标配 16GB,要么正在向此过渡。然而,当前趋势发生了显著倒退。

这意味着,占据最大用户基数的中端笔记本市场将受到最直接的冲击。厂商将不得不重新拥抱 8GB 配置以维持产品价格竞争力。当然,高端笔记本电脑仍将提供更高的内存配置,但预计其价格也会随之大幅上涨。

更严峻的预期是,有主要芯片制造商警告,这场由 AI 产业需求激增等因素引发的内存供应危机可能持续至 2028 年。在可预见的未来,消费者可能需要为获取与往年同等的硬件性能支付更高昂的成本,或被迫接受配置上的妥协。

(来源:CnBeta)

苹果 iPhone Fold 设计细节曝光:内屏宽大于高,比例趋近大屏 iPad 横屏模式

12 月 17 日消息,苹果公司正致力于敲定明年旗舰 iPhone 系列的设计方案,一份新报告称,备受期待的 iPhone Fold 或将采用独特造型,其内部屏幕的宽度大于高度。

据博主 @ 数码闲聊站 此前的消息,苹果阔折叠手机采用侧边指纹 Touch ID。此后不久,《The Information》杂志发布了一份未来几年新款 iPhone 机型的综合概览报告。该报告不仅佐证了 @ 数码闲聊站 透露的大部分内容,还进一步明确了 iPhone Fold 的一项关键特性:屏幕的形状与尺寸。

和 @ 数码闲聊站 的消息一致,《The Information》杂志预计 iPhone Fold 的外屏尺寸约为 5.3 英寸,内屏尺寸约为 7.7 英寸。但最值得关注的是,这份新报告指出,这一尺寸设计将使得它的内屏呈现出「宽大于高」的形态。

报告写道:「不同于三星和谷歌推出的其他折叠屏手机,苹果这款产品展开后的屏幕比例,将与苹果大屏 iPad 的横屏模式比例相近,也就是展开后宽大于高。手机折叠状态下,屏幕尺寸约为 5.3 英寸;展开后则搭载一块更大的 7.7 英寸屏幕。与 iPhone 18 Pro 系列机型相同,这款手机的左上角将嵌入一颗前置摄像头,同时还配备光线传感器、距离传感器及其他各类传感器。」

苹果在美国市场的两大智能手机竞争对手三星与谷歌,其推出的折叠屏机型即便在展开状态下,依旧保持高大于宽的比例。

(来源:IT 之家)

小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强

12 月 16 日消息,小米今日发布 Xiaomi MiMo-V2-Flash 开源 MoE 模型,总参数量 309B,活跃参数量 15B,专为智能体 AI 设计,专注于快。

小米官方介绍称,这是一个专为极致推理效率自研的总参数 309B(激活 15B)的 MoE 模型,通过 Hybrid 注意力架构创新及多层 MTP 推理加速,在多个 Agent 测评基准上保持进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理成本仅为其 2.5%,生成速度提升 2 倍。

Xiaomi MiMo-V2-Flash 采用 1:5 的 Global Attention 与 Sliding Window Attention (SWA) 混合结构,128 窗口大小,原生 32K 外扩 256K 训练。

同时,小米推出了一个在线 AI 聊天服务 Xiaomi MiMO Studio,用户可以在其中体验 Xiaomi MiMo-V2-Flash。该服务支持深度搜索和联网搜索。

Xiaomi MiMo-V2-Flash 的模型权重和推理代码均采用 MIT 协议全面开源。MiMo-V2-Flash 的 API 定价为输入 $0.1/M tokens,输出 $0.3/M tokens,API 限时免费。

常玩游戏能防老年痴呆 全国首张「游戏处方」在浙江开出

数据显示,我国 60 岁以上人群中,约 3877 万人存在轻度认知障碍(MCI),若不干预,38% 将在 5 年内发展为阿尔茨海默病。本月 11 日,浙江省中医院为轻度认知障碍患者开出全国首张游戏化认知训练电子处方,为面临认知衰退风险的老年人提供了新选择。

该处方的核心是「腾讯脑力锻炼」软件,这款历经三年研发的软件已获医疗器械注册证,目前已是正式医疗项目,单次治疗收费 30.6 元。

软件设有「厨艺大赛」「音乐大赛」「收纳大师」「诗词大会」四大生活化训练模块,每个模块都有超 150 个关卡。

患者可在医生指导下,通过模拟摊煎饼、诗词填空等生活化游戏进行训练,这种设计通过趣味任务激活大脑,解决传统认知康复训练枯燥、患者难坚持的痛点,能提升患者治疗依从性。

游戏训练针对记忆、执行功能等六大认知域,刺激前额叶和海马体,促进神经元连接,可能减缓β-淀粉样蛋白沉积(阿尔茨海默病病理标志)。

研究显示,规律训练 3 个月后,参与者脑部活力评分平均提高 30%。

《自然》的研究证实,游戏化认知训练可修复大脑衰退,《国际精神病学杂志》也提到这类益智游戏能刺激正常脑细胞发挥作用,进而提高患者认知能力。(来源:快科技)

 

浏览量: 4

英特尔,下一个 AI 时代的「卖铲人」

找一张三年前的照片,需要多久?你需要翻遍混乱的相册,还是依赖飘忽的云端搜索?

当下,我们早已是「数字囤积者」,手机里塞满数万张照片,硬盘中堆积上百 TB 资料。数据黑洞不断膨胀,而关键的记忆与文件却沉入深海。我们制造了数据洪流,却反被其淹没,陷入数据失控的焦虑。

在 2025 英特尔 AI NAS 解决方案峰会上,英特尔中国区技术部总经理高宇分享了自己的观察:「过去 NAS 存的是电影,现在存的是人生。」每个人的照片、视频、文档正以十万计增长,NAS 不再是极客玩具,而应成为 「个人媒体的家」。海量数据喷涌,催生了对家庭存储中心的真实渴求。

然而,传统的 NAS 虽是数据的「容器」,其高度专业化的部署和复杂的配置要求,将绝大多数用户挡在了门外。

英特尔中国区技术部总经理高宇 | 图源: 英特尔

正当市场困于数据失控的焦虑与专业工具高门槛之间时,英特尔,这个芯片巨头,如今正试图以一个「卖铲人」的姿态,重新定义存储环节。

英特尔技术专家在大会上提到AI 的能力需要数据的喂养,才越来越强,AI+NAS 是天生耦合的。他们还希望让 NAS 变得「非常简单易用」,客户在没有指导的情况下,三五步就可以实现 NAS 的部署以及与个人内容的同步。

英特尔的入局,指向的并非是存储硬件迭代,而是更关注如何利用现有算力,赢得下一场关于「数据主权」和「智能存储范式」的定义权。AI NAS ,究竟是巨头在存储市场里「新瓶装旧酒」?还是它真能成为我们「数字囤积症」的解药?我们在西安与多位英特尔技术专家对话,深入英特尔的战略意图,去理解它在技术、算力,以及生态上的布局,看这个「存储容器」如何蜕变为「数据大脑」。

 

一、AI NAS,不完全等于 AI + NAS

英特尔入局,并非为了重复传统 NAS 厂商的故事。如果说过去的 NAS 只是一个由小核驱动、负责存取数据的「容器」,那么英特尔正在定义的 AI NAS,则是一个具备边缘 AI 算力的「动态执行者」,是英特尔为下一轮数据淘金潮准备的「新铲子」。

这把新铲子的核心,在于它不再依赖低功耗的小核,而是选择提供一定算力的平台。这种战略选择基于 AI 模型架构的两大趋势:一是让参数量巨大的 大而稀模型 适合在端侧部署;二是推动小而专模型通过压缩,达到接近大型模型的性能,同时适配多模态处理,让 AI 具备更强的感官理解能力。

野心需要硬实力支撑。英特尔正在将高算力从云端「压入」边缘设备,其芯片算力正以两年五倍的幅度跃升,下一代平台甚至将突破 180 TOPS。这意味着,原本需要云端巨量服务器处理的 AI 任务,如今在家庭级别的设备上就能完成。

更关键的一步,是「可变显存」技术。它像一道智能闸门,动态调配资源,让酷睿 Ultra 平台甚至能在本地流畅运行参数高达 120 亿的大语言模型。简言之,AI NAS 不再是哑巴仓库,而是一个能理解、能思考的「本地数据大脑」。

也就是说,过去的 NAS 只是能存储,现在的 AI NAS 不但能存,还能提供基础的检索能力,并基于此还能打造一定简单的应用能力,承担一定前端应用。比如说,通过加上知识库检索和 VLA 模型能力,能够通过自然语言对话,直接完成文本、图片、视频的智能检索,彻底解决检索难的问题。而在未来,AI NAS 可能成为从 「容器」 到 「数据大脑」 的蜕变。

2025 英特尔 AI NAS 解决方案峰会现场 | 图片来源:英特尔

试想一下:如果你的硬盘能听懂你说话,一切会怎样?这意味着你不用再回忆复杂的文件路径,只需像吩咐助理一样对它说:「找出我去年在青岛拍的、有帆船的所有视频,再挑三张最美的夕阳。」几秒内,它就能理解你的意图,在海量数据中精准打捞。这背后是知识库与多模态模型的融合,让 AI NAS 能听懂自然语言,看懂图像内容。

反过来,AI NAS运转会不会比传统NAS更占据实际存储空间?英特尔认为,随着模型快速演进而优化。未来相同场景所需资源将更少,相同资源可支持更大应用场景。就像2025年年初运行时模型需大量资源,但2025年年底模型运转时只需较少资源即可实现相同场景。这或许也意味着,AI NAS 的推广阻力并不会被持续上涨的内存和存储价格所长期锁定,因为平台性能的提升会不断弥补资源消耗。

AI NAS 的本地算力还能够保障了企业数据和个人隐私可以安全地在端侧完成智能处理和知识库查询,无需上传公有云,有效缓解了用户的隐私焦虑。

英特尔的「卖铲人」角色,是提供一个全新的平台,而不仅仅是芯片。正如英特尔专家所言,AI NAS 的形态已演变为「工作站加存储加小型算力中心的结合」。英特尔正在以基础设施提供商的身份,定义未来数据流动的标准。

二、AI PC 的下一站,英特尔用 AI NAS 构建「算力后盾」

早在 2023 年,英特尔就组建了 NAS 团队,该团队隶属于英特尔 CCG 产业链技术业务板块下的创新业务,今年算是其首次集体成果亮相。这也清晰地暴露了英特尔在新一轮算力战争中的战略意图:另辟蹊径,通过存储环节卡位边缘 AI 的数据入口。

英特尔入局 NAS 市场的首要逻辑是产业协同。作为首个推出 AI PC 产品的平台厂商,英特尔看到了 AI PC 浪潮的必然性。据 Gartner 预测,到明年年底,全球将有高达 60% 的笔记本具备 AI PC 能力,总量可达 1.5 亿台。终端算力的爆发式增长,必然需要一个集中、可靠、且智能化的数据中心进行喂养和支持。AI NAS 正是这个生态中的关键部位,也就是说,在英特尔的设想中,AI NAS 并非要取代 AI PC,而是与其形成一个配合使用的整体场景。

如果按照场景划分,AI PC 面向个人、家庭等多样化场景,而 AI NAS 则更偏向集中管理中小企业、家庭及创作者的数据。这种分工的价值在于,AI NAS 可以作为本地的小型算力中心,为不具备强大 AI 算力的 PC 提供计算引擎。特别是对于创作者等对数据敏感的用户,本地 AI 算力能在更大的模型上运行,更好地保护数据隐私。而搭载了多卡方案的 AI NAS 更够在支持并发多任务时,性能优于 AI PC。

英特尔深知,传统 NAS 市场规模的扩大已触及瓶颈,未来的机会在于 AI 带来的新场景和附加价值。英特尔正在尝试用图片视频检索和 RAG 检索增强生成技术,在 AI NAS 上实现了快速检索,以及本地知识库的构建。

在现场,英特尔展示了如何用 AI NAS 上的检索功能。比如说用户可以直接问挖掘机厂商们不同型号功能的产品信息。而且,有了基于本地数据的 AI NAS 后,AI 还能横跨企业内部不同知识库,给出一些通用的产品规格、财务报告等数据分析,进行高准确度的查询和总结。这不仅是文本管理,更是企业内部数据资产的智能化。

英特尔还已经成立了专门的 AI NAS 软件团队,提供平台级的技术支持,包括 AI SDK 套件、基于 Ollama、llama.cpp 生态的支持,以及针对新 AI 应用的落地和优化。这种投入体现了英特尔作为「卖铲人」的本质:不直接生产终端产品,而是提供底层的硬件,如酷睿 Ultra 平台、锐炫 Pro B60 多卡方案和强大的工具链如 OpenVINO,解决行业对算力的追求。英特尔还正在扩展与 AI 应用和中间层相关的 SDK,并推出了基础版和 Pro 版方案,甚至打造了语音助手「樱桃」。

英特尔智能语音助手 SDK – 樱桃 |图片来源:英特尔

可以看出,未来 AI NAS 的形态已经演变为一个本地小型算力中心,承载着 AI Agent、企业知识库、甚至多模态模型,或许也会成为数据大脑。这种全方位的技术输出,也从某种程度上确保了英特尔能够定义未来 AI 时代的数据流标准,成为新一代存储基础设施的奠基者。

 

三、英特尔在「定义」谁的数据未来?

英特尔在大会上展示的 AI NAS 应用以及相关生态产品,更像是一次抛砖引玉,其战略意图并非是直接推出终极产品,而是通过演示 AI NAS 的综合玩法和能力,激发整个产业生态的协同发展。

英特尔深信,「真正好用的应用能迅速带动市场」,但在此之前,必须先将核心聚焦于数据管理,明确受众画像,并与绿联、铁威马等品牌商深度合作,在锐炫集显/独显和 NPU 上先进行 AI 优化,提供一整个平台,让用户能够便捷安装和应用,感受到 AI NAS 的潜在想象力。

这种「基础设施先行」的策略,也侧面展现了其想作为存储卖铲人的布局思路。

大会现场展出铁威马 U12-500 Max 等产品 |图片来源: 英特尔

然而,当一个传统的存储「容器」蜕变为「本地的小型算力中心」和「AI 预处理中心」时,随之而来的终局之问浮出水面:在 AI 时代,用户的数据主权是否得到了更大的保障?这不仅仅关乎本地存储权限,更涉及到如何在复杂的网络环境中保障数据安全。同时,NAS 绝非快消品,而 AI 技术日新月异,用户对 AI NAS 的持续升级能力和长期性能优化方向有着天然的疑虑。

对此,英特尔的技术专家给出了清晰的界定:AI NAS 的核心场景和用户群体并未改变,仍是面向中小企业、创作者和家庭用户。但 AI 算力的加入增加了其成长性,拓宽产品定位,但绝非要取代工作站,而是要形成一个「工作站加存储加小型算力中心的结合」。尽管合作伙伴展示的产品形态愈发接近服务器级,但英特尔强调其仍是聚焦数据管理,并在性价比上比专业工作站会更具优势。中小企业和家庭用户本身就存在强烈的算力需求,因为AI NAS 承担了手机和传统 PC 无法承载的复杂应用。

显然,英特尔深刻认知到形态并非 AI NAS的终点,解决问题和提升附加值才是永恒的商业目标。他们期待更多软件生态合作伙伴加入,共同围绕企业知识库、视频检索等核心应用发力,催生出能够真正推动市场的爆款应用。从传统 NAS 到如今绿联、铁威马带来的用户体验大幅改善,英特尔将沿着这条思路发展 AI NAS,同时也做好自己的底层芯片支持。

英特尔描绘的蓝图很清晰:AI NAS 的核心永远是数据管理,但 AI 赋予了它灵魂。它不取代专业工作站,而是成为性价比更高的「算力平民化」的硬件载体。

这场博弈的终局,并非硬件销售。英特尔正在以「卖铲人」的身份,定义 AI 时代数据流动与处理的新标准。当算力在边缘爆发,谁掌握了数据的智能入口,谁就握住了下一代计算的钥匙。

从 PC 时代的王者,到 AI 时代的生态奠基者,英特尔正试图通过一条看似平凡的数据存储之路,完成其最关键的一次转身。这条路能否通向下一个辉煌,取决于它能否让每个普通人,真正成为自己数据世界的掌控者。

 

 

浏览量: 5

量产「中国版 FSD」后,地平线为何公开高阶智驾的「灵魂代码」?

2025 年,自动驾驶行业迎来了关键的「跨越之年」。

年初,特斯拉正式向中国车主推送了 FSD 功能。国内智驾玩家们在继续激烈「内战」的同时,还要面临这个全球最强对手之一的正面竞争。

因此,那些愿意在智能化上尝鲜的先锋车主,可以体验到越来越好用的智能辅助驾驶功能——虽然这需要付出不菲的成本:要么花 6.4 万元订阅特斯拉 FSD 的软件服务;要么置换一辆近两年上新的、配备高阶辅助驾驶的新车,现阶段往往价格在 20 万元以上。

所以,无论是行业里其他玩家,还是更多大众消费者,都期待着智能辅助驾驶在「技术向高」之后,可以尽快走向「人人可享」的新阶段。

年底,地平线 HSD 高阶智能驾驶正式量产,并率先搭载在深蓝 L06、奇瑞星途 ET5 两款新车上交付上市。这标志着可用且好用的城区辅助驾驶,正式进入了 15 万元以下的区间。

对汽车行业来说,在 HSD 量产前,高阶辅助驾驶方案全部都以被封装好的「标准化产品」形态存在。

而一直强调「生态合作」的地平线,进一步推出了覆盖产品开发全周期的算法服务模式,包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务,以及最核心的基座模型授权。这种全新的模式,实际上也给生态伙伴们提供了「丰俭由人」的多种灵活选择。

在地平线的生态伙伴列表里,既包括长安、奇瑞这样直接面对消费者的主机厂;也包括日本电装、大众 Carizon、博世等头部 Tier1 供应商。

地平线给这套软硬一体的合作模式,起了一个听起来就充满无限可能的名字:「HSD Together」。

 

一家后摩尔定律时代的「非典型芯片公司」

作为一家主要面向 B 端的技术公司,公众过往对地平线的了解大多来自「芯片」。这是地平线前 10 年最主要的业务之一。到 2025 年 8 月,地平线征程家族芯片累计出货量突破了 1000 万套,市占率超过 33%,位列行业第一。

但其实,地平线从成立那天起就没有按照传统「芯片企业」的逻辑规划自己的成长路径。

这来源于他们在创业之初的 2016 年对芯片行业的一个超前判断:如果只依赖于摩尔定律——即:通过优化芯片的设计和制造工艺,来不断提升晶体管密度,继而提升芯片性能,这个方法论很可能在机器人时代里难以为继。

也就是说,地平线需要在摩尔定律之外,再找到一条更好的解题思路。

在地平线看来:机器人时代,提高单位功耗的有效率计算数据,是提升芯片性能的关键。因此,「软硬结合」成为了工作的重点。这需要既在硬件层面持续优化芯片架构,也要在软件层面涌现出优秀顶尖的算法,还要设计出能够高效分配资源的编译器,以在有限的物理空间里压榨出更高的算力利用率。

如果把芯片计算视为一场交响乐演出,那么神经网络处理器(BPU)代表着乐团,算法代表着作曲,而编译器则在乐队里扮演着指挥家的角色。

芯片计算过程中,BPU、编译器、算法各自的职责分工 | 图片来源:地平线

与此同时,地平线在第一个 10 年里,重点聚焦在智能汽车领域,将其视为「机器人时代」里第一个大规模落地应用的场景。用创始人余凯的话说:「如果做不到自动驾驶,恐怕就无法在机器人时代占据一席之地」。

因此,聚焦在自动驾驶领域的地平线,在芯片设计上和英伟达等芯片巨头走了一条差异化道路。相比对手追求的「极致通用性」的思路,地平线每一代芯片的 BPU 架构和编译器,都为了自动驾驶这个具体场景,进行了特定优化:

  • 第一代 BPU 架构「伯努利」:核心应用场景是高速 ADAS,技术重点是做好目标检测和感知计算
  • 第二代 BPU 架构「贝叶斯」:核心应用场景拓展到高速 NOA,技术重点也从「检测」进化到「预测」
  • 第三代 BPU 架构「纳什」:核心应用场景是打通城区 NOA,因此对「复杂博弈」和「交互式决策」进行了运算优化

12 月 8 日,在地平线第一届技术生态大会上,余凯介绍了第四代 BPU 架构「黎曼」以及第四代编译器「天工开物 4.0」的性能提升:比起当前架构,可以提供 10 倍以上的算力,支持 10 倍以上的算子,且能效提升 5 倍。

更重要的是,余凯透露采用「黎曼」架构的征程 7 系列芯片,在性能、算力方面将直接对标特斯拉下一代自动驾驶芯片 AI5,并且将和 AI5 同步推出。

这家成立 10 年的非典型芯片公司,通过前十年的积累,已经在自动驾驶领域里坐上了全球头号技术玩家的牌桌。

 

「比开放更开放」的中国版 FSD

除了技术实力外,商业运营是所有芯片企业面临的另一重关键考验。毕竟芯片行业技术门槛高、前期投入大,企业必须获得持续健康的收益回报,才能支撑起长期稳定的研发运转。

但智驾芯片不同于成熟的消费电子芯片,它的价值并不完全由「硬参数」、「性价比」决定,还取决于基于芯片的研发「兑现效率」。

在智驾领域,随着用户需求不断拉高,车企当前面临的最大痛点是:拥有大算力芯片选择,但缺乏转化为好用高阶功能的能力和效率。

所以,芯片厂商在提供「顶级食材」的基础上,不妨再亲自下场烹饪出「示范菜品」,展示自家芯片在极限场景下的能力上限。正是基于对这一行业痛点的预判,地平线做出了战略调整。

2021 年,余凯洞察到下一个阶段市场需求的变化。他认为,无论是用户还是车企,对智能驾驶的需求一定会从基础的 ADAS 功能演进到全场景辅助驾驶。因此,地平线一面为此设计新的芯片架构,另一面在「算法」层面大力投入研发资源,启动了后来的 HSD 项目,决定亲自下场「打样」。

两年后, AI 大模型全面进入智能驾驶研发流程的阶段。特斯拉推出了「端到端」的 FSD V12 版本,向行业证明了智能驾驶在 AI 加持下「上限」将大幅提升。但与此同时,行业里面临着一个新的难点:AI 加入后,研发难度其实更高了。

在第一届地平线技术生态大会上,余凯这样形容自动驾驶「基座模型」面临的挑战:

一个基座模型的训练,至少需要几十亿的训练成本。而 AI 时代的技术突破又极具偶发性和非连续性,往往来源于极少数顶尖人才的「灵光乍现」,而非资源「线性积累」。

这也是很长一段时间里,好用可用的智能驾驶始终没有大面积普及的关键原因之一。

余凯讲述新一代智驾模型研发中行业面临的挑战 | 图片来源:地平线

今年 11 月,历时四年,地平线 HSD 正式完成量产上市。HSD 采用和特斯拉 FSD 相同的一段式端到端架构,可以实现「Video in,Control out」的能力。上市之后,HSD 的技术实力得到了行业的广泛认可,被称作「中国 FSD」。地平线也正式跻身城区辅助驾驶领域的头部玩家。

而对于地平线这家始终强调打造智能驾驶生态的企业来说,HSD 的量产还有另一层更重要的意义:

和过往智能驾驶行业里常见的「黑盒交付」不同,地平线将模型能力拆分成了多层结构,推出了全新更开放的商业模式。

在这套模式里,地平线不仅延续了征程 2 到征程 5 时代提出的「SoC+算法 IP 授权+硬件参考设计」模式,还可以提供覆盖产品开发全周期的算法服务(HSD Together),包括:数据服务与艾迪 SaaS 平台、专业的算法适配工程与咨询服务、以及最核心的基座模型授权。用余凯的话说,HSD 训练过程中的 know-how 和经验,都可以为合作伙伴所用。

在全新的商业模式下,地平线的「生态伙伴们」既可以是主机厂,也包括汽车产业链中的其他 Tier1 企业。前一种模式的合作成果已经在深蓝 L06 和奇瑞星途 ET5 上量产交付;而在后一种模式中,大众 Carizon 将会基于地平线第四代 BPU,设计算力在 500-700TOPS 之间的下一代智驾计算平台。

余凯将这套「中国版 FSD」背后对应的商业模式形容为:

「比开放更开放」。

 

走向「剩下的 50%」

现在,让我们把视线从地平线一家公司切换到整个行业以及消费者视角:地平线 HSD 的量产和全新商业模式的提出,还有怎样的意义?

首先,在芯片领域里,以往大算力高性能的芯片选择不多。现在,地平线征程 6 系列的旗舰芯片 J6P 算力已经达到了 560T,对于生态伙伴来说,选择自然更丰富了。

其次,在全新的合作模式下,买家们不仅可以买到算力(芯片),还可以买到一整套的算法服务。而且,关键的模型算法可以以「白盒」形式交付。这显然可以让过往只能接受「黑盒」交付,担心失去「灵魂」的主机厂更安心。

更重要的是,这种「白盒」交付和合作的模式,可以帮助合作伙伴们在训练环节里少踩坑、少做不必要的随机试验。地平线表示,这套全新的合作模式在人力、算力、时间三个维度上,可以节约和提效超过 90%。

地平线基座模型有望为行业带来大幅提效 | 图片来源:地平线

最后,对于普通消费者而言,可以期待好用可用的城区甚至全场景智驾突破价格壁垒,变成了智能手机拍照一样的「人人可享」能力。

从目前来看,两款搭载地平线 HSD 辅助驾驶系统的车型已经量产上市,其中:

  • 深蓝 L06 搭载两颗 J6M 芯片,算力达到 256TOPS,起售价 13.29 万元
  • 奇瑞星途 ET5 搭载一颗 J6P 芯片,算力达到 560TOPS,起售价为 14.99 万元

这两款新车均把「城区智驾」这个曾经被认为是 20 万、30 万以上的豪车才可以拥有的功能,价格打到了 15 万元以内。

但这还不代表地平线 HSD 的「底线」。

在地平线生态大会上,余凯展示了一张「中国乘用车成交价分布」的统计表。深蓝 L06 所在的 13 万,恰好是过去三年成交价的中位数。

也就是说,市场上还有一半新车还不具备城区智驾的功能。

基于 HSD 的模型算法能力,地平线即将进入价格带下端的 50%市场 | 图片来源:地平线

今年 8 月底,在成都车展期间,地平线给过去十年交出了一份 1000 万芯片出货量的答卷。

如今,在下一个十年开始的时候,地平线给自己定下了全新的目标,那就是冲击 HSD 千万量产目标。

余凯透露,基于单 J6M 的方案已经进入了最后的验证阶段,这将让城区智驾的成本进一步降低。也就是说:HSD 即将进入剩下的 50%市场。

如果说过去十年,特斯拉定义了智能驾驶技术的「高度」;那么现在,地平线致力于拓展这项技术的「广度」——为更多车企提供追赶甚至超越特斯拉的机会。

不过,和特斯拉选择独自攀登的路线不同,地平线更愿意成为行业里那个「搭梯子」的人。在特斯拉打造的「封闭技术圈」外,地平线展示了智能汽车未来的另一种可能:一片生机勃勃的开放「生态雨林」,也让最前沿的科技可以更早地飞入寻常百姓家。

浏览量: 4

AI 时代,如何定义电商营销新范式?

作者|Cynthia

编辑| 郑玄

 

「用 AI 改造行业」这句话,电商行业已经喊了很多年。

但实际行动,却一直比较散点,停留在诸如「猜你喜欢」「以图搜图」这样 单点的能力建设,不够深入,也难以实现真正的系统级 AI 升级改造。

核心瓶颈有二:一是早年 AI 技术尚未成熟,缺乏支撑全链路协同的底层能力;二是系统级改造需穿透产品核心逻辑,而新玩法、新能力的叠加必然推高使用门槛。对普通商家而言,应对复杂系统往往需要投入高额人力物力,这让技术升级的规模化落地难以为继。

直到 2025 年,抖音电商率先用 AI 破局,解开了技术深度升级与商家门槛降低的两难问题。

而背后的秘密武器,正是不久前千川大会上重磅发布的「 千川・乘方 」: 借助 AI 加持,以及平台的精准用户洞察,千川・乘方不仅能最大限度的简化商家的操作,提升用户的内容体验,更做到了预判用户需求、激发用户需求、 千人千策,以实现商家、用户、平台三方共赢。

那么千川·乘方到底是怎样一个产品?它是将如何撑起抖音电商高增长、用户体验、商家体验的之间的不可能三角的?

 

01

千川·乘方与 AI 时代的电商

 

为什么 AI 改造电商营销会发生在今年?

背后的逻辑很简单:AI 的爆发需要两个前提 :足够多的数据燃料,以及足够成熟的技术引擎。而这两个条件,抖音电商当下正好备齐。

先看数据燃料。 千川大会期间公布的平台内部一组核心数据足以说明问题:在抖音,每天电商短视频播放量达 116 亿,晒体验的 UGC 视频播放量 486 亿次,电商直播间观看量 44 亿,这些真实内容成为新的种草引擎,产生新的一轮循环;每天在抖音电商看完短视频后,激发搜索的次数是 1.1 亿次,74% 的用户使用优惠券购买,证明价格敏感与内容兴趣可以实现有效结合。

更关键的是,抖音电商掌握的是 行为 + 交易 + 内容的三维数据 。这种独特的数据优势,让抖音的 AI 能真正理解 用户是谁、喜欢什么、愿意为什么买单,以及买单背后的转化链路到底如何,而不是停留在表面的信息匹配。

再看技术引擎 。 过去五年,虽然基于深度学习的推荐模型一直是电商搜推的核心,但是包括多模态 AI 在内的更多技术则一直停留在辅助工具层面,核心原因主要在于技术的不够成熟。而现在,三个关键技术的突破,让 AI 逐渐从配角变成了主角。

第一个突破是 agent 能力与强化学习的结合。 过去,平台的营销工具都是写死的 workflow,比如投流工具只能按照商家设置的预算、定向、出价机械执行。商家想要优化效果,只能靠投流手熬夜盯盘、手动修改参数。而现在,基于强化学习的 agent 系统,能让 AI 像人类投手一样思考决策:实时监控不同渠道的 ROI、用户点击转化率、复购率等数据,根据预设的目标自动调整预算分配,甚至在流量高峰期提高出价、低谷期降低消耗,实现每一分钱都花在刀刃上。

第二个突破是 MCP 为代表的模型工具控制技术 的成熟。 过去,大模型想要操作外部工具,只能通过 API 接口进行表面调用,无法深入工具内部的核心逻辑。而 MCP 技术相当于给大模型搭建了一个操作中枢与四肢,让它能操作抖音电商的多种营销工具,基于算法决策进行针对性操作,几乎不需要人工干预。

第三个突破是多模态大模型的落地。 过去,AI 生成文字还行,但生成图片、视频时总会出现画面模糊、风格不一致、与商品细节不符等问题,无法满足电商营销的商业化要求。比如生成的服装视频里,模特的动作与衣服的质感不匹配,或者生成的食品图片颜色失真,反而会影响转化。而现在,抖音自研多模态大模型、nano banana、sora 2 在内,一众业内多模态大模型的出现,已经解决了这些问题:不仅支持生成高分辨率的视频图像,精准还原商品的细节特征;同时支持内容修改、相同风格素材批量生成等能力,过去需要一个团队半天才能完成的拍摄,AI 就能在几分钟内生成多条符合抖音风格的营销素材。

数据燃料足够充沛,技术引擎足够成熟, 电商行业的智能新范式 自然水到渠成。千川・乘方的诞生,正是这两大优势的集中体现。

而要理解千川・乘方,我们可以从它的三个技术组成来看:

千寻:主打用户需求的精准预判, 打通了内容、商品、用户的壁垒,实现三位一体 的个性化推荐,让 AI 不仅能理解用户的现有需求,还能预判潜在需求,激发消费欲望。

千策:主打营销策略的制定,能够替代复杂且不够高效的人工计划,帮助客户增效、构建超级计划。客户 只需要设定一个总预算和预期目标,系统就能自动进行最优分配。

千意:实现了全场景的动态生成,从创意生成、客服问答、智能诊断推荐,AI 都能根据实时数据自动创作、调整、优化;

三大能力分别对应着 精准预判需求、经营全局优化、 动态内容生成与服务 ,共同构成了抖音电商 AI 营销的完整闭环。

 

02

熵减:千寻如何从让推荐

从混沌到精准预判

 

自然界有一个铁律:没有外力干预的系统,总会逐渐走向混乱,这就是熵增定律。

毋庸置疑,抖音是当下国内最大的短视频平台,积累了大量对电商转化可以起到指导意义的用户行为序列。但近些年来,随着部分用户的行为序列已经突破上万, 企业仅仅依靠投流师的个人经验就想要做好精准推荐,几乎不再可能。

那么有什么办法,能够让每一条流量都能低门槛的精准推到需要的人面前?

想要打破熵增,就必须引入新的外力——大模型 。而千寻,就是千川为推荐系统注入的 熵减外力。它的核心逻辑,是借助大模型推理能力,让推荐从混沌无序进化为精准预判。它能将用户视频、音频、文字等多模态输入,汇聚成万亿多模态的参数,并借助更强大的世界知识、抖音电商知识、用户内容偏好的推理与理解,精准推荐电商内容之外,还能预判需求,从而激发更多需求。

千寻的能力核心,源于三个层面的技术突破:

第一个突破是用户序列的全生命周期拓展 。过去,推荐系统只能处理用户一些短期、大类的行为数据;而现在,千寻能将用户序列从百级、千级拓展至万级,将关注周期拉的更长之外,深度挖掘用户的各种行为偏好,以及不同偏好之间的潜在联系。

第二个突破是模型尺寸与架构的升级。 千寻的模型规模已经从过去的千亿参数,升级至万亿多模态内容理解参数 + 千亿独立序列推理参数的协同架构。

这是什么概念?千亿参数的模型能理解基本的语言和图像,而万亿参数的模型则在此基础上,还具备深度的逻辑推理能力。无论是短视频的画面、音频、字幕,还是商品的详情页、评价文案,AI 都能精准拆解核心信息。

而与万亿多模态内容理解参数一同工作的千亿独立序列推理参数,则负责读懂用户。它能分析用户的行为序列背后的真实意图:比如一个用户连续刷了三条油痘肌护肤的视频,AI 不会简单地推荐洁面奶类产品,而是还会推荐诸如水杨酸产品、保湿乳液类产品,帮助用户完成综合的控油祛痘。

第三个突破是世界知识储备与深度理解能力。这是千寻最核心的竞争力,也是它能预判需求的关键。

千寻的大模型能够结合电商知识图谱及用户偏好进行智能推理,从商品的专业参数、行业趋势,到用户的消费习惯、生活场景,无所不包。比如用户搜索适合海边度假的裙子,AI 不仅会推荐沙滩裙,还会根据「海边度假」的场景,优先推荐防晒面料、易洗快干、拍照上镜的款式。

总的来说,千寻的出现,让抖音电商的推荐系统实现了质的飞跃。既解决了用户侧的体验问题——让用户刷到的内容都是自己感兴趣、甚至没想到自己需要的商品;也提升了平台侧的分发效率——让流量在 AI 的驱动下精准流转。

但这只是解决了流量怎么分的问题,对于商家来说,更关心的是投多少、投到哪、以及怎么投。而千策和千意,就是为解决这个问题而生。

 

03

增效:千策让营销再次进化

 

现如今,电商行业纯拼流量的阶段已经成为过去式, 全局经营成为新的关键词 ,但做好这一套并不容易。

对 中小企业来说,企业自身既不能产生足够的素材,也请不起专业投手,驾驭流量的能力远远落后行业平均水平。

大商家虽然有足够的资金和人力,但也面临着投入产出比越来越低的问题。随着竞争加剧,用户的数据维度增加到万级单位,只是依靠投手的经验就能完成精准投流,已经不再现实。

千策的出现,正是为了打破这种困境。它能够通过自动化能力,让营销策略制定 从专业操作变成一键搞定,从而让 营销门槛大幅降低,商家能专注于做好产品本身。

千策的核心逻辑是策略托管,简单来说,商家不用再区分营销与广告、达人与广告、佣金与广告,也不用设置复杂的定向、出价、预算分配,只需要输入三个信息:一笔总预算、一个综合优化的 ROI 目标、想要推广的商品,系统就能自动生成一个超级计划,覆盖用户与商家交互的全触点、售前售中售后的全场景。

这背后,是千策强大的策略能力, 而支撑这种能力的 ,正是 强化学习+ MPC(Model Predictive Control, 模型预测控制 技术) 组成的动态出价「大脑」,以及 MCP(Model Context Protocol,一种模型上下文协议)技术组成的灵活工具「四肢」。

强化学习让千策能从数据中学习最优策略。它会分析全网同类商品的数据,学习哪些定向组合、出价策略、渠道搭配能带来最高的 ROI;同时,在投放过程中,它会不断尝试新的策略,根据反馈调整优化,就像一个不断试错的营销专家。

搭配强化学习策略的,则是抖音电商的 MPC 算法能力。它能够基于动态创意,用算法算出所有组合方式各自的可能结果,然后参考用户的设定目标,不断选出最合适的出价策略,完成算结果→挑最优→定输入的实时动态循环调优,最终达成最优出价策略。

而基于 MPC+强化学习构建起的强大策略,MCP 作为大模型的强大四肢,能让 AI 可以直接操作不同工具,完成动态出价的最后一步执行。

可以说, 千策的出现, 彻底改变了营销的游戏规则,让它变成了人人都能参与的游戏 ,无论大小商家,都能通过千策实现高效增长。

 

04

提速:千意成为 AI 动态服务的新范式

 

对商家来说,电商运营的高成本不仅体现在流量侧,也体现在创意侧。

内容创作是电商营销的核心,但也是最让商家头疼的环节。传统的人工创作,不仅成本高,而且效率低、追热点难。一个专业的短视频团队,拍摄一条高质量的种草视频需要 1-2 天,成本动辄几百上千;而中小商家自己拍摄,不仅画面粗糙,还抓不住核心卖点,很难吸引用户。

为了解决这一难题,千川推出的千意,借助由大模型+X 系统组成的智能服务 agent 系统, 不仅能帮商家快速生成营销素材,还能根据反馈实时调整,让内容创作不再依赖专业团队。其创作能力更是覆盖了从创意生成、素材制作,到客服问答、智能诊断的完整全场景。

在 素材制作层面,千意借助多模态大模型能力, 能直接将用户输入的基础素材图、模特图转化为高质量的商品图以及短视频 。比如,千意会自动匹配职场女性通勤之类的视频模板,搭配合适的背景音乐和字幕,生成一条种草短视频。并且熟练掌握开场白、卖点讲解、优惠说明等专业直播电商 know how。

除了内容创作,千意还解决了商家的服务难题。比如智投星功能,由多个子 agent 组成,发现问题后及时诊断。比如商家的投流 ROI 突然下降,智投星会自动分析原因:是素材质量下降,还是竞品降价,或是流量渠道变化,然后给出具体的解决方案。

而 千意的这些能力背后,则是抖音电商的两大优势:一是多模态大模型的技术积累,能保证素材的质量和风格一致性;二是海量的内容数据沉淀形成的知识库 ,能让千意精准把握抖音的内容趋势和用户偏好。

 

05

尾声

 

可以说,千策和千意以及千寻的结合,让电商营销的门槛大幅降低。中小商家不用再担心不会做营销计划、不会创作,只需要专注于做好产品;大商家则能节省大量的人力和时间成本,把精力放在产品创新和品牌建设上。

这正是抖音电商想要实现的目标: 让生意回归本质,让好产品自然脱颖而出。

而回望电商行业的发展历程,我们能清晰地看到:技术始终是驱动一轮轮营销变革的底层动力,而营销也为 AI 技术朝着现实可落地的方向进化指明了方向,甚至可以说,正是来自平台侧、商家侧、用户侧的磅礴且急切的需求,推动了 AI 服务的进步和落地。

营销 1.0 时代,靠的是渠道红利,谁能率先低成本占据线上好的营销渠道,谁就能成功;

营销 2.0 时代,靠的是精准流量红利,谁能拿到更精准的用户画像,谁就能成功;

营销 3.0 时代,靠的则是 AI 红利,谁能用好 AI 工具,做 好 全局增长, 谁就能成功。

毫无疑问,千川・乘方正是营销 3.0 时代最典型的代表,它用 AI 重新定义了电商营销,实现了平台、商家、用户的三方共赢:平台实现了流量效率的提升,商家降低了营销成本、提高了盈利空间,用户获得了更精准、更优质的内容体验。

这或许正是电商行业的下一个十年该有的样子: 营销交给平台交给 AI,商家回归生产与品质,增长也就变得毫不费力。

浏览量: 4

我高中辍学,跟 AI 学习,逆袭成为 OpenAI 研究员

作者|金光浩

编辑| 靖宇

 

前段时间,我在上海参加了一个 AI 聚会。

活动本身聊的 AI 落地内容很多。

但最让我印象最深的,是一位投资人前辈分享的学习方法。

他说这个方法救了他,也改变了他投资时看人的标准。

具体是什么呢?就是学会「问问题」。

当你对一个问题感兴趣,就去和 DeepSeek 聊,一直聊,聊到它答不出来为止。

这种「无限追问」的技巧,当时听完我觉得挺震撼的,但活动结束后,这事就被我抛在脑后了。

没有尝试,也没惦记。

直到最近,我刷到了 Gabriel Petersson 辍学,用 AI 学习进入 OpenAI 的故事。

我才突然意识到,那位前辈说的「问到底」,在这个 AI 时代到底意味着什么。

Gabriel 访谈播客|图片来源:youtube

 

01

「高中辍学」,逆袭成为 OpenAI 研究员

 

Gabriel 来自瑞典,高中没念完就辍学了。

Gabriel 社媒主页|图片来源:X

 

他曾经觉得自己太笨了,根本不可能从事 AI 相关的工作。

转折发生在几年前。

他的表兄在斯德哥尔摩创办了一家初创公司,做电商产品推荐系统,叫他过去帮忙。

Gabriel 就这么去了,没什么技术背景,也没什么存款,创业初期甚至在公司公共休息室的沙发上睡了整整一年。

但这一年里他学会了不少东西。不是在学校学的,而是在实际问题的压力下硬逼出来的:编程、销售、系统集成。

后来为了优化学习效率,他干脆转成了合同工,这样可以更灵活地选择项目,专门找最优秀的工程师合作,主动寻求反馈。

申请美国签证时,他面临一个尴尬的问题:这类签证要求证明申请人在领域内有「非凡能力」,通常需要学术出版物、论文引用之类的材料。

一个高中辍学生怎么可能有这些?

Gabriel 想了个办法:他把自己在程序员社区上发布的高质量技术帖子整理出来,作为「学术贡献」的替代证明。这个方案居然被移民局接受了。

到了旧金山之后,他继续用 ChatGPT 自学数学和机器学习。

现在他是 OpenAI 的研究科学家,正在参与 Sora 视频模型的构建。

说到这,你一定很好奇,他是怎么做到的呢?

Gabriel 观点|图片来源:X

 

02

递归式知识填补:反常识的学习方法

 

答案就是「无限追问」,找一个具体问题,然后通过 AI 彻底解决这个问题。

Gabriel 的学习方法和大多数人的直觉相反。

传统的学习路径是「自下而上」:先打基础,再学应用。比如想学机器学习,得先学线性代数、概率论、微积分,然后学统计学习,然后学深度学习,最后才能碰实际项目。这个过程可能需要好几年。

而他的方法是「自上而下」:直接从一个具体项目开始,遇到问题就解决问题,发现知识盲区就补齐知识。

他在播客里说,以前这种方法很难推广,因为你需要一个全知全能的老师,随时告诉你「接下来该补什么」。

但现在,ChatGPT 就是这个老师。

Gabriel 观点|图片来源:X

 

具体怎么操作?他举了个例子:如何学扩散模型。

第一步,从宏观概念开始。他会问 ChatGPT:「我想学视频模型,最核心的概念是什么?」,AI 告诉他:自动编码器。

第二步,代码先行。他让 ChatGPT 直接写一段扩散模型的代码。一开始很多地方看不懂,但没关系,先把代码跑起来再说。能跑通,就有了调试的基础。

第三步,最核心的,进行递归追问,他会盯着代码里的每一个模块问问题。

就这样一层层往下钻,直到彻底理解底层逻辑。然后再返回上一层,继续问下一个模块。

他把这个过程叫做「递归式知识填补」。

递归式知识填补|图片来源:nanobaba2

 

这比按部就班学六年快得多,可能三天就能建立起基本的直觉。

如果你熟悉苏格拉底式提问法,会发现这本质上是同一个思路:通过层层追问来逼近事物的本质,每一个回答都是下一个问题的起点。

只不过现在他把 AI 当成了被追问的人,而由于 AI 近乎全知全能,不断的将事物的本质以一种通俗易懂的方式向提问者表达。

实际上,Gabriel 采用这样一种方式,对 AI 进行了「知识萃取」,学到了事物的本质。

 

03

我们大多数人用 AI,其实在变笨

 

听完博客,Gabriel 的故事让我产生了一个疑问:

同样是用 AI,为什么他能学得这么好,而很多人用 AI 之后,反而感觉自己在退步?

这不仅仅是我的主观感受。

微软研究院 2025 年的一篇论文显示 [1], 当人们频繁使用生成式 AI 时,自身批判性思维的使用会明显下降。

换句话说,我们把思考外包给了 AI,然后自己的思考能力也跟着萎缩了。

技能这东西符合「用进废退」的规律:当我们用 AI 写代码时,手和脑写代码的能力就在悄悄退化。

用 AI「vibe coding」的工作方式看起来效率很高,但长期下来,程序员自身的编程技能是在下降的。

你把需求扔给 AI,它吐出一堆代码,你跑通了,觉得很爽。但如果让你关掉 AI,手写核心逻辑,很多人会发现自己的大脑一片空白。

更极端的案例来自医学领域,一篇医学领域的论文指出 [2], 医生在引入 AI 辅助后三个月,结肠镜检测技能下降了 6%。

这个数字看起来不大,但想想看: 这是真实的临床诊断能力,关乎患者的健康和生命。

所以问题就来了:同样的工具,为什么有人用它变强了,有人用它变弱了?

区别在于你把 AI 当成什么。

如果你把 AI 当成一个帮你干活的工具,让它替你写代码、替你写文章、替你做决定,那你的能力确实会退化。因为你跳过了思考的过程,只拿到了结果。结果可以复制粘贴,但思考能力不会凭空生长。

但如果你把 AI 当成一个教练或者导师,用它来检验自己的理解、追问自己的盲区、逼迫自己把模糊的概念说清楚:那你实际上是在用 AI 加速自己的学习循环。

Gabriel 的方法,核心不是「让 AI 替我学」,而是「让 AI 陪我学」。他始终是那个主动追问的人,AI 只是提供反馈和素材。每一个「为什么」都是他自己问出来的,每一层理解都是他自己挖下去的。

这让我想起一个老话:授人以鱼不如授人以渔。

递归式知识填补|图片来源:nanobaba2

 

04

一些实际的启发

 

聊到这里,可能有人会问:我不是搞 AI 研究的,也不是程序员,这个方法对我有什么用?

我觉得 Gabriel 的方法论可以抽象成一个更通用的五步框架,每个人都可以通过 AI 学习任何不懂的领域。

1、从实际问题出发,而不是从教科书的第一章开始。

你想学什么,就直接开始做,遇到卡壳的地方再去补。

这样学到的知识有上下文、有目的,比孤立地背概念有效得多。

Gabriel 观点|图片来源:X

 

2、把 AI 当成一个永远有耐心的导师 。

你可以问它任何蠢问题,可以让它用不同方式解释同一个概念,可以让它「像教五岁小孩一样解释」。

它不会嘲笑你,也不会不耐烦。

3、主动追问,直到建立直觉。不要满足于表面的理解。

一个概念,你能用自己的话复述出来吗?能举一个原文没提到的例子吗?

能解释给一个外行听吗?如果不能,就继续问。

4、这里有个陷阱需要警惕:AI 也会产生幻觉 。

在进行递归追问时,如果底层概念 AI 解释错了,你可能就在错误的道路上越跑越远。

所以建议在关键节点,通过多个 AI 进行交叉验证,确保提问的地基是稳的。

5、记录你的追问过程 。

这样可以形成可复用的知识资产:下次遇到类似问题,你有一份完整的思考路径可以回顾。

传统观念里,工具的价值在于减少阻力、提高效率。

但学习这件事恰恰相反:适度的阻力、必要的摩擦,反而是学习发生的前提。如果一切都太顺滑,大脑就进入了省力模式,什么都记不住。

Gabriel 的递归追问,本质上就是在制造摩擦。

他不断问为什么,不断把自己逼到不懂的边缘,然后再一点点把洞填上。

这个过程很不舒服,但正是这种不舒服,让知识真正进入了长期记忆。

 

05

未来的职业趋势

 

在这个时代, 学历的垄断正在被打破,但认知的门槛却在隐形提高。

大多数人只把 AI 当作「答案生成器」,而极少数像 Gabriel 这样的人,把 AI 当作「思维练习器」。

其实类似的用法,已经在不同领域出现了。

比如在即刻上,我看到不少家长在用 nanobanana 给孩子辅导功课。但他们不是让 AI 直接给出答案,而是让 AI 生成解题步骤,一步一步地展示思考过程,然后和孩子一起分析每一步的逻辑。

这样孩子学到的不是答案,而是解题的方法。

提示词「解给定的积分,并把完整的解写在白板上」|图片来源:nanobaba2

 

还有人用 Listenhub 或者 NotebookLM 的功能,把长篇文章或论文转成播客形式,让两个 AI 声音对谈、解释、提问。有人觉得这是偷懒,但也有人发现,听完对谈再回去看原文,理解效率反而更高。

因为对谈过程中会自然地抛出问题,逼迫你思考:这个点我真的懂了吗。

Gabriel 访谈播客转播客|图片来源:notebooklm

 

这指向了一个未来的职业趋势: 一专多能。

以前,你想做一款产品,需要懂前端、后端、设计、运维、营销。现在,你可以像 Gabriel 一样,用「递归补洞」法,快速掌握你短板领域的 80% 知识。

你原本是个程序员,通过 AI 补齐设计和商业逻辑,你可以变成一个产品经理。

你原本是个好的内容创作者,通过 AI,你可以快速补齐代码能力的短板,变成一个独立开发者。

基于这个趋势可以推断:「也许,未来,会有更多的「一人公司」形态出现」。

 

06

夺回你的主动权

 

现在再想那位投资人前辈的话,我才明白他真正想说的是什么。

「一直问到答不出来为止。」

这句话在 AI 时代是一个很棒的心法。

如果我们只满足于 AI 给出的第一个答案,我们就在悄无声息地退化。

但如果我们能通过追问,逼 AI 把逻辑讲透,再内化成自己的直觉:那 AI 就真的成了我们的外挂,而不是我们成了 AI 的附庸。

不要让 ChatGPT 替你思考,要让它陪你思考。

Gabriel 从睡沙发的辍学生,走到 OpenAI 研究员。

中间没有什么秘诀,就是成千上万次追问。

在这个充满着被 AI 替代焦虑的时代,最实在的武器可能就是:

别停在第一个答案,继续问下去。

[1].The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers.

[2].Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study.

浏览量: 5

群核科技,摸着李飞飞过河

作者|Li Yuan

编辑| 郑玄

李飞飞的「空间智能」(Spatial Intelligence),无疑是今年科技圈最性感的词汇之一。

当这位 AI 教母振臂一呼,原本还在卷文本、卷视频生成的行业目光,瞬间被拉向了 3D 世界。然而,这个领域太过前沿,以至于在大洋彼岸,除了李飞飞的 World Labs,真正能看懂并跟进的玩家也寥寥无几。

在中国,谁会是那个最快跟进的人?

令人意外的是,答案或许不在那些声量巨大的大模型独角兽名单里,而是一家在装修设计领域耕耘多年的老兵——群核科技(酷家乐母公司)。

12 月 9 日,在群核科技 2025 酷+大会上,这家在 3D 空间领域深耕 14 年的公司宣布了一项重大战略升级:从 3D 软件提供商,转型为空间智能基础设施提供商—— 发布了物理模拟视频生成模型 LuxReal,并同步推出了 Aholo 空间智能开放平台,一口气开放了从空间重建、生成,到编辑与理解的全套能力。

虽然并非传统意义上的 AI Native 公司,但群核科技似乎正在走出一条独特的「中国版李飞飞路线」。

看起来或许有点反直觉:为什么率先在这条赛道交卷的,不是那些算力雄厚的通用大模型巨头,而是这家垂直软件公司?

答案藏在空间智能的特性里。

空间智能的门槛不仅仅是算力,更是这种对物理世界的「显式掌握」。

在过去的 14 年里,群核科技积累了全中国最庞大的真实户型数据库、带有精确物理材质参数的商品模型,以及数以亿计经过渲染验证的装修方案。这些并非合成数据,而是物理世界的「数字底稿」。

当李飞飞指明空间智能是 AI 的下一站时,行业才猛然发现,通往这一站最关键的「数据船票」,其实早就握在了这位行业老兵手中。

 

01

中国的「李飞飞路线」:

在黑盒中植入「把手」

 

在这次发布会中,承载群核科技空间智能野心的核心产品,是一个名为 LuxReal 的视频生成模型。

如果仅仅看演示 demo,LuxReal 似乎是在做与 Sora、或者李飞飞的 World Labs 类似的事情:输入一个图片,生成一段与图片相关的,物理规律准确且具有一致性的视频。但如果揭开引擎盖,你会发现几者的技术底色截然不同。

首先是 Sora 代表的「大力出奇迹」路线。

Sora 本质上是一个「2D 原生」的模型。它并不真正理解三维空间,而是通过 DiT(Diffusion Transformer)架构,学习了海量视频数据中「像素块」的运动规律。它像是一个看过几亿部电影的天才画家,因为它知道「杯子掉落」后下一帧画面通常是什么样,所以它能画出符合物理直觉的视频。但这种物理规律是「涌现」的,是不稳定的——这也是为什么 Sora 生成的视频中,人有时候会突然长出第三只手,或者椅子在旋转时会莫名变形。因为它心中没有「椅子」的三维模型,只有「看起来像椅子的像素」。

而群核科技与李飞飞的 World Labs,则站在了 Sora 的对立面。

两者都坚信: 要解决物理一致性,中间必须多一步三维几何结构,就是所谓世界模型的路线。 也就是不能直接从 Text 变 Video,必须是 Text -> 3D World -> Video。只有先在计算机里构建出一个有深度、有体积的 3D 舞台,再在这个舞台上架设虚拟摄像机拍摄,才能保证无论怎么运镜,物体都不会崩坏。

但就在「如何构建这个 3D 舞台」这一步上,群核科技和李飞飞的路线略有不同。

李飞飞试图构建一个「可学习的渲染器」。在这个模型中,AI 不需要构建任何显式的 3D 模型。它将世界压缩进了神经网络的「激活状态」(KV Cache)里——这是一个人类看不见、摸不着的*「隐式世界」。通过端到端训练,模型学会了像上帝一样在神经元内部「渲染」光影、反射和遮挡。它模糊了「重建」与「生成」的界限:给它几张图,它就能在脑海中补全这个场景的各个角度。 它极其优雅,像是一个看过世界的「缸中之脑」,在思维内部完美模拟了物理法则。

而群核科技的 LuxReal,选择了一条更「笨」但对产业更有用的路: 基于资产的结构化生成。

得益于 14 年的积累,群核不需要让 AI 在神经元里去「隐式模拟」一个沙发。LuxReal 以群核自研的 Lux3D 为底座,它的工作流是: 先生成 3D: 它是生成式 AI,但它首先生成的是 3D 物体和场景; 再渲染视频: 有了确定的 3D 资产后,再通过物理引擎将其渲染成视频。

因为中间多了一步「显式」的 3D 支撑,无论镜头怎么甩,高达的模型结构被牢牢锁死,绝不可能出现「长出第三只手」或「金属变液体」的幻觉。

而群核之所以敢选这条路,底气依然在于他们的数据积累。要训练 AI 进行精准的「显式表征」,需要海量带有精确物理标注的 3D 数据作为「教材」。这正是群核科技过去十四年构建的护城河——他们不需要像其他公司那样用游戏引擎去合成数据,他们手里就有最真实的物理世界数字底稿。

这个多出来的「显式步骤」,它在处理流体与极端形变时,或许不如李飞飞的隐式模型那般写意,相对来说也带来了额外的算力负载。 但这恰恰是群核的取舍之道——通过支付这些成本,他们在 AI 那深不可测的黑盒中,成功植入了一个可供人类精准操作的「把手」。

它在处理刚体(Rigid Body)、结构化场景和复杂的室内光影时展现出了极强的优势。它少了一些无中生有的「幻觉」,却多了一份产业急需的「确定性」和「可编辑性」。

这在 电商与广告 场景中极具杀伤力。

试想,当你上传一款新发布的咖啡机模型,你需要的是它在各种高级光影下流转,展示其金属质感,而不是让 AI 发挥想象力把它的按钮位置改了,或者把机身扭曲了。相比于其他模型容易「二创」产品,LuxReal 能做到「产品 100% 还原,而光影与运镜无限生成」。

这才是从「看着好玩」的 Demo,走向「所见即所卖」的 Commercial(商业交付)的关键一步。

 

02

意外的 3D 时代富矿

 

为什么在中国追赶李飞飞路线的,反而是群核科技?

要回答这个问题,我们需要把时钟拨回十四年前。那时候,群核科技(及其核心产品酷家乐)在大多数人眼中的形象,仅仅是一个好用的 SaaS 工具。它让设计师扔掉了难学的 3D Max,在浏览器里就能快速搭建户型、渲染效果图。

彼时,没有人能预见到 2024 年的 AI 变局。群核自己可能也没想到,当年为了「让装修变简单」而建立的这套云端 CAD 系统,竟在十四年的漫长岁月中,无意间通过数千万设计师的手,堆出了一座 全世界最大的、真实物理世界的数字富矿 。

这便是空间智能赛道上最反直觉的一幕:当硅谷的顶尖头脑们为了获取高质量 3D 数据而绞尽脑汁时,这家中国垂直软件公司,却坐在了金山上。

在空间智能的训练中,数据决定了天花板。

即便是李飞飞的 World Labs,或者是其他试图冲击 3D 世界模型的大厂,在缺乏真实数据的情况下,往往只能退而求其次——利用 Unity 或 Unreal 等游戏引擎来生成「合成数据」(Synthetic Data)。

这在逻辑上是通的,但存在致命的 Sim2Real(从仿真到真实) 鸿沟。游戏引擎生成的场景是完美的、干净的、人工定义的。然而,真实的物理世界是「脏」的、复杂的、充满噪声的。完全用合成数据训练出来的 AI,在面对真实世界时往往会「水土不服」。

而群核科技手里握着的,是真正的「物理底稿」。

过去 14 年,中国几乎每一次装修浪潮、每一套奇葩户型的改造、每一个家具的摆放逻辑,都被数字化地保存在了群核的服务器里。

这里有 数亿张 真实的户型图,涵盖了中国大江南北最复杂的建筑结构;这里有 海量 带有精确物理参数(材质、摩擦力、尺寸)的商品模型,而不是只有外壳的 3D 贴图;这里还有 数不清 的设计方案,它们不是随机生成的,而是包含了人类设计师对于「什么家具应该放在哪里」的深度语义理解。

这些数据不是为了 AI 专门造出来的,它们是真实业务长出来的。正是这种「原本为了产业应用而积累的高精度数据」,构成了群核科技最深的护城河。它比通用的视频数据更深(有结构),比游戏引擎的数据更真(有物理属性)。

一转头,群核科技发现自己正坐在这一轮 AI 竞赛最稀缺的资源——数据金山上。

这种资产层面的底气,直接推动了公司战略维度的跃迁: 从一家垂直的 3D 软件提供商,正式转型为空间智能的基础设施服务商。

12 月 9 日,群核科技正式发布 Aholo 空间智能开放平台 。这不只是发布了一个工具箱,更是一次彻底的「家底开放」。群核将过去 14 年在 3D 领域打磨最深的四项核心能力—— 空间重建、空间生成、空间编辑、空间理解 ——毫无保留地进行了系统性封装并对外输出。

这是一个极其关键的战略转身。在此之前,这些能力主要服务于家居装修行业的内部提效;而现在,通过 Aholo,群核试图将这些能力变成 AI 时代的「水电煤」:

空间重建 :让单张 2D 图片瞬间「升维」,变成可漫游、有深度的 3D 场景;

空间生成 :用自然语言描述就能「生长」出复杂的 3D 模型;

空间编辑 :这是群核最擅长的「显式」能力,让生成的 3D 不再是死板的像素,而是可被精准修改的资产;

空间理解 :让 AI 真正看懂画面里的物体关系,知道「椅子在桌子旁边」不仅是像素的位置,更是语义的关联。

如果说 LuxReal 是为了让人类看到更逼真的视频,那么 Aholo 开放平台的野心则更进一步—— 它想让机器看懂世界。

在这次发布中,一个不起眼但极具想象力的信号是: 群核科技正在发力具身智能(Embodied AI)。

这也是「空间理解」能力最性感的落地场景。过去的机器人(如扫地机或服务机器人)在室内导航时,往往是个「瞎子」或者「高度近视」。它们依靠激光雷达避障,虽然能测距,却不懂环境的语义——它们不知道前面这堆像素究竟是「昂贵的玻璃瓶」 还是 「耐撞的承重墙」。

群核科技正在尝试将其海量的 3D 资产和场景理解能力,投喂给机器人。

通过学习群核数据库中成千上万种真实的室内布局和物品摆放逻辑,机器人可以获得一种「上帝视角」般的先验知识。龙天泽透露,群核已经在做机器人导航中的 3D 物品视觉理解 。这意味着,未来的机器人不仅能「看见」障碍物,还能通过接入 Aholo 的模型,瞬间做出判断:

「这是易碎品,必须绕行 20 厘米。」

「这是柔软的沙发,可以紧贴着走。」

从服务设计师,到服务机器人,群核科技的数据价值,正在发生一场从「画图」到「识途」的质变。

 

03

摸着李飞飞过河

 

对于群核科技来说,「空间智能」既是一次站在风口上的顺势而为,也是一次略带遗憾的「迟来觉醒」。

在发布会后的交流中,团队内部流露一种真实的紧迫感,甚至有一种声音感叹:「 要是早知道,去年就该发力做了。 」

这种遗憾背后,其实是对 AI 技术代际演进的深刻复盘。当大模型从文本(Text)卷向图像(Image),再到视频(Video),行业终于意识到,下一站必然是 3D,是物理世界。群核科技猛然发现,自己手里那些原本只用于装修设计的图纸和模型,在新的 AGI 语境下,突然变成了一张通往物理侧人工智能的昂贵门票。

这种冲击不仅发生在技术层,更直接撼动了商业模式的底层逻辑。

陈航(群核科技 CEO)透露,随着 AI 产品的推出,传统的 SaaS 售卖方式正在失效。以前,软件是按 Seat(坐席) 收费的,逻辑是「人」在使用;但现在,调用场景变成了「人机混用」,机器调用的频次可能比人高出几个数量级。

「如果只按年费、月费收费,机器一调用就被拉爆了。但如果只按 Token 或 Credit 充值,准入门槛又太低,无法筛选高质量客户。」陈航说道。

为了适应这个新时代,群核正在摸索一种「年费/月费 + Token/Credit」的混合计费模式。这不仅是计费方式的调整,更是对软件价值定义的重构——从卖「工具的使用权」,转向卖「算力与智能的消耗量」。

当然,陈航也表现出了难得的清醒。他坦言,国内市场对 AI 产品的付费验证周期相对较长,「 让客户在原有预算之外再花额外的钱,是很难的,必须要验证绝对的价值。 」

他们坦言,关于未来具体怎么走,商业模式是卖 API、卖模型还是做新的超级应用,目前并没有百分之百的定论。这更像是一场「摸着石头过河」的冒险,只不过这一次,河对岸多了一个明确的灯塔——李飞飞。

「摸着李飞飞过河」,不仅仅是一句玩笑,它有着双重含义:

一方面,是 方向上的确认 。李飞飞和 World Labs 的存在,证明了「空间智能」不是一个伪命题,而是 AI 进化的必经之路。这给了群核科技巨大的信心,去重仓投入这个原本只有他们在做的冷门领域。

另一方面,是 路径上的独立 。群核没有盲目照搬硅谷的纯科研模式,而是结合中国产业的土壤,利用自己独有的「显式数据」壁垒,走出了一条更注重可控性、更强调产业落地的差异化路线。

对于群核科技而言,这条河刚刚过了一半。水深水浅,唯有自知。

但至少,在通往物理世界 AI 的这艘大船上,他们已经不再是岸上的旁观者,而是手握罗盘与燃料的核心玩家。未来或许充满不确定性,但对于一家拥有 14 年数据底蕴的公司来说,没有什么比「正在场上」更重要的事情了。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

浏览量: 4

马斯克:在地球建核聚变装置愚蠢至极;英伟达发布新一代开源大模型;全球首款猫用减肥药进入临床试验

马斯克公开唱衰核聚变,疑似为光伏站台

12月15日,马斯克在个人社交账号上公开唱衰核聚变发电。其直言不讳道:“在地球上建造小型核聚变反应堆简直愚蠢至极。”

马斯克指出,太阳本身已是天空中一个巨大的、免费的核聚变反应堆。太阳产生的能量能够满足全太阳系所有的能源需求,而建造小型核聚变反应堆则是一种经济上的浪费。

在马斯克最新的太空AI设想中,其计划每年部署100GW的太阳能AI卫星,规模堪比美国全国电力的四分之一。

就在马斯克为太阳能持续站台之际,特斯拉旗下光伏业务正重整旗鼓。今年10月,特斯拉宣布已开始在位于纽约州布法罗市的超级工厂生产其自主研发的新型太阳能电池板。首批产品预计将于2026年第一季度交付。而在去年,公司光伏安装量跌至谷底,一度停止对外公布相关数据。(来源:财联社)

英伟达发布 Nemotron 3 开源模型系列

英伟达周一发布最新版系列开源人工智能模型「Nemotron」,以及配套的数据和库,旨在为各行各业提供透明、高效、可定制的智能体 AI(agentic AI)开发能力。该公司表示,这一新模型家族在速度、成本和智能水平方面都将优于此前的产品。

Nemotron3 将提供三种不同规模的版本:Nemotron 3 Nano,拥有 300 亿参数,主要用于目标明确、效率要求极高的任务;Nemotron 3 Super,拥有 1000 亿参数,面向多智能体应用,并具备高精度推理能力;Nemotron 3 Ultra,配备更强大的推理引擎,参数规模约为 5000 亿,适用于更加复杂的应用场景。

该公司表示,在构建 Nemotron 3 模型时,英伟达表示采用了一种混合型「专家混合」架构,以提升模型的可扩展性和效率。英伟达在新闻稿中称,通过这一架构,其新模型在构建多智能体自主系统时,能够为企业提供更高的开放性和性能表现。

此前,据媒体报道,Meta 正在考虑转向闭源模型路线,这可能使英伟达成为美国最主要的开源模型提供商之一。(来源:华尔街见闻)

 

特斯拉董事靠股票奖励大赚 30 亿美元,远超其他科技巨头

据路透社报道,根据薪酬和企业治理研究机构 Equilar 为路透社进行的一项分析,特斯拉董事会成员通过股票奖励赚了 30 多亿美元,远超同期美国其他科技巨头授予其董事的股票奖励。

分析显示,根据特斯拉董事已变现或所持有股票期权的增值计算,特斯拉 CEO 马斯克的弟弟金巴尔 Kimbal 自 2004 年以来已赚了将近 10 亿美元。特斯拉董事 Ira Ehrenpreis) 自 2007 年以来已进账 8.69 亿美元。特斯拉董事长 Robyn Denholm) 自 2014 年以来已赚了 6.5 亿美元。

尽管特斯拉董事们自 2020 年以来未再授予自身新的股票奖励,但他们仍获得了如此丰厚的收益。特斯拉董事会此前已同意从 2021 年起暂停董事薪酬,以了结一桩指控董事薪酬过高的股东诉讼。

在 2018 年至 2020 年间,特斯拉董事获得的现金与股票薪酬平均值约为 1200 万美元,这大约是同期「科技七巨头」中董事平均薪酬第二高的 Alphabet 的八倍。(来源:凤凰网科技)

 

网飞 CEO 回应派拉蒙「截胡」:意料之中,拿下华纳兄弟后将涉足院线

在华纳兄弟与 Netflix 刚刚达成协议仅过去几天后,派拉蒙天舞公开提出以每股 30 美元现金收购华纳兄弟,比 Netflix 的报价稍微高一些。

对于这一「截胡」操作,Netflix 的 CEO Greg Peters 和 Ted Sarandos 周一在给员工的信中表示,公司决定收购华纳兄弟探索公司的资产的立场没有改变。

据路透社报道,Netflix 表示将致力于支持华纳兄弟电影在影院上映,并表示这「是他们业务和传承的重要组成部分」。

「我们过去没有优先考虑影院发行,因为这并不是 Netflix 的业务。当这项交易完成后,我们将进入这一业务,」信中还补充说,派拉蒙天舞的敌意收购「完全在预料之中」。「我们已经达成了一项稳妥的协议。这对我们的股东、消费者来说都是好事,也是创造和保护行业就业岗位的有效途径。我们有信心最终完成交易——而且我们对未来充满期待。」(来源:IT 之家)

工信部许可首批两款 L3 级自动驾驶车型准入许可

12 月 15 日,工业和信息化部正式公布我国首批 L3 级有条件自动驾驶车型准入许可,两款分别适配城市拥堵、高速路段的纯电动车型将在北京、重庆指定区域开展上路试点,标志着我国 L3 级自动驾驶从测试阶段迈入商业化应用的关键一步。

工信部于第 401 批《公告》附条件许可了相关产品。《公告》显示,首批获批准入的对应品牌车型分别为长安深蓝 SL03 和北汽极狐阿尔法 S6。

其中,长安深蓝 SL03 可以实现在交通拥堵环境下高速公路和城市快速路单车道内的自动驾驶功能(最高车速 50km/h),目前该功能仅限在重庆市内环快速路、新内环快速路(高滩岩立交—赖家桥立交)及渝都大道(人和立交—机场立交)等路段开启。

而北汽极狐阿尔法 S6,可以实现高速公路和城市快速路单车道内的自动驾驶功能(最高车速 80km/h),目前该功能仅限在北京市京台高速(大兴区旧宫新桥—机场北线高速)、机场北线高速(大渠南桥—大兴机场高速)及大兴机场高速(南六环—机场北线高速)等路段开启。(来源:财联社)

 

苹果折叠屏 iPhone 最新爆料:内屏无开孔无折痕,重回指纹识别

从多方权威爆料基本可以确定,苹果将会在明年 9 月发布首款可折叠 iPhone,与 iPhone 18 Pro 系列同台登场。

博主「数码闲聊站」透露工程机最新进展,该机将采用「阔折叠」方案,也就是类似华为 Pura X 的比例。

综合此前爆料,折叠 iPhone 的屏幕方案如下:

外屏 5.5 英寸,采用 HIAA 打孔摄像头设计,开孔超小,比例接近寸接近常规 iPhone,满足日常快捷操作;内屏 7.8 英寸,分辨率 2713×1920,采用 UPC 屏下前摄方案,实现无开孔效果。

苹果还打造了非常强大的铰链,通过内置金属应力分散板实现「近乎无折痕」的内屏效果,同时支持自修复涂层技术,提升抗刮性。

此外,爆料指出折叠 iPhone 将取消 Face ID,改用类似 iPad 的侧边按键集成 Touch ID 设计,以节省内部空间,这是 iPhone 产品线时隔多年首次回归指纹识别功能。

定价方面,美国市场起售价预计 1800-2500 美元,换算人民币约 1.3 万-1.8 万元,成为史上最贵 iPhone。(来源:快科技)

 

当当创始人李国庆宣布「60 岁再创业」

12 月 15 日,当当创始人李国庆发布视频,宣布自己 60 岁再创业,成立新公司「李享生活」,要做线上高端会员店。他在视频中称,要带着 30 年练就的火眼金睛,重回电商一线。

李国庆称,新电商公司主打品质生活圈层,商品加价率将控制在 1.25 倍,第一年只服务 5000 个优质会员。

李享生活(北京)网络科技有限公司成立于 2025 年 9 月,法定代表人为李雪梅,注册资本 100 万元人民币,经营范围包括货物进出口、服装服饰零售、日用百货销售等,由李国庆、李雪梅分别持股 99%、1%。(来源:IT 之家)

 

iOS 26 曝光离奇 BUG:照片放大自动变红

据科技媒体 9To5Mac 报道,部分苹果 iOS 用户近日发现一个诡异的 Bug:某些保存在手机上的照片会被莫名其妙地加上一层红色滤镜,而且这些照片往往是安卓手机拍摄后传输到 iPhone 的。

从目前的表现来看,「照片」App 里的部分图片只要放大,就会被加上一层颜色滤镜。不过恢复的方法也很简单,只需要点开变红的照片,然后选择「编辑」,再点击「还原」就能移除掉红色滤镜,使照片恢复正常显示。

根据用户的反馈,这些变红的照片都不是 iPhone 拍摄的。9To5Mac 推测,这可能是 iPhone 在解析图片中嵌入的 ICC 颜色配置文件时出了问题。(来源:IT 之家)

Vivo S50 系列发布,搭载第三骁龙 8S 处理器

12 月 15 日,vivo S50 手机正式发布,搭载第三代骁龙 8s 处理器、索尼 IMX882 传感器、6500mAh 蓝海电池等,售价 2999 元起,将于 12 月 19 日开售。

新机提供告白、悠悠蓝、灵感紫、深空黑四款配色,6.59 英寸屏幕搭配 7.49mm 机身厚度,配备缎面柔光玻璃背板。

新机影像算法升级,支持 4K 封面帧、4K 换帧增强、4K 视频转 Live 功能,此外还有 Live 路人消除、行业首发 Live 调音师等玩法。

新机搭载主摄级长焦,1/1.95 英寸大底索尼 IMX882 传感器;大师 Live 运镜行业独家高光慢动作运镜,实现变焦 + 慢动作双重效果;三种行业独家「大师 Live 运镜」,六大「Live 特效」,还有 N 多「Live 滤镜」。(来源:IT 之家)

 

全球首款猫用减肥药进入临床试验

近日,世界首款猫用减肥 OKV-119 进入临床试验。

该药物由美国生物技术公司 OKAVA Pharmaceuticals 研发,采用皮下植入给药方式,可用长达 6 个月的时间,慢慢地让药物释放到猫咪体内。

OKV-119 模仿人类 GLP-1 激素功能,通过抑制食欲和延缓胃排空减少热量摄入,提高胰岛素敏感性,改善代谢健康,模拟「禁食效应」却无需改变饮食习惯。

该药物不仅能够帮助超重宠物减肥,还可能为糖尿病、肾病等常见猫咪代谢疾病提供解决方案,有望提升猫咪生活质量、促进健康衰老。

首轮临床试验预计测试 50 只猫咪并进行 3 个月的随访,之后猫主人可以选择是否再延期观察。

若 MEOW-1 试验最终完全成功,OKAVA 计划开展更大规模试验,并计划在 2027-2028 年申请正式批准,预计上市后价格约每月 100 美元(单次植入可覆盖半年)。(来源:快科技)

韦氏词典评选「slop」为年度词:AI 低质内容充斥互联网

美国知名词典出版机构梅里亚姆-韦伯斯特(Merriam-Webster,韦氏词典)宣布,将「slop」一词评为 2025 年度词汇,直指过去一年在人工智能推动下席卷互联网的大量低质数字内容。

该词在该词典中的定义是:「通常由人工智能大批量生成、质量低劣的数字内容」,用以概括当前社交媒体和网络空间中随处可见的 AI 产物。

词典方面在解释中指出,「slop」一词如同「slime(黏液)」「sludge(淤泥)」「muck(污泥)」一样,自带一种「湿哒哒」的质感,让人本能地产生厌恶感,形象地传达出这种内容「不想碰却无孔不入」的特征。

值得一提的是,今年在「年度词汇」评选中,科技相关词语整体表现抢眼。澳大利亚的麦格理词典(Macquarie Dictionary)早于梅里亚姆-韦伯斯特,将「AI slop」评为年度词;牛津词典(Oxford)选中了「ragebait」(以激怒情绪为目的的诱饵内容);柯林斯词典(Collins)则将「vibe coding」(氛围编码)列为年度词汇,反映出 AI、算法内容和情绪操控等议题已成为当今公共话语中不可回避的主题。(来源:cnBeta)

 

浏览量: 4

极客公园:一直寻找那个与众不同的「Why」

作者|张鹏
整理| 蒙苏
在今年的极客公园创新大会上,极客公园创始人 & 总裁张鹏的 Kick-off 演讲,包含了极客公园自己的故事和对未来的思考,也分享给极客公园的读者们。
以下为演讲全文:
今年是极客公园创新大会举办的第十六届。
每年大会最让我兴奋的,就是既能见到共同成长的老朋友,又能迎来许多第一次来到现场的新面孔。站在第 16 年的节点上,我想讲一讲 极客公园到底是谁?我们为什么存在?以及,极客公园究竟能为你做什么?
 

01

始于「兴趣小组」,忠于「非共识」
 

极客公园的起点,并不是什么宏大的商业蓝图,它更像是一个源于我个人热爱的「兴趣小组」。
1998 年,我大学毕业进入科技媒体行业,被分配去盯一个刚刚新兴的小行业,这个行业叫互联网。时代选中了互联网,结果接下来就是波澜壮阔的 20 年。
因为我工作的关系,有机会结识了很多用科技、用产品对世界产生影响的优秀创业者,我特别享受和他们的交流。
2010 年,移动互联网萌芽初现。当时,我就出于个人兴趣想做一个「小组织」,把注意力全部放在那批最早在移动互联网时代做产品创新的年轻人身上。
极客公园在诞生的第一天只是一个个人兴趣小组,它甚至也没有任何预算。当时做的事就是把移动互联网时代做产品创新的这群人集结在一起,每个月有两次线下交流。当时线下交流的场地还是个小场,借了个地下室,甚至没有椅子,大部分讨论都是席地而坐。

这种没有商业模式的纯粹的「兴趣小组」状态维持了四年。也就是在这四年里,那些当初坐在地上讨论的年轻人——王兴、雷军、张一鸣、周源——逐渐成为了时代的明星,成为了改变中国互联网格局的一群人。

我们经常思考创新是如何发生的?这段经历让我反复确认了一个关于创新的信念: 所有成功的创新,都是一种基于宽广世界观的正确推理,本质上是一种「见识—认知—行动」的终极闭环。

这一闭环并非是在一瞬间按部就班地完成的,而是在每时每刻持续运转、不断迭代。

一个具象的例子是,2014 年,极客公园面向一批移动应用的创业者们,组织了一次硅谷行。当时还未「一鸣惊人」的张一鸣跟着我们走访了 Twitter,见了马斯克、见了苹果前 CEO……在那次行程后,张一鸣在极客公园发表了一篇题为《中国科技公司的「黄金时代」》的硅谷行记,他不仅看到了硅谷的科技创新,更从这次见识中生长出了一个认知:中国科技公司的未来必然在全球,依靠技术和产品大有可为。这一认知在 2017 年张一鸣和其他几家公司竞购 musical.ly 时给了他一个特别重要的决策基线,成为开启 TikTok 全球化故事的一个思考起点。
这一例子可以印证,「见识-认知-行动」是非常强大的循环。

 

02

极客公园自己的「强化学习」
 
这么多年和创业者们在一起的经历也给我自己带来了一些启发。2014 年,极客公园也把自己变成一家公司,作为一家创业公司去践行使命。
作为一个做了很多年内容的人,我在那时开始重新思考,如果极客公园的使命是「生生不息地发现科技创新者,成为他们的伙伴,共同创造价值」,那么极客公园的内容如何能「从见识到认知再到行动」,进而与时俱进,越做越好?
借用今天 AI 圈都熟悉的语言就是:如何启动「强化学习」的进程,设定一个和我过去做媒体内容不一样的「目标函数」?
如果过去媒体好内容的目标是流量,那么极客公园作为一个创业者社区,无论日常的内容还是年度的大会,它的目标就应该是「激发变量」,对于科技趋势,对新一代优秀产品和创业者这些「变量」的识别和点亮。
只有定义清楚了目标,极客公园的内容和大会才不会随着时间变平庸,而是随时间成长出更大的价值。 就像已经 16 年的极客公园创新大会没有越做越无聊,核心就在于不是 只 去聚集今天最明星的人,而是找到正在创造未来变量的人,然后我们努力提一个好问题,寻求一个好回答。
例如,2014 年,当智能电动车还是个「非共识」时,我们把马斯克第一次请到中国,登上极客公园的舞台,也帮助他上央视对话。同时也邀请同为「非共识」的今日头条的张一鸣一起同台演讲,因为当时我们非常相信他们会是改变世界的人。
2015 年,顺着机器学习崛起的认知,我们请来了《奇点临近》的作者库兹韦尔,带来了 AI 浪潮的「预言」。第二年,AlphaGo 战胜围棋大师李世石,震惊世界。
2017 年,我们在乌镇的饭局上,把一个叫王兴兴的年轻人介绍给科技圈的前辈们,很多人说这张照片很有「穿越感」,其实唯一有点穿越的,是那时候我们对「电驱」+「AI」必将提速机器人发展的认知判断。
当然,过去几年来在 AGI 浪潮里,极客公园也是齐聚了几乎所有先锋力量的讨论,我甚至觉得有点重回 2010 年的感觉,未来 10 年毫无疑问是另一个创新爆发的时代,是又一群人「见识-认知-行动」的新闭环。
一篇文章一些观点一个舞台,都是我们的一种行动,它能够在时间中印证极客公园自己认知的价值。从 2016 年开始,极客公园启动了更深层的「强化学习」——投资。
 

03

Founders Backing Founders:
构建创新的「新能源网络」
 
2017 年,我们正式成立了变量资本,成功募集了第一支基金。
做这件事情的思考,一方面是,如果仅将认知停留在文章或观点层面,错误的判断会被快速遗忘,正确的洞见也不过是一句谈资。只有要做真金白银的投资行动时,才会倒逼自己更加认真、极致地做深度思考,这会帮助我们更加求真,更加忠于极客公园自己的目标。
同时,我们也看到了中国创投生态里,一股正在崛起、成为增量的「新能源」——过去 20 年里不断积累的成功的科技创业者。
他们的能力、经验、认知和精神,是越积越厚的「新能源」。虽然他们日常也会做一些零零散散的个人投资,但我们将过去这种分散、隐蔽的能量汇聚起来,形成了一张支持创新的网络—— Founders Backing Founders ,助推新一代创业者做更了不起的创新。
所以我们所有 4 期基金主要的 LP 们,都是优秀的创业者。
Founders Backing Founders,不仅仅是一句口号。从 2016 年参与小鹏汽车的天使轮投资,到 2017 年在「具身智能」概念兴起前就投资了宇树科技。极客公园可以在前两只基金所投的 20 个项目中,就有 2 家是在今天对于世界、社会产生重大影响的公司,也用结果验证了这一机制的有效性,它是一种资源和认知的传递,更是一种创新精神的生生不息。
如今,我们的 AI 基金和硬件基金依然活跃,仅今年就投资了近 10 个项目。极客公园希望在创业的起点,成为你的「第一推动力」,做一直陪你前进的「创业云计算」。
 

04

极客公园能为你做些什么
 
因为天天和创业者在一起,我们特别清楚创业和创新不是一场思维游戏,不能只是坐而论道。创业是一个进程,其中有特别多要去执行的复杂的、细节的任务。
如果把创新当作攀登珠峰,那么极客公园就像一个「珠峰大本营」。它略有海拔,但很开放,欢迎所有人来参观、打卡、获得启发。
但如果你不只是想看风景,你决定要创业、亲自登山了,那么我们会向你推荐极客公园旗下 Founder Park 社区,它就是你的「前进营地」。
来到「前进营地」,意味着你不再只是向往,而是真正的攀登者。在这里,我们致力于为创业者「修路」、「搭桥」。
过去一年,Founder Park 做了不少很细节的事。
我们通过「产品市集」,帮很多产品在试验期或冷启动阶段,面向真实用户拿到具体反馈。
同时,我们也看到,面向全球市场的增长是今天创业者们的真实需求,我们通过「出海增长研坊」帮助超过 340 位创业者构建起全球化增长的认知。
此外,我们在今年和超过 60 位创业者做直播、做播客、做访谈,让创新被看见,让创业者的价值被识别,也助力集结优秀人才。一个有意思的发现是,许多创始人们反馈,这些深度的内容沉淀,让他们在后续见投资人时,每次都至少节约了 1 小时的「基础对齐」时间。时间是创业者最宝贵的资产,能帮大家提升效率、提高成功率、解决现实问题,护送大家走一段「夜路」,就是社区存在的意义。
这就是今天的极客公园,一个由内容、社区和早期投资构成的「创新者大本营」。这里有一个「极客公园使用指南」,相信在今天和未来,我们都有机会成为伙伴,在社区里相互助力。
 

05

寻找你独一无二的「Why」
 
无论是在极客公园每年的 IF 大会上,还是日常参与和创业者的交流里,大家往往急于搞清楚一个创业者在做 什么(What) ,以及 怎么做(How) 。但我提一个小建议,我觉得最根本、最值得追问的,其实是—— Why?他为什么要做这件事?
真正成功的创新,往往源于一个独特的「Why」。Why 的背后是一个人过去的积累、独特的认知凝结,还有 Ta 的热情所在。
真正成功的创新和创业,往往源于一个独特的「 核动力 」 ——它或源于某种深刻洞察,或源于某种超凡的能力,抑或就是来自于独特的审美选择?这个「Why」,决定一件事本身的「源代码」。
在这个 AI 重塑一切的时代,我们可能要不只关注技术、参数、产品,也去观察那些创新者背后的「Why」,这样才能有更好的判断和更大的收获。这将帮助你完成从「见识」到「认知」的关键跨越。
终有一天,你会找到那个与你血脉相连、与众不同的「Why」。那一刻,你心中会冒出一个无法遏制的声音—— 「Why not?」
那就是你该行动的时候了。
希望大家都能在极客公园参与到 AI 时代的进程中,最终找到属于你的「Why not」时刻。
浏览量: 4

具身智能的共识与非共识:地平线携手生态伙伴共话产业未来

作者|汤一涛

编辑| 郑玄

 

智能汽车作为机器人的第一个大终端。在大模型技术快速发展的当下,源自智能汽车的算法、算力技术正在被加速复用,催生出从单一任务到通用智能、从交通工具到机器人的宏大图景,推动着一场从「车」到「人」的智能化跃迁。

然而,具身智能的发展还面临多重现实挑战。从数据采集到模型训练,从硬件本体到场景落地,产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破,必需要构建多方共建的产业协作生态。

地平线作为机器人时代的智能计算平台,既是这场进化的见证者,更是深度参与者与赋能者。当前,地平线已成为中国最大的消费类机器人计算平台,旗下地瓜机器人上市产品超过 100 款,连接着超 100 家上下游合作伙伴与 10 万余名开发者。

在 12 月 9 日举行的 2025 地平线技术生态大会上,极客公园创始人张鹏与本末科技创始人兼 CEO 张笛、极佳视界创始人兼 CEO 黄冠、优必选研究院 A1 大模型与交互部负责人石海林、香港大学数据科学研究院助理教授李弘扬、地瓜机器人 CEO 王丛等嘉宾,进行了一场「名」人不说暗话的硬核圆桌,全景呈现了从芯片、算法、开发平台到机器人本体的全产业链创新,深度探讨具身智能的技术发展、商业落地,聚焦技术跨域赋能的生态潜力。

在这场对话中,你既能看到具身智能当下直面的痛点与挑战,也能捕捉到切实可行的落地场景;既有对前沿技术路线与商业逻辑的深度剖析,也有这一赛道未来的无限可能。

以下为圆桌对话实录,由极客公园整理。

 

01

形态之争:类人形态 VS 功能形态

 

张鹏:在产品形态上,具身智能应当追求「类人形态」的极致拟人,还是「功能形态」的极致效率?

张笛 :首先是本末我们自己一方面有一个直驱型的机器人关节的特色技术平台,另外一块是以轮足为特色的具身智能的机器人技术平台。

我们选择这个方向出发点跟刚才张鹏老师讲到的,我们作为技术型的创业者,对乐观和悲观我们到底应该怎么看,怎么样去建模?因为我个人包括我们整个团队其实一直是对未来持有无限乐观,但是对中短期的界限,会尽可能保持悲观的状态。硬科技有一个特点,别到最后创业未半中道崩卒,还没等实现自己的技术愿景,反而最后导致自己的经营上出现问题,所以我们本质上建模可能会倾向于用这种方式,去做公司未来技术路线的选择。

在这个路线下面,我们去看人形机器人和轮足这样的形貌,其实核心的差异点是在于我们对移动和操作这两个大问题上,我们到底选择什么样的解题思路,一种解题思路是纯仿生,另外一种是不单纯的仿生,不只仿生,我们倾向于第二个。从人形的角度来看,当然可能有很多人会说人形会有很多落地的场景,我们也从来不排斥这样的观点和看法,但是我觉得今天的主题也比较好,名人不说暗话,还是虚火过剩的,我还是觉得这个行业是很强的。

张鹏 : 既然说是「虚火」,那一定是当下存在某些难以解决的问题。你觉得核心瓶颈主要卡在哪里?

张笛 :我觉得问题是现在其实大家对这个行业的关注是够的,这是非常好的一件事儿。因为任何一个行业都需要有一定的 show off 的能力,让大家有足够的传播点,但是问题在大家只关注到了其中的一方面,大家只关注机器人这个大品类当中类人形的一方面,这件事情是不够健康的。

其实机器人这个品类有非常多可以选择的余地,甚至说仿生、拟人都只是一个可以选择的方向,这个行业有无限的可能,这就是为什么我们说对未来无限乐观,但是对现在却保持相对审慎的态度,我们觉得机器人这个赛道可以走伴生的模式非常多,但是现在似乎有太多狭隘,把所有的精力和资源投在一个角度上,这就是我们倾向于未来在双足和轮足上面,我们会朝着非拟人、非仿生这个方向探索的一个主要原因。

张鹏 : 所以你认为超人的场景比拟人的场景会更多,或者说在有些场景超人是比拟人有更好的解法的,可以这么理解吗?

张笛 :可以这么理解,而且我觉得最主要的是,拟人作为一个大行业的入场券,没有任何的设计参照,开始想尽办法去开启一个行业,这个起始点非常好。

但是随着一个行业的向下发展,总会发现,其实垫脚石下一步踩在哪?英雄老路未必是最优解,我们有非常多的思路告诉你,机器人是新物种,可以完全设计一个新的产品,这个对整个行业来讲是最健康,最有诱惑力,对我们年轻的人来讲也是最有挑战的方向。

张鹏:优必选坚定走人形机器人方向,背后有怎样的判断和考量?在你们看来,哪些场景是只有人形才能满足的不可替代需求?

石海林 :这个问题,我们优必选作为人形机器人的先行者以及行业龙头,我们会很务实去看人形机器人,包括双足轮式,都是属于人形机器人,回到这个问题,我觉得可以从两方面去看。第一个我们追根溯源,去看人类为什么是人形的。从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在 6 厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。

今天我们来看人形机器人,它去做到人形,其实更多的不是说我们一定要做到怎么样,而是说从自然最优化的结果拿到了一些结论,用在我们人形机器人的产品和形态上,这是第一点。

第二点,我觉得更多也是可以从产业的应用场景去看,就以优必选我们现在聚焦的工业场景(来说),人形机器人现在主要有三大应用场景,工业场景、商业场景以及家用陪伴场景。后两个商用场景和家用场景,因为还有一些交互和情感陪伴的需求,这些需求会更直接的去对人形外观、ID 设计甚至仿生人形有更高的要求,这些还是比较直接能得出的结论。从工业场景来看的话,为什么我们也要去看人形在这个场景里的优化,因为在工业场景,通过长期以来的应用,我们可以看到有大量的结构化任务,也有更大量的非结构化任务,这些非结构化的任务从需求出发,去要求产品和功能要具备更强的泛化能力。在我们在工厂看到,各类形形色色的机械臂各种捶打,但是只能做一些特定的死的任务,而且形态各异,动不动 4、5 米高,特别大。

但我们看到更多的任务,是比如说物流转运,里面包含了搬运、分拣的任务,还有上下料、精密装配,他们的场景很多是一些狭窄的通道,一些灵巧的柔性的操作,这些对机器人的操作更高,泛化能力也更强。比如这些操作、搬运、上下料,所以在这些场景需求的催生下,我们会往人形这个方向去看。

张鹏:还有一种观点认为,选择人形形态是因为它更利于数据迁移。例如,通过人类进行遥操作或动作捕捉来采集数据,能让算法在数据闭环中迭代得更高效。

你们在实际研发中,感知到了这种数据层面带来的效率优势了吗?

石海林 :对的,人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。

张鹏:目前有两种产品形态的发展路径,一种「通用底盘+功能模块」;另一种是直接开发一个全能一体化机器人。你们认为哪种技术路径更有可能实现大规模普及?

张笛 :其实本末科技在观察行业生态时有很多发现,因为我提到,我们公司是平台化的机器人供应商,我们是有关键技术去服务客户。在这个过程中我们发现整个具身智能大的方向可以分两类,按照张总讲的分类方法,但我们的叫法会叫成学院派和产业派,其实相差最主要的点,学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。这两个一个是自下而上,一个是自上而下,但是我们从统计上来看,产业派的速度和市场化的速度确实没那么快,假如大家认可,以底层的通用化平台加各种各样的功能模组逐渐去做通用这件事,是一条通向具身智能的道路的话,现在从商业化的角度,还是产业化会推动得更快一点。

石海林 :我完全认同张笛总的观点,在产业派这一块,我们自下而上从场景任务出发,构建海量的数据,以及基于算力的一些资源和优势,去快速把学术界从上而下的基座模型应用在具体各类场景中。而且这个周期我们认为是一个绝对的加速化的过程,因为我们看到,比如十几年前我们说做智能化,那个时候是做感知智能,如果我们比如以 AlexNe t 作为标志物,作为开端,到 2022 年,比如说那会儿 ViT 作为一个成熟标志的话,从发展到成熟感知智能花了十年时间。但是在感知智能的下一阶段,交互智能如果我们以 17 年 transformer 出现为开端,到它成熟期,比如说正好三年前 ChatGPT 发布作为一个成熟标志的话,这个过程从十年加速到了五年。那我们今天来看具身智能这一块,如果我们以 ALOHA 为代表,他打通了 Neural Network 在具身智能这一块的技术方案。所以我们可以把 2023 年作为起始点的话,假设我们也是以最保守 5 年来估计,从 23 年到 28 年,今天来算的话可能就三年,或者 18 个月,就已经进入到成熟期,这个周期是大大加快。

 

02

技术路线之争:

「先验模型」(Model-based)

VS「数据规模」(Data-driven)

 

张鹏:极佳科技从自动驾驶世界模型切入具身智能,目前世界模型在具身智能领域已经解决了什么问题?还有什么问题有待解决?

黄冠 :觉得这个问题提得特别好,像「世界模型」「空间智能」这些概念都备受关注。大家探讨其在内容创作、自动驾驶以及具身智能等领域的应用时,我想先讲讲我个人对世界模型对具身智能领域价值的一些看法。

我认为世界模型是物理 AGI 最后的瓶颈,并且它不是要 5 年、10 年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式 AI 的发展,这是我对整个世界模型大的看法。

更具体,世界模型对具身智能的价值是全方位的。其实我们讲一个具身模型,无非就是讲数据来源、学习范式,以及模型架构。世界模型在这三方面都有非常高的价值,首先数据来源,如果具身智能仅仅依赖真实机器和传统仿真这两种方式,可能会存在比较大的瓶颈。真机要采集到足够的数据极其困难,基于规则构建的传统仿真上限也比较受限。而世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。

第二个是在学习范式上,模仿学习很有价值但是远远不够,强化学习如果只是依赖真实环境去做,也是很低效的,包括大家现在看到 Pi0.6 star,虽然已经进步很大了,但仍然高度依赖真实环境;而世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被 action 驱动的,来预测未来环境变化的模型。

对,所以我们叫它是可以 Scale 的强化学习,这是它作为模拟器的第二点价值。第三点就是更本质了,叫做世界行动模型,可以替代 VLA,L 为什么会对 action 一定必须呢?我们过去做自动驾驶也没有语言,所以 VLA 依赖这个 L 问题是很大的,要真正实现智能,就得迈向世界行动模型,所以我认为这三个点的价值都会非常大。

目前行业进展上,在上面三个方面,无论是我们的一些工作,还是全球的包括像 Cosmos 很多一些工作,世界模型都已经开始大规模的产生价值了。这是我对世界模型和具身智能关系的理解。

张鹏:世界模型能够解决具身智能领域数据匮乏的问题,但世界模型也是模型,所需要的数据同样匮乏,极佳是如何解决这个死循环的?

黄冠 :这两个问题都问得非常好,我还是思考一下,我可能这样回答。我跟大家介绍一下,第一个是各个模型的关系,我们讲三个模型,语言模型、世界模型、行动模型。语言模型输出的是语言,世界模型输出的是对未来世界的预测,未来的世界可以用 video 去表示,可以用 3D 去表示,当然也可以把 physics 表示进去。第三个行动模型输出的是 action。所以这是三个非常不同的模型。

第二个,为什么语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和 physics,但实际上 3D 和 physics 都隐含在视频的隐空间里了。大家看互联网上的视频,比如一个水杯被扔出去,这其中就蕴含了非常丰富的物理规律。所以视频数据其实是一个非常好的构建世界基础模型(world foundation model)的素材来源,虽然它并不完备,但是一个非常好的基础。而我们最不缺的就是互联网上记录的海量的视频数据。所以,语言模型和世界模型能够更高效地利用丰富的语言和视频数据,进而作为行动模型的基础。

第三点,我最近也思考很多,为什么智驾和具身可能不太一样,在智驾里面,大家之前没有所谓的 VLA,没有世界模型,但也干得还不错。包括中午体验的地平线的一段式端到端,真的非常丝滑,为什么?因为智驾有大量数据,只要数据足够多,可以不依赖语言模型和世界模型,只需要场景的端到端驾驶数据就好。当然,最后加上 VLA 和世界模型,会让系统的推理能力更强,迭代更高效。但是具身模型你会发现,如果从头做一个 VA 的端到端模型,是基本不可能的,核心是因为具身领域太缺数据了,这会导致驾驶模型和具身模型非常不一样的发展路径。

张鹏:具身智能领域的模型训练会遵循 Scaling Law 吗?跟大语言模型的 Scaling Law 会有什么不一样?

李弘扬 :这个我尝试回答一下这个问题,这个问题还是问得非常前沿的,首先有个结论,具身智能领域一定会有 Scaling Law,到目前为止真正能算得上,做过 Scaling Law 实验的,这个世界上只有一家公司,就是 Generalist AI,前一阵的 Gen-0。其余包括 Physical intelligence(Pi),都没有很大规模的用 Scaling Law 的实验,都还谈不上 Scaling Law。所以你问的下一个问题,如果真有规模法则 (Scaling Law),它会和大语言模型的规模法则呈现怎样的情况呢?

其实大概率还是沿着一种幂律分布的,或者说是线性的,无论是指数级还是线性的增长的趋势,这里面我想说一下,因为 Gen-0 这个工作一周积累 30 个小时,300 万条数据(有效的轨迹),我们大概也换算了一条,如果两班倒的话,采集这个不同的 manipulation task,一班 8 个小时,16 个小时,其实有效的转化率是 4、5 个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要 Aloha 或者说主从臂这样的一套设备需要 500 套,很显然它不可能部署 500 套,所以肯定要走 UMI 等等这种低成本的路线。在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说 Scaling Law 这个事。

 

03

数据策略之争:

仿真/合成数据 VS 真机数据

 

张鹏:具身智能领域会有 ImageNet 时刻吗?什么时候收集真机数据的速度可以快速成长?

黄冠 :我觉得很可能不会有 ImageNet 时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。所以我认为具身领域可能不会存在 ImageNet 的时刻,而是会直接到 chatgpt 时刻。

并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了 10 万小时以上的真机数据。所以可能明年很关键,明年全球可能会有 5-10 家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近 GPT-3 时刻。所以其实我们对 ChatGPT 时刻也不用那么悲观,就像凯哥开场的时候讲的,可能具身三五年时间就进入家庭场景了。我们其实更乐观,因为这个行业很卷,只要大家意识到可以做,只要资源投入到位,就没有那么大瓶颈,无论是数据获取、模型架构,还是具身本体研发,只需要时间,需要投入。明年可能会接近 GPT-3 的时刻,两三年之内有机会到 ChatGPT 时刻。

李弘扬 :我没有那么乐观,跟黄总差不多,所以还是要遵循这个数据金字塔或者说 pyramid 的这种形式。互联网数据,即 ego-centric data,加上 simulation,加上遥操等等这些,互为补充吧。

 

04

场景之争:工业场景 VS 家庭场景

 

张鹏:机器人触达 C 端用户的路径应该是怎样的,要让机器人真正走进千家万户需要突破哪些关键节点?

张笛 :刚才大家提到两个观点,一个是学院派,一个是产业派,一个是一口吃成个胖子,把通用实现,另外一个是循序渐进做通用。我们自己的观察,现在走进千家万户的具身机器人已经非常多了,甚至是在几百万到上千万以上这个数量级。

我们可以举一些例子,什么叫循序渐进的走向通用。当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检的功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步,但有一天总会有一个时刻,大家会忽然惊讶的发现,原来我家里的小机器人能干的事情竟然越来越多,竟然变成这个样子,竟然解决的问题已经不再是我当时一开始觉得它的这个样子了,这是一个产品系列,这是它在怎么样去逐渐走向通用的过程。

而且同时,我们家用的小型清洁机器人厂商,一开始瞄准的是室内的场景,后续就会逐渐的希望我的机器人从室内走出去,可以从室内走上电梯里,可以走向自己家的草坪,可以走向街区。对于企业而言,要实现产品这样循序渐进地走向通用化,究竟该如何推进呢?这两个力量都可以让一个行业从一开始对一个功能性的产品,从一个简单的功能性的产品的期待,到逐步转变为对能带来更优质体验产品的期待。这样的循序渐进过程我觉得已经正在发生,而且如火如荼,甚至正在加速发生。

张鹏 : 听起来你的思路是先聚焦于单一场景下的有效履约,就像扫地机器人也做出了千万台的市场一样。基于一次次成功的服务履约,逐步叠加任务能力、演进产品形态,最终实现通用化。而不是希望一下出现一个「iPhone 时刻」。

张笛 :也不完全是这样,一定是量变带来质变,在逐渐的履约的过程,现在的量变还不能引起质变,还没到那个关键节点,没到那个 turning point,就像传统的功能机时代,先有 BP 机,再有大哥大,最后能发短信,有彩铃,同时有 PDA,最后有一个大屏做整体的汇总,同时又能上网,又能听音乐。现在我们处在前夜的状态。

张鹏:C 端最有可能跑出来并且有商业价值的场景会是什么?

王丛 :如果我们现在说具身能做很多东西的肯定是在家庭用户场景,但问题是都做不出来。张笛哥说的我很认同,真的做消费电子的这帮人都很务实,都一定是价格成本对应 PMF(市场匹配度)的价值,一定是找到它的一个很匹配的点,这个东西才有可能在 C 端跑出来。C 端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以 C 端消费电子产品的功能一定是一点点积累的,其实 Iphone 也是功能积累起来的。

iPhone 如果大家看乔布斯的发布会,其实就是通讯、MP3 加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。但是其实在 Iphone 之前的诺基亚也有不同的软件,也叫智能机,其实我觉得消费电子一定还是回归到最本身的产品需求,一点点叠功能发展出来,所以包括我们国内很多客户,就像扫地机最初只是负责平面的清洁,这件事情它的价格空间就已经被定死了,因为它就是地面的清洁,就算把扫地机器人扫到 90 分、95 分、100 分,它的价格永远是那样,除非它变成一个空间清洁,但即便如此价格空间也有限,因为请个阿姨也就 40、50 块钱一小时,家庭清洁就三个小时家里都打扫一遍,其实它的价格也定死了,一定要找到那个关键增长点才能爆发。

张鹏:从情绪价值这个角度来看,具身智能有机会进入家庭吗?

王丛 :情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。陪伴什么?我觉得这不是一个以场景定义产品的思路,真正好的产品定义,应该是当我想到某一个特定场景时,就能立刻联想到对应的产品;同时,当我看到某个产品时,也能马上明确它要解决的是哪个具体场景的问题。所以大家看很多产品不能推广,或者做的 idea 很好,但是卖不出去,虽然我觉得情绪机器人是个好东西,但是它一定要对应到不同细分的场景当中,大家才能进一步去谈这个问题。

 

05

生态模式之争:生态开放 VS 全栈自研

 

张鹏:目前的头部玩家很多都选择全栈自研,地瓜机器人为什么选择了「生态开放」路线?

王丛 :我觉得这个选择既有感性的一面,也有理性的一面。先说说感性的:任何一家公司做事情,创始人、CEO 都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面,也是能让我们真正开心的事——这是感性层面的原因。

我觉得机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解「用几十万的人形机器人来扫地」这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。机器人这件事情就是它很非标,它的场景很碎,它并不是一个寡头垄断的市场,那我觉得这个时代是需要有一家公司去把底层的一些东西给做好,才能真的加速这个时代的到来。虽然说这是我们的立场,但我觉得未来机器人公司有很多自研的,有很多会选择拥抱像地瓜这样的供应商,有很多公司会自研,这个太正常了。历史这么多年,每个行业都会有这样的分化:全栈自研的公司,比如苹果,是非常伟大的公司;拥抱生态开放的公司,比如英伟达,也是非常伟大的公司。所以世界是多元的,两种路线都对,只是我们感性上的追求,让我们选择了生态开放这一端。

张鹏:李老师前一阵联合智元开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World,开源数据集会给行业带来哪些价值?

李弘扬 :感谢,首先要严谨说明,「全球首个」是智元的宣传表述,学术上还是要谨慎,毕竟说「the very first」很容易被人攻击。其实最开始 2023 年我就和姚卯青合计这个事,2024 年的时候智元还处在比较早期的阶段,但他能有这样的雄心壮志——在上海张江有 2000 平的数采场,而不是在大学实验室的简单的 pick-and-place,这一点才是最打动我的。后来才有了现在这样的体量,包括我前两天去那个数采厂,都已经需要访客门禁了,能看出来规模确实起来了。

这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘,这样的模式能不能复制?毕竟像 agibot world 这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。

 

06

人际关系之争:亲密共生 VS 警惕控制

 

张鹏:不同人群对人机亲密程度的需求差异显著,是否会催生功能型机器人与陪伴型机器人的细分赛道?「情绪价值」是否可以如何翻译成可落地的产品定义语言?

张笛 :其实我觉得我的综合判断跟王丛哥讲得比较类似,情绪价值这个事情怎么定义产品,其实是非常非常需要去仔细斟酌的一个方向,纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品,这是我觉得最合理,也是最容易去取得一些市场进展的方式和方法。

这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场,也能形成一个未来有机会逐渐走向通用的这样的 minimal available product(英),这些市场包括我们现在能看到方兴未艾的一些小型的、甚至不能移动的对话终端——如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常 fancy 的机器人算法,那这类对话终端其实就属于「不接触物理世界、仅依赖 NLP 算法」的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个 minimal availbable product,这是一个方向。

另外,在能运动的机器人品类里面,我们也发现现在非常多小型的桌搭产品,开始逐渐叠加越来越多的新功能和新范式,而且这些桌搭产品里,情绪价值往往高过实用功能。那这样的桌搭产品,甚至是纯玩具类型的产品里面,其实也有机会跑出商业化路径。既然已经它是有 MVP 的这样的一个 minimal available 的这样的一个小市场了,那其实依然有机会在通用化的道路上越走越远。

张鹏:机器人越来越像人,是提升用户体验的必要设计,还是会模糊人机边界?如何定义「适度亲密」的交互阈值?

石海林 :其实在这个层面我们确实做过深入的思考,关于这个问题我们有一个比较适合的思考切入角度——从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。

相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把「情感陪伴」收窄到仅仅是「交互对话」这个范围的话,它其实已经是一个成熟的技术了。所以这个东西怎么说呢?软件相对来说是一个更成熟的板块,当然我们今天说的交互,可能不仅仅是语言上的交互——它给人提供情绪价值,可能是因为颜值足够讨喜;比如我今天回家很累了,我的机器人帮我打扫完房间、收拾好碗筷,这个过程本身也能给我提供情绪价值;再比如它能跟我顺畅互动、回应我的需求,同样能提供情绪价值。

我们回头看,面向情感陪伴的具身智能技术发展这么快,它势必会推动产品和功能的成熟化,也会推动整个市场化的成熟,这个趋势其实不太以人的意志为转移,它是一个技术驱动的必然结果。那我们今天来看,我本人属于那种技术狂热者,我会主动去买悟空机器人这种陪伴型产品。其实不只是我,陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志为转移。

所以从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。

浏览量: 4

特斯拉启动 Robotaixi 测试;ChatGPT 成人模式最快明年一季度上线;DRAM 紧缺至 2028 年 | 极客早知道

无安全员、无乘员,特斯拉在奥斯汀启动 Robotaxi 无人驾驶测试

12 月 15 日消息,特斯拉首席执行官埃隆・马斯克(Elon Musk)于周日证实,公司已在得克萨斯州奥斯汀启动无人驾驶 Robotaxi 路测,测试车辆内未配备任何乘员。两辆特斯拉 Model Y Robotaxi 被目击在奥斯汀公共道路上行驶,车内空无一人。

马斯克上周确认,「将在未来三周内从车辆中移除安全监督员」。自今年 6 月 Robotaxi 车队正式推出以来,特斯拉一直致力于在年底前实现完全无人驾驶的载客服务。

目击者拍到两辆 Robotaxi。第一辆车从侧面清晰可见,Model Y 驾驶舱内没有任何人员。不久之后,另一辆同色但经确认为不同车辆的 Robotaxi 也被发现。

然而,自今年夏季 Robotaxi 项目启动以来,其核心目标始终是移除安全监督员,并实现完全无人驾驶的载客运营。如今,这一目标已接近成为现实,公司的努力正逐步取得成果。(消息来源:IT 之家)

ChatGPT 成人模式最快明年一季度上线!正测试年龄验证

12 月 14 日消息,OpenAI 的 CEO Sam Altman 此前多次暗示 ChatGPT 将开放成人内容,如今,相关功能的推出时间表变得更加清晰。

OpenAI应用主管 Fidji Simo 在近日一场关于 GPT-5.2 模型的简报中透露,她预计ChatGPT的「成人模式」将在 2026 年第一季度推出。

Simo 强调,在正式引入这项新功能之前,OpenAI 的首要任务是确保年龄预测的准确性,目前,OpenAI 正处于年龄预测模式的早期测试阶段。

该模式旨在自动识别用户是否为 18 岁以下,以便对青少年用户启动特定的安全防护和内容限制。

Simo 提到,测试已在部分国家展开,用于评估其识别青少年的能力,同时确保避免「误判成年人」,这是推出成人相关功能前必须解决的关键问题。(消息来源:快科技)

 

防止 AI 人才外流,OpenAI 调整薪酬政策

12 月 14 日,据《华尔街日报》报道,OpenAI 在刚刚过去的一周告诉员工,该公司将取消一项薪酬政策。该政策规定员工在公司工作至少六个月后才能获得股权归属。

这六个月就是所谓的「归属悬崖」。如果 OpenAI 员工在六个月内离职,任何股票都拿不到。

据知情人士透露,OpenAI 应用主管菲吉・西莫 (Fidji Simo) 宣布了对于「归属悬崖」的调整,旨在鼓励新员工大胆冒险,而不必担心在获得第一批股权之前被解雇。今年 4 月,OpenAI 将新员工的股权归属期限从行业标准的一年缩短至六个月。

知情人士称,今年夏末,OpenAI 对手、埃隆・马斯克 (Elon Musk) 旗下 xAI 已做出了类似的调整。(消息来源:凤凰科技)

 

对标豆包!微信输入法 iOS 版 3.0 开启内测:支持方言语音输入

12 月 15 日消息,微信输入法上线之后,得益于无广告、界面简洁、支持 PC 联动等特点,获得了非常好的口碑,是微信团队少有的好评产品。

值得注意的是,最近豆包输入法也正式上线,给微信团队也带来了一些压力,火速开启了下一个大版本。

目前 iOS 微信输入法已经开启了 3.0 大版本内测,主要是升级了语音输入体验,这正是豆包输入法的特色功能。

根据参与测试的用户反馈,新版本语音识别确实非常准确,甚至连标点符号都会自动标注好。(消息来源:快科技)

2025 年,科技大厂就业市场崩溃的一年

12 月 14 日消息,《商业内幕》(Business Insider)在年末推出了一篇颇具总结意味的文章,回顾「大科技就业市场崩溃的一年」。这不仅是一篇行业观察,更像是一份来自一线的年度「体感报告」:它通过大量真实个案,呈现出科技寒冬如何具体地落在一个个普通人身上。

Indeed 的数据显示,在疫情时期招聘狂潮后,科技岗位发布数量于 2022 年达到峰值,如今已比 2020 年初下降了 33%。剩余岗位的招聘周期明显拉长。在经济不确定性和人工智能初期应用影响下,美国企业的招聘速度已降至 2013 年以来的最低水平之一。

根据职业转型机构 Challenger 的数据,截至 11 月,美国科技公司已宣布约 15.4 万人被裁,较去年增长 17%,是所有私营行业中裁员人数最多的。亚马逊、微软、Meta、Google(Google)和特斯拉(Tesla)等科技巨头,近年来都宣布裁员至少 1 万人。

在 2025 年的科技就业市场中,一些求职者认为,只有接近「完美人选」才能成功。正如汗所说:「感觉招聘方是在找超人。」(消息来源:茶饮消息)

全球首例!深圳地铁上线智能导盲犬服务:集成大模型 精准导航

12 月 14 日消息,据央视新闻报道,日前,深圳地铁在黄木岗交通枢纽试点启用智能导盲犬「小蒜」,为视障人士提供科技出行解决方案,这在全球轨道交通行业尚属首例。

据了解,智能导盲犬集成多模态 3D 体素神经网络复合传感技术、室内外一体化规控技术及视觉语言大模型。

视障乘客通过口头指令,即可激活其路径规划、精准导航、智能避障、盲道循迹、语音互动与视觉识别等核心功能,全程引导乘客自主抵达目标服务点。

目前,深圳地铁已在黄木岗交通枢纽 13 口、14 口旁的无障碍垂直电梯处设置智能导盲犬服务点,设备均通过安全专项测试与实地检验。

据介绍,首月试用期间将设置专人,配合视障乘客做好安全保障试点,成功后即可自动化投用,并在部分地铁站点进行专项推广。(消息来源:快科技)

SK 海力士警告:DRAM 供不应求局面预计持续至 2028 年

12 月 14 日消息,据科技媒体 Wccftech 昨天报道,主流 PC 市场正为内存供需长期失衡做准备,SK 海力士的内部会议显示,大宗 DRAM 产能增长将变得十分有限,难以追上不断攀升的需求,或进一步加剧内存涨价的局面。

根据消息人士 BullsLab 分享的会议 PPT,海力士预测,除高带宽内存(HBM)和 SOCAMM 模块外,大宗 DRAM 在 2028 年以前的增长都会受到限制,这主要是因为主流内存厂商已将重心转向 AI 相关需求,分配给消费级市场的产能没有特别明显增长。

另一页 PPT 中,SK 海力士称现有供应商的库存已被消耗至历史低位,进一步加剧分配压力,报告显示主流内存厂商都采取了相对保守的产能扩张策略,侧重于维持盈利能力,而非向市场投放大量的 DRAM 供给,服务器 DRAM 的需求几乎呈指数级增长,预计明年增速会更明显。

SK 海力士预计,2030 年,服务器内存在 DRAM 市场中的占比会从 38% 飙升至 53%,在 AI 热潮的鼓动下,各大云服务厂商都在大规模兴建 AI 数据中心,此前曾有部分传闻指出,有厂商已经提前售罄了 2026 年的关键 DRAM 产能,而传统 PC 使用的 DRAM 预计在未来几年内依旧供不应求。

Wccftech 认为,这份报告为消费级市场描绘了令人担忧的前景,2028 年结束之前,消费级 DRAM 的供需失衡恐怕很难缓解。(消息来源:IT 之家)

小米全家桶春节前发布 小米 17 Ultra、平板、耳机全都有

12 月 14 日消息,临近年底,小米一大波新品正在路上,种类丰富,可谓「小米全家桶」。

今日,数码博主「数码闲聊站」发文透露,新品包括第五代骁龙 8 至尊版影像旗舰、天玑 8 系芯片中端机、天玑 9 系芯片中端机、全智能手表、两副耳机,中端平板,还有一些 IoT 产品,确定在春节前登场。

其中,影像旗舰为小米 17 Ultra,有望在下周官宣,本月发布。

新机将首发全新徕卡 1 英寸主摄,传感器为国产豪威 OV50X,并配备 5000 万像素超广角、2 亿像素潜望长焦。

两款天玑手机分别是 REDMI Turbo 5 和 REDMI Turbo 5 Pro,前者将全球首发天玑 8500。

至于小米全智能手表,新品将搭载 Android/Xiaomi HyperOS 系统,内置 930mAh 电池,支持独立 eUICC 芯片的 eSIM 技术。(消息来源:快科技)

谷歌推出耳机实时翻译测试版:引入 Gemini 高级功能

12 月 14 日消息,TechCrunch 报道,谷歌推出一项测试版功能,让用户通过耳机实时收听翻译内容。

与此同时,公司还将 Gemini 高级模型集成至谷歌翻译,并进一步扩展了应用内的语言学习工具。

全新的实时耳机翻译功能能完整保留说话者的语气、重音和语调,帮助用户在对话中更好地把握节奏、区分不同讲话者。该功能本质上可将任何耳机变为实时单向翻译设备。

谷歌搜索垂直领域产品管理副总裁 Rose Yao 在博客中介绍:「无论您是想用其他语言交流、在国外听演讲或课程,还是观看外语影视内容,现在只需戴上耳机,打开翻译应用,点击『实时翻译』,即可实时听到用您所选语言翻译的内容。」

目前该测试功能已在美国、墨西哥和印度的安卓版谷歌翻译中上线,支持任意耳机及超过 70 种语言。谷歌计划于 2026 年将该功能扩展至 iOS 平台及更多地区。

此外,集成至翻译应用的 Gemini 高级功能可提供更智能、自然、准确的文本翻译,尤其在处理俚语、习语和地方表达等含义微妙的短语时,将有明显提升。

AI 作图+仅退款 正在围猎电商卖家

在江苏经营大闸蟹网店的高女士,她像往常一样按照订单给客户发去了 8 只螃蟹,没想到次日就收到了客户发来的「6 只死蟹」图片和视频,并成功获得 195 元退款。

经查,该顾客通过制作虚假视频,恶意申请退款实施诈骗,警方依法对其作出行政拘留 8 日的处罚,这也是全国首例因利用 AI 伪造视频骗取网购退款而被行政处罚的案件。(消息来源:螺旋实验室)

 

 

浏览量: 4

文章分页

上一页 1 … 9 10 11 … 100 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间