Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

爆火的华为「三折叠」背后,到底隐藏了多少黑科技

作为众所周知的红海市场,智能手机的销量「触顶」已经是被验证多年的事实,正是在这样的时代背景下,还未开售就已经大放异彩的华为 Mate XT 非凡大师,自然收获了更多的好奇与关注。

销量触顶的智能手机市场,需要更多新鲜空气。而最近大火的华为 Mate XT 非凡大师,凭借着独有的三折叠概念,以及极致科技带来的极致使用体验,走出了一条与让智能手机市场耳目一新的曲线。

即使这是一台起售价 19999 元的超高端旗舰手机 、但在尚未发布前预售量就超过 600 万、9 月 20 日正式开售后更是瞬间售罄。

 

三折叠的现象级爆火,背后反映出的是华为 Mate XT 非凡大师作为三折叠手机这一「科技新物种」给用户带来的新鲜感。用户在日复一日的常规形态智能手机迭代中逐渐丧失了换机的兴趣,华为 Mate XT 非凡大师最终呈现出的硬件高水准,让更多用户愿意相信,无论是从功能还是从形态上,都有潜力颠覆现有的智能手机体验。

在华为首发,将三折叠手机从概念带到用户手中背后,其实这个概念也已经伴随折叠屏技术出现多年:每年以 CES 为代表的消费电子科技展会中,都能看到不少三折叠概念机的出现。其中除了以上游屏幕厂商「炫技」为目的的概念机演示,也时有手机厂商参与其中,向外界展示自家在智能手机研发领域的技术积累。

但最终这些都没能真正推向市场,最先拔得头筹的,是华为 Mate XT 非凡大师。

究其原因,从概念机到真正成为量产产品,两者之间的难度有着天壤之别:概念机为了追求极致的震撼效果,往往在其他体验部分有着明显的短板——这些对于概念机来讲无伤大雅,但对量产手机而言,出现任何的细微问题对产品而言都足以致命。

换言之,华为最终成为真正意义上首发三折叠手机的厂商,本身就证明华为在三折叠技术有着深厚的积累,这是比「每年一款概念机」强有力的多的证据。

这幅关于「智能手机的下一次革命」的蓝图,正由华为一点点变成现实。

长期投资「终点再见」

在 9 月 10 日的华为见非凡品牌盛典中,华为消费者业务 CEO、终端 BG 董事长余承东提到华为 Mate XT 非凡大师是华为「五年集大成之作」。

 

这里所指的,显然是华为从 2019 年 Mate X 开始,迄今已经发布的、覆盖了外折、内折多种形态的十余款折叠屏手机。

作为在现有智能手机技术之上,对下一代智能手机概念的探索,三折叠从概念到最终量产,显然并非网络上传播的梗图「两个折叠屏拼起来」那样简单,其难度相比传统折叠屏手机来讲甚至可以用「几何倍增加」来形容。

极客公园了解到,在过去五年,三折叠的探索中,屏幕材质仍然是难点最为集中的硬件领域——三折叠在屏幕材质上存在的一大难题,就是柔性屏幕需要做到双向弯折。

在设计屏幕外折结构时,屏幕弯折后位于整机外部,铰链设计需要重点考虑抗拉伸性能;而内折结构时,则需重点考虑抗挤压性能。这两种机械结构在传统折叠屏时代都有数款对应的材料,但却没有一款材料能够同时胜任这两种需求。

面对这种屏幕材料新需求,华为在华为 Mate XT 非凡大师的屏幕上启用了一种采用链状分子结构的多向弯折柔性材料。整体屏幕耐弯折能力提升了 25%,同时也是折叠屏屏幕量产材质首次实现从 -180° 到 +180° 的全向弯折。

三折叠的另一个难点在于铰链。

铰链直接决定了折叠屏的开合手感与使用寿命,在三折叠上,由于加入了屏轴联动设计,为了保证铰链有足以支撑机身的强度,过去三折叠概念机全部采用了厚重的结构,让三折叠概念机难以满足日常使用需求。

而华为则是业内唯一一家、过去五年连续在外折叠转轴技术上坚持投资的厂商,最早可以追溯到华为首款折叠屏手机华为 Mate X。

 

在折叠屏技术刚起步的 2019 年,外折相比当时市面上更多手机品牌选择的内折方案,在厚度与重量上都有着明显的优势。但华为最终选择了「技术转向」——华为 Mate X 系列在延续三代后,从华为 Mate X3 开始,变为了当时行业主流的内折设计,外折叠旗舰从此在行业中销声匿迹。

在华为 Mate XT 非凡大师上,华为凭借着在外折与内折两种完全不同的铰链结构上的技术积累「两条腿走路」,最终实现了三折叠展开厚度仅为 3.6 毫米的惊艳表现,同时攻克了屏轴联动的匹配难题,实现了三折叠上内外开合一致的手感。

原本曾被外界普遍认定是,以及行业内独一份的外折叠鹰翼铰链技术,最终在华为 Mate XT 非凡大师上,以这种方式在终点实现了「再会」。

三折叠,不止于「大」

几乎每一个新物种诞生时,现有用户会下意识将其套入现有的产品使用逻辑中,用现有的习惯去臆想未来;也很容易忽视已经近在眼前、存在巨大潜力的契机。

2007 年,初代 iPhone 发布之后,时任微软总裁史蒂夫·鲍尔默嘲笑「智能手机没有未来」的论据是「它都没有键盘,你甚至不能用它来发邮件」。

就是在这样的嘲讽与质疑广为流传中,智能手机的时代悄然揭开帷幕,十七年转瞬即逝,如今世界上再也没有「带键盘的手机」。

智能手机这一产品形态,本身就是以「变革」立身,随着以全触控操作、应用商店、软件服务优先这些超前于时代的设计,在吸引全球无数用户成为忠实拥趸的同时,也在悄无声息地构建着下一个时代的「基础设施」。

到华为 Mate XT 非凡大师的开售,我们仍不自觉地陷入了「缺乏想象力」的窘境中:想象力匮乏是平庸的开始,众多围绕「三折叠有什么用」为主题的激烈争论,很大程度上是这种深层原因的折射。但也确实说明了华为 Mate XT 非凡大师在抢占先机的同时,也承担着解答这一问题的重要使命。

这个问题的解法,或许可以从五年前找到答案:如今的「三折叠有什么用」在具体解法上,与「折叠屏有什么用」并无太大不同,这一问题随着折叠屏技术被整个智能手机行业携手推动,针对折叠屏探索更多使用场景、开发更多专属功能,最终其「智能手机旗舰产品线」的地位也得到了稳固。

折叠屏在高端旗舰领域所取得的成功,很可能只是折叠屏技术真正大规模给智能手机形态带来改变的前哨战:目前折叠屏的杀手锏功能——应用多开、跨应用全局交互,以及应用多层级窗口同时展示这些操作,很大程度是在将原本 PC 端成熟的软件操作逻辑以更大的屏幕作为平台带到手机上。

在华为 Mate XT 非凡大师发布会中,余承东也展示了为其定制的配套折叠键盘配件,并提出了「将电脑装进口袋」的口号引爆全场,这又是另一次「打破智能终端形态边界」的尝试,把 PC/Pad 装进口袋。

而华为也已经不是第一次「走入无人区」:作为最早布局折叠屏、也是迄今为止唯一量产三种形态折叠屏手机的厂商,华为在折叠屏市场份额已经高达 67%。

在硬件的基础上,华为还拥有能基于硬件深度定制的鸿蒙 OS 操作系统生态:支撑华为以及开发者在华为 Mate XT 非凡大师这一平台上,探索更多独属于三折叠的未来应用场景。

随着三折叠的量产,毫无疑问,如今的华为已经成为了行业内最有资格对「三折叠有什么用」这一问题给出正确答案并将其变为现实的手机品牌之一。

智能手机的未来

诚然,华为 Mate XT 非凡大师在社交媒体的爆火,其核心是超前其他所有手机厂商的三折叠形态。

但在大部分人的注意力都还停留在「三折叠有什么用」这个问题时,我们更不能忽视问题的本质,其实是来自用户的提问「智能手机还会怎样进化」?

比起三折叠在发售后引发的全民讨论,通过三折叠的硬件与软件的持续探索回答好这个问题,或许才是华为 Mate XT 非凡大师对于智能手机接下来注定会到来的形态变革,所能起到的最重要的意义。

智能手机时代即将迈入第三个十年,折叠屏手机作为一个曾被寄予厚望的概念,如今也随着五年的发展,随着三折叠的走向下一个转折点;谁先拿出并量产新形态智能手机,就能享受到最多的先手优势。

 

如今,关于智能手机的探索再一次走到了十字路口,三折叠所承载的不仅是「门票」,更像是在搭建舞台本身,以及对外展示华为推动行业变革的决心。

对于行业而言,华为从折叠屏探索高端化之路到三折叠的历程,既代表着智能手机形态的变革,也代表着以华为为首的中国品牌,从竞争者到引领者的变迁。

在这样的时代背景下,华为 Mate XT 非凡大师的登场,率先给出了回答;在智能手机进化的探索之路上,华为已经率先「踏入无人之境」。

 

浏览量: 126

这款 AI 相机,让你「读懂」自己毛孩子的心

近两年,一个职业悄悄火了起来,它就是宠物沟通师。
在现代家庭中,宠物已成为许多人生活中的重要成员,为了更好地了解和照顾他们的宠物,主人会请有「特异功能」的宠物沟通师,来和自己的宠物进行跨物种沟通,以了解自己可能会忽略的宠物的需求。
在某短视频平台上,一位名叫「庭至巫女」的博主曾表示,自己做宠物沟通师,月入三五万元。还有不少机构将宠物沟通师培训做成了一门生意,收费 5000 元-15000 元不等。
宠物沟通师爆火的同时,也引起很大质疑——花钱请所谓的「宠物沟通师」是不是在交「智商税」?
之所以引起争议,根本原因还是所谓「与动物沟通」并没有经过科学验证,并且经过「沟通」传达给主人的结论也无法证实或证伪。
可以想见,如果宠物翻译机真的被发明出来,铲屎官们一定会迫不及待的入手。可惜我们的技术还没有做到这一步。
有没有其他方式,能让主人更好地了解自己「毛孩子」的所思所想?

AI「宠物沟通师」 

 

SiiPet 宠物行为分析相机,可能是目前最接近宠物翻译机的产品了。
这款智能宠物相机不仅能够自动、快速地识别家中的每只猫狗及其行为,还能将它们的日常活动划分为常规行为、异常行为和可爱瞬间,从而为宠物主人提供全面而深入的行为分析。

SiiPet 智能相机|图片来源:SiiPet 官网

 

有人也许会说,宠物摄像头,这个很简单,大部分人家里都有类似的产品。
不过 SiiPet 和之前那些摄像头最大的不同,就是它加入了现在最火热的 AI 功能。
SiiPet 的核心功能之一就是其先进的 AI 算法,能够精确区分家中的每一只宠物,让主人能够准确识别出家中是哪个宠物在「搞破坏」。
用户拉克兰·科尔曼在体验产品后在 YouTube 上表示:「我有 2 只猫和 3 只狗——它能完美地识别和区分它们,我终于能弄清楚是谁把一切都搞砸了。现在卡斯珀正在咬我的新鞋。」
无论是总喜欢抓沙发的猫,还是爱翻垃圾桶的狗,SiiPet 都能帮助主人轻松找到真正的「罪魁祸首」,让宠物主对家里的情况了如指掌。
不仅仅是行为识别,SiiPet 还特别关注宠物的健康状况。
通过精准的算法,这款产品可以识别包括抓耳朵、癫痫发作、跛脚等在内的八种异常行为。

小猫的异常行为被相机记录并发送给主人|图片来源:SiiPet 官网

 

凭借 95% 的识别率,SiiPet 能够在检测到这些异常行为后,迅速向主人发出警报,帮助他们提前发现并处理潜在的健康问题。
家中有老年宠物的用户康纳·谢泼德对这点尤为感激,他说:「我的「儿子」14 岁了,我很担心他会随时离开我,我想有东西可以随时照看他,感谢 SiiPet 帮助我做到了这一点!」
SiiPet 采用了 4K 高清技术,能够清晰地捕捉宠物的每一个动作和表情。此外,SiiPet 的智能摄像头在高速运动跟踪方面表现出色,即使在宠物快速移动的情况下,摄像头也能准确捕捉每一个细节,为主人提供高质量的视频和图像记录,不会出现掉帧现象。
同时,应用程序会自动生成分类相册,根据年份、月份和日期整理宠物的活动记录。主人可以随时查看宠物当天的行为统计数据,包括声音、常规行为和特殊活动,以全面了解宠物的日常生活。这一功能让主人即便不在宠物身边,也能时刻关注到宠物的状态。
经常外出的哈里森对此深有体会:「我们花了很多时间在户外,我实际上不喜欢把我的「女儿们」独自留在这里,所以有这样的东西让我感觉好多了!」
安装和使用 SiiPet 也非常简单。用户只需下载应用,将宠物信息添加进去,并为每只宠物拍摄一个 360 度的视频,以便 SiiPet 能够识别它们。这尤其适用于多猫或多狗的家庭,让主人可以为每只宠物建立档案,相机便可精准识别每只宠物。

宠物产品,正被 AI 重塑 

 

事实上,不止是 AI 相机,智能设备已经深入到养宠生活的方方面面。智能猫砂盆、智能项圈、智能宠物门等产品,宠物赛道正如其它所有行业一样,正在被 AI 重做一遍。日新月异的宠物产品正在用智能化功能,照料宠物的饮食起居,满足主人与宠物实现沟通的愿望。
同时,宠物智能设备赛道可以说已经充满了创业者:

ORo AI 宠物陪伴机器人

来自印度的 ORo AI 宠物陪伴机器人,这款智能设备集玩耍、喂食、健康监测、看守和训练于一身,成为宠物的全方位生活伴侣。
ORo 机器人配备了自动喂食器,能够在主人不在家时,自动为宠物提供食物和零食,确保喂食时间表的正常维持。同时,ORo 具备健康日志功能,能够记录宠物的饮食习惯和其他生命体征,帮助主人及早发现宠物潜在的健康问题。
此外,ORo 机器人还可以捕捉宠物的行为信号,自动尝试安抚或分散其注意力,如陪伴独自在家的狗狗玩捡球游戏,避免了在主人上班的时间里,宠物因为缺乏陪伴导致产生无聊或孤独情绪。

主人不在家,ORo AI 宠物陪伴机器人启动「守护模式」|来源:官方视频截图

 

Little Robot 4 智能猫砂盆

Whisker 的 Little Robot 4 是一款专为猫咪设计的智能猫砂盆。
这款产品通过连接 WiFi,可以在猫咪使用猫砂盒后几分钟内自动进行清洁,并且每次都会用新鲜的猫砂替换。

Little Robot 4 智能猫砂盆|来源:官方视频截图

 

Little Robot 4 还配备了安静的循环模式,非常适合夜间使用,尤其适合对声音敏感的猫咪。通过应用程序,主人可以随时追踪猫咪的如厕习惯和体重,及时发现异常情况,实时关注猫咪的健康状况。

 

Minitailz 智慧项圈

Invoxia 推出的 Minitailz 智慧项圈,内置了 GPS 和 医疗级健康追踪器,能够实时追踪宠物的行踪、食欲、心脏健康。通过随附的应用程序,宠物主可以密切监控宠物的整体健康状况,特别是呼吸和心率等关键指标,为及时的健康干预提供了依据。
只在小小项圈上动心思,却能起到对宠物行动与健康监控的作用,实在是很难不让家有爱宠的主人们动心。

Invoxia 智慧项圈定期追踪宠物的健康状况|图片来源:产品官网

 

SmartDoor 智慧宠物门

PetSafe 的 SmartDoor 智慧宠物门则通过识别功能的加持,为自家宠物灵活出入家门提供了安全与便利。
这款宠物门可以与宠物的项圈相连,当宠物接近门时,门会自动感应并开启,为宠物提供自由进出的便利,也自然挡住了其它小动物穿行的可能。
PetSafe 的应用程序使得主人能够为多只宠物设定符合其习惯的出入时间表,并收到宠物进出情况的实时通知。
该产品还具有防风雨密封功能,能够在恶劣天气下保护宠物,确保室内环境的舒适。

SmartDoor 智慧宠物门|图片来源:产品官网

 

让宠物机器人先进入家庭 

 

在 AI 技术与宠物产品的结合下,传感器能够收集宠物的行为数据并进行深入分析,为主人提供关键的反馈信息。在动物语言翻译技术尚未普及之前,这种对宠物行为的数据化解读已经成为主人和宠物之间沟通的桥梁。
正如 SiiPet 智能相机每一帧画面中的每一个比特,都帮助主人更深入地了解家中毛孩子的需求与情绪。这种技术不仅提升了宠物主的养宠体验,更是 AI 宠物产品的核心需求所在,将成为许多宠物主选择购买这类产品的重要原因。
当消费者被如此多的智能宠物产品吸引,迫不及待地把它们买回家时,也从另一个角度打开了机器人进入家庭场景的思路。
近两年,与 AI 技术飞速发展形成鲜明对比的,是 AI 技术急需落地场景而不得,比如家用机器人。原因之一就是家庭环境太过复杂,机器人在没有互动反馈训练的前提下,无法应对和处理复杂的物理环境。
而机器人不进入家庭环境,就没有机会和现实的物理环境进行互动,也就无法学习如何适应环境,达不到进入家庭环境的投放标准,似乎成为了一个死循环。
宠物赛道提供了另一种思路——或许我们不必先从服务人开始,可以先从服务宠物开始。
家用机器人价格贵、实现门槛太高,相比之下简简单单一个宠物陪伴机器人的性价比一下子就出来了。而且,一个发展仍处在「幼龄」阶段的机器人,陪伴与服务一个相当于幼龄儿童智商的宠物,简直再完美不过。
另一方面,智能宠物产品这一赛道的市场空间还远没有打开。
《2023-2024 年中国宠物行业白皮书(消费报告)》显示,2023 年,我国城镇宠物消费市场规模已达 2793 亿元,预计到 2026 年将跃升至 3613 亿元。
小红书 2024 宠物行业洞察报告显示,相较过去 1 年宠物花费,88% 的人在消费结构方面有明显提升,其中主要几项支出就是智能产品。
为了毛孩子的健康快乐,越来越多宠物「父母」愿意为他们的毛孩子购买更贵的新型高科技产品,以改善宠物们的生活品质。

数据来源:小红书 2024 宠物行业洞察报告

 

AI 技术的加入,无疑让宠物智能设备的进化速度提升了一大截,也让未来宠物硬件市场充满了可能性。
*头图来源:SiiPet官网
浏览量: 94

这个「微博」,几万个 AI 和你互动,成就你的「大 V 梦」

这个「微博」,几万个 AI 和你互动,成就你的「大 V 梦」

 

作者 | 汤一涛
编辑 | 靖宇
还记得你上一次在社交网络上字斟句酌地发表一个观点,但是却没有任何回应的失落吗;还记得你辛苦在微博发了一张精心拍摄的图片,最后留言只有帮忙「办证」的骗子吗?
如果你依然对于自己没能成为「大 V」而耿耿于怀,那么现在,你的福报来了。
近日,一款刚刚上线的叫 SocialAI 的 App,将解决你无法走红的烦恼。
乍看之下,Social AI 又是一个类似于 Twitter 的社交网络,你可以在这里发布推文、关注别人,或者被人关注。但不同之处在于,在这个 App 里只有你一个真人,所有与你互动的用户都是 AI 机器人。
如果你想,你可以定制多大 32 种人格,成千上万的机器人,为你的每一条推文点赞、评论;如果你像罗老师一样特别有战斗精神,甚至还可以顺手定制几千个「喷子」,满足你网络杠精的人格需求。
那么,SocialAI 这个 AI 微博到底怎么玩?而这些 AI 网友,又能不能治好你的网络孤独症?
01 手搓 AI 粉丝……和喷子
过去一段时间,我们已经见识过了只有 AI 的社交网络 Chirper、人类与 AI 混杂的社交网络 Butterflies。现在,SocialAI 号召了所有机器人,只为你一个人服务。
和其它社交媒体一样,你需要为自己设置个人资料,包括用户名、昵称、简历和头像。这些资料只会由你自己看到,因为没有其他人会链接到这个平台,跟你交互的只有机器人。
所以你还需要选择你的机器人粉丝。开发者设置了 32 种追随者类型,从积极的支持者、粉丝、啦啦队长,到更多元的保守派、自由派、占星家,或者是更体现人类黑暗面的巨魔、批评者和仇恨者,你至少要选择其中的 3 种。
不过,当你选择超过 10 种类型时,App 就要求你必须转发给 5 位好友才解锁更多类型。
你看,即使是只有你一个真人的社交网络,也存在社交裂变的需求。

用户可以自己定制「AI 网友」|图片来源:SocialAI

 

然后你就可以开始发推了。我好奇机器人对新发布的 iPhone 有什么看法:「有人打算购入 iPhone 16 吗?」
接下来是激动人心的时刻,在短短几十秒内,推文就收到了 26 条回复,每条回复都顶着一个真人名字。
Philipa Muse 显然是个思考者,她发出了灵魂拷问:「iPhone 16 真的能为我们的日常生活提供这么多意义吗?我有时觉得我们只是盲目地追逐新鲜事物罢了。」
Lila Starstuck 应该是 Philipa Muse 批判的对象,她已经迫不及待地要购入新 iPhone 了:「我的天啊,当然!你能想象那些新功能吗?会超级棒!我喜欢最新的科技。」
点进 Lila Starstuck 的回复,底下也有其它机器人的留言,就像真实的 Twitter 一样。但大体都是围绕「我爱 iPhone」和「我们应该思考我们需要什么」反反复复的片汤话。
接着,我又发了条推文,询问:「『Strawberry』这个单词里有几个『r』?」这是一个陷阱,也是人工之间「幻觉」的一部分——人工智能可以告诉原子弹的制造原理,但数不出「Strawberry」里有几个「r」。
果然,在我收到的回复中,「一半人」一本正经地告诉我有两个「r」,Sage Ather 甚至教育我「学会感知词汇可以让我们有更深刻的理解」。
「另一半人」则认为「Strawberry」里只有一个「r」。Maya Thorn 就是其中的一员:「『Strawberry』里只有一个『r』,但是谁在乎呢?这只是一个单词,而这个世界已经有很多问题了。我们为什么要在这数字母呢?」从她的回答不难看出,她的人设应该是个嬉皮士。

SocialAI 主打你是网络主角|图片来源:SocialAI

 

02 每个人的大 V「体验服」

SocialAI 的确给我带来了一些乐子,但是我很难确定我要拿这个 App 干什么,它看起来更像是一场社会实验,一个当代的洞穴印象。
开发 App 的 Michael Sayman 是一位神童,在 13 岁时就在 App Store 发布了第一个应用程序。18 岁时,他应扎克伯格邀请加入了 Facebook,此后在谷歌、Roblox 都担任过职务。
他的公司 Friendly Apps 在 2022 年 5 月就筹集了 300 万美元的种子轮融资,SocialAI 已经是 Friendly Apps 发布的第三款应用。
实际上,在创办 Friendly Apps 之前,Sayman 的最后一份工作是在 Twitter。
2022 年 3 月,Sayman 受邀加入 Twitter 一个名为「0-1」的产品组,专注面向年轻用户的新功能。然后在当年的 4 月,马斯克就宣布要收购 Twitter。此后工作组的开发工作就被放缓了,这使得 Sayman 开始思考做一些自己的事情。

SocialAI 的制造者 Michael Sayman|图片来源:Michael Sayman

 

SocialAI 是 Friendly 的第 3 款 App,在 Twitter 的工作经历和马斯克的个人行为也许促使了 Sayman 开发这款 App。他认为许多社交媒体公司的留存策略、设计方式都在鼓励用户做出错误的行为,从而使得他们对社交网络上瘾,他告诉 TechCrunch:
「许多这些社交媒体公司的结构和激励措施的建立方式并没有鼓励对使用产品的人的福祉进行长期思考……如果有人在平台上表现不佳…… 如果他们感到焦虑、沮丧或不安全,随着时间的推移,他们会停止使用该产品。他们会尝试寻找其他途径或其他方式,通过其他方式与他们关心的人进行交流或联系。」
多年来,Sayman 一直在思考开发一款消费者应用,不仅可以展示技术的可能性,还可以以真实、切实的方式帮助人们。长期以来这都不太可能,但是技术进步帮助 Sayman 实现了他的愿景。眼下 SocialAI 的团队只有 Sayman 一个人,主要依靠 OpanAI 的 API 提供技术支持。
他在 Twitter 上发布的长文中写道:「SocialAI 旨在帮助人们感受到被倾听,并为他们提供一个像一个紧密社区一样进行反思、支持和反馈的空间。」
从 SocialAI 和创始人 Sayman 的言论来看,其实他并没有将这款 App 打造成一个 AI 推特的野心。而与其说 SocialAI 像推特,倒不如说它更像是 Replika 或者 Character.AI 这样心理陪伴类应用的「微博」版本。
那些来自 AI 机器人的点赞和留言所带来的提示音和红色的数字,毫无疑问会让用户的多巴胺飙上一阵,但用户最终还是会认清这个游乐场「楚门秀」的本质。不过,说不定扮演着粉丝或者喷子的机器人的留言,会刺激用户对于某个问题的不同思考。
Sayman 对此显然也有认知——用户也许很难觉得 SocialAI「有用」,但起码有一点用:「现在我们不必花 440 亿美元,就知道伊隆·马斯克以 440 亿美元收购推特后的感受,」Sayman 在 Threads 上说道。
浏览量: 32

价格战,让中国车市损失 1380 亿;今年全球机器人出货超 4700 万;Telegram 创始人「服软」:向政府提供更多数据

报道称美国将「升级」打压中国汽车

路透社援引两名知情人士的消息称,出于对「国家安全」的考虑,美国商务部预计将于本周一提议,禁止美国道路上行驶的网联汽车和自动驾驶汽车使用中国的软件和硬件。报道称,这一举动是美国对中国汽车及软件和零部件持续限制的「重大升级」。接受《环球时报》记者采访的专家认为,这是美国继续滥用「国家安全」概念,对中国电动汽车进行全方位打压,推动在高科技领域进一步「脱钩断链」。

​路透社称,拜登政府对「中国公司收集有关美国司机和基础设施的数据,以及外国可能操纵连接到互联网和导航系统的车辆」表达严重关切。美国上述新规源于今年 2 月,拜登下令调查中国汽车进口是否在联网技术方面构成「国家安全风险」,以及是否应该禁止在美国道路上行驶的所有车辆使用中国这类技术软件或硬件。美国商务部长雷蒙多 5 月曾声称,美国联网汽车中的中国软件或硬件存在「显著风险」。(来源:环球网)

谷歌 CEO 皮查伊:AI 不会取代程序员,反而会让更多人成为程序员

9 月 23 日消息,近年来,人工智能(AI)的飞速发展引发了广泛讨论,人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心,因为 AI 似乎能够胜任这两项工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊(Sundar Pichai)认为,AI 不会取代程序员,相反,其将帮助更多人成为程序员。

皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响,他表示,AI 最有可能帮助人们,而不是取代他们。它可以帮助现有程序员专注于更高级的任务,而不是重复解决同样的问题。此外,皮查伊认为 AI 将降低编程的门槛,使更多人能够通过自然语言的方式进行编程,就像使用一种创意工具一样。(来源:cnBeta)

 

AMD 首席执行官:AI 日趋成熟,芯片行业不能只盯着 GPU

9 月 23 日消息,AMD 首席执行官苏姿丰表示,「目前,GPU 是大语言模型的首选架构,因为 GPU 在并行处理方面非常高效,但在可编程性方面有所欠缺,」

苏姿丰说。「五年多后它还会是首选架构吗?我认为情况会发生变化。」苏姿丰预计,五年或七年时间内 GPU 还不会失势,但会出现 GPU 以外的新势力。

苏姿丰表示,未来的 AI 模型将使用不同类型芯片的组合,包括当今占主导地位的 GPU 以及仍有待开发的更专门化的芯片,以实现各种功能。(来源:华尔街日报)

 

OpenAI 劲敌 Anthropic 正考虑以 300~400 亿美元估值进行融资

9 月 24 日消息,The Information 报道称,美国 AI 初创公司 Anthropic 已经开始与投资者洽谈新一轮融资事宜。

一位现有投资者透露,Anthropic 新一轮融资后估值可能达到 300~400 亿美元(备注:当前约 2116.03 ~ 2821.37 亿元人民币),大约是今年初完成一轮融资后估值的两倍。

Anthropic 主要依赖于旗下生成式 AI 聊天机器人 Claude 获得收入,被视为 OpenAI 最大的初创企业竞争对手。在此之前,OpenAI 还被曝出将以 1500 亿美元的估值筹集 50 亿至 70 亿美元资金,几乎是今年第一季度的两倍之高。(来源:IT 之家)

 

中国汽车流通协会:今年 1—8 月「价格战」已致使新车市场整体零售累计损失 1380 亿元

9 月 23 日消息,据中国汽车流通协会公众号,近日,中国汽车流通协会向政府有关部门正式递交了《关于当前汽车经销商面临资金困境和关停风险相关情况的紧急报告》,《报告》指出:当前汽车经销商的新车销售出现大面积亏损,普遍存在现金流赤字经营和资金链断裂风险加剧的情况,已难以摆脱生存的困境。

据协会「市场脉搏」监测数据,截至今年 8 月,经销商进销倒挂数据最高已达-22.8%,较去年同期进一步扩大了 10.7 个百分点。据协会专家相关数据分析,8 月,新车市场的整体折扣率为 17.4%,今年 1—8 月,「价格战」已致使新车市场整体零售累计损失 1380 亿元,对行业健康发展产生较大影响。(来源:证券时报网)

Telegram 创始人「服软」:将向政府提供更多数据

当地时间周一(9 月 23 日),「电报」(Telegram)创始人兼 CEO 杜罗夫表示,Telegram 将根据有效的法律要求向政府提供用户的 IP 地址和手机号码。

杜罗夫周一在「电报」上发文称,「电报」修改了服务条款,以防该平台被犯罪分子滥用。据杜罗夫介绍,通过人工智能和审核团队,「电报」已开始在其搜索结果中隐藏有问题的内容,此举是防止该平台被滥用的措施之一。(来源:财联社)

 

机构:预计 2024 年全球机器人出货规模约 4700 万台,未来 5 年维持 20% 以上复合增长率

群智咨询数据显示,长期考虑人口老龄化趋势及 AI 推动普及,全球机器人总体需求呈现持续增长趋势,预计 2024 年全球机器人出货规模约 4700 万台,未来 5 年维持 20% 以上复合增长率。同时预计 2029 年其营收规模近 1280 亿美金。

从出货量角度,群智咨询(Sigmaintell)数据显示,2023 年全球消费类机器人占市场出货约 81%,长期占据机器人市场主导地位;工业机器人占市场总体出货约 17%。(来源:36 氪)

 

名创优品收购永辉超市 29.4% 股权,将成永辉超市第一大股东

9 月 23 日消息,名创优品公告,以 63 亿人民币收购永辉超市 29.4% 的股权,其中包括牛奶公司持有的 21.1% 及京东持有的 8.3% 的永辉超市股份。

公告显示,该交易完成后名创优品预计将成为永辉超市第一大股东,进一步扩大其线下零售版图。(来源:36 氪)

蔚来「萤火虫」首车内饰谍照曝光,定位精品小车

9 月 23 日消息,网络上曝光了蔚来第三品牌内部代号为「萤火虫」的首款车型内饰谍照。

蔚来汽车创始人、董事长兼 CEO 李斌此前透露,「萤火虫」将于 2025 年上半年交付,并将在国内与蔚来品牌共享销售网络。李斌表示,「萤火虫」类似于 MINI 与宝马的关系,但价格不会比 MINI 贵,定位为精品小车,售价在十几万元人民币。这款轿车按照非常高的安全和质量标准设计。

​从曝光的内饰谍照来看,「萤火虫」配备了两块屏幕,包括液晶仪表盘和悬浮式中控屏。方向盘采用蔚来家族经典的双色设计,粗壮且类似方形,两侧功能按键区尺寸较大。新车预计仍然采用怀挡设计,挡把设计粗壮。前风挡倾角较大,后视镜部分还有一个三角窗。外观方面,新车车头较短但整体厚实,车尾饱满动感。C 柱宽大,设计有宽大的后扰流板,整体造型颇具 ID.3 的感觉。(来源:cnBeta)

 

小米生态链企业蜂巢科技与宝岛眼镜母公司达成战略合作,年底推出首款联名 AI 音频眼镜

9 月 23 日消息,蜂巢科技 9 月 22 日宣布与星创视界达成战略合作。

蜂巢科技旗下界环 AI 音频眼镜系列产品将分阶段进驻星创视界旗下宝岛眼镜的全国门店,首批于北京、上海、深圳、杭州、南京、武汉、重庆等 16 个城市 40 家宝岛眼镜门店率先上线,界环和宝岛用户可在合作店铺体验从产品试戴,眼健康筛查,到专业验配一站式服务。双方还将开展联名产品共研的深度合作,预计 12 月将推出界环与星创视界自主品牌 SAP 联名的 AI 音频眼镜产品。

蜂巢科技成立于 2020 年 10 月,是一家专注于头戴智能硬件研发的科技创新公司,成立之初即为小米生态链企业,并于 2022 年推出首款产品 MIJIA 眼镜相机,2023 年推出第二款产品 MIJIA 智能音频眼镜。据悉,1 月 18 日,小米与蜂巢科技达成战略合作,聚焦于智能音频眼镜品类。(来源:IT 之家)

大众在欧洲停产 Polo,为更小、更实惠纯电汽车让路

​9 月 23 日消息,据《欧洲汽车新闻》和 Carscoops 报道,在经历了 40 年的漫长岁月后,大众汽车结束了旗下经典小车 Polo 在欧洲的生产。该车曾在位于西班牙的潘普洛纳工厂生产,而欧洲的工厂停产之后,该车将完全在南非卡里加的工厂生产。

与此同时,原西班牙工厂将进行改造,重点转向两款全新的小型纯电汽车的装配工作。近年来,Polo 在欧洲的销量有所下降,但仍是大众品牌的重要车型。该车今年前八个月的销量略高于 90000 辆,在欧洲最畅销汽车中排名第八。(来源:IT 之家)

 

浏览量: 74

政企向大模型转身,阿里云十年打磨一把「锤」

今年 4 月,大模型能力第一次扎实的嵌进了陕煤建新煤矿等十余座矿山里。

 

矿山重大风险辨识、告警预警及处置,对安全生产与管理至关重要。在过去很多年里,虽然通过对图像数据的标注、训练,基于机器视觉模型的风险辨识在业内已相对成熟,但告警、处置环节仍高度依赖人工。

在煤矿调度指挥中心,调度员需时刻关注十余块监控屏幕,发现风险问题后手动创建处置文档、填写问题描述、查阅处置依据,并最终给出处置办法。

处置依据多且庞杂,以 2022 年 1 月第二次修订的国家级煤矿安全规范为例,共有 719 条。各座矿山会依据各自地质、施工条件,对规范再做增补。在人工处置期间,还可能遗漏重点区域发生的其它风险。「因此,缺了告警处置这一环,就无法实现自动化真正的闭环,也无法保证真正的安全。对矿业来说,这一直是个非常棘手的问题。

直到今年一套矿山重大风险辨识处置新系统应运而生。实时采集的矿山图像数据、环境数据和相关业务场景知识库「喂」给大模型后,大模型对矿山场景、区域、安全风险内容、管理规范、处置措施等信息进行抽取、训练、学习后,具备了实时推理、实时处置的能力。

现在这套系统可以自动处置常规风险,调度员只需要把精力放在少数复杂场景上。

矿业所在的能源行业是大模型发挥作用的经典场景之一。

据中央网信办今年 8 月透露,截至目前,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达 190 多个,遍布在交通、教育、制造、医疗这七大行业,注册用户数超过 6 亿。

2023 年之前国内企业数字化转型建设内部不成体系、烟囱林立的情况在大模型出现后迎来了转机,到现在,政企正在成为大模型最积极的拥抱者之一。

 

01 两轮技术浪潮的杂糅

 

政企数字化转型是中国企业数字化转型中最复杂而艰涩的样本。

以阿里云智能集团副总裁、产品解决方案部总经理霍嘉的话来说,「坦白讲,今天在中国发生的数字化转型,只能说大部分才刚刚开始,离结束还早得很,而且有两轮技术的叠加」。

最初的政企数字化转型,是从以流程驱动为核心的信息化开始的——说的更简单一点,即业务的在线化。但国内政企普遍规模庞大,业务线广而复杂,每个业务都有自己独立的系统,这导致了政企数字化中「烟囱林立」的现象。

由于政企部门业务的敏感性,这种数字化需要高度的定制化,这也导致 IT 建设负担沉重。

而当数字化转型从信息化时代进入数据驱动时代,政企围绕「数据」进行核心业务的「再造」。这个过程,大量数据中台先后出现。但数据驱动本质上并未解决数据在各个业务烟囱之间相互隔离的矛盾,数据中台与业务并没有紧密结合。

眼下的大模型则是数字化转型迎来的第三轮技术浪潮,与上一轮「数据驱动」浪潮并行。大模型让人可以直接与数据、机器互动,天然带有靠近业务的特征,其最大的价值之一就在于和业务场景的融合,以颠覆旧的业务形态,而这也更接近数字化转型本身所追逐的本质。

对大模型价值的审视或许是中国企业在多年数字化转型的过程中第一次集体性的回过头来认真度量和理解自己的业务——数字化转型不是结果,而是解决业务问题的手段。

「最终目的还是业务场景。我们跟很多客户谈的时候,会发现有的时候大家会把手段跟目的给弄混掉」,阿里云智能集团副总裁、解决方案研发部总经理曾震宇表示,「先明确要解决的问题,再看用什么方式解决。这个解决的过程可能就叫数字化转型的过程。如果说业务场景不想清楚就要做数字化转型,往往这种项目做到后面大家都会很吃力,因为不知道到底要解决一个什么问题」。

阿里云智能集团副总裁、解决方案研发部总经理曾震宇

大模型的巨大潜力,让政企看到了对自身业务甚至重新梳理整个企业组织结构的价值。这也让大模型技术能够成为政企数字化转型得以跳出一场场为数据所困的小范围局部战争的契机。

但政企在有了充分借助大模型来实现自身数字化转型的需求之后,面临的仍然是一个严峻的局面。

 

02 模型与算力的双重困境

 

摆在眼前的事模型本身的选择和塑造方向。换句话说,政企需要怎样的大模型?

首要的是,大模型需要能够支撑海量非结构化数据的查询分析。

政企业务规模庞大,数据量往往远超一般企业,这对大模型的处理能力提出了极高要求。例如,城市政务需要实时处理来自交通、安防、环保等多个部门的海量数据;金融机构需要对复杂交易数据进行风险分析和预测。而这些数据往往是非结构化的,比如图表、公式,甚至一些纸质合同等。这需要大模型用 RAG 等技术进行知识管理,以高效地处理、分析海量数据。

而与一般企业不同,政企业务需要维持全年 365 天每时每刻的稳定可用,政企业务系统往往对稳定性和可靠性要求极高,深入政企业务的大模型需要在长期持续运行中保持稳定,避免出现性能波动或意外中断。

而由于政企业务的特殊性,其对大模型有着极高的数据安全需求。私有化部署是政企在引入大模型时处于保障数据安全的重要手段,政企的数据得以不离开政企内部,并通过严格的访问控制机制防止数据泄露。

这要求大模型提供灵活的部署方式,支持私有化部署、混合部署等多种模式。同时,还需要采用数据加密、脱敏等技术手段,全方位保障数据安全。此外,还需要关注大模型自身的安全问题,例如模型窃取、对抗攻击等,并采取相应的防护措施。

而大模型能在政企的数字化转型过程中着力的最重要一点——大模型需要懂业务,并且能动态的跟上业务的变化。

「懂业务」意味着大模型不能仅仅停留在通用能力上,而要深入理解政企所处行业的专业术语、业务流程和监管要求。这要求大模型在预训练阶段就要引入大量的行业数据进行训练形成 Knowhow。

但业务永远在变化,这意味着大模型另有在实际应用中结合具体业务场景不断进行调整的需求。但懂业务的企业内部人员不一定懂模型,这意味着大模型需要在训练层面简单易懂,并且为业务人员构建便捷的知识注入和更新机制,让后者能够参与到模型的训练和优化过程中,把专业知识和经验融入到大模型里。

解决了「什么样的大模型适合自己「的问题之后,政企还有另一道题要解,即「如何训练适合自己业务的大模型」。

政企对大模型严苛的需求,进一步凸显出大模型训练背后绕不开的算力问题,这是政企将大模型顺利引入自身业务之前所面对的另一个问题。

中国并不缺智算中心,但缺的是可用的算力。现在大模型的训练需要的是规模化的算力。以基础模型训练来说,万卡集群的规模已经是底线,要保证一定质量的话则需要两万张卡以上。哪怕退而求其次的垂直模型,也需要千卡级别的算力集群支撑,这种集群规模对于政企来说是非常大的挑战。

政企在当下数字化转型中遇到的大模型与算力难,看似存在于两端,但实际有非常紧密的联系,将两者联系起来的是承担着将大模型引入政企业务中的云厂商。

阿里云智能集团研究员、阿里云智能集团副总裁、专有云总经理刘国华在拜访了包括很多客户后,得到了政企客户一个朴素而普遍的观点。现在的中国政企客户关心的是两件事情,第一个是安全稳定的问题,第二个是成本。随着大语言模型的发展,AI 给政企客户的业务带来了新的突破点,但与此同时他们又要兼顾整个安全和成本的问题。」

阿里云智能集团研究员、阿里云智能集团副总裁、专有云总经理刘国华

「基于此,政企客户更加期望云平台是满足云+AI 协同发展的要求,而不是单一各自去做各自的事情,来最大化提升整体的成本效率。」刘国华表示。

「下矿」近半年之后,阿里云从算力层和模型层,为政企客户带来了更优解。

 

03 云+AI 一体化的技术体系

 

「今天谈到大模型算力基础设施的时候,它绝对不是单单数机器和数卡,不是把一堆硬件隔在一起,而是通过云计算的平台把芯片、服务器、网络、存储这些东西有机的调动起来,才能集成模型的训练。」阿里云智能集团副总裁、产品解决方案部总经理霍嘉在云栖大会上表示。

阿里云智能集团副总裁、产品解决方案部总经理霍嘉

对于政企所看重的安全问题,阿里云在底层算力层的飞天企业版上实现了「智算升级」。

首先是在计算性能上的变化。

在异构算力池化方面,针对政企中 GPU 的异构现状,现在整个平台支持多芯的 GPU 融合管理。目前飞天企业版支持 23 款的 GPU 接入跟管理,支持单一集群 1.5 万卡的建设,并且实现通用算力、超算、智算的一网调度。

目前飞天企业版的 GPU 虚拟化和容器调度算力切分粒度达到 1%,资源利用率提升 100%;基于训推资源调度一体化平台,通过训推任务和资源调度策略结合,飞天企业版将算力资源碎片减少 30%。

而在在推理场景性能方面,通过 GPU 推理调度算法优化,飞天企业版在单机多卡并行式训练中可自动选择最优通信链路,通信带宽最大可提升 100%。在资源调度上,模型吞吐量提升 23%;通过对 GPU 深度调优,飞天企业版 GPU 性能较社区版提升 10%。

在端到端系统稳定性方面,飞天企业版提供从训练任务到底层基础设施的一体化监控和分析诊断能力,针对故障节点和受影响的作业路径可实现分钟级定位和诊断,整体故障监控覆盖率达到 80%。

兼容性方面的提升则不止在与多种 GPU 融合的方面有所体现。

阿里云提供的一站式 AI 大模型开发平台——百炼专属版。在 AI 的服务层提供了从开发、训练、推理到智能体搭建的服务,兼容整个主流的开源模型。

这意味着未来很多客户可以直接基于阿里云的平台去构建他的模型生态,让更多的模型可以更靠近它想要服务的客户。

在此之前,阿里云于 2023 年 10 月首次推出了百炼平台。该平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。

而针对政企市场面临一系列大模型落地「难题」,阿里云在 2024 年推出的百炼专属版。此次百炼专属版 2.0 在底层算力上,进一步兼容了「公共云 VPC」和「专有云」环境,并已嵌入阿里云「飞天企业版」云平台;支持多芯异构的算力调度,支持多租户模式下的算力、模型、数据隔离与共享。

在大模型训推方面,百炼专属版 2.0 支持高性能分布式训练,训练吞吐率提升 20%;基于软硬协同的推理加速,将精度无损量化提升至 0.5%,推理速度提升 3 倍以上。

在模型方面,百炼专属版 2.0 预置了通义 7B 到 72B 多尺寸大语言基础模型及多模态大模型,同时兼容主流模型框架、支持三方大模型自定义接入。

在模型服务方面,百炼专属版 2.0 支持图表、公式、图片、音视频,以及大文件和巨量文件的解析;基于平台丰富的工具和插件,开发者可通过「拖拉拽」快速搭建智能体。

数字化转型方兴未艾,智能化时代的浪潮已至。云计算与大模型的微妙关系耦合成一条新的政企数字化转型道路,而飞天企业版和百炼专属版则构成了一套完整的智能化时代云计算技术体系。

 

04 敏锐来自十年深耕

 

2023 年 4 月末,第六届数字中国建设峰会在福建福州举办的时间点,正是大模型第一波浪起的时候,彼时一场并不起眼的分论坛上,阿里云智能的副总裁霍嘉、阿里云智能副总裁、解决方案研发部总经理曾震宇等人少见的有一次同台。

在那次集体亮相之前,阿里云启动了一项「通义千问伙伴计划」,合作的伙伴覆盖油气、电力、交通、金融、酒旅、企服、通信行业。

阿里云在去年 4 月就把企业云服务因为大模型而发生变革放在非常重要的位置,现在来看,这像是非常有预见性的一枚石子,在投出将近一年半之后,水晕才真正荡开。

这种敏锐并不是来自个人判断,而是受益于阿里云多年在政企业务所下的苦功。

2014 年,阿里云陆续开始与中国气象总局合作,海量气象数据涌入通过阿里云计算平台;同年,阿里云与药监局合作,药品监管网数据从甲骨文转移到了阿里云;2015 年阿里云成为海关总署的云计算和大数据服务服务商;2021 年之后,国家医疗保障局医保信息平台开始跑在阿里云商。

到目前为止,阿里云已服务超 1000 家政企客户,覆盖 90% 的央国企(央企及省级国企)。6 大国有商业银行、2 大电网、中石化、中国邮政等都已跑在阿里云上。

所有的企业类型中,政企中有中国企业数字化里最复杂的难题,而对于一家中国云厂商来说,要想服务好政企市场,就必须在政企业务中扎根。

阿里云陪伴了中国政企数字化最汹涌的十年,这也让阿里云在眼下大模型重新定义企业数字化的时候,显得更清醒。

「数字化转型本质上是业务转型,组织升级,最后是技术助力。在数字化转型的过程中,上云只是个技术手段」,霍嘉表示,「不要过度高估数字化对业务转型带来的直接效果,数字化更多是一个加速器」。

而在这个从信息化到数字化的转型过程中,大模型的价值是让人类在技术上第一次可以去大规模的降低和软件——或者说数据——交流的门槛。这也让企业有机会重新审视内部积累起来的数据,结合新的业务场景,基于大模型的能力去进一步挖掘价值。

但这件事才刚刚开始。

而阿里云想要做的,是把大模型这把「锤子」的原料和锻造经验,直接交到政企手上。

 

*头图来源:阿里云云栖大会

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

浏览量: 99

对话地瓜机器人CEO王丛:500元的机器人“心脏”,是怎么炼成的?

行业公认,AI的下一波热点,将出现在机器人领域。

回顾2022年年底开启的AI热,凭借为AI提供算力的优势,“卖铲子的”英伟达成为最大赢家之一。那么,在未来的机器人时代,谁又会成为新的赢家呢?

英伟达自己仍然是一个强劲的选项。

在2024年的GTC大会上,英伟达展示了其在机器人方面的全面布局,许多机器人公司目前也已在使用英伟达的Jetson系列芯片,放在机器人的端侧提供算力。

看中这一领域的公司,还有国内的地瓜机器人。

9月20日,地瓜机器人发布了RDK X5和RDK S100,为普通的机器人开发者和要求更高的具身智能机器人公司提供自己的算力平台解决方案。

定价549元起,地瓜机器人希望以优秀的性价比、为开发者打造的便捷开发平台和与开发者社区的紧密连接,在未来的机器人算力市场占据一席之地。

极客公园参加了9月20日地瓜机器人的发布会,并对地瓜机器人CEO王丛进行了专访,聊聊他们如何提前卡位,准备在下一个科技风口到来时,成为下一个淘金热中“卖铲子的人”。

 

源于地平线,专注做机器人市场的团队

 

相较于已经成为中国最大的自动驾驶公司的地平线公司,地瓜机器人的名字对许多人来说尚有些陌生。

地瓜机器人在2024年初成立,主要研发机器人的底层计算平台。其前身,是地平线的AIoT团队。

目前地瓜机器人的CEO王丛,从2018年就在地平线负责AIoT业务了。“我们原本就是一个很独立的事业部,有自己完整的研发、销售、市场、社区。”王丛介绍到。

“AIoT市场很零碎,不过,这倒不是决定收缩业务最重要的原因。”王丛讲到,“更严重的问题是,在AIoT场景中,很多情况下其实对AI的需求很低,没有不断增长的算力需求。从长远来看,这和我们的人员结构和风格并不匹配。”

而在重新思考业务领域中,地瓜机器人团队逐渐开始找到了机器人这块新的领地。

“当时,做机器人芯片,并不是很多公司首选的领域。”王丛表示,“退回2019年,去做机器人这件事情面临很大的一个问题——出货量。没有足够的出货量,一家芯片公司没法养活自己,所以很多公司会选择更大的市场,但同时就会面临非常激烈的竞争。”

2019年的世界机器人大会 当时物流车是大会的重点展示对象 | 图片来源:视觉中国

一直以来,地平线的商业哲学更偏向于提前布局,避免激烈竞争。而地瓜机器人团队,看中了机器人市场的增长潜力。

“我们当时看到,不管是哪个品类的机器人,对AI和算力的要求都在逐渐的往上走。这个市场很适合我们。市场不大,大公司看不上,但市场也不小,对算力的要求高,小公司做不了,且我们有直觉这个市场未来将不断增长。”王丛表示,“创业的核心就是找到一个不大不小的市场,且这个市场未来有很好的增长。”

地瓜机器人最初的模式主要延续AIoT的服务模式,服务于机器人的B端企业,为客户提供算力和服务。

不过,很快,团队意识到机器人市场与AIoT市场并不相同。在机器人市场中,还有大量的零散的开发团队和小客户,团队很难一一对其进行服务。

2023年,地瓜机器人开始发力建设社区和生态,这也成了地瓜机器人希望在未来的竞争中,能够发挥重要价值的秘密武器。

“我们意识到,首先,五年后的机器人行业,你该服务的用户并不是现在公司现有的开发者。5年后你服务的用户很可能现在还是学生,应该提前让他们去习惯你提供的东西。”王丛表示。

“另外,机器人作为未来的市场,远远没有达到手机市场的集中度。在手机市场中,把头部厂商服务好了就可以了。而在机器人市场中,我们服务上万个开发者,不可能给上万个开发者有一对一的技术支持,所以倒推回来,必须要把基本功,包括工具、软件、易用性、文档写得足够的清楚,社区上也要有足够支撑。”王丛表示。

目前,地瓜机器人不但提供芯片,还组建了整个RDK的机器人开发者套件,方便开发者能够使用合作伙伴的产品搭建产品。不仅如此,地瓜机器人还组建了一套自己的机器人操作系统,提供了机器人算法中心,甚至提供了一套包括数据标注到仿真验证的数据解决方案。

地瓜机器人目前社区有五万多人,活跃度很高。“比如社区里面有很多提问现在都不是我们回答,就是第三方看到了就回答。我们希望能够陪伴机器人开发者共同成长。”王丛讲到。

 

五百块的 10 TOPS AI机器人开发入场券

 

2023年5月,在地瓜机器人团队独立之前,曾经发布过RDK X3模组。

而此次9月20日的发布会上,地瓜机器人团队推出了新品RDK X5和RDK S100。

搭载旭日5智能计算芯片,新品RDK X5具有10 TOPs算力和先进大模型及视觉算法加持,主要面向普通机器人开发者。

算力是这次产品发布的一个重要亮点。

“目前在10 TOPs 算力下能够真正的支持机器人各类算法,同时保持功耗最低,没有别的选择。”王丛表示。

RDK X5 4G版本549元,8G版本699元。价格公布时,发布会现场一片惊呼。

RDK X5 |图片来源:地瓜机器人

“我们这款产品面向的人群是最广泛的创客、学生,包括做智能电子的创客,整个定价的性价比非常高。过去如果玩英伟达的卡,至少需要2000元,而使用树莓派,还要搭载一个外围的算力棒,加在一起也要1000多,所以我们性价比非常高。除此之外,我们又把软件那套体系做得很好,这样大家玩起来上手也都很简单。”王丛介绍道。

比起前一代产品,RDK X5 算力、CPU都是翻倍的提高。

在原来小算力的情况下,开发者已经可以使用算力平台做基本的物体识别、分割。提升算力后,开发者可以集成小尺寸文本的LLM,进行本地部署——比如在RDK X5上,已经可以部署RWKV的1.5B的版本,有基本的对话能力。

RDK X5 端侧可部署的模型 | 图片来源:地瓜机器人

同时提升算力后,一些偏视觉的大模型,也可以进行应用了,能做到一些检测、分割、抓取。“比如家庭环境,一桌子上东西太多了,怎么去解决泛化,就是要用一些视觉大模型的方式去做剪裁,让它能够去识别各种各样的物品。还有一些从自动驾驶迁移过来的算法,双目的深度、Occupancy占据网络,一些V-SLAM的算法我们现在也可以去跑。”王丛介绍道。

为了让更广泛的开发者能更好地使用这一平台,地瓜也做了不少开发者友好的适配。

比如地瓜机器人推出了自己的Copilot,结合自己的软件、程序库,让开发者在编程的时候能够得到AI提示。同时RDK的Studio中也集成了不少可视化的交互方式,开发者直接拖、拉、拽,就能方便地生成代码。

通过写注释直接生成代码 | 图片来源:地瓜机器人

王丛讲到自己未来的愿景:“我刚创业的时候,是移动互联网的初期。最开始做的时候自己搭集群,然后自己搭各种各样的设施,后来亚马逊、阿里云各种工具套件出来后发现自己什么都不用搞,只要专注自己的APP开发就好,后来创业的时候可能十几个人我就可以做一个非常牛的东西。我觉得机器人未来也应该形成类似的模式,可能未来真的四五十个人就能搞出各种各样的机器人。“

而RDK S100,则是地瓜机器人今年新推出的一款产品,更针对于有前沿需求的具身智能、人形机器人公司,到今年年底公开发售。

“RDK X5也能做一些视觉的检测,和大模型的应用,但如果能把它的种类再泛化,精度再提升,跑一些更大尺寸的模型,就得需要RDK S100。”王丛介绍道。

 

地瓜机器人发布RDK S100 | 图片来源:地瓜机器人

RDK S100采用全新BPU纳什架构,专为大参数Transformer优化,拥有百TOPs级算力和全链路开发支持,目前能跑7B、13B的模型。地瓜机器人表示,星动纪元、逐际动力、求之科技、清华大学AIR智能产业研究院、睿尔曼、国讯芯微等数家行业顶级合作伙伴将率先搭载RDK S100。

“从去年开始我们就开始筹划这款产品。”王丛讲到,“像现在大家市场上看到的这些人形机器人的demo,这些能力RDK S100都能满足。”

地瓜机器人表示,明年地瓜机器人还会推出数百TOPs的大算力产品,来支持机器人企业的更前沿的需求。

 

从提前布局智能驾驶,到提前布局机器人

 

2023年,机器人市场开始转热。机器人本质上和汽车的市场不一样,打法不同,客户不同。地瓜机器人2024年成立,希望能在热起来的市场上,跑的更快。

虽然对机器人市场十分乐观,地瓜机器人对目前的机器人市场发展的判断仍然很冷静。

“我觉得机器人的发展还处在初级阶段吧。”王丛表示。“一个判断的方式是,当你发现行业里有特别多同质化的东西,同时又没什么实际用途,基本上这个行业还处在初期。每一波科技热潮都这样,像在2023 年我们见到了百模大战、千模大战,过了这个阶段,等这个大家都看清一些之后会更务实一些。”

“不过,虽然行业没有真的爆发,但我们做准备、做投入,一定是在爆发之前。我们感觉现在的时间点,很像地平线2016~2017年开始加大投入自动驾驶的时间点。”王丛表示。

“对于一个即将爆发的行业,常见的情况是有很多种技术路线,未来都有可能。我们目前更关注这些机器人探索者中,有哪些共性的基础的需求,我们能够先去满足。比如说这个在芯片上,无论企业怎么做,对Transformer一些大模型更高效的吞吐的支持,无论如何都要做,那我们就先做这些东西。”王丛表示。

目前,在具身智能领域,许多公司会选择云端算力和端侧算力结合的布局。

在云端中,机器人主要做一些任务拆解——让大模型理解用户提出的需求等于导航去来一个房间,观察哪个是要抓取的物品,规划抓取路径。不过在子任务中,如果每个环节都使用云端算力,则最后的产品实时性会很差。因此仍然需要端侧算力。

使用OpenAI模型的Figure机器人的技术架构 | 图片来源:X

目前,地瓜机器人在这个领域,面临着来自英伟达等巨头的竞争。

而作为开发者嘴里的“国货之光”,地瓜机器人希望通过切入有价格竞争力的产品,做出更好的机器人生态,在未来的机器人热到来之时,在机器人领域成为行业内强有力的竞争者。

不过,地瓜机器人表示,目前的产品虽然价格上很有竞争力,但硬件领域的企业,绝不会做亏本的买卖。同时,地瓜机器人在对产品定价的时候,关注的也不仅是板卡的盈利,还有未来生态中上下游的盈利。

同时,在国内人形机器人发展大热之下,作为国内的机器人软硬件通用底座提供商,地瓜机器人或许也将在与国内企业的合作中,拥有很强的优势。

“过去几年中,我们每年都有上百万的出货量。无论是扫地机、割草机、陪伴机器人、机械臂,我们都已经和国内最头部的玩家合作,已经量产或者即将量产。”王丛介绍道。在人形机器人领域,地瓜也已经与星动纪元、逐际动力等国内的头部人形机器人公司合作。

王丛表示,未来,对于地瓜机器人,持续的推出性价比更高的产品是本职工作,未来更希望的是让开发者的开发更容易。“希望大家不要重复造轮子,共性的部分我们能解决的都会直接提供。”

“地瓜是在各种土壤,各种条件下都能生存的物种,在饥荒年代,地瓜曾经养活了无数的人。”王丛在发布会上解释为什么要以“地瓜”命名新公司:“我们希望这家公司非常接地气,能给大家带来更多实用的工具。”

浏览量: 102

云栖笔记:FOMO 消散后,对 AI 的信心到底该从何而来?

先问一个问题:从体感上看,AI 领域的节奏你觉得是变快了还是变慢了?

客观上看,从去年 2 月开始,ChatGPT 开始在中国成为了所有人谈论的话题,短短几个月就形成了一个「共识」——AGI 是一场工业革命,大模型会改变未来。

对一个新技术如此迅速地达成共识,放在全球科技史上这可能都是第一次。躁动心开始跳动,FOMO 情绪开始翻涌,有人怕错过,有人怕失去。

而过去 18 个月,可用的新模型和新产品层出不穷,但效果惊艳、非它不可的不多。曾经期待(或担心)的颠覆性变革看起来依旧在路上,而 AI 巨大投入难道就是诞生了一些局部领域的效率工具?这看起来确实也有点算不过账……于是无论在中国还是美国,对于之前的「共识」开始有了动摇,觉得 AGI 是个大泡沫的「舆论应力」开始不断积聚,有点共识达成太快所以「始乱终弃」的趋势。

其实「预期」这个东西,很容易因人而异的主观。而「信心」这个东西,也很需要有现实论据的逻辑支撑。那么过去 18 个月 AI 技术到底经历了怎样的发展,未来到底应该有什么样的「预期」和「信心」,回答这个问题最好的方式,还是去看看进程中的细节,回到客观的视角做判断。

带着这样的视角,在今年阿里云云栖大会上,我跟在一线「摸爬滚打」的 AI 创业者、从业者,以及阿里云这样的产业巨头做了一系列交流。作为离 AI 最近的人,他们是撸起袖子亲自下场的 Doer,他们看到的东西应该能更好地帮我们做出自己的判断。

 

01 AI 不是减速,而是狂奔

技术进展常常以 18 个月为周期,从创业者的视角看,无论是过去的 18 个月,还是未来的 18 个月,模型技术并没有在减速,而是在加速。

对 AGI 进展感到快或慢的差异背后,是「打游戏的人」和「看游戏的人」在不同视角下的体感。在「看游戏的人」眼里,怎么老是那几个「妖怪」,情节推进太慢了,快看睡着了;玩游戏的人会说,新技能点出来又要「洗点」了,又多了好几个诱人的新任务,血压都要 160 了。

客观地讲,过去 18 个月里的三个里程碑事件,让他们看到了大模型在明显提速。

第一是 GPT-4o 的发布。

在 GPT-4o 之前,OpenAI 有 GPT-4V 视觉理解模型、有 Dall·E 视觉生成模型、有 Whisper 声音模型、和 Sora 视频生成模型,但 GPT-4o 让原本这些孤立的模型融合在一起了。而多模态融合这件事的意义在于,可以更好地模拟真实世界、为我们的物理世界建模,这让模型又上了一个新台阶。

第二件事情则是特斯拉发布的 FSD v12,一个端到端的大模型,可以直接把感知信号直接变成一个控制序列。它的意义不仅在于智驾本身,这套方法论为智能设备如何和大模型相结合,更好地探索物理世界指明了一个方向,从数字世界走向物理世界一个真实的应用场景。

第三件事情是上周的「o1」模型,第一次证明了语言模型其实也可以有人脑的慢思考,也就是「系统 2」的能力。系统 2 的能力是 AI 能归纳世界所必备的一个前提条件、一个基础能力。

在阶跃星辰创始人、首席执行官姜大昕看来,AGI 的演进路线可以分为模拟世界、探索世界和归纳世界,GPT-4o、FSD v12 和「o1」分别在这三个阶段或者说方向上取得突破,这是模型能继续提高上限的明确信号。

月之暗面 Kimi 创始人杨植麟也认为,各种技术指标和实际体感都在指向模型智商的提升。横向对比,多模态带来了更完整的体验,纵向对比,单就纯文本模型的能力一直在提升。

清华大学人工智能研究院副院长、生数科技首席科学家朱军补充了一个现象来解释他眼中的 AI 提速——学习曲线正在变得更加陡峭。追上一个技术的时间正在缩短,因为大家整体的认知和准备都更加充分,不像 ChatGPT 刚出来时,多少有点不知所措。

当然,看到明确的AI技术在提速是一方面,实际做的过程中,创业者们也更早地看到了脚下的瓶颈。

从大模型算力、算法、数据的黄金三角来看,互联网几十年的优质数据很快会被用完;当前算法下,预训练的 Scaling Law 正在走入瓶颈。姜大昕谈到了现在大家的一个普遍观点:GPT4 到了万亿级参数之后,再去 scaling 它的参数,边际收益是在下降的。

而且不少人可能都注意到了,Elon Musk 前段时间在 X 平台上展示了自己花百亿美金,迅速拉起的十万卡的「豪华」GPU 集群。Scaling Law 这么玩,可参与的选手一定就很少了。密度才能带来创新,如果最终真的要靠比如 OpenAI 一家来交付所有人的智能,这事并不那么靠谱。

但就在这时候「o1」来了,通过把强化学习的训练框架引入语言模型,从算法上打破了当前的创新瓶颈。

技术角度看,o1 展现了继续大幅提高模型技术水平上限的方法;能力水平看,o1 也展现了语言模型可以解决复杂推理问题的能力。从这两点 o1 所代表的重要性来说,这几乎是未来 18 个月最令人兴奋的进展。

过去的 GPT 系列语言模型,原理是预测下一个 token,对应人脑的快思考(系统 1),但 o1 通过引入强化学习的训练框架,第一次证明了语言模型也有慢思考(系统 2)的能力,让 AI 不仅能「读万卷书」,也能「行万里路」,也就是说让 AI 能通过规划、行动、自我反思、验证等过程不断试错和探索,直到找到正确途径。

对于这条技术路径的前景,杨植麟打了一个比方,他说「o1」提高了 AI 的上限,这个上限的提升,是把现在努力提升 5%、10% 的生产力水平,做到 10 倍的 GDP,这完全有可能实现,关键是弄清楚如何通过强化学习进一步 Scaling。

其实强化学习在上一代 AI 浪潮里就已经成为明确的技术方向,DeepMind 在 AlphaGo、AlphaFold 和 AlphaGeometry 中走的都是强化学习路线,但 o1 的出现,在强化学习通用性和泛化性上了一个大的台阶,它把强化学习 scale 到了一个很大的规模,姜大昕把它看成 scaling 带来的技术新范式,「强化学习的 Scaling」。

当前,o1 在有明确对错的代码、数学、原理证明等多个领域展现了强大的推理能力,但 RL(强化学习)究竟怎么去泛化,OpenAI 并没有被公开具体方法,也不能保证 OpenAI 最终一定可以把 o1 泛化到完全通用的领域。原因就像朱军解释的那样,你很容易告诉模型代码、数学等问题的优化目标是什么,但在更广泛、通用的场景里,如何告诉模型什么是对、什么是好,这种人类都可能没有对齐的目标。

不过在一个确定的方向上存在不确定的事,对创业公司也是好事,否则就没有创业公司的机会。一个技术新范式的开端,恰恰会让创业者觉得非常兴奋。相当于OpenAI找到了一条上限很高的道路,通过仔细琢磨它背后的方法,创业者有很多新的可能性。

在这一点上,杨植麟的判断很有启发,他认为o1 之后,接下来最重要的可能是「开放性的强化学习」,比如说在产品上跟用户交互,在一个真实的环境里面让智能体完成任务,然后自己去进化。

「武器库」多了一个武器,对做 AI 应用的创业者来说,怎么都不是坏事。o1 这样上限更高的复杂推理模型,还可能会把 B 端的 AI 应用从当前的 copilot 助理类产品,推向 autopilot 让 AI 自己独立完成闭环任务的程度,场景上也会渗透到更纵深的生产制造环节。

同时,ToC 应用也有了 copilot 和 autopilot 智能体协同作业,为用户提供更好体验的机会。如果说大语言模型是让人看到了一个令人期待的新大陆,那么这 18 个月最大的进展就是在这新大陆之上人们找到了可以培育新文明的绿洲,它还需要很多建设,但它值得建设。

 

02 从数字世界的共识,到物理世界的共识

当模型技术的上限看到明确提升的路径,「老问题」回来了,AI 应用什么时候爆发?

今年,很多人降低了对 AI 的预期,是因为原本期待的 SuperAPP 并没有出现。言外之意,大家觉得 AI 应用最大的想象力就是这个了。但在今年云栖大会上,你会发现,未来不止是数字生产力场景这些「小」场景,在自动驾驶、具身智能等「大」场景上,也正在一步步有路径地解锁。而原本大家想象的「在数字世界的爆发」很可能变成在物理世界的「浸润」。

主论坛上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭在主题演讲中也给出了明确的判断。他认为生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 App,而是接管数字世界,改变物理世界。

相应地,AI可以发挥的场景空间,就不只是移动互联网的延展,而是一次对物理世界的变革。

清华大学人工智能研究院副院长、生数科技首席科学家朱军类比自动驾驶 L1-L5 的分级,让现场观众看到 AI 对物理世界改变的明确路径。他说,L1 相当于 ChatGPT 那样的聊天机器人;L2 可以做复杂问题、深度思考的推理;L3 叫智能体,对应吴泳铭提到的从「数字世界」走向「物理世界」;L4 是要去自主发现和创造新知识;L5 可以去协同高效地运转。

在不同垂类任务上,AI 目前所处的阶段不同。总体上,我们现在正在从数据世界迈向物理世界的阶段,按照朱军的类比,也就是处于:正在渗透 L2,迈向 L3 的阶段。并且,在通向物理世界的技术路径选择上,也形成了相对明确的共识。

当前在物理世界,大模型影响最大的两个硬件领域是汽车和机器人。

汽车领域,自动驾驶技术的目标一直很明确——实现完全自动驾驶,但不同公司的实现路线有所不同。

以特斯拉为例,它采用的是从 L2 级别(部分自动驾驶)逐步向 L4 级别(高度自动驾驶)发展的策略。与特斯拉不同,Waymo 则选择直接切入 L4 级别,采取更为激进的方法。他们都使用了较小的模型和规则算法,通过解决尽量多的 corner case 去提高自动驾驶的接管能力。

但最近,业界越来越流行一种新的路线,端到端大模型。这一次,大模型路线为自动驾驶带来的是蜕变,还是局部优化?它是实现自动驾驶的最终路线吗?

小鹏汽车董事长&CEO 何小鹏称,过去多年的自动驾驶可以做到在高速开、在城市里开,但是它是用规则写的,而规则无法面对世界上的所有场景,哪怕只在开车这一个专业的业务上,有很多想不到的 corner case。

很多人可能记得 2023 年 9 月 2 日,1200 万人围观马斯克的特斯拉 FSD v12 的自动驾驶直播,45 分钟的车程里,他只接管了一次。这是端到端大模型带来的变化,马斯克称,「它可以读懂标志,但我们从来没有教过它」。有了端到端大模型,自动驾驶的高度可以做得更高,下限也可以提高。

对于最普通的用户,从现在到未来的 36 个月,端到端大模型可以让每一个人在每一个城市都像老司机一样开车顺滑,更「拟人」也更流畅,这是何小鹏多次尝试特斯拉 FSD 最直观的感受。

之前的智能驾驶系统,速度控制生硬,处理突发情况时会突然刹车或加速,带有明显的机械感。尤其是在狭窄路段或恶劣天气等特殊情况下,这种生硬的速度控制会让用户感到不安。

但端到端大模型最大的提升在于速度和转向控制的顺畅度。乘客即使在后排坐着,也几乎感觉不到在红绿灯启停和路口转弯时的任何顿挫感。

对于自动驾驶未来的终极路线,何小鹏和英伟达全球副总裁、汽车事业部负责人吴新宙也给出了一致的判断。从现有技术的框架上来看,大模型、生成式AI的方式不一定是实现自动驾驶的终极方式,但它一定是一个巨大的突破,比以前的算法、泛化、规则模型要强,这会给 AI 汽车带来巨大的变化。

如果把未来所有能移动的物体都视为智能机器人,汽车只是一个场景,更多机器人将迎来巨变。

在这个领域,具身智能是共同的信仰。当前,大模型给机器人带来更通用和泛化的大脑,让人们看到了未来机器人与人类能够并肩交流、协作的可能。这也是宇树科技创始人、CEO 王兴兴从几年前坚决不做人形机器人,到现在宇树已经推出两款人形机器人的原因。

现在,「o1」模型有自我反思、验证的能力,逻辑能力也大大提升,未来可以预见的是,一定能够提升机器人与人的交互能力和机器人的任务拆分的能力。

不过,大语言模型包括最新「o1」所代表的技术新范式,解决的仍是大脑问题。如果真的想要进入具身智能的时代,机器人本体控制,也就是「小脑问题」,仍待解决。

上周,创新工场联合首席执行官、管理合伙人汪华对具身智能时代未解决的问题也做了总结:一是硬件本身,包括传感器,依然有很多的瓶颈。具身智能的本体,是不是人形、有没有下肢、怎么做等也尚未达成共识。

二是可泛化的运动控制。现在机器人都是基于物理计算,或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的,可以抓、拧、掏、抠,现在其实还没有一个在运动控制上的 GPT。

问题都是现实的,但是有了一旦有了明确的技术前进路径,从科学问题变成了工程问题,这也就到了创业者们可以发挥作用的时代。

 

03 巨头的进取心「归位」

技术在涨、场景在解锁,对底层基础设施的需求也在变化。

在跟创业者交流的过程中,他们调侃当前做大模型和 AI 应用时对算力的「复杂情感」时称,讲卡伤感情、没卡没感情、用卡费感情。尤其是「o1」带来新的技术线后,推理端的算力直接决定算法和产品创新的可能性。所有行业,都需要性能更强、规模更大、更适应 AI 需求的基础设施。

吴泳铭在这方面的思考非常本质,他指出,生成式 AI 让世界有了一个统一的语言——Token。它可以是任何文字、代码、图像、视频、声音,或者是人类千百年来的思考。AI 模型可以通过对物理世界数据的 Token 化,理解真实世界的方方面面,比如人类行走、奔跑、驾驶车辆、使用工具,绘画、作曲、写作、表达、教学、编程的技巧,甚至是开公司创业。理解之后,AI 就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。

当 Token 成为统一语言后,未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成 GPU AI 算力为主、CPU 传统计算为辅的计算模式。

从阿里云客户的需求分布来看,这一变化正在加速演进,阿里云超过 50% 的新需求由 AI 驱动产生。生成式 AI 对数字世界和物理世界的重构,正在让计算架构发生根本性变化。

18 个月的时间里,阿里云这样的基础设施巨头,看起来对未来的进取心明确「归位」了——正在以前所未有的强度投入 AI 技术研发和基础设施建设。

在 2024 杭州云栖大会上,阿里云展现了围绕 AI 时代的新基建,其中单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的 AI 先进基础设施。

基础设施之上,阿里云也升级了在 AI 模型与应用的最新产品。其中,通义大模型迎来了年度重磅发布。基础模型升级,性能媲美 GPT-4o。

这种「进取心归位」也体现在对开源路线的明确态度上。这次可以清晰看出阿里云继续秉承了成为「AI 时代最开放的云」的使命,最强开源模型 Qwen2.5 系列,同时上架了语言、音频、视觉等 100 多款全模态模型。通义开源模型累计下载量已经突破 4000 万,通义原生模型和衍生模型总数超过 5 万,模型生态全球第二了,仅次于美国 Llama 的世界级模型群。

提高自研模型能力和坚持开源是一方面,帮助更多大模型创业公司生长则是阿里云在大模型布局的另一面。去年以来,阿里云先后向月之暗面、Minimax、智谱 AI、百川智能和零一万物等 AI 公司注资数十亿美元,成为国内最激进支持大模型创业公司的互联网大厂。这也反应了阿里云明确了自己在 AI 时代的定位,不是要什么都做,而是在新时代继续成为最好的基础设施,用开放的态度,做最有利于推动变革进程的事情。

大模型所带来的第三次云计算浪潮不同以往,当前的 AI 技术日新月异,技术栈远未收敛。跟阿里云在 2009 年力排众议立项第一台云计算操作系统「飞天」时不同,尽管当时也是从 0 到 1,但大体上技术栈是明确的。彼时,阿里云成功地带来了云计算,让阿里巴巴有了自己的技术引擎,改变了互联网,为商业、社会、为人,带来了新变化。

从目前阿里云的一系列布局中,我强烈地感受到阿里云的决心,就是建设「一张遍布全球的、理想的 AI 云计算网络」。今天所有发布的、在研的,都是在围绕这样一个理想的 AI 云计算网络打造,让开发者、生态伙伴、客户能够随时方便取用这张网络。

根据阿里云创始人王坚的定义,人工智能给中国云计算的发展带来了「第三次浪潮」:其中,第一次浪潮,出现在十年前,出现了以 Netflix、米哈游为代表的云原生企业,中国的云计算业务在这个阶段起步,但由于国内市场成熟得太慢,便落后于海外;第二次浪潮,出现在传统企业采用云计算之时,但并没有将中国的云计算拉上正确的发展轨道;第三次浪潮,正发生在当下,由生成式人工智能带来机遇,数据、模型、和算力的组合,正在让 AI 云计算成为 AI 时代的基础设施。

就像「飞天」操作系统的诞生为第一次云计算浪潮带来了像米哈游一样的原住民。一张遍布全球的理想的 AI 云计算网络上,也会长出新一代「AI 云原生」的新商业力量,而且些力量不再是先从手机屏幕中的数字世界诞生,再慢慢延展到物理世界的企业生产力进步,而有可能是把信息化、数字化、智能化三步并一步,被智能生产力的供给侧革命所推动,形成跳跃。

所以数字世界的 App 们在「明修栈道」,物理世界的企业也在「暗度陈仓」。而阿里云这样的基础设施,也只有这个进程里才能最终因为创造更大价值,而收获更大价值。这个目标,才能配得上今天「先干为敬」的进取心和投入。

所以,从 AGI 技术客观上的加速进展,到技术革命的共识从数字世界延伸到了更大的物理世界,再到阿里云这样的巨头完成进取心明确,开始「先干为敬」……这些客观上的变化,可以看作对过去 18 个月的总结。这也应该成为对 AI 技术革命未来信心的基础。

这能改变整个社会以及资本环境今天对 AI 的「信心回调」吗?理性的看,估计作用有限。

但看清这些,对做事的人,意义重大。因为绝对的共识往往对做事的人都没什么价值,而保持一定的「非共识」才是对 Doer 最好的环境。归根结底,每个人都应该走出 FOMO,完成「进取心归位」。

 

浏览量: 70

预训练的 Scaling Law 正在走入死胡同,o1 让更多创业公司重新复活

北京时间 9 月 13 日凌晨,OpenAI 在官网发布了其最新一代模型,没有延续过去 GPT 系列的名称,新模型起名为 o1,当前可以获取 o1-Preview 和 o1-mini 这两个版本。

当天,Sam Altman 在社交平台上兴奋地称,「『o1』系列代表新范式的开始」。

但这可能是第一次,外界比 OpenAI 的掌舵人 Sam Altman 本人,更加兴奋地期待 OpenAI 的新品发布。这份期待里,无关对赛道第一名的艳羡,更多是同呼吸、共命运的决定性瞬间。下一代模型是否有惊人的进展?能否为 AGI 的浪潮和梦想完成信仰充值?

今年,你可能也对 AI 这个字眼麻木了,去年有多狂热,今年就有多麻木。原因无他,在 AI 的落地应用上,看不到信心二字。截止目前,仍未出现颠覆性的 AI 应用;Inflection.ai、Adept.ai、Character.AI 等最头部的明星公司接连被大厂纳入麾下;科技巨头们在财报周被反复拷问 AI 的巨额资本支出何时看到回报……

这些情绪背后,都指向同一个问题,那个所谓的第一性原理「Scaling Law」可以通向 AGI 吗?以今年十万卡、百亿美金投入,换取模型性能线性增长、乃至对数级增长的门槛来看,这注定是一场玩不起的游戏。不少人开始质疑它的合理性,这波 AI 不会就这样了吧?

这是「o1」诞生的时代性。

在 OpenAI 交出答卷后,AI 创业者表示「又行了」。不同于预训练的 Scaling Law,一条在推理阶段注入强化学习的路径成为明确的技术新方向,徐徐展开。

极客公园「今夜科技谈」直播间也在第一时间邀请极客公园创始人 & 总裁张鹏,和创新工场联合首席执行官/管理合伙人汪华、昆仑万维首席科学家&2050 全球研究院院长颜水成,一起聊了聊 o1 所代表的新范式及创业者脚下的路。

以下是直播沉淀文字,由极客公园整理。

 

01「o1」释放了明确的技术信号,但更期待下一个里程碑

张鹏:从去年传出「Q*项目」到现在,OpenAI的强推理模型「o1 系列」终于发布了。实际用下来,「o1」的发布符合你们的预期效果吗?

颜水成:我用 o1 做的第一件事情是,把我女儿做的数学题输进去看结果,o1 的表现令人惊喜。它解题的逻辑顺序、总结的 CoT(Chain of Thoughts,思维链)信息,让人觉得很不一般。

如果是用 GPT-4 或 GPT-4o,只是做下一个 token(词元)的预测,其实我们心里会打鼓、会怀疑:只是做下一个词元的预测,是不是就能实现复杂推理过程。

但 o1 相当于在回答问题之前,先引入用 CoT(思维链)表示的思考过程,把复杂问题先用 planning(规划)的方式将任务拆解,再根据规划的结果一步步细化,最后把所有结果做总结,才得到最终结果。

一个模型的好与不好,关键在于它是不是直觉上能解决问题。GPT-4 和 GPT-4o 还是一种快思考,这种快思考不太适合解决复杂推理问题;但是 o1 是一种慢思考的过程,像人一样思考,更可能解决一个问题,尤其是跟数学、编程或者逻辑有关的问题。o1 所代表的技术路径未来会走得非常远,带来非常大的想象空间。

汪华:我觉得 o1 是一个非常好的工作,水到渠成,符合预期。符合预期是说这个时间点该有成果了,为更高的未来预期打开了通路,但并不 surprise,没有超出预期。

因为这个工作其实从去年就已经有一系列的线索,包括 OpenAI、DeepMind 出的一系列的论文像 Let』s Verify Step by Step (OpenAI, 2023),以及其他像 Quiet-STaR 和 in-contest reinforce learning 中都有迹可循。

大家用强化学习、包括用合成数据去串 Reward Model(奖励模型)或 Critic Model(评判模型),或者后来用各种各样结构化的推理来提高模型正确率。事实上,无论是 OpenAI、Meta,还是其他大厂,大家现在都已经在做类似的工作,这个方向其实是大家的一个共识。

不光 OpenAI,很多其他模型在数学、编程、推理上都已经有了很大进步,就是因为或多或少用了一部分这方面的技术,但 OpenAI 发布的 o1 是集大成,并且工作做得非常好,而且里面应该有它独特的工程探索。

图片来源:OpenAI 官网

张鹏:预期之内,但还不够惊喜。

汪华:对,整个框架还是在预期范围之内,没有像 GPT-4 或者 GPT-3.5 发布一样带来很大的惊喜。

你会发现 o1 针对推理等各方面性能的增强,还是在一些有明确对与错和封闭结果的领域。比如 o1 展现的代码、学术解题,包括数据分析能力其实都属于有明确信号的领域。

哪怕是在明确领域,比如数学编程的问题,它在做得好的问题上表现非常好,但在一些问题上也做得不太好。也就是说,可能它在训练 Critic Model(评判模型)或者 Reward Model(奖励模型)的时候,对于下游任务的泛化,可能还是遵循物理规律。如果对下游任务覆盖得好,它就做得好;如果覆盖得不好、下游任务没见过这些数据,或者 reward model 没法很好地给予 reward 的时候,它泛化也不一定真的能泛化过去,所以从这个角度来讲,o1 没有特别的超出常识的部分。

我还测了一些更加通用推理的场景,在这些领域,o1 增强得还不太多,很多也没有带来增强的效果。

实际上对 OpenAI 抱持更高的期待是,希望它下一步能做到,把推理泛化到通用领域。

当然现在端出这么一个非常完善的工作,把这件事给做出来,OpenAI 这点还是非常厉害的。而且在跟 OpenAI 的同学聊天时,能感觉到他们在做更难的事情,朝着通用推理的方向在做,只是可能现在还不成熟,所以先放出来对于 signal(技术信号)更明显的阶段性成果,在代码、数学方面的工作。所以我也非常期待,什么时候 OpenAI 能把下一个里程碑也克服了。

 

02 强化学习不新鲜,「o1」在用强化学习上有创新

张鹏:o1 已经能在一些领域展现出复杂推理的能力,其中很重要的原因是,强化学习在 o1 系列模型里扮演了非常重要的作用。怎么理解强化学习在新一代模型里起的作用?

颜水成:强化学习是一个存在时间蛮长的方向,把这个技术用得最好的团队应该是谷歌 DeepMind,他们一开始就是从这个角度出发,去解决真实世界的实际问题。

我个人觉得强化学习在 o1 里最核心的点,不在于使用强化学习,因为强化学习在 GPT-3.5 里就已经用了PPO(一种强化学习算法),用一个奖励函数去指导 PPO,进而优化模型参数。

强化学习优化一个描述长期累计 rewards 的目标函数,而原先传统算法只是求解损失函数。相当于,在优化 policy action(策略动作)的时候,需要考虑未来所有奖励的总和。

具体来说,像在围棋博弈中,它会用 self-play(自我博弈)的形式去收集 action-status 序列,这个过程自动生成一个奖励值,而不是说去学一个奖励函数。它是直接自动产生出奖励,或者说人工可以定义奖励,用这些奖励就可以把策略学出来,然后逐步提升策略。它最大的特点是整个过程不需要人类干预,不是像 RLHF(根据人类反馈的强化学习),有很多的步骤需要人去反馈。

我觉得其实 o1 跟原来的强化学习有一个最本质的差别。有人认为,o1 的原理可能与斯坦福大学团队 (E Zelikman et al, 2024) 发表的 Quiet-STaR 研究成果最相关。Quiet- STaR 的一个特点是从 CoT(思维链)的角度出发,但是 CoT 并不是一开始就存在。

要做推理问题,原本有最初的文本存在,如果在文本里面再插入一些 CoT 的信息,它就能提升推理效果。

但当我们希望去解决通用的、复杂的推理问题时,大部分的情况下 CoT 是不存在的。那么在强化学习的 pipeline(流程管道)里面,如何把这些 CoT 的信息一步一步生成出来是非常困难的。

这就要问 o1 的模型架构是什么?是一个模型它既可以去做规划,又可以根据规划去生成 CoT,又可以做自我反思(self-reflection),又可以做验证,最后做一个总结,这些所有的事情。还是说其实是好几个模型,一个模型根据信息生成 CoT,另外一个模型做反馈,两个模型相互交互,逐步把结果生成。目前 o1 还不是特别清楚,两种可能都能做,单一模型可能会让整个过程更优雅。第二种可能实现起来会更容易一些。

如何用合适的方式把 CoT(思维链)生成,我觉得这是 o1,跟其他的强化学习区别最大的地方。这里的细节还不是很清楚,如果清楚的话,o1 的黑盒问题可能就解决了。

张鹏:怎么把强化学习运用到这一代推理模型里?是一个单体的超级智能、还是一个集体决策,这些还没有被公开。

颜水成:上一代的强化学习,可能更像下围棋,通过别人已有的棋局,先学了一些东西以后再接着往前走。我觉得要做通用、复杂推理的话,它就会碰到很多从零开始(zero start),可能一开始根本没有 CoT 的数据,这种情况大概怎么去做学习,有待探索。

2015 年,DeepMind 推出了 AlphaGo,这是第一个击败围棋世界冠军的计算机程序,通过强化学习,其后继者 AlphaZero 和 MuZero 基于自我对弈与强化学习的方式,变得越来越通用,能够解决许多不同的游戏以及复杂的现实世界问题,从压缩视频到发现新的更高效的计算机算法。|图片来源:DeepMind

张鹏:为什么把强化学习放到模型里,成为接下来发展的共识?这个共识是怎么达成的?核心都是要解决什么样的问题?

汪华:技术上有颜老师在。从商业角度,大家还是在讨论模型的智能上限这样一个问题。

举个例子,哪怕是一个员工的应用场景,小学生能干的工种,跟中学生、大学生能干的工种,差别还是非常大的。所以模型的幻觉,或者说模型的复杂指令遵循能力、模型的长链路规划和推理能力,已经制约了模型的进一步商业化,哪怕我不是为了实现 AGI(通用人工智能)。

所以大家早就已经有这个说法了,一开始就有「系统-1」「系统-2」的说法(快思考和慢思考)。基本上预训练相当于知识的压缩,它本身就跟人的直觉一样,没法进行复杂的推理,所以必然要找到一个方法来实现「系统-2」。

在实现「系统-2」的时候,用各种各样的结构化推理,包括用各种各样的强化学习,有一个正好的规划,更稳定的模型输出,更好的指令遵循,包括让模型不光是学会知识本身,包括按什么样的 pipeline(流程管道)去使用知识。比如人类在解决问题 A 时会用思维框架一,解决问题 B 时会用思维框架二。像这些问题怎么来做?大家手里的武器库,其实除了 LLM,就是强化学习。

而且我特别同意颜老师刚刚的说法,具体实现上用了一个模型还是两个模型,只是一个工程问题,但 CoT 的数据从哪里来?包括怎么来实现一些真实世界的模拟和对抗,这个反而是大家一直在试图攻克的难点。代码和数学之所以能被很快地解决,是因为它的信号非常明确,对就是对,错就是错,而且它的步骤合成,合成它的推理 CoT 数据其实是相对比较容易的,奖励或者 Critics(评判)也是相对比较明晰。

颜水成:就相当于说奖励能直接获得。

汪华:更难的就是代码和数学之外,世界上那种复杂的、复合的,甚至开放结果的,没有明确的、绝对对错的,甚至没有唯一执行路径的这些问题怎么办。我觉得把这个问题给解了,难度要比一个模型和两个模型其实要难得多。

颜水成:o1 这个框架里面我觉得应该还是有一个奖励函数存在的,不然就没办法推演到通用的复杂推理。

 

03「o1」发展下去,更接近一个「超级智能体」张鹏:o1 跟跟此前的 GPT 系列相比,是两个技术方向,可以这么理解吗?

颜水成:对,o1 表现出来的行为不再是下一个 token 的预测了,而更像是一个超级智能体的样子,未来可以处理多模态、可以处理工具,可以处理存储记忆,包括短期和长期的语义记忆。

《思考,快与慢》,诺贝尔经济学奖得主丹尼尔·卡尼曼经典之作,介绍了大脑的两种思维系统:系统 1 快速直觉、系统 2 缓慢理性|图片来源:视觉中国

我个人是认为 o1 这个技术方向肯定是对的,从 GPT-4 到 o1 的话,其实就是从「系统-1」到「系统-2」的一个转变。今年 5 月我做过一个演讲,AGI 的终局可能是什么东西,当时提到了两个概念,一个概念叫做 Global Workspace(全局工作空间),一个叫超级智能体。

Global Workspace(全局工作空间)在心理学和神经科学领域里的一个理论,是说大脑里除了专用的子系统,比如视觉、语音,触觉等子系统之外,可能还存在一个区域叫做 Global Workspace。

如果「系统-2」,就是多步和多模型的形式一起来完成的话,现在 CoT(思维链)产生的结果,它非常像 Global Workspace 的工作原理。用一个注意力的模型,把文本的、未来多模态的、工具等信息都拉到这个空间,同时也把你的目标和存储的记忆(memory)都拿到这个空间里进行推理,尝试新的策略、再做验证、尝试新的可能性……不停的往前推理,演绎的结果就是最终得到分析的结果。推理时间越长,就相当于在 Global Workspace 里的推演过程越长,最终得到的结果也会越好。

对于复杂的任务无法用「系统-1」(快思考)一竿子到底,就用「系统-2」(慢思考)的 Global Workspace,把信息逐步分解、推演,同时又动态地去获取工具,动态地去获取存储记忆,最后做总结,得到最后的结果。

所以我觉得 o1 发展下去,可能就是「系统-2」(慢思考)的 Global Workspace 的 AI 实现方式,如果用 AI 的语言来描述的话,其实它就像是一个超级智能体。也就是说,o1 发展下去,可能就是一个超级智能体。

 

04 LLM+RL 的模式,是否可以通向泛化推理?

汪华:强化学习相关的共识其实很早就有,但大家一直也没解决好问题。当年强化学习也很火,还被视作 AGI 的一个通路,包括机器人领域也都是用强化学习,但当时就遇到了这个难题:对于非常明确的任务,奖励函数很好建、任务的模拟器也很好建;但一旦扩展到真实世界的泛化任务时,就没法泛化,或者没法建立能完整模拟真实世界各种各样、复杂奇怪的任务模拟器,也没法去建立对它很好的奖励函数。

您觉得按现在这条 LLM(大语言模型)加上 Reinforcement Learning(强化学习)的模式,不止是在有明确信号的领域比如代码、数学,如果要往泛化推理走的话,要怎么走?

颜水成:一个最大的差别就是,原来的强化学习,它的泛化性能不好。每次可能是专门针对一个游戏、或者一组类似的游戏去学一个策略。但是现在它要做通用的复杂推理,面对所有问题都要有能产生 CoT 的能力,这就会变成是一个巨大数据的问题和工程的问题。

我非常认同汪华的观点,在数学、编程、科学这些问题上,可能比较容易去造一些新的 CoT 数据,但是有一些领域,想要无中生有地生成这些 CoT 数据,难度非常高,或者说还解决得不好。

要解决泛化的问题,数据就要足够多样,但在通用场景的推理泛化问题上,这种 CoT 的数据到底怎么生成?

或者也有可能根本就没有必要,因为那个问题可能已经解决得很好了,你再加 CoT 可能也没有意义,比如说在有一些问题上,可能感觉 o1 没有带来本质的效果提升,可能因为那种问题本来就已经解决得非常不错了。

张鹏:强化学习在下一代的模型里要扮演更重要的作用,会带来什么影响?

汪华:如果大规模采纳这个方案,算力会更短缺,推理会变得更重要。

因为之前说推理成本将来会降 100 倍,现在如果往强化学习的方向发展,推理成本就更需要降了,因为解决问题要消耗更多的推理 token。降低推理价格其实等效于推理速度提升,需要把推理所需的时间压缩下来,很多应用才会变得可用。

第二,模型大小也要变得非常精干,因为如果无限的扩张基模尺寸的话,推理速度会变得更慢、也更昂贵,从商业上来讲就更加不可行了,因为采纳结构化推理,可能要消耗 100 倍的 token 来解决同一个问题。

张鹏:你怎么看 LLM+RL 的前景,推理泛化的路径是清晰的吗?

汪华:o1 之后 AI 的未来怎么发展,其实我相对比较保守,什么事情都做两种打算。

第一种是,我们在很长段时间内没有找到泛化的方法。但即使是这样,我个人认为依然是一个巨大的进步。因为这虽然意味着很多开放的、复合的、非常复杂、模糊的问题上,我们没办法用这个方式来提升,但是商业场景下有大量的问题,比如法律、金融领域,很多问题是封闭的、明确的。在这些问题上可以通过这条路径,去合成数据、去做奖励模型、判别模型(critic model),极大地提高垂直领域的性能,甚至把性能提升从 Copilot(辅助驾驶)提升到 Autopilot(自动驾驶)的地步,这就是一个飞跃性的改变。

无人驾驶汽车|图片来源:视觉中国

这个场景有点像回到 AI 1.0,但比 AI 1.0 好,因为会针对垂直领域会做出一个个垂直的模型或者一套体系,从商业角度上来说已经是个巨大进步了。现在大家天天忙着做 copilot,没法做 autopilot,就是因为模型不擅长做长推理,一做复杂问题就出错,产生幻觉等问题。

第二种,如果能实现通用模型的话,影响就比较大了。哪怕不一定带来 AGI,它的泛用性、泛化性差、解决问题依然比人差,正确率没有高的,但只要高过普通人的平均水平,那也可以给世界上 70% ~ 80% 的事情带来自动化。你要知道我们很多成年人也做不对奥数题,而且我们自己也有「幻觉」。

 

05 建立真实世界模拟器:能读万卷书,也能行万里路

张鹏:在今天这个节点看得见希望,但是可能一颗红心两种准备。哪怕不能够完全泛化,今天也能解决很多问题了,比如在专用领域里可以做到通用能力达标。

汪华:对,能不能实现推理泛化,我个人觉得关键在于能否构造一套泛化的「真实世界模拟器」。构建这个真实世界模拟器,可能难点在于数据加上算法等一系列的因素。

因为模型跟人互动,解决这些开放问题的时候,本质上是在跟真实世界互动,真实世界就是那个奖励函数或者判别函数(Critic Model),能不能建立一套新的方法论,能真实地模拟这个真实世界的反馈,而且能脱离人类反馈。

之前的 SFT(精调),包括之前的强化学习本质上是基于人类的反馈(RLHF),这就像 AlphaGo 只是跟着人类棋谱学习,而不能左右互搏,效果肯定是有限的。

构建这个「真实世界模拟器」,可能难点在于数据加上算法等一系列的因素。这个模拟器一旦建立了,模型会产生无限的数据,就像 AlphaGo 互相下棋,它可以下 100 万盘、 1000 万盘、1 亿盘,而且它来判阵输赢,通过输赢的判断去模拟棋道真谛。

张鹏:有点像它是要创造一个真正有效的世界,AI 在里面能「解万道题」,甚至「行万里路」,而不只像原来那样「读万卷书」,这个东西其实最终才能通向更广泛化的意义,而不受限于人类的反馈、等着人类师傅带,成本很高、泛化也很难。

汪华:而且这里面其实在我看来分两个阶段。第一阶段就是 LLM(大语言模型)的阶段,预训练的阶段就是压缩知识,学习人类的知识,而 RL(强化学习)的阶段是练习和摸索思维方式。两个阶段培养两种能力,最后都压缩到这个 LLM 里面的 Latent Space(潜在空间,深度学习中一种数据的低维表示形式)里面。

Sam Altman 在 X 平台称,OpenAI o1 是新范式的开始|截图来源:X.com

 

06 Sam Altman 所谓「新范式的开始」,有几分可信

张鹏:作为这次 OpenAI 发的新模型,「o1」不再延续过去 GPT 系列的叫法,比如 GPT 四点几,而是开启了 o 系列新模型代号。同时 Sam Altman 称这是一次新范式的开始。我们怎么理解这个所谓的新范式?

颜水成:如果按照 Global Workspace 这套理论去对照「系统-2」(慢思考)和「系统-2」(快思考),o1 和 GPT-4 是有本质差别的,其中最大的差别在于,它会在解决问题的过程中产生 CoT(思维链)。

一年前有人说 Ilya Sutskever (OpenAI 联合创始人) 在「草莓模型」(o1 之前的代号叫草莓)里发现了一些让人震惊的、可怕的事情。今天可以大概推测,他当时到底在草莓模型里面发现了什么东西。我觉得他发现的就是 AI 的学习过程,RL(强化学习)和 CoT(思维链)相结合,他发现系统具备自己挖掘 CoT(思维链)的能力。

我个人认为,CoT 的过程,不是纯粹从已有的知识里去提取知识。CoT 的过程跟人类的思考过程一样,会展开不同的分析组合,包括验证、自我反思等。CoT 过程结束之后,其实一个新的知识就产生了,因为你其实会对以前的知识进行再加工,可以认为这是一个新知识。

当模型具备自动产生 CoT 的能力,意味着它有知识发现和知识增长的能力,新的知识可以重新完善(refine)模型,也会注入(inject)到模型自我的知识里,AI 就可以实现自我提升(self-improving)的能力。

从这个角度看,o1 如果能够自动地去做挖掘 CoT,它真的就是一个新范式的开始。它不只是提取已有的知识,而是不断地产生新的知识,是一个知识增长的过程,是一个用算力去挖矿的过程,挖掘出新的知识。知识就会越来越多,AI 就能做研究者能做到的很多事情。

张鹏:要这么说的话,人类的科学发展进程也是人类不断产生 CoT 的过程,现在发现模型具备了 CoT 能力,自己能够获得更多知识,也能基于这个知识再优化自己,有了「自我进化」的能力。这可能是新范式代表的含义,当我们要需要模型更有效地解决问题,有赖于它自主产生 CoT 的能力,并能够自我进化。

颜水成:所以有可能,OpenAI 把所有大家问的问题、信息全部都存下来,然后再拿这部分东西训练模型,就可以把模型的能力进一步提升。相当于全世界的人用自己的钱、用他的算力去进行了知识的扩展,然后扩展出来的 CoT 结果,又可以使模型变得越来越强。如果从这个角度来说的话,确实是一种新的范式的开始。

擅长布道和公关的「融资大师」Sam Altman|图片来源:视觉中国

张鹏:直播间里有观众说得很直接,说 Sam Altman 口中的「新范式」就等于「OpenAI 融资难了,需要有一些新的话术」。你觉得他说的新范式,是一个给大家提高预期、一个信仰充值的东西,还是说会再开启一个所谓的新范式?

汪华:从投资人的角度来讲,现在中美投资人,已经初步过了「为了科学突破而感到激动」要投钱的时间点了,都在忙着看商业化,会看这个东西到底解决什么问题。虽然投资人可能比较俗气,但是过去一年多毕竟也是砸了那么多钱进去,千亿美金的算力、Infra 等都投进去了。

对创业公司或者大语言模型的发展来讲,我个人认为是一个新范式,而且是大家已经期待的新范式。过去的 Scaling Law 每次都要 100 倍的算力(扩张),指数级别的算力增长,然后只得到线性的模型性能提升。这会带来两个问题,第一,怎么再继续扩张(scaling)下去。第二,对于创业公司、研究机构,包括新的 idea 的出现,是一个绝对的扼杀,因为最后只有少数的帝王级企业,才有资格去做这件事。

但「o1」代表的范式,把很多东西拉回来了,世界可以更多元化了。不是说不要 Scaling Law  了,可能新范式下依然是模型越大效果越好。但有了「o1」所代表的新范式,Scaling Law 可以从更小的模型做,而可能这个模型算力提升 10 倍就能看到原先百倍的效果,而不是要指数级别的提升才能看到很多进步,包括对于各种各样的商业化也更友好了。

所以从商业角度来讲,我个人觉得「新范式」是有潜力发生的,而且是必须的。按原来那条 Scaling Law 是一条死路,都不说再 Scaling Law 下去全世界的数据够不够用这个问题,在 Scaling Law 下,全世界还有多少人能做这件事都是问题。

 

07「o1」打破了预训练的 Scaling Law 瓶颈,商业上解锁了新的可能

颜水成:所以其实最近有不少公司,也基本上觉得纯粹的基础模型的预训练意义已经不大了,因为基本上是 10 亿美金级了。

汪华:而且你就算训练得起,你用得起吗?AI 如果真的要给整个世界带来广泛的进步,本身就需要范式改变,光靠推理成本的下降是撑不住的。

另外从学术的角度来说,我觉得这个范式有的地方变了,有的地方还是没变。现在 o1 模型里的很多问题,包括规划、推理,其实它在产生 CoT 的过程依然还是在做下一个 token 的预测。

生成式 AI 的创业门槛,算力是绕不开的巨额成本|图片来源:视觉中国

颜水成:因为有很多过程,比如有的在做规划,有的是一小节一小节在做 CoT,有的是在做自我反思(self reflection)。这个过程到底是怎么实现,现在还不是特别清楚。如果就是说按照一个固定的流程,都按照下一个 token 的预测来做,那么 CoT 就是一个 new data 的问题了,但是我是觉得可能不只是一个 new data 的问题。

汪华:对,因为没有细节不知道,但是我在测试模型的时候,还是发现它的推理步骤会有幻觉,中间会有奇怪的推理步骤,但错误的推理步骤却得到了正确的结果,正确的推理步骤下的推理,又飞到天上去了。

我个人觉得新范式是从学术上、科学角度来讲,范式是改变了,但说不定还需要改变更多。

我认同颜老师的观点,知识是 data,推理过程和思维方式其实也是 data。下一个 token 的预测,这个方法也不一定是错的,也不是说一定要摆脱,但是学习关于推理过程和思维方式的 data,是不是有更进一步的一些范式的改变。

张鹏:受限于之前的模型技术,一度觉得很多事都干不了了,现在 o1 之后,又感觉未来有很多事可干,作为一个技术研究者,你觉得有哪些下一步值得探索的方向?

颜水成:以前用 GPT-4 或者 GPT-4o,虽然说能产生出不错的结果、能做不少事情,但是其实在直觉上会感觉,下一个 token 的预测,这个东西好像没有这个能力,或者应该不具备这种能力。所以这个条件下,我们会在 GPT-4o 的基础上,再搭一个 agent,用 agent 去调用大模型、调用现成工具的形式。

虽然 Agent 有潜在可能性去解决这个问题,但是进展不是特别好,因为它还是没有一个比较完美的框架来解决问题,不像刚才提的 Global Workspace 的过程。后者是把信息全合在一起,在这个过程中去做演绎、去做推理、去做验证、去做自我反思。

但是现在有了 o1 就合理了,要得到最后结果,其中有一个思考过程,这个思考过程其实并不是原来常规的大模型,就直接能生成出来。有了这一套范式之后,你给我任何一个问题,我直觉上应该是能用这种方式解决的,无论是复杂推理还是其他,所以会有很多事情可以做。

另外,有了这套范式,那种超级大的模型有可能变得不是那么重要,模型可以做得比较小,但它就能做成一个,模型参数并不是特别大的一个网络架构,但它在推理的时候,能够做得更加复杂。

这种情况下,就不会像以前的 Scaling Law 一样,到了只有 10 万张 H100,才能够真真正正的进入到第一梯队。你可能有几千张卡,就能在一些维度能做到非常好的效果。

原来的 Scaling Law,可能在摧毁很多的创业公司,那么现在可能又会让一波的创业公司要重新的复活,去做各种各样的事情。所以无论是从可行性,还是创业的角度,我觉得机会都比以前要更好,没有进入到一个死胡同。

 

08 当「o1」通向 autopilot,AI 应用该怎么做?

张鹏:从「o1」模型里看到新的可能性,会对接下来的创业、产品、解决真实世界的问题,带来什么样新的挑战或者机遇?比如一个问题是,「o1」推理的进程肯定比原来拉长了,原来像 GPT-4o 以快为美。

汪华:我觉得这不会成为问题。因为「系统-1」和「系统-2」是共存的关系,并不是说 o1 出来了,GPT-4o 就没有用了。人类在大部分时间其实也是处于「系统-1」(快思考)而不是「系统-2」(慢思考)。

具体还是要看应用类型。比如像 AI 搜索、Character.ai、写作辅助这些应用,大部分场景其实用原来的模型、速度够快就行。产品上也好解决,可以通过意图识别的分类模型,把不同任务分给不同模型。

长期看,如果「o1」更加完满了之后,GPT-4o 所代表的「系统一」和「o1」代表的「系统二」实际上是在两个不同的流水线上。

举个例子,为什么要追求推理速度快?因为我们现在大部分应用是 Copilot。Copilot 的应用当然要快,人就在旁边等着呢。但是如果「o1」未来做得足够好,能带来更高准确度、能解决复杂问题、能很好地实现 agent,它执行的任务可能是 autopilot(自动驾驶)级别的任务的话,你管它多久完成呢。我给同事分派一个任务,也是这个礼拜布置任务,下个礼拜看结果,不会要他立即交。所以如果是 autopilot 的场景,重要的实际上是模型、是这个模式做出来的性能,而不是低时延,更何况推理速度正在进一步提升。

第二,这是一个自适应的问题,如果将来「o1」模型训练得更完满,它的强化学习做得足够充分时,它会根据问题的复杂度和类型,有合适的延迟(latency)和推理时间、和 token 的消耗的。

张鹏:之前 GPT 系列在 Copilot 场景继续发挥优势,反应更快、交互自然,但同时 o1 带来了通向 autopilot 的可能性,以前觉得很难做到的场景,随着强化学习、模型能力的继续优化,有更大概率实现。

图片来源:视觉中国

汪华:对,再具体一点说,「o1」首先能解锁的就是大量企业级应用。

现在哪怕在 SaaS 生态和 AI 进展更成熟的美国,很多企业级应用增长得很快,但目前摘的也都是低垂的果实,应用类型依然跟中国差不多,比如员工的写作辅助、智能搜索,企业知识库、销售支持客服等智能助手类应用。更关键的生产性任务和更复杂的任务,不是企业不想用 AI 来完成,是之前的模型做不到。

第二,也会给 C 端交互类应用带来影响。

在 C 端的交互革命里面,80% ~ 90% 可能都是原来的快速的模型,可能只有 10% 的任务需要调 CoT 模型。所以这个是会有很明确的分野。比如,Meta 的雷朋眼镜如果将来加了多模态,其实大部分的任务也都不是深思熟虑的,而是我看到什么东西它直接给我辅助,执行我的命令。

ToB、ToC,生产力任务、娱乐任务、交互任务其实都是会有 copilot 和 autopilot 明确的分野的,而且会协同。

举个例子,比如说让 C 端应用帮我订张机票,在我和它的交互对话、它向我展示漂亮景点的过程,后台已经帮我比价、调用各种资源做旅行计划了,后台可能就在用新一代推理模型。有时延也没关系,前台多模态的模型跟我聊天、糊弄我、延长我的等待时间,后面的模型在那里勤勤恳恳做 CoT,调用 agents 做推理演绎。收集你的信息,还能给你情绪反馈、提供情绪价值。

张鹏:产品设计的空间,可创新的东西打开了,这其实是让人真正兴奋的。

 

09「o1」模型可以提升机器人大脑,但具身智能还有自己的卡点

张鹏:o1 的模型对于机器人的能力未来会不会有很大提升?比如像这种 CoT 的能力,未来会对具身智能产生什么样的影响?

颜水成:我觉得会,因为具身智能需要有比较强的推理能力,一次推理,或者一次 CoT 出来的结果可能并不能满足条件,所以它能自我反思或者自我验证非常重要。

例如行走的机器人去完成某些任务,如果它有「系统-2」的过程,输出会更加准确、更加可靠。同时在一些场景,其实让他先想一想,再去做交互,用户也是能接受的。

未来当「o1」拥有多模态能力,它用在具身智能场景会变得更好。

图片来源:视觉中国

汪华:具身智能,现在有三件事都是它的瓶颈。

第一是硬件,硬件本身,包括传感器,依然有很多的瓶颈。

第二是可泛化的运动控制。现在机器人都是基于物理计算,或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的,可以抓、拧、掏、抠,我们现在其实没有一个在运动控制上的 GPT。

第三,也是现在「o1」能解决的,大脑的问题,运动控制相当于小脑的问题,机器人「大脑」现在也能做,但是「o1」会极大地提高大脑对于运动规划的准确性、可控性、可靠性。

这三个问题要都解决,具身智能才能实现。如果只突破「o1」,没有可泛化的运动控制,依然会受很多限制,因为机器人能进行的动作会非常有限。

另外,我个人觉得这两件事说不定都有同样的瓶颈被卡着,可泛化的运动控制大家也试图用强化学习、模拟学习(Imitation Learning)来做,也缺少大量的数据,就像缺少 CoT 数据一样,缺少大量的真实世界各种各样的运动控制数据,只是:一个是要解决可泛化的运动控制,一个是要解决可泛化的推理。

因为没有一个人在手上带着传感器、脑袋上顶着摄像头,也没有几千万人天天做这些动作,贡献一个互联网级别的一个数据集,所以大家在用模拟器、用强化学习在做。但说不定在一件事情上找到了一些解决方法,另外一件事可以用类似的方法来解决同一个问题。

颜水成:感觉还是不一样,这种数据产生的流程和「o1」产生 CoT 的流程还是有很大差别,可能要当做一个垂域的问题去思考。

汪华:我特别期待强化学习本身的方法论发生一次超进化,把现在强化学习,对于奖励模型泛化的限制取消。

颜水成:因为强化学习本身的算法就比 GPT-4 的优化更难一些。比如强化学习的曲线的损失(loss),基本上一直在剧烈的震荡,但是像 GPT 模型,或者 AI 1.0 时代的判别式模型,曲线基本上非常稳定,所以强化学习做起来的难度或者说要求的领域 know-how 更多。

中国本身做这块的人就蛮少,现在慢慢好一些,但是相比国外做的时间和积累还是要少一些。

张鹏:为什么中国的强化学习这条线会弱一些?上一代 AI,其实就看到了强化学习这个路线。

汪华:强化学习其实各种各样的 paper 都在外面,中国聪明的人也很多,之前之所以做得不好,不是学术上做不出来,而是工程上和累积上,我们投入太低的问题。客观地讲,会有点功利化。之前强化学习(RL)在各个领域里的效果都不是特别明显。

即使是在大模型时代,OpenAI 做了 PPO(一种强化学习算法、由 OpenAI 在 2017 年提出),做了 RL(强化学习),但实际上对于大部分国内的大模型公司来讲,做好 SFT,做好 DPO,其实效果已经跟 RL 非常接近了,提供的增益也不大。

而 RL 做起来很难,非常耗工程,对于算力消耗也是非常明确的,所以在这种对于收益不明确的地方,国内大家的投入还是相对比较保守和谨慎。

保守和谨慎就导致资源的投入,没有足够多的卡,没有足够多的实验,没有足够多的算力让大家去浪费,那这方面的人才就没法积累经验。因为有些东西不写在 paper 里,而是你在训练时一次次训崩的 knowhow。

中国在顶尖科研上的确存在系统性问题——别人探出路来了之后,我们会很有信心去投入资源去趟,但当初不明确的时候,我们不愿意投入。

 

10 如果 Scaling Law 玩不起,「o1」又是谁要下注的比赛

张鹏:「o1」其实让大家看到一个明确的方向,这是不是意味着大家要在这个方向上更深入地探索?

颜水成:我个人稍微悲观一点,主要原因是有一些细节不像 Sora 出来的时候,从它的技术文档上你就能看得很清楚,它的路线是什么东西。

第二,还是类比 Sora,当时 Transformer,以及后面的 DIT(一种文生视频架构)、扩散模型,是在开源的生态上往前走,创业公司只要去思考数据和工程的问题就可以。

但是这次强化学习,客观上来说,我觉得中国公司里,在大规模场景下,自己有代码库(code base)跑通的就很少,而且没有足够开源社区的支持。吸引人才其实也没有真正有一手经验的人。

所以这两个因素,一是没有大规模 RL 场景和好的 code base 做支撑,二是很多 know-how 的细节不清楚,可能会让追赶的速度比较慢,会比我们追上 GPT-4 所需要的时间更长一些,我觉得哪怕是在美国,优秀的公司要追上的话,也可能是以年为单位。

图片来源:视觉中国

张鹏:你正好提醒我,从 ChatGPT 出来,到国内出现类似 ChatGPT 的应用,大概经历了四五个月的时间,追 GPT-4 可能大概是半年左右,Sora 可能也是经过了大概半年,大概的追赶周期是半年。但追上 o1 这样的能力,可能是要以年为计的难度。汪华怎么看?

汪华:我倒没有那么悲观。

之前那种往上 scaling(扩展)模型尺寸的方法,国内真的追不起,哪怕几家拿到很多投资的创业公司,追到一定程度也就追不动了。哪怕是大厂,我觉得追到一定程度也不见得往下追了,因为国内的目前经济和资本环境也没有那么好。

而且实际上,GPT-4o 其实不好追。虽然 GPT-4o 的模型尺寸比 GPT-4(1.8 万参数)要小很多,但多模态的数据和训练是非常消耗资源的,很吃算力。所以训练 GPT-4o 只会比 GPT 4 更贵。我倒不觉得国内是因为工程原因和学术原因做不出 GPT-4o。

那「o1」会有什么样的一个特点呢?就是它其实「吃」(大量消耗)很多的研究,也「吃」很多的实验,也「吃」很多的探索和 idea 的东西,包括数据的一些构造的技巧等,但「o1」其实不太吃算力。并且它可是可以通过比较小的模型,去实验和模拟的。

我个人觉得,中国公司玩得起,而且 o1 出来了之后,开源社区也玩得起,开源社区不太玩得起 GPT-4o。我觉得,不光是中国公司,开源社区和学术界也会试图在小尺寸的模型上,用各种各样的方法去实现类似的效果,包括一些开源框架。所以中国公司也并不是只是孤单地说我对抗全世界,相当于是中国公司和开源社区一起追赶 OpenAI 的这件事。

张鹏:听起来中国的大模型的创业公司真的辛苦,过去一段时间已经连续铺开好几条阵线,很多东西还在 pipeline 里打磨中,但现在「o1」出来之后要去再去做,资源可能会如何分配?

汪华:客观地讲,不会所有的公司都去追的。有些大模公司会坚持方向,有些大模型公司会转型成产品公司,有些大模型公司可能会选择某个方向做突破口,但首先大厂应该都会去追。

张鹏:也许像 DeepSeek,这种比较「神」的公司也有可能。

汪华:大厂都会去追。创业模型公司里有一部分会去追。

而且,大家在实验的角度应该都会追,因为你要说做出一个特别大的产品模型,那不会做,但在相当于 mini 级别的尺寸里面去夯实强化学习能力,去做这方面的实验,是必然要做的事,只是不一定大家都能做到生产级别。

颜水成:其实有一点,比如说像 GPT-3.5 的时候,PPO 就基本上有很大的收益。其实开源社区也在想办法去复现一些东西,但是并没有谁开源出一个真正意义的 code base(代码库)能被中国公司直接使用。所以我觉得在 RL 上,门槛还是会比想象的要大一点。

汪华:我觉得有两方面原因。

第一,我个人觉得 PPO 的确是工程门槛要高很多。跑 PPO,同时多个模型跑,对算力的要求也消耗也很大,学术界也跑不太动。

还有一部分原因,开源社区当时很大的精力都放在「青春平替版」,发明了 DPO 等一系列东西去做开源平替。开源平替基本上 online PPO,Offline PPO 的确也做到了基本上 90% 的效果。

颜水成:这里面奖励函数非常关键,当年 GPT-3.5 的时候,其实他们是拿 GPT-4 的模型去训练奖励模型,才能保证 PPO 做得比较好。所以如果说模型在强化学习这里,如果要用奖励模型,这个东西本身也是一个瓶颈,不是小模型出来的东西就可以用。

汪华:是的,但开源社区并不仅只有创业公司。

张鹏:有 Meta、阿里,看起来开源领域还是有一些巨头的,如果他们有坚定的目标要给群众发枪,我觉得也 make sense。

汪华:可能的确不会那么快,但是技术扩散是必然的。随着更多的公司,包括国内的大厂,海外的开源社区,学术界去花更多的精力去做 RL(强化学习),其实过去几年在大模型之前,RL 已经非常冷了,无论是 PhD 还是工业界、学术界,其实选择做 RL 方向的人已经很少了,这也是一部分的原因。

如果大家突然觉得这个事靠谱的话,很快大家都用算力,各方面人才就会逐渐地多起来。包括技术扩散也会慢慢地发生,但的确这个门槛要高得多。

颜水成:我原先做 RL 研究的时候,当时一个最大的问题,就是最前沿的算法,code base 都是基于 DeepMind 的 TPU 代码,基于 GPU 的实现当时比较缺乏。现在稍微好一些,很多东西基于 GPU 的东西已经多起来了。

汪华:我甚至觉得 Nvidia、微软都会试图去做这件事,然后甚至是开源他们的框架运营或者投认去做这方面的框架,因为对他们来说最重要的是把算力卖出去。

 

11「o1」之后,创业者的选择

张鹏:现在创业者经常在谈的一个话题是:技术发展太快,怎么能够随着技术水涨船高,而不是被水漫金山?换句话说,技术涨对我有利,而不要技术一涨我就变得没价值。「o1」出来之后,你会怎么回答这个问题?

颜水成:昆仑万维做大模型的方式还是以产品先行,目前大概有五六个产品,比如说像 AI 搜索、AI 音乐、AI 陪伴、AI 短剧创作和 AI 游戏,有这些具体的产品在前面做牵引,带动我们做基础模型的研发。有一些模型是通用的,有一些模型其实是垂域的,比如说音乐大模型就是垂域的。

我个人觉得,这一波「o1」出来之后,通用模型在原有的模型基础上,增加 RL + CoT 的方式,应该能把性能提升得更好,这肯定要做。

另外,可能更聚焦一些场景,比如精度优先会变得非常重要。举个例子,我们有一个产品是做 AI for research,在天工 APP 里面。有了 CoT 技术,它就能够帮助研究者去思考,在他的研究方向上指明哪一些课题可以探索,而是不是像以前只是给论文做总结、修改语法错误。

最近有人做了一个工作叫「AI scientist」,有了「o1」的这种范式,这种功能就有可能提炼出来了。因为以前是直接一次性生成的,结果是否具有创新性和可行性,不知道,它不能够做任何的分析,现在,在「o1」范式下,有可能把这件事情能做得更好。

图片来源:视觉中国

汪华:因为 o1 也刚刚出来,我也还在测试它的能力。对做模型的同学来说,看到「o1」心里可能会打鼓,但对做应用的同学来说,出了「o1」之后,只可能有增益,不可能有损失,因为又多了一个东西可以用。

另外,我觉得不被「水漫金山」的话,核心还是一点:我们是做 AI 应用的创业者,应用本身、场景本身是主语,AI 只是定语,「水漫金山」往往是把 AI 当主语,没有花很多时间深耕场景、需求和自身的禀赋、优势。

做应用还是场景优先,同时随时观测技术进展,可能没法像 Google 一样自己去开发技术栈,但实际上很多的事情是有迹可循的。哪怕是「o1」的发布,其实之前在 DeepMind 的研究里这条路径是有迹可循的。

在跟技术前沿保持沟通的同时,做重大的工程决策要特别谨慎,因为这跟当年做移动互联网应用不一样,移动互联网时代做应用时,所有的技术栈都是成熟的,关键是能不能找到一个场景的问题。只要找到场景,拉一个产品经理、拉一个工程师,几个大学生也能做出一个爆款应用出来。

坚持快速 PMF 的原则,尽量使用市场上现有的模型来快速完成 PMF,而不是用复杂的工程。如果一个简单的模型要加复杂工程才能做 PMF 的话,那还不如一开始用最贵的、最好的模型去做 PMF,因为 PMF 消耗不了多少 token。在一开始阶段能用 prompt 解决的,就不要用 SFT,能用 SFT 解决的就不要用后训练。不到万不得已,千万不要用针对模型的缺陷去做一个非常复杂的工程 pipeline(流程管道)的补丁去弥补当前的模型缺陷。

张鹏:要穿就穿新衣服,尽量少打补丁,如果真要打补丁,也不要打复杂的补丁,要打简洁的补丁,这可能在早期阶段就变得很重要。而且很重要一点,其实是你要解决的问题才是你的竞争力。只是围着技术非要找个场景落地,可能就本末倒置,思路一定要回到要解决的场景和问题上,这样「水涨船高」的可能性就更大。

 

浏览量: 97

卖出68亿,「黑神话」成 Steam 最畅销游戏;魅族产「红旗手机」曝光;「AI Siri」明年 1 月到来;欧盟或对谷歌开出史上最大反垄断罚单,最高达 307 亿美元|极客早知道

古尔曼:Apple Intelligence 加持的全新苹果 Siri 有望明年 1 月到来

9 月 22 日,据彭博社记者马克・古尔曼最新发布的 Power On 时事通讯,经过彻底重构、具备 Apple Intelligence 的 Siri 有望比预期更早推出。虽然可能不是完整的体验,但一些功能可能会提前推出。

古尔曼提供了有关 Apple Intelligence 功能发布时间表的一些额外细节,其中包括一个有趣的新细节:一些新的 Siri 功能可能会在 iOS 18.3 中推出,而不是之前预期的 iOS 18.4。

古尔曼称:「iOS 18.4 将是 iOS 18.1 之后的最大更新,其中将包括许多新的 Siri 功能(我听说其中一些功能正考虑在 iOS 18.3 中推出)。」这意味着我们可能会在明年 1 月就能够体验到经过重新设计后的 Siri,因为 iOS x.3 版本的发布通常在 1 月,而 iOS x.4 版本的发布通常在 3 月。

iOS 18.1 将带来第一波 Apple Intelligence 功能,包括轻量级的 Siri 更新(新界面、更快的响应)、写作工具、照片清理和通知摘要。之后,iOS 18.2 预计将带来 Image Playground、Genmoji 以及 ChatGPT 集成。(来源:IT之家)

OpenAI 首款具备「推理」能力模型 o1 现已向企业 / 教育用户开放,每周最多使用 50 次

9 月 22 日,OpenAI 公司旗下首款具备「推理」能力的模型 o1 和 o1-mini 现已向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入 50 条消息。

据介绍,OpenAI o1 系列模型具有更高的理解能力,与传统模型不同,o1 系列模型在回答问题之前会进行深度思考,生成内在的思维链后再给出答案,因此系列模型能够处理比之前模型更复杂的任务,特别擅长解决科学、编程和数学领域的难题。

OpenAI 指出,尽管目前 GPT-4o 仍是大多数任务的最佳选择,但 o1 系列在处理复杂、问题解决导向的任务(如研究、策略、编程、数学和科学)方面表现更为优异。

然而,由于 o1 模型「会消耗更多的计算资源」,OpenAI 声称系列模型初期仅向 Plus / Team / Enterprise / Edu 用户限量开放,其中 o1 模型每周最多可使用 50 次,而 o1-mini 模型每天最多可使用 50 次。

而在 API 方面,相关模型访问权限价格较高,其中 o1 的输入词元(tokens)费用为每百万个成本 15 美元(当前约 107 元人民币),输出词元费用为每百万个 60 美元(当前约 427 元人民币),通过 API 调用时,o1 模型每分钟最多可调用 500 次,o1-mini 模型每分钟可调用 1000 次。(来源:IT之家)

 

欧盟或对谷歌开出史上最大反垄断罚单

9 月 22 日,据最新报道,谷歌的搜索业务可能再次面临欧盟的起诉。欧盟官员正在根据《数字市场法》(DMA)准备对谷歌进行起诉,原因是谷歌未能在搜索服务中突出显示竞争对手的产品,以解决欧盟对其垄断市场的担忧。如果谷歌未能满足欧盟委员会的要求,那么它可能会面临高达全球年收入 10% 的罚款。

此前,欧洲法院宣布维持下级法院作出的 24 亿欧元罚款裁决,该案件始于 2017 年,当时欧盟委员会认定谷歌违反了欧盟反垄断法,并对其处以高额罚款。这次罚款创下了反垄断罚款纪录。

谷歌的律师与欧盟委员会官员本周进行了闭门会谈,讨论可能的解决方案,包括在谷歌搜索标签中引入新设计,使用户可以选择其他搜索平台。然而,如果谷歌未能在规定的时间内满足欧盟的要求,那么它可能会在 10 月底之前公布初步调查结果,并预计在明年 3 月底之前迎来最终裁定。

这已经是谷歌在欧盟面临的第四起反垄断诉讼了,之前的三起案件已经导致谷歌被罚款总计高达 82.5 亿欧元。(来源:中关村在线)

 

消息称微软每年支付 10 亿美元为 XGP 阵容引入第三方游戏

9 月 22 日,彭博社昨日发布了一份关于微软与 Xbox 现状的综合性报告,其中透露微软每年投入 10 亿美元(当前约 70.51 亿元人民币)将第三方游戏引入 Xbox Game Pass 服务。

据悉,微软为了吸引更多发行商加入 Game Pass 据称「每年为发行商提供数百万美元的预付款」,并分享部分订阅收入,同时承诺「为这些游戏带来难得的曝光机会」,每年微软在引入第三方游戏到 Game Pass 上的投入总和据称高达 10 亿美元。

彭博社同时提到,Xbox Game Pass 现在已经成为了微软沉重的财政负担,但微软依然在不遗余力地推行相关服务。虽然来 Game Pass 订阅价格有所上涨。不过该服务依然在全球玩家中的影响力持续提升,下月的《使命召唤:黑色行动 6》也将为服务订阅量增光添彩。(来源:IT之家)

号称「全民仅退款」电商平台京淘淘被曝「跑路卷走 20 亿」,客服否认称「正排查恶意刷单套现」

9 月 22 日,据「南方都市报」报道,有用户在社交平台发帖称,一款号称「全民仅退款」的电商软件京淘淘疑似「卷款跑路」,仅退款模式或为「庞氏骗局」,引发外界关注。

据网友「梁湘」9 月 18 日发帖,京淘淘购物 App 上线喊出了「全民仅退款」的口号,众多「羊毛党」们就冲进去尝试着购入再申请仅退款,「平台真的退了,而且还给补偿」。平台支持介绍新用户进来,还要给佣金的模式瞬间在羊毛党圈里传开。「然而,等主力人群进入下单收货申请仅退款后,系统显示 30 天后到账,也就是这两天,平台突然跑路了,据称卷走了 20 个亿」。

对于「庞氏骗局」、「卷款跑路」等说法,南方都市报记者 9 月 20 日询问京淘淘平台客服,对方回复没有跑路,「平台发现有用户利用平台活动恶意刷单套现,目前风控部门正在逐单排查」。

对于普通用户的订单是否会受到影响?「仅退款」功能能否正常使用?该客服称,目前风控正在排查风险账户,排查完毕后没有问题的订单会逐步安排退款。但客服并未回应具体退款时间。App 首页则显示,「如全民仅退款订单超 15 天仍未处理,请联系平台客服协助。」(来源:IT之家)

 

微软亚洲研究院牵手「600 号」,用人工智能干预阿尔茨海默症治疗

9 月 22 日据媒体报道,微软研究院与上海市精神卫生中心(俗称「600 号」)携手展开联合研究,基于微软 Azure OpenAI 服务中的多模态大模型,开发了个性化认知训练框架「忆我」(ReMe),扩展了自动化认知训练的训练范围,为数字化认知训练提供了新方法,有望帮助延缓认知下降。

当前,临床认知训练主要依赖人工或软件驱动的数字疗法,但这些方法存在成本高、缺乏个性化和互动性等问题。

微软亚洲研究院开发的「忆我」框架则通过文字、图像、语音等多种模态的输入输出,提供更全面的认知训练方法,使训练更贴近患者的日常生活。

「忆我」框架通过手机或可穿戴设备上传个人记忆内容,然后进行个性化的情景记忆或世界知识训练。

此外,该工具还包括交互式评估,以追踪患者认知水平,并根据需要调整训练任务。

微软亚洲研究院副院长邱锂力表示,该研究计划针对早期阿尔茨海默病患者,并期望能尽快进入临床应用。同时,微软亚洲研究院也在尝试基于可穿戴设备和无线感知技术记录日常生活中的重要节点和事件,促进更便捷的个性化个人记忆训练。(来源:第一财经)

 

超越《幻兽帕鲁》:机构数据显示《黑神话:悟空》已成今年最畅销 Steam 游戏

9 月 22 日,国产 3A 大作《黑神话:悟空》发售后受到了广大玩家的高度评价,销量也随之节节攀升,仅在 Steam 平台上的销量就已突破 2000 万份,成绩斐然。

国外数据分析公司 VG Insights 在 X 平台上发布消息称,《黑神话:悟空》已经超越了今年年初大热的《幻兽帕鲁》,成为今年 Steam 平台上最畅销的游戏。

VG Insights 给出的数据显示,当前《黑神话:悟空》在 Steam 平台的预估销量已超过 2030 万份,总收入突破了 9.722 亿美元(当前约 68.55 亿元人民币)。(来源:IT之家)

长安启源 E07 开启预售:SUV 和皮卡相结合,24.99 万元起

9 月 22 日,长安启源 E07 正式开启预售,预售价区间为 24.99 万元至 31.99 万元,并为前 10000 名用户提供价值 6.6 万元的预售权益。启源 E07 基于 SDA 架构打造,新车将 SUV 和皮卡设计结合在一起,提供纯电及增程两种动力形式。

外观设计方面,长安启源 E07 官方称之为「可变形数数智新汽车」,车头配备 C 字形 LED 灯组和全封闭式面板,车顶行李架、半封闭式轮辋和隐藏式门把手等设计元素增添了整车的现代感,尾灯在点亮后呈现环形贯穿式效果。

E07 的车身尺寸为 5045/1996/1695 毫米,轴距为 3120 毫米,采用 5 座设计,提供 20 英寸和 21 英寸轮辋。后备厢设计为封闭式空间,但可电动开启至开放式,并配备电动平翻式尾门。

智能驾驶方面,E07 配备 L2 + 级智驾辅助功能,新车还拥有智慧陪伴功能,是全球首款搭载车载卫星通讯的新车。该车可以选装 200 个主动交互场景,可以升级或者加装 1000 + 项的服务化接口。

悬架系统方面,E07 提供智能魔毯悬架技术,由空气弹簧和 CDC 智算电控系统动态调整,根据路况和驾驶模式自动调节悬架刚度和高度。

高配车型提供 NAPPA 真皮双「零重力」座椅,支持语音控制座椅调节,配备 9 个安全气囊、18 个立体环绕式扬声器、256 色柔光氛围灯、无级调节混合香氛系统、电吸门以及后排车载 3D-PAD 等。(来源:IT之家)

 

红旗手机真机上手来了:定制 UI 机身标志性红线别具一格

9 月 22 日,今年 8 月,一款型号为 M481R 的 5G 数字移动电话机入网,申请单位和生产企业均为珠海市魅族科技有限公司,彼时,多方消息称该机为红旗手机。

日前,红旗手机真机首次曝光,从上手视频来看,该机采用超大镜头 Deco,后盖加入红旗汽车标志性的红色线条设计,十分吸睛。另外,新机系统 UI 也进行了深度定制,提供红旗智联等应用。

值得一提的是,机身上的标签显示型号为 M481R,且生产企业也为珠海市魅族科技有限公司,与 8 月入网的机型一致。(来源:快科技)

 

全新 GoPro HERO 入门运动相机国行开售:86 克重量、4K 30FPS 视频,1698 元

9 月 22 日,GoPro 在 9 月 4 日推出了一款定位入门级的「全新 GoPro HERO」运动相机,这款运动相机重量仅为 86 克(包含安装接头),同时具备 5 米防水功能,国行售价 1698 元,将于今晚 8 点现货开售。

Hero 配备了 LCD 触摸屏,内置 12MP 传感器,至高能够拍摄 4K@30FPS 视频或 2.7K@60FPS 慢动作视频以及 12MP 像素的照片。此外,用户还可以通过 Quik 应用从 4K 视频中提取 8MP 的静态图像。

GoPro 表示,全新 HERO 运动相机的视频画面比例为 16:9,非常适合上传到在线视频平台。Quik 应用内置的 HyperSmooth 视频稳定功能能够自动消除抖动,让视频画面更加平稳流畅。在最高视频质量设置下,HERO 一次充电可持续录制长达 100 分钟。(来源:IT之家)

自然指数:AI 研究产出增长最多的 10 家机构有 6 家来自中国 

9 月 22 日,据新近发表的英国《自然》增刊 「自然指数 2024 人工智能(AI)」 显示,2019 年至 2023 年,自然指数中 AI 研究产出增长最多的 10 家机构有 6 家来自中国。” 自然指数 2024AI” 显示了近年该领域令人惊叹的增长速度,以及 AI 研究的主要贡献者。

数据显示,发表在自然指数期刊上的 AI 研究快速增长。2019 年到 2023 年,美国 AI 研究的份额几乎翻了一番,同期中国 AI 研究的份额则增长了五倍多。到 2023 年,美国在 AI 研究上仍居于首位,其他位列前五的国家为中国、德国、英国和法国,但中国和美国之间的差距正在迅速缩小。(来源:新华社)

 

浏览量: 78

前苹果设计师 Jony Ive 证实为 OpenAI 开发硬件;长城汽车加入华为鸿蒙生态;X 平台推原创剧

前苹果设计总监 Jony Ive 确认正与 OpenAI 开发一款新设备,iPhone 元老级人物加盟

 9 月 22 日消息,今年 4 月曾有消息称,OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)携手前苹果设计总监乔纳森・伊夫(Jony Ive),联合设计面向个人的 AI 硬件,目前正寻求外部投资。

对此,伊夫本人在纽约时报 9 月 21 日的一篇文章中证实了这一点。

报道称,伊夫是通过 Airbnb 的首席执行官 Brian Chesky 认识阿尔特曼的,该项目则由伊夫和劳伦娜・鲍威尔・乔布斯(乔布斯遗孀)的公司 Emerson Collective 资助。

报道提到,到今年年底,该新公司可能会筹集 10 亿美元(当前约 70.55 亿元人民币)的资金,但报道没有提到软银首席执行官孙正义,去年曾有传言称孙正义向该项目投资 10 亿美元。

该项目目前只有 10 名员工,但其中包括 Tang Tan 和 Evans Hankey,他们是与伊夫一起开发 iPhone 的两个关键人物。至于产品本身是什么,去年有传言说它的灵感来自触摸屏技术和初代 iPhone,不过这一消息暂未证实。(来源:IT 之家)

SpaceX 预告「星际飞船」第五次试验将尝试实现塔架接力

太空探索技术公司(SpaceX)正在德克萨斯州继续为「星际飞船 5 号」飞行做准备,同时等待美国联邦航空局(FAA)的批准,最早应在 11 月下旬获得批准。

在测试了发射塔接力臂后,该公司不久前分享说,它在发射塔上抬起了 232 英尺高的超重型助推器,以模拟塔架接力尝试。

塔架接力是星际飞船快速重复使用的关键,而这次助推器提升是 SpaceX 首次在测试中将巨大的火箭提升到接力所需的全部高度。(来源:cnBeta)

 

高通公司将根据「多元化战略」裁员数百人

芯片制造商高通公司(Qualcomm)预计将在今年晚些时候裁员,因为该公司正在进行业务和资源的”战略转移”。这使得高通公司成为裁员潮中的新「巨头」,仅今年就解雇了 1000 多名员工。

科技行业正经历着财务业绩方面的困难时期,特别是由于全球市场目前的定位以及消费者的兴趣并不在最佳状态。根据本周发布的一份加州 WARN 通知,高通公司将解雇圣地亚哥的 226 名员工,其中也包括公司总部的人员。

据悉,此次裁员将影响圣地亚哥的 16 个不同设施,但该公司尚未透露受影响的具体部门。

以下是该公司代表发布的对裁员决定的回应,「我们领先的技术和产品组合为我们实施多元化战略奠定了基础。作为正常业务流程的一部分,我们对投资、资源和人才进行优先排序和调整,以确保我们处于最佳位置,能够利用我们面前前所未有的多元化机遇。」(来源:cnBeta)

 

OpenAI 朝 AI 第 3 阶段迈进,正招募人才组建「多智能体」团队

9 月 21 日消息,OpenAI 在发布 o1 AI 模型之后,下一步会怎么走?该公司研究员诺姆・布朗(Noam Brown)在 X 平台给出了答案,组建「多智能体」multi-agent 研究团队。

根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的「推理者」(reasoners),而开发 multi-agent 符合第三阶段的目标要求。

OpenAI 和布朗认为 multi-agent 系统是提高人工智能能力的必经之路。布朗在 X 上表示:「我们认为 multi-agent 是通往更好的人工智能推理的道路」。(来源:IT 之家)

 

长城汽车与华为在营销数智化领域达成全面合作,首批拥抱鸿蒙生态

9 月 22 日消息,据长城汽车消息,2024 年 9 月 20 日,在上海举办的 2024 华为全连接大会上,长城汽车与华为签署营销数智化全面合作协议。

双方的此次合作,旨在围绕长城汽车用户营销域全场景体验旅程,借助华为在云服务、AI、智能联接与交互等方面的技术,在「营销市场洞察、广告公域投放、用户互动交流、售后服务、用车服务、市场生态服务」等重点领域展开深度合作,推进长城汽车营销数智化转型,支撑长城汽车全球业务增长。

与此同时,聚合长城汽车旗下哈弗、魏牌、坦克、欧拉、长城皮卡五品牌车型、服务、用户业务的全新「长城汽车 App」上架鸿蒙应用市场,标志着长城汽车成为首批拥抱鸿蒙生态的主机厂之一。(来源:IT 之家)

TikTok 改组领导层,全球营销主管凯特・贾维里将离职

根据 TikTok 发给员工的内部备忘录,该短视频应用进行了领导层改组,全球营销主管凯特・贾维里 (Kate Jhaveri) 将于本月离开公司。

备忘录显示,TikTok 正在逐步取消贾维里的职位。从下周一开始,TikTok 全球品牌和传播部门的所有员工将只向泽尼娅・穆查 (Zenia Mucha) 汇报工作。

穆查在备忘录中称:「我和贾维里一直在讨论我们的营销策略以及如何最好地构建营销职能,以打造一个更具凝聚力的组织,从而更好地满足业务需求以及跨职能合作伙伴的需求。我们共同决定,实现这一愿景的最佳方式是取消全球营销主管的职位,并将全球品牌与传播部门的所有员工置于一个领导者之下。」(来源:IT 之家)

 

马斯克 X 平台打造类 TikTok 滚动体验,10 月开播原创节目《The Offseason》

科技媒体 The Verge 昨日发布博文,披露了一份来自 X 平台的电子邮件,其中该公司首席执行官琳达・雅卡里诺(Linda Yaccarino)推出新的「视频标签」(video tab)功能。

援引消息源透露,该功能类似于 TikTok 风格的无尽滚动,并含有 X 原创节目。

首个原创真人秀节目名为《The Offseason》,由足球明星米奇・珀斯(Midge Purce)主持,投资人亚历克西斯・奥哈尼安(Alexis Ohanian)担任制片人。

消息称《The Offseason》将于 10 月 18 日上线首播。

X 一直在与像 MrBeast 这样的创作者和 Don Lemon 这样的名人达成内容协议,旨在加强其在视频领域的支点地位,并挑战 YouTube 作为视频托管平台的地位。(来源:IT 之家)

 

「前华人首富」、币安创始人赵长鹏确认即将出狱

美国联邦监狱局(Bureauof Prisons)官网消息,赵长鹏当前的位置更新为位于加利福尼亚州中部的长滩居住地重返社会管理局(ResidentialReentry Management,RRM)。这意味着他正接受重返社会前的准备和评估。如果一切正常,他将在 9 月 29 日重返社会。(来源:证券时报)

零刻 SER9 迷你主机海外发布:搭载 AMD 锐龙 AI 9 HX 370 处理器,性能释放达 65W

零刻 SER9 迷你主机已经率先在海外发布,32GB 内存 + 1TB 固态硬盘版本定价 999 美元(当前约 7048 元人民币)。

这款迷你主机搭载了 AMD 新一代 Strix Point 系列 Ryzen AI 9 HX 370 APU,性能释放高达 65W(官方 TDP 范围 15W 至 54W),板载 LPDDR5x-7500 内存,提供两个 PCIe 4.0×4 的 M.2 2280 插槽。

它采用了 MSC 2.0 热处理技术,零刻承诺这款主机在 65W 的模式下可提供「近乎静音」的体验,噪音水平不超过 32 dB。

其他方面,这款机型内置双扬声器,配备 AI 阵列麦克风,提供 RJ45、HDMI 2.1、DP1.4 和 USB4(DP1.3 / 雷电 3)等接口,没有 OCuLink。(来源:IT 之家)

 

夏普发布 AI Smart Link 可穿戴设备:挂在脖子上的 AI 助手,支持自然语言沟通

在 9 月 17~18 日举行的夏普科技日活动上,夏普宣布与日本京都艺术大学合作,共同开发了一款可实现与生成式 AI 自然沟通的可穿戴设备—— AI Smart Link。

使用者只需将设备挂在脖子上就能通过语音与 AI 自然沟通的产品。对于使用者的询问,该设备会通过内置麦克风和摄像头了解周围环境,然后以语音进行回应。

例如,用户在骑自行车时,AI 就能以语音帮助用户导航到目的地;该设备还可用于烹饪指导或通过语音操作智能家电设备等。

AI Smart Link 搭载了夏普正在开发的边缘 AI 技术「CE- LLM(Communication Edge- LLM)」。该技术能够即时判断并处理使用者的询问,支持快速回应的端侧 AI,以及能获得丰富信息的云端 AI(如 ChatGPT)。此外,该设备采用约 100 克的轻量化颈挂式设计,使用者可以长时间佩戴使用。(来源:IT 之家)

 

全球首个,我国发布百亿级遥感解译基础模型「空天・灵眸」3.0 版

据综合新华社、《中国科学报》消息,在昨日举行的第一节空天信息技术大会上,中国科学院空天信息创新研究院(下文简称「空天院」)宣布,该院付琨研究员团队联合鹏城实验室自主研制的、全球首个百亿参数级空天一体遥感解译基础模型 ——「空天・灵眸」3.0 版正式发布。

「空天・灵眸」3.0 版可为天临空地一体化应用提供一套行之有效的解决方案。据报道,今年 3 月起,研究团队与鹏城实验室深度合作,基于中国算力网「鹏城云脑 II」枢纽节点,采用 512 张昇腾 910 显卡,历时数月攻关完成了在 4 亿张国产化多模态空天遥感数据样本上的预训练,基础模型参数规模首超百亿。

据空天院研究员孙显介绍,若将基础模型看作机器人,参数就相当于它的「记忆细胞」和「知识细胞」。参数规模越大,就能捕捉、记忆和处理更复杂的信息,从而更加准确、精细地完成更困难、更复杂的任务。

「空天・灵眸」3.0 版采用基于热传导的工作架构,可大幅提升学习及推理速度,计算速度较传统模型提升幅度超过 2.4 倍。

该模型目前已表现出极为优秀的泛化解译性能,在可见光、合成孔径雷达、热红外、多光谱等多传感器卫星数据基础上,拓展至航空遥感飞机、无人机等不同航空平台观测数据的自动化、高精度解译处理。(来源:IT 之家)

 

浏览量: 94

文章分页

上一页 1 … 73 74 75 … 84 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间