Skip to content
  • 元宇宙社交空间入口
51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

云栖笔记:FOMO 消散后,对 AI 的信心到底该从何而来?

先问一个问题:从体感上看,AI 领域的节奏你觉得是变快了还是变慢了?

客观上看,从去年 2 月开始,ChatGPT 开始在中国成为了所有人谈论的话题,短短几个月就形成了一个「共识」——AGI 是一场工业革命,大模型会改变未来。

对一个新技术如此迅速地达成共识,放在全球科技史上这可能都是第一次。躁动心开始跳动,FOMO 情绪开始翻涌,有人怕错过,有人怕失去。

而过去 18 个月,可用的新模型和新产品层出不穷,但效果惊艳、非它不可的不多。曾经期待(或担心)的颠覆性变革看起来依旧在路上,而 AI 巨大投入难道就是诞生了一些局部领域的效率工具?这看起来确实也有点算不过账……于是无论在中国还是美国,对于之前的「共识」开始有了动摇,觉得 AGI 是个大泡沫的「舆论应力」开始不断积聚,有点共识达成太快所以「始乱终弃」的趋势。

其实「预期」这个东西,很容易因人而异的主观。而「信心」这个东西,也很需要有现实论据的逻辑支撑。那么过去 18 个月 AI 技术到底经历了怎样的发展,未来到底应该有什么样的「预期」和「信心」,回答这个问题最好的方式,还是去看看进程中的细节,回到客观的视角做判断。

带着这样的视角,在今年阿里云云栖大会上,我跟在一线「摸爬滚打」的 AI 创业者、从业者,以及阿里云这样的产业巨头做了一系列交流。作为离 AI 最近的人,他们是撸起袖子亲自下场的 Doer,他们看到的东西应该能更好地帮我们做出自己的判断。

 

01 AI 不是减速,而是狂奔

技术进展常常以 18 个月为周期,从创业者的视角看,无论是过去的 18 个月,还是未来的 18 个月,模型技术并没有在减速,而是在加速。

对 AGI 进展感到快或慢的差异背后,是「打游戏的人」和「看游戏的人」在不同视角下的体感。在「看游戏的人」眼里,怎么老是那几个「妖怪」,情节推进太慢了,快看睡着了;玩游戏的人会说,新技能点出来又要「洗点」了,又多了好几个诱人的新任务,血压都要 160 了。

客观地讲,过去 18 个月里的三个里程碑事件,让他们看到了大模型在明显提速。

第一是 GPT-4o 的发布。

在 GPT-4o 之前,OpenAI 有 GPT-4V 视觉理解模型、有 Dall·E 视觉生成模型、有 Whisper 声音模型、和 Sora 视频生成模型,但 GPT-4o 让原本这些孤立的模型融合在一起了。而多模态融合这件事的意义在于,可以更好地模拟真实世界、为我们的物理世界建模,这让模型又上了一个新台阶。

第二件事情则是特斯拉发布的 FSD v12,一个端到端的大模型,可以直接把感知信号直接变成一个控制序列。它的意义不仅在于智驾本身,这套方法论为智能设备如何和大模型相结合,更好地探索物理世界指明了一个方向,从数字世界走向物理世界一个真实的应用场景。

第三件事情是上周的「o1」模型,第一次证明了语言模型其实也可以有人脑的慢思考,也就是「系统 2」的能力。系统 2 的能力是 AI 能归纳世界所必备的一个前提条件、一个基础能力。

在阶跃星辰创始人、首席执行官姜大昕看来,AGI 的演进路线可以分为模拟世界、探索世界和归纳世界,GPT-4o、FSD v12 和「o1」分别在这三个阶段或者说方向上取得突破,这是模型能继续提高上限的明确信号。

月之暗面 Kimi 创始人杨植麟也认为,各种技术指标和实际体感都在指向模型智商的提升。横向对比,多模态带来了更完整的体验,纵向对比,单就纯文本模型的能力一直在提升。

清华大学人工智能研究院副院长、生数科技首席科学家朱军补充了一个现象来解释他眼中的 AI 提速——学习曲线正在变得更加陡峭。追上一个技术的时间正在缩短,因为大家整体的认知和准备都更加充分,不像 ChatGPT 刚出来时,多少有点不知所措。

当然,看到明确的AI技术在提速是一方面,实际做的过程中,创业者们也更早地看到了脚下的瓶颈。

从大模型算力、算法、数据的黄金三角来看,互联网几十年的优质数据很快会被用完;当前算法下,预训练的 Scaling Law 正在走入瓶颈。姜大昕谈到了现在大家的一个普遍观点:GPT4 到了万亿级参数之后,再去 scaling 它的参数,边际收益是在下降的。

而且不少人可能都注意到了,Elon Musk 前段时间在 X 平台上展示了自己花百亿美金,迅速拉起的十万卡的「豪华」GPU 集群。Scaling Law 这么玩,可参与的选手一定就很少了。密度才能带来创新,如果最终真的要靠比如 OpenAI 一家来交付所有人的智能,这事并不那么靠谱。

但就在这时候「o1」来了,通过把强化学习的训练框架引入语言模型,从算法上打破了当前的创新瓶颈。

技术角度看,o1 展现了继续大幅提高模型技术水平上限的方法;能力水平看,o1 也展现了语言模型可以解决复杂推理问题的能力。从这两点 o1 所代表的重要性来说,这几乎是未来 18 个月最令人兴奋的进展。

过去的 GPT 系列语言模型,原理是预测下一个 token,对应人脑的快思考(系统 1),但 o1 通过引入强化学习的训练框架,第一次证明了语言模型也有慢思考(系统 2)的能力,让 AI 不仅能「读万卷书」,也能「行万里路」,也就是说让 AI 能通过规划、行动、自我反思、验证等过程不断试错和探索,直到找到正确途径。

对于这条技术路径的前景,杨植麟打了一个比方,他说「o1」提高了 AI 的上限,这个上限的提升,是把现在努力提升 5%、10% 的生产力水平,做到 10 倍的 GDP,这完全有可能实现,关键是弄清楚如何通过强化学习进一步 Scaling。

其实强化学习在上一代 AI 浪潮里就已经成为明确的技术方向,DeepMind 在 AlphaGo、AlphaFold 和 AlphaGeometry 中走的都是强化学习路线,但 o1 的出现,在强化学习通用性和泛化性上了一个大的台阶,它把强化学习 scale 到了一个很大的规模,姜大昕把它看成 scaling 带来的技术新范式,「强化学习的 Scaling」。

当前,o1 在有明确对错的代码、数学、原理证明等多个领域展现了强大的推理能力,但 RL(强化学习)究竟怎么去泛化,OpenAI 并没有被公开具体方法,也不能保证 OpenAI 最终一定可以把 o1 泛化到完全通用的领域。原因就像朱军解释的那样,你很容易告诉模型代码、数学等问题的优化目标是什么,但在更广泛、通用的场景里,如何告诉模型什么是对、什么是好,这种人类都可能没有对齐的目标。

不过在一个确定的方向上存在不确定的事,对创业公司也是好事,否则就没有创业公司的机会。一个技术新范式的开端,恰恰会让创业者觉得非常兴奋。相当于OpenAI找到了一条上限很高的道路,通过仔细琢磨它背后的方法,创业者有很多新的可能性。

在这一点上,杨植麟的判断很有启发,他认为o1 之后,接下来最重要的可能是「开放性的强化学习」,比如说在产品上跟用户交互,在一个真实的环境里面让智能体完成任务,然后自己去进化。

「武器库」多了一个武器,对做 AI 应用的创业者来说,怎么都不是坏事。o1 这样上限更高的复杂推理模型,还可能会把 B 端的 AI 应用从当前的 copilot 助理类产品,推向 autopilot 让 AI 自己独立完成闭环任务的程度,场景上也会渗透到更纵深的生产制造环节。

同时,ToC 应用也有了 copilot 和 autopilot 智能体协同作业,为用户提供更好体验的机会。如果说大语言模型是让人看到了一个令人期待的新大陆,那么这 18 个月最大的进展就是在这新大陆之上人们找到了可以培育新文明的绿洲,它还需要很多建设,但它值得建设。

 

02 从数字世界的共识,到物理世界的共识

当模型技术的上限看到明确提升的路径,「老问题」回来了,AI 应用什么时候爆发?

今年,很多人降低了对 AI 的预期,是因为原本期待的 SuperAPP 并没有出现。言外之意,大家觉得 AI 应用最大的想象力就是这个了。但在今年云栖大会上,你会发现,未来不止是数字生产力场景这些「小」场景,在自动驾驶、具身智能等「大」场景上,也正在一步步有路径地解锁。而原本大家想象的「在数字世界的爆发」很可能变成在物理世界的「浸润」。

主论坛上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭在主题演讲中也给出了明确的判断。他认为生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 App,而是接管数字世界,改变物理世界。

相应地,AI可以发挥的场景空间,就不只是移动互联网的延展,而是一次对物理世界的变革。

清华大学人工智能研究院副院长、生数科技首席科学家朱军类比自动驾驶 L1-L5 的分级,让现场观众看到 AI 对物理世界改变的明确路径。他说,L1 相当于 ChatGPT 那样的聊天机器人;L2 可以做复杂问题、深度思考的推理;L3 叫智能体,对应吴泳铭提到的从「数字世界」走向「物理世界」;L4 是要去自主发现和创造新知识;L5 可以去协同高效地运转。

在不同垂类任务上,AI 目前所处的阶段不同。总体上,我们现在正在从数据世界迈向物理世界的阶段,按照朱军的类比,也就是处于:正在渗透 L2,迈向 L3 的阶段。并且,在通向物理世界的技术路径选择上,也形成了相对明确的共识。

当前在物理世界,大模型影响最大的两个硬件领域是汽车和机器人。

汽车领域,自动驾驶技术的目标一直很明确——实现完全自动驾驶,但不同公司的实现路线有所不同。

以特斯拉为例,它采用的是从 L2 级别(部分自动驾驶)逐步向 L4 级别(高度自动驾驶)发展的策略。与特斯拉不同,Waymo 则选择直接切入 L4 级别,采取更为激进的方法。他们都使用了较小的模型和规则算法,通过解决尽量多的 corner case 去提高自动驾驶的接管能力。

但最近,业界越来越流行一种新的路线,端到端大模型。这一次,大模型路线为自动驾驶带来的是蜕变,还是局部优化?它是实现自动驾驶的最终路线吗?

小鹏汽车董事长&CEO 何小鹏称,过去多年的自动驾驶可以做到在高速开、在城市里开,但是它是用规则写的,而规则无法面对世界上的所有场景,哪怕只在开车这一个专业的业务上,有很多想不到的 corner case。

很多人可能记得 2023 年 9 月 2 日,1200 万人围观马斯克的特斯拉 FSD v12 的自动驾驶直播,45 分钟的车程里,他只接管了一次。这是端到端大模型带来的变化,马斯克称,「它可以读懂标志,但我们从来没有教过它」。有了端到端大模型,自动驾驶的高度可以做得更高,下限也可以提高。

对于最普通的用户,从现在到未来的 36 个月,端到端大模型可以让每一个人在每一个城市都像老司机一样开车顺滑,更「拟人」也更流畅,这是何小鹏多次尝试特斯拉 FSD 最直观的感受。

之前的智能驾驶系统,速度控制生硬,处理突发情况时会突然刹车或加速,带有明显的机械感。尤其是在狭窄路段或恶劣天气等特殊情况下,这种生硬的速度控制会让用户感到不安。

但端到端大模型最大的提升在于速度和转向控制的顺畅度。乘客即使在后排坐着,也几乎感觉不到在红绿灯启停和路口转弯时的任何顿挫感。

对于自动驾驶未来的终极路线,何小鹏和英伟达全球副总裁、汽车事业部负责人吴新宙也给出了一致的判断。从现有技术的框架上来看,大模型、生成式AI的方式不一定是实现自动驾驶的终极方式,但它一定是一个巨大的突破,比以前的算法、泛化、规则模型要强,这会给 AI 汽车带来巨大的变化。

如果把未来所有能移动的物体都视为智能机器人,汽车只是一个场景,更多机器人将迎来巨变。

在这个领域,具身智能是共同的信仰。当前,大模型给机器人带来更通用和泛化的大脑,让人们看到了未来机器人与人类能够并肩交流、协作的可能。这也是宇树科技创始人、CEO 王兴兴从几年前坚决不做人形机器人,到现在宇树已经推出两款人形机器人的原因。

现在,「o1」模型有自我反思、验证的能力,逻辑能力也大大提升,未来可以预见的是,一定能够提升机器人与人的交互能力和机器人的任务拆分的能力。

不过,大语言模型包括最新「o1」所代表的技术新范式,解决的仍是大脑问题。如果真的想要进入具身智能的时代,机器人本体控制,也就是「小脑问题」,仍待解决。

上周,创新工场联合首席执行官、管理合伙人汪华对具身智能时代未解决的问题也做了总结:一是硬件本身,包括传感器,依然有很多的瓶颈。具身智能的本体,是不是人形、有没有下肢、怎么做等也尚未达成共识。

二是可泛化的运动控制。现在机器人都是基于物理计算,或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的,可以抓、拧、掏、抠,现在其实还没有一个在运动控制上的 GPT。

问题都是现实的,但是有了一旦有了明确的技术前进路径,从科学问题变成了工程问题,这也就到了创业者们可以发挥作用的时代。

 

03 巨头的进取心「归位」

技术在涨、场景在解锁,对底层基础设施的需求也在变化。

在跟创业者交流的过程中,他们调侃当前做大模型和 AI 应用时对算力的「复杂情感」时称,讲卡伤感情、没卡没感情、用卡费感情。尤其是「o1」带来新的技术线后,推理端的算力直接决定算法和产品创新的可能性。所有行业,都需要性能更强、规模更大、更适应 AI 需求的基础设施。

吴泳铭在这方面的思考非常本质,他指出,生成式 AI 让世界有了一个统一的语言——Token。它可以是任何文字、代码、图像、视频、声音,或者是人类千百年来的思考。AI 模型可以通过对物理世界数据的 Token 化,理解真实世界的方方面面,比如人类行走、奔跑、驾驶车辆、使用工具,绘画、作曲、写作、表达、教学、编程的技巧,甚至是开公司创业。理解之后,AI 就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。

当 Token 成为统一语言后,未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成 GPU AI 算力为主、CPU 传统计算为辅的计算模式。

从阿里云客户的需求分布来看,这一变化正在加速演进,阿里云超过 50% 的新需求由 AI 驱动产生。生成式 AI 对数字世界和物理世界的重构,正在让计算架构发生根本性变化。

18 个月的时间里,阿里云这样的基础设施巨头,看起来对未来的进取心明确「归位」了——正在以前所未有的强度投入 AI 技术研发和基础设施建设。

在 2024 杭州云栖大会上,阿里云展现了围绕 AI 时代的新基建,其中单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的 AI 先进基础设施。

基础设施之上,阿里云也升级了在 AI 模型与应用的最新产品。其中,通义大模型迎来了年度重磅发布。基础模型升级,性能媲美 GPT-4o。

这种「进取心归位」也体现在对开源路线的明确态度上。这次可以清晰看出阿里云继续秉承了成为「AI 时代最开放的云」的使命,最强开源模型 Qwen2.5 系列,同时上架了语言、音频、视觉等 100 多款全模态模型。通义开源模型累计下载量已经突破 4000 万,通义原生模型和衍生模型总数超过 5 万,模型生态全球第二了,仅次于美国 Llama 的世界级模型群。

提高自研模型能力和坚持开源是一方面,帮助更多大模型创业公司生长则是阿里云在大模型布局的另一面。去年以来,阿里云先后向月之暗面、Minimax、智谱 AI、百川智能和零一万物等 AI 公司注资数十亿美元,成为国内最激进支持大模型创业公司的互联网大厂。这也反应了阿里云明确了自己在 AI 时代的定位,不是要什么都做,而是在新时代继续成为最好的基础设施,用开放的态度,做最有利于推动变革进程的事情。

大模型所带来的第三次云计算浪潮不同以往,当前的 AI 技术日新月异,技术栈远未收敛。跟阿里云在 2009 年力排众议立项第一台云计算操作系统「飞天」时不同,尽管当时也是从 0 到 1,但大体上技术栈是明确的。彼时,阿里云成功地带来了云计算,让阿里巴巴有了自己的技术引擎,改变了互联网,为商业、社会、为人,带来了新变化。

从目前阿里云的一系列布局中,我强烈地感受到阿里云的决心,就是建设「一张遍布全球的、理想的 AI 云计算网络」。今天所有发布的、在研的,都是在围绕这样一个理想的 AI 云计算网络打造,让开发者、生态伙伴、客户能够随时方便取用这张网络。

根据阿里云创始人王坚的定义,人工智能给中国云计算的发展带来了「第三次浪潮」:其中,第一次浪潮,出现在十年前,出现了以 Netflix、米哈游为代表的云原生企业,中国的云计算业务在这个阶段起步,但由于国内市场成熟得太慢,便落后于海外;第二次浪潮,出现在传统企业采用云计算之时,但并没有将中国的云计算拉上正确的发展轨道;第三次浪潮,正发生在当下,由生成式人工智能带来机遇,数据、模型、和算力的组合,正在让 AI 云计算成为 AI 时代的基础设施。

就像「飞天」操作系统的诞生为第一次云计算浪潮带来了像米哈游一样的原住民。一张遍布全球的理想的 AI 云计算网络上,也会长出新一代「AI 云原生」的新商业力量,而且些力量不再是先从手机屏幕中的数字世界诞生,再慢慢延展到物理世界的企业生产力进步,而有可能是把信息化、数字化、智能化三步并一步,被智能生产力的供给侧革命所推动,形成跳跃。

所以数字世界的 App 们在「明修栈道」,物理世界的企业也在「暗度陈仓」。而阿里云这样的基础设施,也只有这个进程里才能最终因为创造更大价值,而收获更大价值。这个目标,才能配得上今天「先干为敬」的进取心和投入。

所以,从 AGI 技术客观上的加速进展,到技术革命的共识从数字世界延伸到了更大的物理世界,再到阿里云这样的巨头完成进取心明确,开始「先干为敬」……这些客观上的变化,可以看作对过去 18 个月的总结。这也应该成为对 AI 技术革命未来信心的基础。

这能改变整个社会以及资本环境今天对 AI 的「信心回调」吗?理性的看,估计作用有限。

但看清这些,对做事的人,意义重大。因为绝对的共识往往对做事的人都没什么价值,而保持一定的「非共识」才是对 Doer 最好的环境。归根结底,每个人都应该走出 FOMO,完成「进取心归位」。

 

展示量: 88

预训练的 Scaling Law 正在走入死胡同,o1 让更多创业公司重新复活

北京时间 9 月 13 日凌晨,OpenAI 在官网发布了其最新一代模型,没有延续过去 GPT 系列的名称,新模型起名为 o1,当前可以获取 o1-Preview 和 o1-mini 这两个版本。

当天,Sam Altman 在社交平台上兴奋地称,「『o1』系列代表新范式的开始」。

但这可能是第一次,外界比 OpenAI 的掌舵人 Sam Altman 本人,更加兴奋地期待 OpenAI 的新品发布。这份期待里,无关对赛道第一名的艳羡,更多是同呼吸、共命运的决定性瞬间。下一代模型是否有惊人的进展?能否为 AGI 的浪潮和梦想完成信仰充值?

今年,你可能也对 AI 这个字眼麻木了,去年有多狂热,今年就有多麻木。原因无他,在 AI 的落地应用上,看不到信心二字。截止目前,仍未出现颠覆性的 AI 应用;Inflection.ai、Adept.ai、Character.AI 等最头部的明星公司接连被大厂纳入麾下;科技巨头们在财报周被反复拷问 AI 的巨额资本支出何时看到回报……

这些情绪背后,都指向同一个问题,那个所谓的第一性原理「Scaling Law」可以通向 AGI 吗?以今年十万卡、百亿美金投入,换取模型性能线性增长、乃至对数级增长的门槛来看,这注定是一场玩不起的游戏。不少人开始质疑它的合理性,这波 AI 不会就这样了吧?

这是「o1」诞生的时代性。

在 OpenAI 交出答卷后,AI 创业者表示「又行了」。不同于预训练的 Scaling Law,一条在推理阶段注入强化学习的路径成为明确的技术新方向,徐徐展开。

极客公园「今夜科技谈」直播间也在第一时间邀请极客公园创始人 & 总裁张鹏,和创新工场联合首席执行官/管理合伙人汪华、昆仑万维首席科学家&2050 全球研究院院长颜水成,一起聊了聊 o1 所代表的新范式及创业者脚下的路。

以下是直播沉淀文字,由极客公园整理。

 

01「o1」释放了明确的技术信号,但更期待下一个里程碑

张鹏:从去年传出「Q*项目」到现在,OpenAI的强推理模型「o1 系列」终于发布了。实际用下来,「o1」的发布符合你们的预期效果吗?

颜水成:我用 o1 做的第一件事情是,把我女儿做的数学题输进去看结果,o1 的表现令人惊喜。它解题的逻辑顺序、总结的 CoT(Chain of Thoughts,思维链)信息,让人觉得很不一般。

如果是用 GPT-4 或 GPT-4o,只是做下一个 token(词元)的预测,其实我们心里会打鼓、会怀疑:只是做下一个词元的预测,是不是就能实现复杂推理过程。

但 o1 相当于在回答问题之前,先引入用 CoT(思维链)表示的思考过程,把复杂问题先用 planning(规划)的方式将任务拆解,再根据规划的结果一步步细化,最后把所有结果做总结,才得到最终结果。

一个模型的好与不好,关键在于它是不是直觉上能解决问题。GPT-4 和 GPT-4o 还是一种快思考,这种快思考不太适合解决复杂推理问题;但是 o1 是一种慢思考的过程,像人一样思考,更可能解决一个问题,尤其是跟数学、编程或者逻辑有关的问题。o1 所代表的技术路径未来会走得非常远,带来非常大的想象空间。

汪华:我觉得 o1 是一个非常好的工作,水到渠成,符合预期。符合预期是说这个时间点该有成果了,为更高的未来预期打开了通路,但并不 surprise,没有超出预期。

因为这个工作其实从去年就已经有一系列的线索,包括 OpenAI、DeepMind 出的一系列的论文像 Let』s Verify Step by Step (OpenAI, 2023),以及其他像 Quiet-STaR 和 in-contest reinforce learning 中都有迹可循。

大家用强化学习、包括用合成数据去串 Reward Model(奖励模型)或 Critic Model(评判模型),或者后来用各种各样结构化的推理来提高模型正确率。事实上,无论是 OpenAI、Meta,还是其他大厂,大家现在都已经在做类似的工作,这个方向其实是大家的一个共识。

不光 OpenAI,很多其他模型在数学、编程、推理上都已经有了很大进步,就是因为或多或少用了一部分这方面的技术,但 OpenAI 发布的 o1 是集大成,并且工作做得非常好,而且里面应该有它独特的工程探索。

图片来源:OpenAI 官网

张鹏:预期之内,但还不够惊喜。

汪华:对,整个框架还是在预期范围之内,没有像 GPT-4 或者 GPT-3.5 发布一样带来很大的惊喜。

你会发现 o1 针对推理等各方面性能的增强,还是在一些有明确对与错和封闭结果的领域。比如 o1 展现的代码、学术解题,包括数据分析能力其实都属于有明确信号的领域。

哪怕是在明确领域,比如数学编程的问题,它在做得好的问题上表现非常好,但在一些问题上也做得不太好。也就是说,可能它在训练 Critic Model(评判模型)或者 Reward Model(奖励模型)的时候,对于下游任务的泛化,可能还是遵循物理规律。如果对下游任务覆盖得好,它就做得好;如果覆盖得不好、下游任务没见过这些数据,或者 reward model 没法很好地给予 reward 的时候,它泛化也不一定真的能泛化过去,所以从这个角度来讲,o1 没有特别的超出常识的部分。

我还测了一些更加通用推理的场景,在这些领域,o1 增强得还不太多,很多也没有带来增强的效果。

实际上对 OpenAI 抱持更高的期待是,希望它下一步能做到,把推理泛化到通用领域。

当然现在端出这么一个非常完善的工作,把这件事给做出来,OpenAI 这点还是非常厉害的。而且在跟 OpenAI 的同学聊天时,能感觉到他们在做更难的事情,朝着通用推理的方向在做,只是可能现在还不成熟,所以先放出来对于 signal(技术信号)更明显的阶段性成果,在代码、数学方面的工作。所以我也非常期待,什么时候 OpenAI 能把下一个里程碑也克服了。

 

02 强化学习不新鲜,「o1」在用强化学习上有创新

张鹏:o1 已经能在一些领域展现出复杂推理的能力,其中很重要的原因是,强化学习在 o1 系列模型里扮演了非常重要的作用。怎么理解强化学习在新一代模型里起的作用?

颜水成:强化学习是一个存在时间蛮长的方向,把这个技术用得最好的团队应该是谷歌 DeepMind,他们一开始就是从这个角度出发,去解决真实世界的实际问题。

我个人觉得强化学习在 o1 里最核心的点,不在于使用强化学习,因为强化学习在 GPT-3.5 里就已经用了PPO(一种强化学习算法),用一个奖励函数去指导 PPO,进而优化模型参数。

强化学习优化一个描述长期累计 rewards 的目标函数,而原先传统算法只是求解损失函数。相当于,在优化 policy action(策略动作)的时候,需要考虑未来所有奖励的总和。

具体来说,像在围棋博弈中,它会用 self-play(自我博弈)的形式去收集 action-status 序列,这个过程自动生成一个奖励值,而不是说去学一个奖励函数。它是直接自动产生出奖励,或者说人工可以定义奖励,用这些奖励就可以把策略学出来,然后逐步提升策略。它最大的特点是整个过程不需要人类干预,不是像 RLHF(根据人类反馈的强化学习),有很多的步骤需要人去反馈。

我觉得其实 o1 跟原来的强化学习有一个最本质的差别。有人认为,o1 的原理可能与斯坦福大学团队 (E Zelikman et al, 2024) 发表的 Quiet-STaR 研究成果最相关。Quiet- STaR 的一个特点是从 CoT(思维链)的角度出发,但是 CoT 并不是一开始就存在。

要做推理问题,原本有最初的文本存在,如果在文本里面再插入一些 CoT 的信息,它就能提升推理效果。

但当我们希望去解决通用的、复杂的推理问题时,大部分的情况下 CoT 是不存在的。那么在强化学习的 pipeline(流程管道)里面,如何把这些 CoT 的信息一步一步生成出来是非常困难的。

这就要问 o1 的模型架构是什么?是一个模型它既可以去做规划,又可以根据规划去生成 CoT,又可以做自我反思(self-reflection),又可以做验证,最后做一个总结,这些所有的事情。还是说其实是好几个模型,一个模型根据信息生成 CoT,另外一个模型做反馈,两个模型相互交互,逐步把结果生成。目前 o1 还不是特别清楚,两种可能都能做,单一模型可能会让整个过程更优雅。第二种可能实现起来会更容易一些。

如何用合适的方式把 CoT(思维链)生成,我觉得这是 o1,跟其他的强化学习区别最大的地方。这里的细节还不是很清楚,如果清楚的话,o1 的黑盒问题可能就解决了。

张鹏:怎么把强化学习运用到这一代推理模型里?是一个单体的超级智能、还是一个集体决策,这些还没有被公开。

颜水成:上一代的强化学习,可能更像下围棋,通过别人已有的棋局,先学了一些东西以后再接着往前走。我觉得要做通用、复杂推理的话,它就会碰到很多从零开始(zero start),可能一开始根本没有 CoT 的数据,这种情况大概怎么去做学习,有待探索。

2015 年,DeepMind 推出了 AlphaGo,这是第一个击败围棋世界冠军的计算机程序,通过强化学习,其后继者 AlphaZero 和 MuZero 基于自我对弈与强化学习的方式,变得越来越通用,能够解决许多不同的游戏以及复杂的现实世界问题,从压缩视频到发现新的更高效的计算机算法。|图片来源:DeepMind

张鹏:为什么把强化学习放到模型里,成为接下来发展的共识?这个共识是怎么达成的?核心都是要解决什么样的问题?

汪华:技术上有颜老师在。从商业角度,大家还是在讨论模型的智能上限这样一个问题。

举个例子,哪怕是一个员工的应用场景,小学生能干的工种,跟中学生、大学生能干的工种,差别还是非常大的。所以模型的幻觉,或者说模型的复杂指令遵循能力、模型的长链路规划和推理能力,已经制约了模型的进一步商业化,哪怕我不是为了实现 AGI(通用人工智能)。

所以大家早就已经有这个说法了,一开始就有「系统-1」「系统-2」的说法(快思考和慢思考)。基本上预训练相当于知识的压缩,它本身就跟人的直觉一样,没法进行复杂的推理,所以必然要找到一个方法来实现「系统-2」。

在实现「系统-2」的时候,用各种各样的结构化推理,包括用各种各样的强化学习,有一个正好的规划,更稳定的模型输出,更好的指令遵循,包括让模型不光是学会知识本身,包括按什么样的 pipeline(流程管道)去使用知识。比如人类在解决问题 A 时会用思维框架一,解决问题 B 时会用思维框架二。像这些问题怎么来做?大家手里的武器库,其实除了 LLM,就是强化学习。

而且我特别同意颜老师刚刚的说法,具体实现上用了一个模型还是两个模型,只是一个工程问题,但 CoT 的数据从哪里来?包括怎么来实现一些真实世界的模拟和对抗,这个反而是大家一直在试图攻克的难点。代码和数学之所以能被很快地解决,是因为它的信号非常明确,对就是对,错就是错,而且它的步骤合成,合成它的推理 CoT 数据其实是相对比较容易的,奖励或者 Critics(评判)也是相对比较明晰。

颜水成:就相当于说奖励能直接获得。

汪华:更难的就是代码和数学之外,世界上那种复杂的、复合的,甚至开放结果的,没有明确的、绝对对错的,甚至没有唯一执行路径的这些问题怎么办。我觉得把这个问题给解了,难度要比一个模型和两个模型其实要难得多。

颜水成:o1 这个框架里面我觉得应该还是有一个奖励函数存在的,不然就没办法推演到通用的复杂推理。

 

03「o1」发展下去,更接近一个「超级智能体」张鹏:o1 跟跟此前的 GPT 系列相比,是两个技术方向,可以这么理解吗?

颜水成:对,o1 表现出来的行为不再是下一个 token 的预测了,而更像是一个超级智能体的样子,未来可以处理多模态、可以处理工具,可以处理存储记忆,包括短期和长期的语义记忆。

《思考,快与慢》,诺贝尔经济学奖得主丹尼尔·卡尼曼经典之作,介绍了大脑的两种思维系统:系统 1 快速直觉、系统 2 缓慢理性|图片来源:视觉中国

我个人是认为 o1 这个技术方向肯定是对的,从 GPT-4 到 o1 的话,其实就是从「系统-1」到「系统-2」的一个转变。今年 5 月我做过一个演讲,AGI 的终局可能是什么东西,当时提到了两个概念,一个概念叫做 Global Workspace(全局工作空间),一个叫超级智能体。

Global Workspace(全局工作空间)在心理学和神经科学领域里的一个理论,是说大脑里除了专用的子系统,比如视觉、语音,触觉等子系统之外,可能还存在一个区域叫做 Global Workspace。

如果「系统-2」,就是多步和多模型的形式一起来完成的话,现在 CoT(思维链)产生的结果,它非常像 Global Workspace 的工作原理。用一个注意力的模型,把文本的、未来多模态的、工具等信息都拉到这个空间,同时也把你的目标和存储的记忆(memory)都拿到这个空间里进行推理,尝试新的策略、再做验证、尝试新的可能性……不停的往前推理,演绎的结果就是最终得到分析的结果。推理时间越长,就相当于在 Global Workspace 里的推演过程越长,最终得到的结果也会越好。

对于复杂的任务无法用「系统-1」(快思考)一竿子到底,就用「系统-2」(慢思考)的 Global Workspace,把信息逐步分解、推演,同时又动态地去获取工具,动态地去获取存储记忆,最后做总结,得到最后的结果。

所以我觉得 o1 发展下去,可能就是「系统-2」(慢思考)的 Global Workspace 的 AI 实现方式,如果用 AI 的语言来描述的话,其实它就像是一个超级智能体。也就是说,o1 发展下去,可能就是一个超级智能体。

 

04 LLM+RL 的模式,是否可以通向泛化推理?

汪华:强化学习相关的共识其实很早就有,但大家一直也没解决好问题。当年强化学习也很火,还被视作 AGI 的一个通路,包括机器人领域也都是用强化学习,但当时就遇到了这个难题:对于非常明确的任务,奖励函数很好建、任务的模拟器也很好建;但一旦扩展到真实世界的泛化任务时,就没法泛化,或者没法建立能完整模拟真实世界各种各样、复杂奇怪的任务模拟器,也没法去建立对它很好的奖励函数。

您觉得按现在这条 LLM(大语言模型)加上 Reinforcement Learning(强化学习)的模式,不止是在有明确信号的领域比如代码、数学,如果要往泛化推理走的话,要怎么走?

颜水成:一个最大的差别就是,原来的强化学习,它的泛化性能不好。每次可能是专门针对一个游戏、或者一组类似的游戏去学一个策略。但是现在它要做通用的复杂推理,面对所有问题都要有能产生 CoT 的能力,这就会变成是一个巨大数据的问题和工程的问题。

我非常认同汪华的观点,在数学、编程、科学这些问题上,可能比较容易去造一些新的 CoT 数据,但是有一些领域,想要无中生有地生成这些 CoT 数据,难度非常高,或者说还解决得不好。

要解决泛化的问题,数据就要足够多样,但在通用场景的推理泛化问题上,这种 CoT 的数据到底怎么生成?

或者也有可能根本就没有必要,因为那个问题可能已经解决得很好了,你再加 CoT 可能也没有意义,比如说在有一些问题上,可能感觉 o1 没有带来本质的效果提升,可能因为那种问题本来就已经解决得非常不错了。

张鹏:强化学习在下一代的模型里要扮演更重要的作用,会带来什么影响?

汪华:如果大规模采纳这个方案,算力会更短缺,推理会变得更重要。

因为之前说推理成本将来会降 100 倍,现在如果往强化学习的方向发展,推理成本就更需要降了,因为解决问题要消耗更多的推理 token。降低推理价格其实等效于推理速度提升,需要把推理所需的时间压缩下来,很多应用才会变得可用。

第二,模型大小也要变得非常精干,因为如果无限的扩张基模尺寸的话,推理速度会变得更慢、也更昂贵,从商业上来讲就更加不可行了,因为采纳结构化推理,可能要消耗 100 倍的 token 来解决同一个问题。

张鹏:你怎么看 LLM+RL 的前景,推理泛化的路径是清晰的吗?

汪华:o1 之后 AI 的未来怎么发展,其实我相对比较保守,什么事情都做两种打算。

第一种是,我们在很长段时间内没有找到泛化的方法。但即使是这样,我个人认为依然是一个巨大的进步。因为这虽然意味着很多开放的、复合的、非常复杂、模糊的问题上,我们没办法用这个方式来提升,但是商业场景下有大量的问题,比如法律、金融领域,很多问题是封闭的、明确的。在这些问题上可以通过这条路径,去合成数据、去做奖励模型、判别模型(critic model),极大地提高垂直领域的性能,甚至把性能提升从 Copilot(辅助驾驶)提升到 Autopilot(自动驾驶)的地步,这就是一个飞跃性的改变。

无人驾驶汽车|图片来源:视觉中国

这个场景有点像回到 AI 1.0,但比 AI 1.0 好,因为会针对垂直领域会做出一个个垂直的模型或者一套体系,从商业角度上来说已经是个巨大进步了。现在大家天天忙着做 copilot,没法做 autopilot,就是因为模型不擅长做长推理,一做复杂问题就出错,产生幻觉等问题。

第二种,如果能实现通用模型的话,影响就比较大了。哪怕不一定带来 AGI,它的泛用性、泛化性差、解决问题依然比人差,正确率没有高的,但只要高过普通人的平均水平,那也可以给世界上 70% ~ 80% 的事情带来自动化。你要知道我们很多成年人也做不对奥数题,而且我们自己也有「幻觉」。

 

05 建立真实世界模拟器:能读万卷书,也能行万里路

张鹏:在今天这个节点看得见希望,但是可能一颗红心两种准备。哪怕不能够完全泛化,今天也能解决很多问题了,比如在专用领域里可以做到通用能力达标。

汪华:对,能不能实现推理泛化,我个人觉得关键在于能否构造一套泛化的「真实世界模拟器」。构建这个真实世界模拟器,可能难点在于数据加上算法等一系列的因素。

因为模型跟人互动,解决这些开放问题的时候,本质上是在跟真实世界互动,真实世界就是那个奖励函数或者判别函数(Critic Model),能不能建立一套新的方法论,能真实地模拟这个真实世界的反馈,而且能脱离人类反馈。

之前的 SFT(精调),包括之前的强化学习本质上是基于人类的反馈(RLHF),这就像 AlphaGo 只是跟着人类棋谱学习,而不能左右互搏,效果肯定是有限的。

构建这个「真实世界模拟器」,可能难点在于数据加上算法等一系列的因素。这个模拟器一旦建立了,模型会产生无限的数据,就像 AlphaGo 互相下棋,它可以下 100 万盘、 1000 万盘、1 亿盘,而且它来判阵输赢,通过输赢的判断去模拟棋道真谛。

张鹏:有点像它是要创造一个真正有效的世界,AI 在里面能「解万道题」,甚至「行万里路」,而不只像原来那样「读万卷书」,这个东西其实最终才能通向更广泛化的意义,而不受限于人类的反馈、等着人类师傅带,成本很高、泛化也很难。

汪华:而且这里面其实在我看来分两个阶段。第一阶段就是 LLM(大语言模型)的阶段,预训练的阶段就是压缩知识,学习人类的知识,而 RL(强化学习)的阶段是练习和摸索思维方式。两个阶段培养两种能力,最后都压缩到这个 LLM 里面的 Latent Space(潜在空间,深度学习中一种数据的低维表示形式)里面。

Sam Altman 在 X 平台称,OpenAI o1 是新范式的开始|截图来源:X.com

 

06 Sam Altman 所谓「新范式的开始」,有几分可信

张鹏:作为这次 OpenAI 发的新模型,「o1」不再延续过去 GPT 系列的叫法,比如 GPT 四点几,而是开启了 o 系列新模型代号。同时 Sam Altman 称这是一次新范式的开始。我们怎么理解这个所谓的新范式?

颜水成:如果按照 Global Workspace 这套理论去对照「系统-2」(慢思考)和「系统-2」(快思考),o1 和 GPT-4 是有本质差别的,其中最大的差别在于,它会在解决问题的过程中产生 CoT(思维链)。

一年前有人说 Ilya Sutskever (OpenAI 联合创始人) 在「草莓模型」(o1 之前的代号叫草莓)里发现了一些让人震惊的、可怕的事情。今天可以大概推测,他当时到底在草莓模型里面发现了什么东西。我觉得他发现的就是 AI 的学习过程,RL(强化学习)和 CoT(思维链)相结合,他发现系统具备自己挖掘 CoT(思维链)的能力。

我个人认为,CoT 的过程,不是纯粹从已有的知识里去提取知识。CoT 的过程跟人类的思考过程一样,会展开不同的分析组合,包括验证、自我反思等。CoT 过程结束之后,其实一个新的知识就产生了,因为你其实会对以前的知识进行再加工,可以认为这是一个新知识。

当模型具备自动产生 CoT 的能力,意味着它有知识发现和知识增长的能力,新的知识可以重新完善(refine)模型,也会注入(inject)到模型自我的知识里,AI 就可以实现自我提升(self-improving)的能力。

从这个角度看,o1 如果能够自动地去做挖掘 CoT,它真的就是一个新范式的开始。它不只是提取已有的知识,而是不断地产生新的知识,是一个知识增长的过程,是一个用算力去挖矿的过程,挖掘出新的知识。知识就会越来越多,AI 就能做研究者能做到的很多事情。

张鹏:要这么说的话,人类的科学发展进程也是人类不断产生 CoT 的过程,现在发现模型具备了 CoT 能力,自己能够获得更多知识,也能基于这个知识再优化自己,有了「自我进化」的能力。这可能是新范式代表的含义,当我们要需要模型更有效地解决问题,有赖于它自主产生 CoT 的能力,并能够自我进化。

颜水成:所以有可能,OpenAI 把所有大家问的问题、信息全部都存下来,然后再拿这部分东西训练模型,就可以把模型的能力进一步提升。相当于全世界的人用自己的钱、用他的算力去进行了知识的扩展,然后扩展出来的 CoT 结果,又可以使模型变得越来越强。如果从这个角度来说的话,确实是一种新的范式的开始。

擅长布道和公关的「融资大师」Sam Altman|图片来源:视觉中国

张鹏:直播间里有观众说得很直接,说 Sam Altman 口中的「新范式」就等于「OpenAI 融资难了,需要有一些新的话术」。你觉得他说的新范式,是一个给大家提高预期、一个信仰充值的东西,还是说会再开启一个所谓的新范式?

汪华:从投资人的角度来讲,现在中美投资人,已经初步过了「为了科学突破而感到激动」要投钱的时间点了,都在忙着看商业化,会看这个东西到底解决什么问题。虽然投资人可能比较俗气,但是过去一年多毕竟也是砸了那么多钱进去,千亿美金的算力、Infra 等都投进去了。

对创业公司或者大语言模型的发展来讲,我个人认为是一个新范式,而且是大家已经期待的新范式。过去的 Scaling Law 每次都要 100 倍的算力(扩张),指数级别的算力增长,然后只得到线性的模型性能提升。这会带来两个问题,第一,怎么再继续扩张(scaling)下去。第二,对于创业公司、研究机构,包括新的 idea 的出现,是一个绝对的扼杀,因为最后只有少数的帝王级企业,才有资格去做这件事。

但「o1」代表的范式,把很多东西拉回来了,世界可以更多元化了。不是说不要 Scaling Law  了,可能新范式下依然是模型越大效果越好。但有了「o1」所代表的新范式,Scaling Law 可以从更小的模型做,而可能这个模型算力提升 10 倍就能看到原先百倍的效果,而不是要指数级别的提升才能看到很多进步,包括对于各种各样的商业化也更友好了。

所以从商业角度来讲,我个人觉得「新范式」是有潜力发生的,而且是必须的。按原来那条 Scaling Law 是一条死路,都不说再 Scaling Law 下去全世界的数据够不够用这个问题,在 Scaling Law 下,全世界还有多少人能做这件事都是问题。

 

07「o1」打破了预训练的 Scaling Law 瓶颈,商业上解锁了新的可能

颜水成:所以其实最近有不少公司,也基本上觉得纯粹的基础模型的预训练意义已经不大了,因为基本上是 10 亿美金级了。

汪华:而且你就算训练得起,你用得起吗?AI 如果真的要给整个世界带来广泛的进步,本身就需要范式改变,光靠推理成本的下降是撑不住的。

另外从学术的角度来说,我觉得这个范式有的地方变了,有的地方还是没变。现在 o1 模型里的很多问题,包括规划、推理,其实它在产生 CoT 的过程依然还是在做下一个 token 的预测。

生成式 AI 的创业门槛,算力是绕不开的巨额成本|图片来源:视觉中国

颜水成:因为有很多过程,比如有的在做规划,有的是一小节一小节在做 CoT,有的是在做自我反思(self reflection)。这个过程到底是怎么实现,现在还不是特别清楚。如果就是说按照一个固定的流程,都按照下一个 token 的预测来做,那么 CoT 就是一个 new data 的问题了,但是我是觉得可能不只是一个 new data 的问题。

汪华:对,因为没有细节不知道,但是我在测试模型的时候,还是发现它的推理步骤会有幻觉,中间会有奇怪的推理步骤,但错误的推理步骤却得到了正确的结果,正确的推理步骤下的推理,又飞到天上去了。

我个人觉得新范式是从学术上、科学角度来讲,范式是改变了,但说不定还需要改变更多。

我认同颜老师的观点,知识是 data,推理过程和思维方式其实也是 data。下一个 token 的预测,这个方法也不一定是错的,也不是说一定要摆脱,但是学习关于推理过程和思维方式的 data,是不是有更进一步的一些范式的改变。

张鹏:受限于之前的模型技术,一度觉得很多事都干不了了,现在 o1 之后,又感觉未来有很多事可干,作为一个技术研究者,你觉得有哪些下一步值得探索的方向?

颜水成:以前用 GPT-4 或者 GPT-4o,虽然说能产生出不错的结果、能做不少事情,但是其实在直觉上会感觉,下一个 token 的预测,这个东西好像没有这个能力,或者应该不具备这种能力。所以这个条件下,我们会在 GPT-4o 的基础上,再搭一个 agent,用 agent 去调用大模型、调用现成工具的形式。

虽然 Agent 有潜在可能性去解决这个问题,但是进展不是特别好,因为它还是没有一个比较完美的框架来解决问题,不像刚才提的 Global Workspace 的过程。后者是把信息全合在一起,在这个过程中去做演绎、去做推理、去做验证、去做自我反思。

但是现在有了 o1 就合理了,要得到最后结果,其中有一个思考过程,这个思考过程其实并不是原来常规的大模型,就直接能生成出来。有了这一套范式之后,你给我任何一个问题,我直觉上应该是能用这种方式解决的,无论是复杂推理还是其他,所以会有很多事情可以做。

另外,有了这套范式,那种超级大的模型有可能变得不是那么重要,模型可以做得比较小,但它就能做成一个,模型参数并不是特别大的一个网络架构,但它在推理的时候,能够做得更加复杂。

这种情况下,就不会像以前的 Scaling Law 一样,到了只有 10 万张 H100,才能够真真正正的进入到第一梯队。你可能有几千张卡,就能在一些维度能做到非常好的效果。

原来的 Scaling Law,可能在摧毁很多的创业公司,那么现在可能又会让一波的创业公司要重新的复活,去做各种各样的事情。所以无论是从可行性,还是创业的角度,我觉得机会都比以前要更好,没有进入到一个死胡同。

 

08 当「o1」通向 autopilot,AI 应用该怎么做?

张鹏:从「o1」模型里看到新的可能性,会对接下来的创业、产品、解决真实世界的问题,带来什么样新的挑战或者机遇?比如一个问题是,「o1」推理的进程肯定比原来拉长了,原来像 GPT-4o 以快为美。

汪华:我觉得这不会成为问题。因为「系统-1」和「系统-2」是共存的关系,并不是说 o1 出来了,GPT-4o 就没有用了。人类在大部分时间其实也是处于「系统-1」(快思考)而不是「系统-2」(慢思考)。

具体还是要看应用类型。比如像 AI 搜索、Character.ai、写作辅助这些应用,大部分场景其实用原来的模型、速度够快就行。产品上也好解决,可以通过意图识别的分类模型,把不同任务分给不同模型。

长期看,如果「o1」更加完满了之后,GPT-4o 所代表的「系统一」和「o1」代表的「系统二」实际上是在两个不同的流水线上。

举个例子,为什么要追求推理速度快?因为我们现在大部分应用是 Copilot。Copilot 的应用当然要快,人就在旁边等着呢。但是如果「o1」未来做得足够好,能带来更高准确度、能解决复杂问题、能很好地实现 agent,它执行的任务可能是 autopilot(自动驾驶)级别的任务的话,你管它多久完成呢。我给同事分派一个任务,也是这个礼拜布置任务,下个礼拜看结果,不会要他立即交。所以如果是 autopilot 的场景,重要的实际上是模型、是这个模式做出来的性能,而不是低时延,更何况推理速度正在进一步提升。

第二,这是一个自适应的问题,如果将来「o1」模型训练得更完满,它的强化学习做得足够充分时,它会根据问题的复杂度和类型,有合适的延迟(latency)和推理时间、和 token 的消耗的。

张鹏:之前 GPT 系列在 Copilot 场景继续发挥优势,反应更快、交互自然,但同时 o1 带来了通向 autopilot 的可能性,以前觉得很难做到的场景,随着强化学习、模型能力的继续优化,有更大概率实现。

图片来源:视觉中国

汪华:对,再具体一点说,「o1」首先能解锁的就是大量企业级应用。

现在哪怕在 SaaS 生态和 AI 进展更成熟的美国,很多企业级应用增长得很快,但目前摘的也都是低垂的果实,应用类型依然跟中国差不多,比如员工的写作辅助、智能搜索,企业知识库、销售支持客服等智能助手类应用。更关键的生产性任务和更复杂的任务,不是企业不想用 AI 来完成,是之前的模型做不到。

第二,也会给 C 端交互类应用带来影响。

在 C 端的交互革命里面,80% ~ 90% 可能都是原来的快速的模型,可能只有 10% 的任务需要调 CoT 模型。所以这个是会有很明确的分野。比如,Meta 的雷朋眼镜如果将来加了多模态,其实大部分的任务也都不是深思熟虑的,而是我看到什么东西它直接给我辅助,执行我的命令。

ToB、ToC,生产力任务、娱乐任务、交互任务其实都是会有 copilot 和 autopilot 明确的分野的,而且会协同。

举个例子,比如说让 C 端应用帮我订张机票,在我和它的交互对话、它向我展示漂亮景点的过程,后台已经帮我比价、调用各种资源做旅行计划了,后台可能就在用新一代推理模型。有时延也没关系,前台多模态的模型跟我聊天、糊弄我、延长我的等待时间,后面的模型在那里勤勤恳恳做 CoT,调用 agents 做推理演绎。收集你的信息,还能给你情绪反馈、提供情绪价值。

张鹏:产品设计的空间,可创新的东西打开了,这其实是让人真正兴奋的。

 

09「o1」模型可以提升机器人大脑,但具身智能还有自己的卡点

张鹏:o1 的模型对于机器人的能力未来会不会有很大提升?比如像这种 CoT 的能力,未来会对具身智能产生什么样的影响?

颜水成:我觉得会,因为具身智能需要有比较强的推理能力,一次推理,或者一次 CoT 出来的结果可能并不能满足条件,所以它能自我反思或者自我验证非常重要。

例如行走的机器人去完成某些任务,如果它有「系统-2」的过程,输出会更加准确、更加可靠。同时在一些场景,其实让他先想一想,再去做交互,用户也是能接受的。

未来当「o1」拥有多模态能力,它用在具身智能场景会变得更好。

图片来源:视觉中国

汪华:具身智能,现在有三件事都是它的瓶颈。

第一是硬件,硬件本身,包括传感器,依然有很多的瓶颈。

第二是可泛化的运动控制。现在机器人都是基于物理计算,或者是基于单项任务的模拟仿真、强化学习。而人的动作是非常复杂的,可以抓、拧、掏、抠,我们现在其实没有一个在运动控制上的 GPT。

第三,也是现在「o1」能解决的,大脑的问题,运动控制相当于小脑的问题,机器人「大脑」现在也能做,但是「o1」会极大地提高大脑对于运动规划的准确性、可控性、可靠性。

这三个问题要都解决,具身智能才能实现。如果只突破「o1」,没有可泛化的运动控制,依然会受很多限制,因为机器人能进行的动作会非常有限。

另外,我个人觉得这两件事说不定都有同样的瓶颈被卡着,可泛化的运动控制大家也试图用强化学习、模拟学习(Imitation Learning)来做,也缺少大量的数据,就像缺少 CoT 数据一样,缺少大量的真实世界各种各样的运动控制数据,只是:一个是要解决可泛化的运动控制,一个是要解决可泛化的推理。

因为没有一个人在手上带着传感器、脑袋上顶着摄像头,也没有几千万人天天做这些动作,贡献一个互联网级别的一个数据集,所以大家在用模拟器、用强化学习在做。但说不定在一件事情上找到了一些解决方法,另外一件事可以用类似的方法来解决同一个问题。

颜水成:感觉还是不一样,这种数据产生的流程和「o1」产生 CoT 的流程还是有很大差别,可能要当做一个垂域的问题去思考。

汪华:我特别期待强化学习本身的方法论发生一次超进化,把现在强化学习,对于奖励模型泛化的限制取消。

颜水成:因为强化学习本身的算法就比 GPT-4 的优化更难一些。比如强化学习的曲线的损失(loss),基本上一直在剧烈的震荡,但是像 GPT 模型,或者 AI 1.0 时代的判别式模型,曲线基本上非常稳定,所以强化学习做起来的难度或者说要求的领域 know-how 更多。

中国本身做这块的人就蛮少,现在慢慢好一些,但是相比国外做的时间和积累还是要少一些。

张鹏:为什么中国的强化学习这条线会弱一些?上一代 AI,其实就看到了强化学习这个路线。

汪华:强化学习其实各种各样的 paper 都在外面,中国聪明的人也很多,之前之所以做得不好,不是学术上做不出来,而是工程上和累积上,我们投入太低的问题。客观地讲,会有点功利化。之前强化学习(RL)在各个领域里的效果都不是特别明显。

即使是在大模型时代,OpenAI 做了 PPO(一种强化学习算法、由 OpenAI 在 2017 年提出),做了 RL(强化学习),但实际上对于大部分国内的大模型公司来讲,做好 SFT,做好 DPO,其实效果已经跟 RL 非常接近了,提供的增益也不大。

而 RL 做起来很难,非常耗工程,对于算力消耗也是非常明确的,所以在这种对于收益不明确的地方,国内大家的投入还是相对比较保守和谨慎。

保守和谨慎就导致资源的投入,没有足够多的卡,没有足够多的实验,没有足够多的算力让大家去浪费,那这方面的人才就没法积累经验。因为有些东西不写在 paper 里,而是你在训练时一次次训崩的 knowhow。

中国在顶尖科研上的确存在系统性问题——别人探出路来了之后,我们会很有信心去投入资源去趟,但当初不明确的时候,我们不愿意投入。

 

10 如果 Scaling Law 玩不起,「o1」又是谁要下注的比赛

张鹏:「o1」其实让大家看到一个明确的方向,这是不是意味着大家要在这个方向上更深入地探索?

颜水成:我个人稍微悲观一点,主要原因是有一些细节不像 Sora 出来的时候,从它的技术文档上你就能看得很清楚,它的路线是什么东西。

第二,还是类比 Sora,当时 Transformer,以及后面的 DIT(一种文生视频架构)、扩散模型,是在开源的生态上往前走,创业公司只要去思考数据和工程的问题就可以。

但是这次强化学习,客观上来说,我觉得中国公司里,在大规模场景下,自己有代码库(code base)跑通的就很少,而且没有足够开源社区的支持。吸引人才其实也没有真正有一手经验的人。

所以这两个因素,一是没有大规模 RL 场景和好的 code base 做支撑,二是很多 know-how 的细节不清楚,可能会让追赶的速度比较慢,会比我们追上 GPT-4 所需要的时间更长一些,我觉得哪怕是在美国,优秀的公司要追上的话,也可能是以年为单位。

图片来源:视觉中国

张鹏:你正好提醒我,从 ChatGPT 出来,到国内出现类似 ChatGPT 的应用,大概经历了四五个月的时间,追 GPT-4 可能大概是半年左右,Sora 可能也是经过了大概半年,大概的追赶周期是半年。但追上 o1 这样的能力,可能是要以年为计的难度。汪华怎么看?

汪华:我倒没有那么悲观。

之前那种往上 scaling(扩展)模型尺寸的方法,国内真的追不起,哪怕几家拿到很多投资的创业公司,追到一定程度也就追不动了。哪怕是大厂,我觉得追到一定程度也不见得往下追了,因为国内的目前经济和资本环境也没有那么好。

而且实际上,GPT-4o 其实不好追。虽然 GPT-4o 的模型尺寸比 GPT-4(1.8 万参数)要小很多,但多模态的数据和训练是非常消耗资源的,很吃算力。所以训练 GPT-4o 只会比 GPT 4 更贵。我倒不觉得国内是因为工程原因和学术原因做不出 GPT-4o。

那「o1」会有什么样的一个特点呢?就是它其实「吃」(大量消耗)很多的研究,也「吃」很多的实验,也「吃」很多的探索和 idea 的东西,包括数据的一些构造的技巧等,但「o1」其实不太吃算力。并且它可是可以通过比较小的模型,去实验和模拟的。

我个人觉得,中国公司玩得起,而且 o1 出来了之后,开源社区也玩得起,开源社区不太玩得起 GPT-4o。我觉得,不光是中国公司,开源社区和学术界也会试图在小尺寸的模型上,用各种各样的方法去实现类似的效果,包括一些开源框架。所以中国公司也并不是只是孤单地说我对抗全世界,相当于是中国公司和开源社区一起追赶 OpenAI 的这件事。

张鹏:听起来中国的大模型的创业公司真的辛苦,过去一段时间已经连续铺开好几条阵线,很多东西还在 pipeline 里打磨中,但现在「o1」出来之后要去再去做,资源可能会如何分配?

汪华:客观地讲,不会所有的公司都去追的。有些大模公司会坚持方向,有些大模型公司会转型成产品公司,有些大模型公司可能会选择某个方向做突破口,但首先大厂应该都会去追。

张鹏:也许像 DeepSeek,这种比较「神」的公司也有可能。

汪华:大厂都会去追。创业模型公司里有一部分会去追。

而且,大家在实验的角度应该都会追,因为你要说做出一个特别大的产品模型,那不会做,但在相当于 mini 级别的尺寸里面去夯实强化学习能力,去做这方面的实验,是必然要做的事,只是不一定大家都能做到生产级别。

颜水成:其实有一点,比如说像 GPT-3.5 的时候,PPO 就基本上有很大的收益。其实开源社区也在想办法去复现一些东西,但是并没有谁开源出一个真正意义的 code base(代码库)能被中国公司直接使用。所以我觉得在 RL 上,门槛还是会比想象的要大一点。

汪华:我觉得有两方面原因。

第一,我个人觉得 PPO 的确是工程门槛要高很多。跑 PPO,同时多个模型跑,对算力的要求也消耗也很大,学术界也跑不太动。

还有一部分原因,开源社区当时很大的精力都放在「青春平替版」,发明了 DPO 等一系列东西去做开源平替。开源平替基本上 online PPO,Offline PPO 的确也做到了基本上 90% 的效果。

颜水成:这里面奖励函数非常关键,当年 GPT-3.5 的时候,其实他们是拿 GPT-4 的模型去训练奖励模型,才能保证 PPO 做得比较好。所以如果说模型在强化学习这里,如果要用奖励模型,这个东西本身也是一个瓶颈,不是小模型出来的东西就可以用。

汪华:是的,但开源社区并不仅只有创业公司。

张鹏:有 Meta、阿里,看起来开源领域还是有一些巨头的,如果他们有坚定的目标要给群众发枪,我觉得也 make sense。

汪华:可能的确不会那么快,但是技术扩散是必然的。随着更多的公司,包括国内的大厂,海外的开源社区,学术界去花更多的精力去做 RL(强化学习),其实过去几年在大模型之前,RL 已经非常冷了,无论是 PhD 还是工业界、学术界,其实选择做 RL 方向的人已经很少了,这也是一部分的原因。

如果大家突然觉得这个事靠谱的话,很快大家都用算力,各方面人才就会逐渐地多起来。包括技术扩散也会慢慢地发生,但的确这个门槛要高得多。

颜水成:我原先做 RL 研究的时候,当时一个最大的问题,就是最前沿的算法,code base 都是基于 DeepMind 的 TPU 代码,基于 GPU 的实现当时比较缺乏。现在稍微好一些,很多东西基于 GPU 的东西已经多起来了。

汪华:我甚至觉得 Nvidia、微软都会试图去做这件事,然后甚至是开源他们的框架运营或者投认去做这方面的框架,因为对他们来说最重要的是把算力卖出去。

 

11「o1」之后,创业者的选择

张鹏:现在创业者经常在谈的一个话题是:技术发展太快,怎么能够随着技术水涨船高,而不是被水漫金山?换句话说,技术涨对我有利,而不要技术一涨我就变得没价值。「o1」出来之后,你会怎么回答这个问题?

颜水成:昆仑万维做大模型的方式还是以产品先行,目前大概有五六个产品,比如说像 AI 搜索、AI 音乐、AI 陪伴、AI 短剧创作和 AI 游戏,有这些具体的产品在前面做牵引,带动我们做基础模型的研发。有一些模型是通用的,有一些模型其实是垂域的,比如说音乐大模型就是垂域的。

我个人觉得,这一波「o1」出来之后,通用模型在原有的模型基础上,增加 RL + CoT 的方式,应该能把性能提升得更好,这肯定要做。

另外,可能更聚焦一些场景,比如精度优先会变得非常重要。举个例子,我们有一个产品是做 AI for research,在天工 APP 里面。有了 CoT 技术,它就能够帮助研究者去思考,在他的研究方向上指明哪一些课题可以探索,而是不是像以前只是给论文做总结、修改语法错误。

最近有人做了一个工作叫「AI scientist」,有了「o1」的这种范式,这种功能就有可能提炼出来了。因为以前是直接一次性生成的,结果是否具有创新性和可行性,不知道,它不能够做任何的分析,现在,在「o1」范式下,有可能把这件事情能做得更好。

图片来源:视觉中国

汪华:因为 o1 也刚刚出来,我也还在测试它的能力。对做模型的同学来说,看到「o1」心里可能会打鼓,但对做应用的同学来说,出了「o1」之后,只可能有增益,不可能有损失,因为又多了一个东西可以用。

另外,我觉得不被「水漫金山」的话,核心还是一点:我们是做 AI 应用的创业者,应用本身、场景本身是主语,AI 只是定语,「水漫金山」往往是把 AI 当主语,没有花很多时间深耕场景、需求和自身的禀赋、优势。

做应用还是场景优先,同时随时观测技术进展,可能没法像 Google 一样自己去开发技术栈,但实际上很多的事情是有迹可循的。哪怕是「o1」的发布,其实之前在 DeepMind 的研究里这条路径是有迹可循的。

在跟技术前沿保持沟通的同时,做重大的工程决策要特别谨慎,因为这跟当年做移动互联网应用不一样,移动互联网时代做应用时,所有的技术栈都是成熟的,关键是能不能找到一个场景的问题。只要找到场景,拉一个产品经理、拉一个工程师,几个大学生也能做出一个爆款应用出来。

坚持快速 PMF 的原则,尽量使用市场上现有的模型来快速完成 PMF,而不是用复杂的工程。如果一个简单的模型要加复杂工程才能做 PMF 的话,那还不如一开始用最贵的、最好的模型去做 PMF,因为 PMF 消耗不了多少 token。在一开始阶段能用 prompt 解决的,就不要用 SFT,能用 SFT 解决的就不要用后训练。不到万不得已,千万不要用针对模型的缺陷去做一个非常复杂的工程 pipeline(流程管道)的补丁去弥补当前的模型缺陷。

张鹏:要穿就穿新衣服,尽量少打补丁,如果真要打补丁,也不要打复杂的补丁,要打简洁的补丁,这可能在早期阶段就变得很重要。而且很重要一点,其实是你要解决的问题才是你的竞争力。只是围着技术非要找个场景落地,可能就本末倒置,思路一定要回到要解决的场景和问题上,这样「水涨船高」的可能性就更大。

 

展示量: 114

卖出68亿,「黑神话」成 Steam 最畅销游戏;魅族产「红旗手机」曝光;「AI Siri」明年 1 月到来;欧盟或对谷歌开出史上最大反垄断罚单,最高达 307 亿美元|极客早知道

古尔曼:Apple Intelligence 加持的全新苹果 Siri 有望明年 1 月到来

9 月 22 日,据彭博社记者马克・古尔曼最新发布的 Power On 时事通讯,经过彻底重构、具备 Apple Intelligence 的 Siri 有望比预期更早推出。虽然可能不是完整的体验,但一些功能可能会提前推出。

古尔曼提供了有关 Apple Intelligence 功能发布时间表的一些额外细节,其中包括一个有趣的新细节:一些新的 Siri 功能可能会在 iOS 18.3 中推出,而不是之前预期的 iOS 18.4。

古尔曼称:「iOS 18.4 将是 iOS 18.1 之后的最大更新,其中将包括许多新的 Siri 功能(我听说其中一些功能正考虑在 iOS 18.3 中推出)。」这意味着我们可能会在明年 1 月就能够体验到经过重新设计后的 Siri,因为 iOS x.3 版本的发布通常在 1 月,而 iOS x.4 版本的发布通常在 3 月。

iOS 18.1 将带来第一波 Apple Intelligence 功能,包括轻量级的 Siri 更新(新界面、更快的响应)、写作工具、照片清理和通知摘要。之后,iOS 18.2 预计将带来 Image Playground、Genmoji 以及 ChatGPT 集成。(来源:IT之家)

OpenAI 首款具备「推理」能力模型 o1 现已向企业 / 教育用户开放,每周最多使用 50 次

9 月 22 日,OpenAI 公司旗下首款具备「推理」能力的模型 o1 和 o1-mini 现已向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入 50 条消息。

据介绍,OpenAI o1 系列模型具有更高的理解能力,与传统模型不同,o1 系列模型在回答问题之前会进行深度思考,生成内在的思维链后再给出答案,因此系列模型能够处理比之前模型更复杂的任务,特别擅长解决科学、编程和数学领域的难题。

OpenAI 指出,尽管目前 GPT-4o 仍是大多数任务的最佳选择,但 o1 系列在处理复杂、问题解决导向的任务(如研究、策略、编程、数学和科学)方面表现更为优异。

然而,由于 o1 模型「会消耗更多的计算资源」,OpenAI 声称系列模型初期仅向 Plus / Team / Enterprise / Edu 用户限量开放,其中 o1 模型每周最多可使用 50 次,而 o1-mini 模型每天最多可使用 50 次。

而在 API 方面,相关模型访问权限价格较高,其中 o1 的输入词元(tokens)费用为每百万个成本 15 美元(当前约 107 元人民币),输出词元费用为每百万个 60 美元(当前约 427 元人民币),通过 API 调用时,o1 模型每分钟最多可调用 500 次,o1-mini 模型每分钟可调用 1000 次。(来源:IT之家)

 

欧盟或对谷歌开出史上最大反垄断罚单

9 月 22 日,据最新报道,谷歌的搜索业务可能再次面临欧盟的起诉。欧盟官员正在根据《数字市场法》(DMA)准备对谷歌进行起诉,原因是谷歌未能在搜索服务中突出显示竞争对手的产品,以解决欧盟对其垄断市场的担忧。如果谷歌未能满足欧盟委员会的要求,那么它可能会面临高达全球年收入 10% 的罚款。

此前,欧洲法院宣布维持下级法院作出的 24 亿欧元罚款裁决,该案件始于 2017 年,当时欧盟委员会认定谷歌违反了欧盟反垄断法,并对其处以高额罚款。这次罚款创下了反垄断罚款纪录。

谷歌的律师与欧盟委员会官员本周进行了闭门会谈,讨论可能的解决方案,包括在谷歌搜索标签中引入新设计,使用户可以选择其他搜索平台。然而,如果谷歌未能在规定的时间内满足欧盟的要求,那么它可能会在 10 月底之前公布初步调查结果,并预计在明年 3 月底之前迎来最终裁定。

这已经是谷歌在欧盟面临的第四起反垄断诉讼了,之前的三起案件已经导致谷歌被罚款总计高达 82.5 亿欧元。(来源:中关村在线)

 

消息称微软每年支付 10 亿美元为 XGP 阵容引入第三方游戏

9 月 22 日,彭博社昨日发布了一份关于微软与 Xbox 现状的综合性报告,其中透露微软每年投入 10 亿美元(当前约 70.51 亿元人民币)将第三方游戏引入 Xbox Game Pass 服务。

据悉,微软为了吸引更多发行商加入 Game Pass 据称「每年为发行商提供数百万美元的预付款」,并分享部分订阅收入,同时承诺「为这些游戏带来难得的曝光机会」,每年微软在引入第三方游戏到 Game Pass 上的投入总和据称高达 10 亿美元。

彭博社同时提到,Xbox Game Pass 现在已经成为了微软沉重的财政负担,但微软依然在不遗余力地推行相关服务。虽然来 Game Pass 订阅价格有所上涨。不过该服务依然在全球玩家中的影响力持续提升,下月的《使命召唤:黑色行动 6》也将为服务订阅量增光添彩。(来源:IT之家)

号称「全民仅退款」电商平台京淘淘被曝「跑路卷走 20 亿」,客服否认称「正排查恶意刷单套现」

9 月 22 日,据「南方都市报」报道,有用户在社交平台发帖称,一款号称「全民仅退款」的电商软件京淘淘疑似「卷款跑路」,仅退款模式或为「庞氏骗局」,引发外界关注。

据网友「梁湘」9 月 18 日发帖,京淘淘购物 App 上线喊出了「全民仅退款」的口号,众多「羊毛党」们就冲进去尝试着购入再申请仅退款,「平台真的退了,而且还给补偿」。平台支持介绍新用户进来,还要给佣金的模式瞬间在羊毛党圈里传开。「然而,等主力人群进入下单收货申请仅退款后,系统显示 30 天后到账,也就是这两天,平台突然跑路了,据称卷走了 20 个亿」。

对于「庞氏骗局」、「卷款跑路」等说法,南方都市报记者 9 月 20 日询问京淘淘平台客服,对方回复没有跑路,「平台发现有用户利用平台活动恶意刷单套现,目前风控部门正在逐单排查」。

对于普通用户的订单是否会受到影响?「仅退款」功能能否正常使用?该客服称,目前风控正在排查风险账户,排查完毕后没有问题的订单会逐步安排退款。但客服并未回应具体退款时间。App 首页则显示,「如全民仅退款订单超 15 天仍未处理,请联系平台客服协助。」(来源:IT之家)

 

微软亚洲研究院牵手「600 号」,用人工智能干预阿尔茨海默症治疗

9 月 22 日据媒体报道,微软研究院与上海市精神卫生中心(俗称「600 号」)携手展开联合研究,基于微软 Azure OpenAI 服务中的多模态大模型,开发了个性化认知训练框架「忆我」(ReMe),扩展了自动化认知训练的训练范围,为数字化认知训练提供了新方法,有望帮助延缓认知下降。

当前,临床认知训练主要依赖人工或软件驱动的数字疗法,但这些方法存在成本高、缺乏个性化和互动性等问题。

微软亚洲研究院开发的「忆我」框架则通过文字、图像、语音等多种模态的输入输出,提供更全面的认知训练方法,使训练更贴近患者的日常生活。

「忆我」框架通过手机或可穿戴设备上传个人记忆内容,然后进行个性化的情景记忆或世界知识训练。

此外,该工具还包括交互式评估,以追踪患者认知水平,并根据需要调整训练任务。

微软亚洲研究院副院长邱锂力表示,该研究计划针对早期阿尔茨海默病患者,并期望能尽快进入临床应用。同时,微软亚洲研究院也在尝试基于可穿戴设备和无线感知技术记录日常生活中的重要节点和事件,促进更便捷的个性化个人记忆训练。(来源:第一财经)

 

超越《幻兽帕鲁》:机构数据显示《黑神话:悟空》已成今年最畅销 Steam 游戏

9 月 22 日,国产 3A 大作《黑神话:悟空》发售后受到了广大玩家的高度评价,销量也随之节节攀升,仅在 Steam 平台上的销量就已突破 2000 万份,成绩斐然。

国外数据分析公司 VG Insights 在 X 平台上发布消息称,《黑神话:悟空》已经超越了今年年初大热的《幻兽帕鲁》,成为今年 Steam 平台上最畅销的游戏。

VG Insights 给出的数据显示,当前《黑神话:悟空》在 Steam 平台的预估销量已超过 2030 万份,总收入突破了 9.722 亿美元(当前约 68.55 亿元人民币)。(来源:IT之家)

长安启源 E07 开启预售:SUV 和皮卡相结合,24.99 万元起

9 月 22 日,长安启源 E07 正式开启预售,预售价区间为 24.99 万元至 31.99 万元,并为前 10000 名用户提供价值 6.6 万元的预售权益。启源 E07 基于 SDA 架构打造,新车将 SUV 和皮卡设计结合在一起,提供纯电及增程两种动力形式。

外观设计方面,长安启源 E07 官方称之为「可变形数数智新汽车」,车头配备 C 字形 LED 灯组和全封闭式面板,车顶行李架、半封闭式轮辋和隐藏式门把手等设计元素增添了整车的现代感,尾灯在点亮后呈现环形贯穿式效果。

E07 的车身尺寸为 5045/1996/1695 毫米,轴距为 3120 毫米,采用 5 座设计,提供 20 英寸和 21 英寸轮辋。后备厢设计为封闭式空间,但可电动开启至开放式,并配备电动平翻式尾门。

智能驾驶方面,E07 配备 L2 + 级智驾辅助功能,新车还拥有智慧陪伴功能,是全球首款搭载车载卫星通讯的新车。该车可以选装 200 个主动交互场景,可以升级或者加装 1000 + 项的服务化接口。

悬架系统方面,E07 提供智能魔毯悬架技术,由空气弹簧和 CDC 智算电控系统动态调整,根据路况和驾驶模式自动调节悬架刚度和高度。

高配车型提供 NAPPA 真皮双「零重力」座椅,支持语音控制座椅调节,配备 9 个安全气囊、18 个立体环绕式扬声器、256 色柔光氛围灯、无级调节混合香氛系统、电吸门以及后排车载 3D-PAD 等。(来源:IT之家)

 

红旗手机真机上手来了:定制 UI 机身标志性红线别具一格

9 月 22 日,今年 8 月,一款型号为 M481R 的 5G 数字移动电话机入网,申请单位和生产企业均为珠海市魅族科技有限公司,彼时,多方消息称该机为红旗手机。

日前,红旗手机真机首次曝光,从上手视频来看,该机采用超大镜头 Deco,后盖加入红旗汽车标志性的红色线条设计,十分吸睛。另外,新机系统 UI 也进行了深度定制,提供红旗智联等应用。

值得一提的是,机身上的标签显示型号为 M481R,且生产企业也为珠海市魅族科技有限公司,与 8 月入网的机型一致。(来源:快科技)

 

全新 GoPro HERO 入门运动相机国行开售:86 克重量、4K 30FPS 视频,1698 元

9 月 22 日,GoPro 在 9 月 4 日推出了一款定位入门级的「全新 GoPro HERO」运动相机,这款运动相机重量仅为 86 克(包含安装接头),同时具备 5 米防水功能,国行售价 1698 元,将于今晚 8 点现货开售。

Hero 配备了 LCD 触摸屏,内置 12MP 传感器,至高能够拍摄 4K@30FPS 视频或 2.7K@60FPS 慢动作视频以及 12MP 像素的照片。此外,用户还可以通过 Quik 应用从 4K 视频中提取 8MP 的静态图像。

GoPro 表示,全新 HERO 运动相机的视频画面比例为 16:9,非常适合上传到在线视频平台。Quik 应用内置的 HyperSmooth 视频稳定功能能够自动消除抖动,让视频画面更加平稳流畅。在最高视频质量设置下,HERO 一次充电可持续录制长达 100 分钟。(来源:IT之家)

自然指数:AI 研究产出增长最多的 10 家机构有 6 家来自中国 

9 月 22 日,据新近发表的英国《自然》增刊 「自然指数 2024 人工智能(AI)」 显示,2019 年至 2023 年,自然指数中 AI 研究产出增长最多的 10 家机构有 6 家来自中国。” 自然指数 2024AI” 显示了近年该领域令人惊叹的增长速度,以及 AI 研究的主要贡献者。

数据显示,发表在自然指数期刊上的 AI 研究快速增长。2019 年到 2023 年,美国 AI 研究的份额几乎翻了一番,同期中国 AI 研究的份额则增长了五倍多。到 2023 年,美国在 AI 研究上仍居于首位,其他位列前五的国家为中国、德国、英国和法国,但中国和美国之间的差距正在迅速缩小。(来源:新华社)

 

展示量: 95

前苹果设计师 Jony Ive 证实为 OpenAI 开发硬件;长城汽车加入华为鸿蒙生态;X 平台推原创剧

前苹果设计总监 Jony Ive 确认正与 OpenAI 开发一款新设备,iPhone 元老级人物加盟

 9 月 22 日消息,今年 4 月曾有消息称,OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)携手前苹果设计总监乔纳森・伊夫(Jony Ive),联合设计面向个人的 AI 硬件,目前正寻求外部投资。

对此,伊夫本人在纽约时报 9 月 21 日的一篇文章中证实了这一点。

报道称,伊夫是通过 Airbnb 的首席执行官 Brian Chesky 认识阿尔特曼的,该项目则由伊夫和劳伦娜・鲍威尔・乔布斯(乔布斯遗孀)的公司 Emerson Collective 资助。

报道提到,到今年年底,该新公司可能会筹集 10 亿美元(当前约 70.55 亿元人民币)的资金,但报道没有提到软银首席执行官孙正义,去年曾有传言称孙正义向该项目投资 10 亿美元。

该项目目前只有 10 名员工,但其中包括 Tang Tan 和 Evans Hankey,他们是与伊夫一起开发 iPhone 的两个关键人物。至于产品本身是什么,去年有传言说它的灵感来自触摸屏技术和初代 iPhone,不过这一消息暂未证实。(来源:IT 之家)

SpaceX 预告「星际飞船」第五次试验将尝试实现塔架接力

太空探索技术公司(SpaceX)正在德克萨斯州继续为「星际飞船 5 号」飞行做准备,同时等待美国联邦航空局(FAA)的批准,最早应在 11 月下旬获得批准。

在测试了发射塔接力臂后,该公司不久前分享说,它在发射塔上抬起了 232 英尺高的超重型助推器,以模拟塔架接力尝试。

塔架接力是星际飞船快速重复使用的关键,而这次助推器提升是 SpaceX 首次在测试中将巨大的火箭提升到接力所需的全部高度。(来源:cnBeta)

 

高通公司将根据「多元化战略」裁员数百人

芯片制造商高通公司(Qualcomm)预计将在今年晚些时候裁员,因为该公司正在进行业务和资源的”战略转移”。这使得高通公司成为裁员潮中的新「巨头」,仅今年就解雇了 1000 多名员工。

科技行业正经历着财务业绩方面的困难时期,特别是由于全球市场目前的定位以及消费者的兴趣并不在最佳状态。根据本周发布的一份加州 WARN 通知,高通公司将解雇圣地亚哥的 226 名员工,其中也包括公司总部的人员。

据悉,此次裁员将影响圣地亚哥的 16 个不同设施,但该公司尚未透露受影响的具体部门。

以下是该公司代表发布的对裁员决定的回应,「我们领先的技术和产品组合为我们实施多元化战略奠定了基础。作为正常业务流程的一部分,我们对投资、资源和人才进行优先排序和调整,以确保我们处于最佳位置,能够利用我们面前前所未有的多元化机遇。」(来源:cnBeta)

 

OpenAI 朝 AI 第 3 阶段迈进,正招募人才组建「多智能体」团队

9 月 21 日消息,OpenAI 在发布 o1 AI 模型之后,下一步会怎么走?该公司研究员诺姆・布朗(Noam Brown)在 X 平台给出了答案,组建「多智能体」multi-agent 研究团队。

根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的「推理者」(reasoners),而开发 multi-agent 符合第三阶段的目标要求。

OpenAI 和布朗认为 multi-agent 系统是提高人工智能能力的必经之路。布朗在 X 上表示:「我们认为 multi-agent 是通往更好的人工智能推理的道路」。(来源:IT 之家)

 

长城汽车与华为在营销数智化领域达成全面合作,首批拥抱鸿蒙生态

9 月 22 日消息,据长城汽车消息,2024 年 9 月 20 日,在上海举办的 2024 华为全连接大会上,长城汽车与华为签署营销数智化全面合作协议。

双方的此次合作,旨在围绕长城汽车用户营销域全场景体验旅程,借助华为在云服务、AI、智能联接与交互等方面的技术,在「营销市场洞察、广告公域投放、用户互动交流、售后服务、用车服务、市场生态服务」等重点领域展开深度合作,推进长城汽车营销数智化转型,支撑长城汽车全球业务增长。

与此同时,聚合长城汽车旗下哈弗、魏牌、坦克、欧拉、长城皮卡五品牌车型、服务、用户业务的全新「长城汽车 App」上架鸿蒙应用市场,标志着长城汽车成为首批拥抱鸿蒙生态的主机厂之一。(来源:IT 之家)

TikTok 改组领导层,全球营销主管凯特・贾维里将离职

根据 TikTok 发给员工的内部备忘录,该短视频应用进行了领导层改组,全球营销主管凯特・贾维里 (Kate Jhaveri) 将于本月离开公司。

备忘录显示,TikTok 正在逐步取消贾维里的职位。从下周一开始,TikTok 全球品牌和传播部门的所有员工将只向泽尼娅・穆查 (Zenia Mucha) 汇报工作。

穆查在备忘录中称:「我和贾维里一直在讨论我们的营销策略以及如何最好地构建营销职能,以打造一个更具凝聚力的组织,从而更好地满足业务需求以及跨职能合作伙伴的需求。我们共同决定,实现这一愿景的最佳方式是取消全球营销主管的职位,并将全球品牌与传播部门的所有员工置于一个领导者之下。」(来源:IT 之家)

 

马斯克 X 平台打造类 TikTok 滚动体验,10 月开播原创节目《The Offseason》

科技媒体 The Verge 昨日发布博文,披露了一份来自 X 平台的电子邮件,其中该公司首席执行官琳达・雅卡里诺(Linda Yaccarino)推出新的「视频标签」(video tab)功能。

援引消息源透露,该功能类似于 TikTok 风格的无尽滚动,并含有 X 原创节目。

首个原创真人秀节目名为《The Offseason》,由足球明星米奇・珀斯(Midge Purce)主持,投资人亚历克西斯・奥哈尼安(Alexis Ohanian)担任制片人。

消息称《The Offseason》将于 10 月 18 日上线首播。

X 一直在与像 MrBeast 这样的创作者和 Don Lemon 这样的名人达成内容协议,旨在加强其在视频领域的支点地位,并挑战 YouTube 作为视频托管平台的地位。(来源:IT 之家)

 

「前华人首富」、币安创始人赵长鹏确认即将出狱

美国联邦监狱局(Bureauof Prisons)官网消息,赵长鹏当前的位置更新为位于加利福尼亚州中部的长滩居住地重返社会管理局(ResidentialReentry Management,RRM)。这意味着他正接受重返社会前的准备和评估。如果一切正常,他将在 9 月 29 日重返社会。(来源:证券时报)

零刻 SER9 迷你主机海外发布:搭载 AMD 锐龙 AI 9 HX 370 处理器,性能释放达 65W

零刻 SER9 迷你主机已经率先在海外发布,32GB 内存 + 1TB 固态硬盘版本定价 999 美元(当前约 7048 元人民币)。

这款迷你主机搭载了 AMD 新一代 Strix Point 系列 Ryzen AI 9 HX 370 APU,性能释放高达 65W(官方 TDP 范围 15W 至 54W),板载 LPDDR5x-7500 内存,提供两个 PCIe 4.0×4 的 M.2 2280 插槽。

它采用了 MSC 2.0 热处理技术,零刻承诺这款主机在 65W 的模式下可提供「近乎静音」的体验,噪音水平不超过 32 dB。

其他方面,这款机型内置双扬声器,配备 AI 阵列麦克风,提供 RJ45、HDMI 2.1、DP1.4 和 USB4(DP1.3 / 雷电 3)等接口,没有 OCuLink。(来源:IT 之家)

 

夏普发布 AI Smart Link 可穿戴设备:挂在脖子上的 AI 助手,支持自然语言沟通

在 9 月 17~18 日举行的夏普科技日活动上,夏普宣布与日本京都艺术大学合作,共同开发了一款可实现与生成式 AI 自然沟通的可穿戴设备—— AI Smart Link。

使用者只需将设备挂在脖子上就能通过语音与 AI 自然沟通的产品。对于使用者的询问,该设备会通过内置麦克风和摄像头了解周围环境,然后以语音进行回应。

例如,用户在骑自行车时,AI 就能以语音帮助用户导航到目的地;该设备还可用于烹饪指导或通过语音操作智能家电设备等。

AI Smart Link 搭载了夏普正在开发的边缘 AI 技术「CE- LLM(Communication Edge- LLM)」。该技术能够即时判断并处理使用者的询问,支持快速回应的端侧 AI,以及能获得丰富信息的云端 AI(如 ChatGPT)。此外,该设备采用约 100 克的轻量化颈挂式设计,使用者可以长时间佩戴使用。(来源:IT 之家)

 

全球首个,我国发布百亿级遥感解译基础模型「空天・灵眸」3.0 版

据综合新华社、《中国科学报》消息,在昨日举行的第一节空天信息技术大会上,中国科学院空天信息创新研究院(下文简称「空天院」)宣布,该院付琨研究员团队联合鹏城实验室自主研制的、全球首个百亿参数级空天一体遥感解译基础模型 ——「空天・灵眸」3.0 版正式发布。

「空天・灵眸」3.0 版可为天临空地一体化应用提供一套行之有效的解决方案。据报道,今年 3 月起,研究团队与鹏城实验室深度合作,基于中国算力网「鹏城云脑 II」枢纽节点,采用 512 张昇腾 910 显卡,历时数月攻关完成了在 4 亿张国产化多模态空天遥感数据样本上的预训练,基础模型参数规模首超百亿。

据空天院研究员孙显介绍,若将基础模型看作机器人,参数就相当于它的「记忆细胞」和「知识细胞」。参数规模越大,就能捕捉、记忆和处理更复杂的信息,从而更加准确、精细地完成更困难、更复杂的任务。

「空天・灵眸」3.0 版采用基于热传导的工作架构,可大幅提升学习及推理速度,计算速度较传统模型提升幅度超过 2.4 倍。

该模型目前已表现出极为优秀的泛化解译性能,在可见光、合成孔径雷达、热红外、多光谱等多传感器卫星数据基础上,拓展至航空遥感飞机、无人机等不同航空平台观测数据的自动化、高精度解译处理。(来源:IT 之家)

 

展示量: 109

余承东:华为将推出鸿蒙笔记本;传高通有意收购英特尔;《黑神话:悟空》销量已超2000万份

余承东:华为将发布鸿蒙操作系统笔记本电脑,搭载 Windows 的目前将是最后一批

9月20日消息,余承东今天在央视直播间表示,目前的华为 PC 将是最后一批搭载Windows的笔记本。

直播期间,余承东透露称,「由于制裁相关影响,目前的华为PC或将是最后一批搭载 Windows 系统的笔记本电脑,后续将会有鸿蒙系统的 PC 产品。」

其实在这之前,就曾有网友喊话:「余总快把鸿蒙PC端上来吧,西方的x86始终是靠不住的。鸿蒙PC把写代码,剪辑这些功能做好,相信会有很多受众的。」

此前,深圳开鸿数字产业发展有限公司CEO王成录在微博表示,期待用三年时间,把鸿蒙操作系统理论体系系统、全面建立起来。有网友在该微博评论区询问,今年能买到鸿蒙PC吗?王成录回答「会有的」。

目前,鸿蒙PC版界面已经现身华为开发者官网,采用了与Mac类似的方案,状态栏置顶、Dock 栏置底,可以放置常用功能和应用,相比于Windows来说更方便、美观。

值得注意的是,图中还显示鸿蒙PC版的应用将与手机、平板上保持统一,整个生态的体验会非常协调,也与苹果比较相似。(来源:快科技)

高通有意收购英特尔,或将成为有史以来最大规模科技并购案

华尔街日报今天(9 月 21 日)发布博文,报道称高通公司有意收购英特尔公司,而且最近几天接触了芯片制造商英特尔公司。报道称,这笔交易并非板上钉钉,英特尔目前尚未同意任何此类提议。

受该消息影响,英特尔股价收盘上涨 3.3%,而高通下跌 2.9%。高通公司的市值为 1881 亿美元(IT之家备注:当前约 1.33 万亿元人民币),约为英特尔(931 亿美元)的两倍。

随后 CNBC 从其它渠道再次确认了这条消息,但目前并不确认双方磋商细节,也不清楚对话的条件是什么。

如果这笔交易得以实现,将成为有史以来最大的科技合并案之一。

英特尔曾经是世界上最大的芯片制造商,但多年来一直在走下坡路,2024 年更是加速下滑。

8 月份,英特尔公布了令人失望的财报,股价创下 50 多年来最大单日跌幅,由于投资者对该公司成本高昂的芯片制造和设计计划表示怀疑,英特尔股价今年下跌了 53%。

目前,二手平台已出现「高价收购」华为 Mate XT 非凡大师三折叠手机的「用户」,加价基本在 1.5 万元左右。(来源:IT 之家)。

赛力斯:115 亿元入股华为引望

9 月 20 日消息,赛力斯在今晚披露《重大资产购买报告书(草案)》。

据 IT 之家报道,8 月 25 日,赛力斯发布公告,公司全资子公司赛力斯汽车拟以支付现金的方式购买华为技术有限公司持有的深圳引望智能技术有限公司 10.00% 股权,交易价格为 115 亿元。

2024 年 1 月 10 日,华为技术签署了《深圳引望智能技术有限公司章程》,设立深圳引望。深圳引望设立时的注册资本为 10 亿元,华为技术持有深圳引望 100% 的股权。

赛力斯表示,针对本次交易对价的支付已作出充足稳健的筹资安排。本次交易资金来源为自筹资金,包括但不限于通过赛力斯汽车经营所得自有资金、股东增资等股权融资方式、银行贷款或其它方式解决。

赛力斯目前已积极稳健推进资金筹措工作,自筹资金来源充足,可以有效保障本次交易对价的支付,不会对上市公司财务状况产生重大不利影响。(来源:IT 之家)

消息称英伟达自上月开始不接 H20 芯片订单,但无明文通知

9 月 20 日消息,财联社援引业内消息称,部分厂商已无法下单英伟达 H20 芯片。一位产业链人士表示,「英伟达上月开始不接 H20 订单,但没有明文通知。」另一 AI 厂商人士亦表示,「英伟达不接部分厂商 H20 订单的情况,近期确实存在。」

包括互联网厂商、大模型厂商、芯片供应商在内的多位产业链人士表示,一直有听到 H20 将停售的消息,但英伟达方面还在争取。但同时也有多家厂商反馈称,近期仍有 H20 大批到货,年内到货已超出了全年约 40 万颗的出货预期。

截至发稿,英伟达方面仍未回应此事。据IT之家此前报道,英伟达 H20 性能约为 H100 的六分之一,但价格并未显著降低,因此性价比并不高。H20 是英伟达针对中国市场推出的「特供」版本,目的是符合美国的出口管制新规。

根据 SemiAnalysis 分析,H20、L20 和 L2 包含英伟达大部分用于 AI 工作的功能特性,但为了遵守新规则,这三款新品在算力方面有所削减;不过在 LLM 推理中依然要比 H100 快 20% 以上。

谈及苹果的 AI 路径,赵明认为,「苹果的 AI 解决方案会让整个行业更清醒一点,如果手机厂商只是集成了诸如第三方 AI 翻译之类的功能,不能称它为一个 AI 手机。真正的 AI 手机,应具备如 AI Agent 这样意图识别的人机交互能力,这才是端侧 AI 的核心价值所在,(做 AI 手机)想像快餐一样,反倒是适得其反」。(来源:IT 之家)

销量下滑 大众汽车中国拟在集团层面裁员数百人

知情人士透露,大众汽车中国在集团层面的减员数量将达到数百人,因该公司在这个最大的市场无法止住销量的持续下滑。不愿公开身份的知情人士称,大众的高端品牌奥迪也在单独裁员。

大众汽车回应彭博新闻称,此举是其全球范围内降低成本努力的组成部分但拒绝透露具体的裁员人数。该公司8月曾重申截至2026年底的节流目标。

大众汽车集团(中国)将「为此做出重大贡献,」 该公司在电子邮件中表示。此外它称优化措施「可能还包括直接和间接的人力成本」,诸如行政、差旅和培训等。大众说流程还在进行之中,目前给出具体数字为时过早。

中国消费的低迷加上市场迅速转向电动汽车使大众汽车的主战场变成了软肋。该公司8月将第二季经营毛利的下降部分归咎于中国放缓。大众汽车上半年在大陆的交付量因来自比亚迪等本土制造商的激烈竞争下降了7.4%,和2019年相比更是大幅减少24%。

 

在德国大本营,大众汽车也在考虑首次关厂。集团首席执行官Oliver Blume表示,随着新车商挺进欧洲市场,环境正变得愈发艰难。

中国的裁员工作由当地业务负责人Ralf Brandstaetter(贝瑞德)牵头并将分阶段进行。知情人士说,北京最近提高退休年龄的举动促使大众汽车重新评估其人事水平并加快了裁员计划的实施。

知情人士还表示,一些员工本周早些时候被告知了这一计划。他们说一些外籍员工将被调回德国,而一些中高层管理人员将被解职。

该公司表示措施包括结构重组、流程数字化、精简运营和对一些任务进行本地化。

知情人士透露,员工超过700人的奥迪中国事业将严重影响。

梅赛德斯-奔驰集团周五发布盈利预警,称中国业务因宏观经济环境迅速恶化。

此外,大众汽车与上汽集团成立了四十年的合资企业正准备最早于明年关闭一家在南京的工厂。上汽大众上海一工厂已于两年前停产。知情人士对彭博新闻表示,第二家工厂已经减产,可能也会关闭或进行整改。(来源:CnBeta)

苹果 iPhone 16 Pro 手机「黄牛拒收」,Max 机型「最高加价 700 元」

9 月 20 日消息,苹果 iPhone 16 / Pro 系列手机于今天正式开售,尽管此前 iPhone16 预售时,不少网友称 Pro Max 系列「秒空」,很难约到首日发货,但从发售当天黄牛加价情况来看,溢价并不高。

据媒体澎湃新闻报道,多名黄牛称 iPhone 16 Pro Max 手机「最高加价也就 700-800 元之间」,而 Pro 机型则「拒收」,黄牛们称「今年有点难做,就金色是新颜色(卖得)还行,但收价最多加 400 块。256G 的最好卖,1TB 的不要,卖不出去。」

当澎湃新闻记者提出要收购手机,一位黄牛表示,手上金色和银色的 256G Pro Max 机型在原价基础上加 800 元。不过,在讨价还价后,价格被降到了加 600 元。

记者发现,黄牛们都默认收 Pro Max,拒绝收 16 Pro。有黄牛表示:「Pro 加 50 自用可以,卖不出去,等下午就要跌价倒贴了。」还有黄牛感慨:「去年还有加 800 块的,今年根本没了。就金色还行,和去年的蓝色是一个概念。」(来源:IT 之家)

电动自行车国标再修订:最高时速超25km/h后电机断电

9月19日消息,据央视网报道,工信部、公安部等多部门,开展强制性国家标准《电动自行车安全技术规范》(GB 17761—2018)修订工作,并下发《电动自行车安全技术规范(征求意见稿)》。

与现行标准相比,本次征求意见稿主要有以下几方面的改进和提升:

一是提高防火阻燃性能。完善了电动自行车所用非金属材料的阻燃要求和试验方法,限制塑料件使用比例,从而降低火灾风险、提高消防安全性能;

同时要求整车编码应采用耐高温永久性标识,便于加强全链条监管和火灾事故溯源调查处理。

二是更好保障消费者骑行安全。优化了电动机额定功率和最高转速的测试方法,有效防范车辆超速行驶;同时加严制动距离要求,减少碰撞事故发生。

其中,限速要求电动自行车最高设计车速不得超过25 km/h,超过25km/h时速后,电机应该断电。

三是满足消费者日常出行需求。考虑到近年来消费者出行半径逐渐扩大和铅蓄电池能量密度较低的特点,将铅蓄电池车型的整车重量限值由55 kg放宽至63 kg,提升产品实用性;允许生产企业根据车型设计需要,自行决定是否安装脚踏骑行装置,有利于节约生产成本,也为消费者提供更多车型选择。

四是防范非法改装行为。从电池组、控制器、限速器三个方面完善防篡改要求,确保实现充电器、蓄电池、控制器之间的互认协同,大力推行「一车一池一充一码」,不给非法篡改留空间。

五是推动行业高质量发展。增加对电动自行车企业生产装备和检测能力的要求,推动企业提升质量保证能力和产品一致性;要求车辆具备北斗定位和动态安全监测功能,提高产品信息化水平和安全风险防范能力。(来源:央视网)

 

《黑神话:悟空》销量已超2000万份,总收入超67亿元

国外数据分析公司VG Insights的最新数据显示,国产3A游戏《黑神话:悟空》在Steam平台上的销量已经达到了2000万份,同时该游戏的总收入超过9.61亿美元(约合人民币逾67.9亿元)。其发行平台不仅仅有Steam平台,还包括WeGame、PlayStation、Epic Games Store平台。华泰证券预测,这款游戏的全年销量有望达3000万-4000万份 (对应流水100亿-140亿)(来源:财联社)

三星 Galaxy Ring 将增加推出两款额外尺码

9 月 20 日消息,爆料人 Max Jambor 今天下午在 X(推特)上发文称,三星 Galaxy Ring 智能戒指将在未来数周内推出 14、15 两种额外尺寸(Ring 尺码)。

目前,三星 Galaxy Ring 提供 9 种戒指尺寸,分别对应美国 Ring 尺码的 5、6、7、8、9、10、11、12、13 号。IT之家附尺码对照表:

国行版三星 Galaxy Ring 智能戒指已经于 7 月开售,支持心率、体温监测,售价 2999 元。

该智能戒指采用钛金属边框,提供钛黑、钛银和钛金三种配色可选。戒指支持健康监测、10 ATM 防水等级、IP68 级防尘防水。其采用轻量化设计,根据不同用户的手指尺寸提供 9 种不同尺寸版本,重量约 2.3g~3g。

Galaxy Ring 的电池容量在 14.5mAh~21.5mAh 之间,充电盒为 361mAh,40 分钟可充 30% 的电量,满电状态可连续使用 7 天。此外,其内置健康传感器,可以监测心率、压力水平、身体和皮肤温度等健康指标,还支持通过监测信息预测女性生理周期和排卵期。(来源:IT 之家)

拆解测试证实 iPhone 16 Pro 系列的钢壳电池有更好散热性能

测试机构 Rewa Technology 在首发当日对 iPhone 16 Pro 系列进行了拆解测试,拆解结果表明,苹果公司在iPhone 16 Pro 中使用了新的金属电池外壳,该机型还受益于底盘的变化,这将有助于设备内部的热管理。

 

发现的第一个变化是电池,正如传闻所说,它采用了闪亮的钢制外壳,并贴有胶垫。这与以前的电池外壳不同,与前几代产品相比,这有助于增强散热。

视频中称金属电池外壳只限于 iPhone 16 Pro 机型。

TrueDepth 摄像头组件的结构与iPhone 15 Pro相似,只是由于线缆的排列方式不同,所以尺寸更小。后置摄像头组件更大,部分原因是长焦摄像头的元件更大。

iPhone 16 Pro 内部使用的主板也比上一代产品更小,采用了新的更密集的排列方式。新机型的保护盖更大,这可能也有助于散热。

显示屏的物理尺寸比旧机型更大,但边框也更薄,屏幕边框更小。相机控制按钮是机壳上的新设计,是一个激光焊接在机壳上的不可拆卸元件。(来源:CnBeta)

下周开始地球将短暂迎来「第二个月亮」 持续约 57 天

从下周末开始,地球将迎来一个公交车大小的「临时迷你月亮」,在我们头顶上环绕接近两个月的时间。科学家们的研究显示,一颗来自阿尔朱娜(Arjuna)小行星带的小行星2024 PT5将来到地球附近,并被地球的引力吸引。在9月29日至11月25日期间成为一颗临时的“迷你月亮”,然后返回它围绕太阳的正常轨道。

(研究论文,来源:英国物理学会)
当然,由于这个「迷你月亮」的长度只有33英尺(10米左右),而且距离地球的最近距离也要比月球远5倍,所以人类得借助专业望远镜才能亲眼见到这个远道而来的客人。

顺便一提,2024 PT5是在今年8月刚被“小行星地球撞击最后警报”(ATLAS)系统发现的。这个预警系统每天晚上会多次扫描天空,寻找可疑的移动物体。

研究人员表示,这个小行星将在未来两个月里围绕地球形成“马蹄形轨迹”,后续会在地球附近待到明年1月。这次短暂的偶遇后,地球人至少得要到2055年才能再次见到它。

马里兰大学天文学教授德里克·理查德森(Derek Richardson)表示,类似的情况在1991年和2022年曾被研究人员发现过,但实际发生的次数可能会更多一些,只是探测难度比较大。

理查德森教授解释称,要出现类似事件需要有许多物理条件配合,例如小行星需要以接近2200英里/每小时的相对较慢速度接近地球。小一点的物体更容易被地球引力捕捉,但更难用肉眼或望远镜观测到,现在ATLAS这样的先进仪器正在填补这些空白。

当然,由于有太阳系的主宰——太阳存在,这颗小行星最终会回归到原先的轨道中去。理查德森教授解释称,要让它成为永久的“第二月亮”,这个天体得失去更多的速度,例如有另一个巨大天体对它施加引力,或者某种摩擦力来实现。

展示量: 89

售价高达 100 万的 AI 产品,有钱人排队求买,为什么?

从帝王将相到亿万富豪,永生一直是掌握权力和财富的人类金字塔尖阶层的执念。过去他们把财富投入到虚无缥缈的寻仙问道,以及延年益寿的生物科技,而随着AI的出现,赛博永生引起了富豪们的兴趣。

近日,笔者接触了石榴科技创始人Frank,他做了一款未来有望实现「数字永生」的产品——从记忆承载-思想复刻-意识上传-最后到数字永生,高达100万的售价,却已有10多位70岁以上的香港富豪为之买单。

这款名为「意识永藏」的产品,通过定制个人化小模型,可以将一个人的记忆、经历和生活故事转化为数字化的个人记忆博物馆。这个博物馆不仅仅是一个静态的展示,而是一个动态的、互动的、并且能够随着时间不断更新和扩展的个人历史档案。

在具体的产品交付上,「意识永藏」有三方面的内容,包括个人的记忆库、基于个人记忆数据训练得出的个人分身小模型以及一个数字形象或者个人传记的外化效果呈现;在交付形式上,项目采用本地部署方式,将交互系统集成到用户的电脑中(系统包含一个数据库和一个小型AI模型),形成一个网页形态的个人化产品。

就是这个看起来并不复杂的产品,为什么能让精明的香港富豪豪掷百万?Frank给我们讲了讲背后的故事。

 

数字永生——用AI传承家族记忆

 

「意识永藏」这个项目,最初来自Frank一个朋友的执念。

朋友是福建闽南人,是对家族记忆传承,对家谱、对祠堂有一些执念在的,有次闲聊中朋友找到Frank,问他能不能用 AI 的方式把家族记忆比较好地留存下来,最好能超越传统纪录片、传记或家谱的局限,实现将家族记忆像刻在石头上一样永久保存的方式,「实现一种数字化的永恒」。

Frank之前和团队做过虚拟陪伴类产品,相当于 agent 平台,他想到可以朋友的执念可以通过类似思路实现,只不过是更加个性化,即个人记忆库+小模型。

大概思路定下来了,接着就是具体操作。首先是采集信息,接着是调试定制模型,最后是效果外化。

信息采集是项目的基础环节,分为线下访谈和线上全天候数据收集。

线下部分,通过八次面对面访谈,团队对用户进行详细的问询,拍照记录,并通过对细节的严格把控,深入了解用户的需求和个性化习惯。通过这种面对面的沟通,尽量确保采集数据的准确性和真实性。

线上部分则通过全天候的数据收集工具实现。团队为用户设计了一个包含268个问题的题库,日常可以通过智能耳机进行录音。当耳机提示时,用户只需轻声回答问题即可。

这种线上线下相结合的采集方式,保证了信息的丰富性和多样性,为后续模型的调试提供了坚实的数据基础。

在信息采集后,团队会根据每位用户的需求,调整和优化AI模型的个性化配置。调试不仅仅是对模型的技术调优,更是对用户行为和习惯的深度匹配。

最后的效果外化即产品交付上,可以理解为属于用户的本地部署版的专属ChatGPT,譬如「某某GPT」。

从信息采集到产品交付包括后续服务,「意识永藏」的项目周期长达十年。在项目初期,团队一度低估了实现个人记忆复刻的复杂性,本来以为三个月或一年时间就能完成。

随着项目推进,团队逐渐意识到,要做到对思想的复刻、意识的上传,甚至是基础的个人记忆还原,远非短期内能够实现,就像传记作家撰写人物传记一样,往往需要数年的深入采访和跟踪。所以后来团队决定将服务周期延展至十年,以确保达到理想效果。

十年的服务,要收多少钱?

Frank给出的答案是——理想状态是200万,一个100万包括前期的数据和模型的搭建,另一个100万则包括后面10年每一年的信息更新和持续服务。

对大多数人来说,这是个不低甚至昂贵的价格。但这个项目本身就不是瞄着大众人群推出的,而是对准了70岁以上的香港富豪这个群体,他们大多经历了上个时代周期的繁华,财力雄厚,每年在保险、养老及高端服务上的支出巨大——仅保险一项,他们的年花费就超过50万元,私人医生费用在100万到200万元之间,而财富管理的年支出也在一两百万。

 

对于对高端定制服务有着强烈需求的他们来说,「意识永藏」正是为他们提供个性化记忆复刻的独特选择。对他们而言,再花一两百万来给记忆上一道保险并不昂贵。

但一两百万毕竟也是7位数的消费,一个仅仅只有五人左右的95后团队,到底是怎么打动这群富豪的?

关键还是在于情感需求的满足。

Frank讲述了一个客户的故事。一位已经进入耄耋之年的老教授,退休多年,之前已经进过 ICU 病房,子女又因为他的身后事纠纷不少。

想到身体每况愈下,时间所剩无几,老教授想尽可能地在生前多留下一些东西,一来满足对子女的一些心理亏欠,二来也想好好回看自己过去这一生的路。

在进行完前期的信息采集和初步的模型调试后,团队用可灵大模型给老教授生成了一些和儿女相处的温馨的视频片段,看完之后老人忍不住掉泪,往日时光已不可追,但AI竟然可以如此逼真地还原过往,带他回去看了一眼。

不止如此,在跟产品对话的过程中,老人感觉自己面对的不是一个机械化的产品,而是一个永远在倾听、在支持他、理解他,永远站在他的立场的一个温柔且温暖的拟人化存在。

不光是AI实现的情感需求的满足,团队采集信息的过程,也是一种情感陪伴。Frank 说起跟客户的沟通过程,「有一些对我们总是笑眯眯的,特别想让我们去做客,去聊天,其实也是一种陪伴」,客户享受这种被热热闹闹的一群年轻人围着做采访,对自己的人生经历感到好奇的感受,Frank 也能理解,「被看见是一种最大的尊重。」

对这些年事已高的老年富豪来说,钱变得不是那么重要,充斥在生活里的巨大的落寞才是更重要或者说更沉重的存在。

他们年轻时多数在各自的事业上颇有所为,但随着年岁渐衰,过往投射在身上的注视与光芒逐渐退去,而Frank及其团队围绕着他们,对他们的过往好奇,一些他们本已经做好准备带进棺材里的故事,被人关心,被人在意,他们诉说的过程,也是一种过往经历焕发新的活力的过程。

Frank及其团队持续给到这些老年人的情感陪伴,使得后者逐渐与他们建立起深厚的信任感,和一般的甲乙方之间的信任感不同,他们的这份信任感上,多了一些情感依赖。

 

百万级AI产品的背后:技术占比只有10%?

 

笔者最初注意到这个产品,是被客单价百万的 AI 产品这个名号所吸引。毕竟现在市面上似乎很少有做到这么高客单价的AI产品?

但与Frank交流下来发现,AI在这款产品中发挥的功能可能只占比10%-20%,「我们现在对AI的利用还比较初期,集中在利用模型将将用户的语音转换成文本,以及通过文本到语音(TTS)技术来训练和模仿用户的声线和语调。」Frank告诉极客公园。

在模型调试定制环节,「意识永藏」底层模型使用的是被称为「价格屠夫」的DeepSeek,后者是幻方量化旗下深度求索推出的开源大模型。

在众多大模型中选择DeepSeek,价格原因之外,也是因为项目是围绕个人记忆检索与反馈构建的,对于基础模型能力的要求并不苛刻,DeepSeek能够通过提示词引导,准确检索信息并进行相关性反馈,已经足以完全满足需求。

要求比较高的环节在于对心理、情感表达的识别与反馈,毕竟每个人的情感与人生经历迥异,使得这使得模型在表达个体独特的情绪和情感时,面临更高的挑战。

为了精准捕捉这些微妙差异,团队一方面把Prompt优化得足够具体,使模型能够更好地理解和回应用户的个性化需求,另一方面,团队对模型进行了细致的微调,例如,通过设定特定情感的触发临界值,使系统能识别并模仿用户的情绪反应。

此外,团队还对个人的口头禅、语言习惯等细节进行了调校,确保模型在交互中更加贴合用户的语言风格与情感表达。

除了高昂费用的噱头,这个项目更长远的意义在于:AI的出现,对于个人信息的记录带来了新的可能性。

相比于过去单调的信息存储式的记录形式,如自传式书籍、电影等,AI实现了互动的重塑,它让记忆不再只是静态的片段,而是可以对话、追问的对象。

即使某些记忆开始模糊,AI也能帮助检索并给予反馈,带来一种情感化的互动体验,这正是传统记录手段所无法比拟的。

并且,多模态技术还能让记忆变得更为生动:声音可以被复刻,影像和视频也能被重现。

借助AI技术,回忆变得更加立体和鲜活,让那些过去的瞬间仿佛历历在目。但这些看起来似乎并不是属于Frank团队难以复刻的差异化优势,可能换一家公司采用类似的思路,也能做出大差不差的产品。

那「意识永藏」的壁垒是什么?

答案可能是渠道。Frank 没有去卷大多数人正在争夺的主战场,而是选择了一个小范围的需要高度定制化服务的细分领域,后者获客非常艰难,毕竟高净值人群对服务的选择会更挑剔,Frank现有的客户也基本来自客户小圈子里互相介绍而来,这种渠道壁垒,决定了其模式短时间内难以被取代。

现阶段,能让用户心甘情愿买单的AI产品并不多,何况是百万级客单价的AI产品。但Frank通过精准定位以及满足特定人群的个性化需求,借助AI在内的技术手段,成功让客户买单百万级产品。

这可能是一个相对极端的AI商业化案例,但也可以看出,在当下, AI 要产生价值,就是要对齐到有支付能力的明确需求。

 

头图来源:Midjourney

展示量: 126

抖音电商:用「标准化」直面「不确定」

复杂的商业世界中,秩序化、标准化和系统化,往往是用来应对不确定性环境的良方。

 

无论是流水线上的生产作业,还是宏观的组织经营管理,标准化的流程机制都能够最大程度保证经营的质量稳定性、经济效益以及对薄弱环节的及时整改,造就稳健的抗风险能力。

抖音电商近日发布的 CORE 经营方法论,同样是为平台商家构建的一套标准化的系统经营方法。

基于平台内容场景和货架场景的深度融合,抖音电商将原本解决一个个点状问题的方法论,融汇成一个体系化的 CORE 经营方法论,引导商家以「体系化的视角」和「标准化的行动」来提高经营效率,进而获得确定性的生意增长。

从某种程度上来说,CORE 经营方法论是抖音电商来到全域互联互通新时代的必然产物。相对于泛泛而谈的理论指导,CORE 经营方法论尝试为商家规划更具体的行为路线,为所有商家提供更明确的增长方式,包括此前难以在电商平台获得增长突破的耐消行业,都能从中找到可靠的发展支点。

 

01 破解耐消行业的「电商水土不服」

 

四年时间,抖音电商走过三个发展阶段,耐消行业曾经的水土不服也在这一过程中得到循序渐进地解决。

2020 年成立之初,抖音电商定位以内容为中心的兴趣电商,用户注意力附着于短视频和直播内容,内容场景直接牵引消费场景。彼时,大多数商家都在尝试以内容捕捉流量,激发消费,但这样的规则天然更适合服饰、食品、美妆这类快消品商家攻城略地,电子产品、家具这样的耐消品商家却不容易获得增长爆发。

主播正在进行带货直播|图片来源:视觉中国

毕竟,主打「低价格、高频次」的快消品类,用户消费决策成本低,更容易被短平快的兴趣内容一击即中;耐消品却是「高价格、低频次」,用户消费决策链复杂,短暂的情绪内容难以左右理性思考。再加之传统耐消行业商家侧重产品与渠道分销,相对缺少内容创造力与内容矩阵的搭建能力,导致耐消品总是很难在单一内容驱动的消费模式下找到生意突破口。

直至 2022 年,抖音电商着手扩建货架场,以「搜索+商城+店铺」共同承接用户全天候的主动消费需求,从此全域兴趣电商基础场域一步步落成,为耐消品商家入局「精耕细作」创造土壤条件。

那时起,越来越多商家开始注重货架经营,用户在抖音电商进行大件消费的认知与习惯慢慢培养起来,耐消品市场空间被打开;与此同时,内容场与货架场的双飞轮增长,又赋予耐消品商家更高的包容性,使其有更多机会适应平台规则与玩法,在更多元的人货匹配模式中,找到适合自己的增长方式。

这一阶段,商家们渐渐学会往流量密集的方向靠近,但具体如何获得流量,还得靠自己不断摸索。

随后,抖音电商继续推进平台生态演化,将内容场与货架场全面打通,来到当前全域互联互通的第三阶段。必须指出的是,所谓的「全域互联互通」,并不单指用户在内容场与货架场之间的行为流转变得更顺畅平滑,更意味着平台流量的属性、流向与分发机制都已发生重大变化。

抖音电商表示,当前商家可以同时获得来自平台「交易池」和「内容池」的流量分发,其中交易池的分发更精准,电商转化效果更好;内容池的分发取决于「内容是否符合用户兴趣偏好」,商家只有抓住用户兴趣点,打造用户喜欢的内容、优化互动体验、持续积累粉丝,才能源源不断地从内容池获取流量。

相对于交易池,内容池的可能性更大,流量天花板更高。这就要求商家不光要学会从交易池拿到流量,还要注重从内容池持续挖掘流量,通过「好内容」来释放更广阔的生意增长空间。

与此同时,在抖音电商看来,电商生意的本质就是满足用户需求,谁能满足需求,谁就理应获得更多流量。换句话说,抖音电商流量的走向与用户需求的满足更为密切相关——商家需要优化用户行为链条的所有环节,用正确的经营动作来响应用户需求,以此获取更多确定性的平台流量。

这种流量分发机制的形成,需要商家通盘考虑经营的各个环节,学会使用标准化、体系化的方法工具,来提高发展效率与确定性。

 

这一背景下,抖音电商进一步推出全新 CORE 经营方法论,以系统化的全域经营指导,帮助商家将生意主动权掌握在自己手中。对于最需要确定性增长的耐消行业来说,抖音电商经营几乎从此变为一场「开卷考试」:商家只需对照着 CORE 经营方法论做好每一个经营动作,就有机会实现高效稳定的生意增长。

 

02 从 CORE 经营方法论长出的「稳定生产力」

 

从工具属性上来看,CORE 经营方法论像是一个生产标准更明确、发展路径更清晰、结果增长更具确定性的集成系统工具,可以带领商家从「局部最优解」走向「全局最优解」。

总体来看,CORE 增长模型由 Cost vs Quality 价优货全、Omni-Content 全域内容、Reach 营销放大、Experience 体验提升四大版块构成,其中价优货全、营销放大、体验提升对应「交易力」,全域内容对应「内容力」。商家应该围绕这四大版块满足用户需求、做好经营动作,并抓住生意增长机会最大的「内容力」下好功夫,尽可能提升流量竞争力。

其中,C 代表的「价优货全」是商家经营的基础,「货全」意味着人货匹配的概率更高,商家生意受众面更广,而「价优」则让货品更有竞争力,可以更好打动用户并促进成交。今年 618 期间,美的在抖音电商专门推出九款高性价比专供产品,便是通过提供多样化选择来实现「货全」;同时,通过为美的熊猫和酷省电空调两款亿级爆品给予独家补贴、换新补贴、会员多单阶梯买赠等优惠,打造多重「价优」机制,也让美的在活动期间持续保持着高声量与高转化,稳居家电行业第一。

其次,在抖音电商的全域互联互通阶段,优质内容依然决定着交易规模,O 代表的「全域内容」仍然是拓展生意天花板的关键。但这里值得注意的是,以往简单直接的「叫卖式」内容正逐渐失去号召力,用户爱看的、剧情化的、强互动的内容正在吸引更多流量。

如今,越来越多商家在抖音电商通过工厂溯源、明星空降、总裁价到、自造节日等方式打造品牌内容,与兼具内容力和交易力的达人展开深度合作,尝试短剧、综艺、发布会等创新内容,并积极用热点内容承接热点流量。2023 年,抖音短剧播放量增加 350%,平台自制综艺、品牌走秀发布会均呈现指数级流量增长,无论是林氏家居在自播间内为桌椅沙发举办时尚大秀,使「包包椅」化身明星达人时尚单品火速出圈,还是邀请联合头部达人王七叶进行时尚走秀,这些创新内容一经推出,总能为商家汇聚源源不断的自然流量,带来差异化的营销价值。

R 代表的「营销放大」,扮演着生意放大器的角色。抖音电商营销生态中常规的商城频道、平台大促、广告,以及平台细分营销阵地下的各类营销 IP 活动,都有机会放大生意规模,为商家贡献全网的营销价值。征战互联网营销领域多年的小米,在小米 14 系列发布时期十分重视在抖音电商的营销投入,通过积极联合抖音商城开新日营销 IP,顺利推动新品在全站引爆,成交突破 8000 万+,生意势能加速放大。

E 代表的「体验提升」则是生意经营的底线。无论线上还是线下,用户满意度都决定着商家能否从单次交易走向长效增长。在抖音电商,由商品体验、物流体验和服务体验三个维度加权计算得出的「体验分」,是衡量店铺综合服务能力的重要指标,既影响商家获取流量,也是商家参与平台活动的基本门槛。诸如在大促繁忙时期,美的店铺客服依然能够做到平均 15 秒响应和仓库 15 小时发货,这些细致的服务标准与体验优化,往往能帮助品牌更好沉淀人群资产。

此外,在抖音电商罗盘中,抖音电商还提供了围绕 C、O、R、E 的一系列具体指标,商家可以借助量化指标判断自己在每个版块的经营动作是否到位,通过定向优化薄弱项,来获得确定性的生意增长。

回归生意本质不难发现,尽管 CORE 经营方法论分化为四大版块,但这四大版块并非互相独立,而是在实际经营中相互关联、相互牵制与相互促进。这种全局式的经营生态关系,不仅能强化耐消品商家电商生意的结构稳定性,也有机会为商家带来「单点突破,全盘爆发」的生意带动效果。

 

03 适用于不同类型商家的「确定增长攻略」

 

作为给到商家手里最直观的「确定增长攻略」,CORE 经营方法论既可以综合运用,也支持灵活拆解取用。身处不同赛道、不同阶段、不同需求的商家可以选择性侧重一到两个版块,提升效率,再逐渐覆盖所有版块,扩大规模。

对于或产品、或服务、或品牌驱动,线上发展经验差异较大的耐消行业商家来说,这无疑能带来更高的应用价值。抖音电商同样表示,在对外推出 CORE 增长模型之前,平台其实已经花费半年时间跑案例、做产品、建工具,目前包括手机、家居、家电在内的多个典型耐消行业,都已经有品牌商家验证过其可行性与实用性。

正如作为极其成熟的互联网营销「老兵」,小米对于各路电商营销玩法其实并不陌生,但仍然通过对 C、O、R、E 四大版块的全面进阶布局,实现了生意的高效爆发。

例如,小米日常就注重货架上新品、爆品、存量品的矩阵式铺货,价格也合理覆盖高中低三大梯度,做到价优货全。在小米 14 系列、Redmi Turbo3 等旗舰机型的关键上新期,小米更选择在抖音电商首发,其中小米 14 同步推出抖音独家骁龙联名礼盒,Redmi Turbo3 加赠价值 300 元礼盒,辅以店铺同期爆品的直降优惠,为上新爆发打下了重要基础。

新品流量蓄水时期,小米将「全域内容」作为重点发力版块。例如与头部达人联动,以「云逛展」的新型创意内容沉浸式展示小米 14 新机,推动新品搜索量迅速飙升至行业 TOP1;又如 Redmi Turbo3 上市期,小米高管入驻抖音与用户直播互动,推动相关话题曝光超 6.5 亿,迅速引爆新品声量。

营销放大方面,小米将抖音电商视为品效营销主阵地,在日常营销中为店铺爆品、存量品报名超值购等频道,合理使用平台补贴及流量扶持,在手机、平板电脑、家电上新时也积极利用开新日等平台营销 IP 活动,助燃生意增长。此外,通过推出以旧换新、全线机型平均 8 小时极速发货、晚发即赔等特色服务,小米也在持续优化用户体验,不断提升用户满意度。

相较于诞生自互联网时代的小米,传统家居品牌林氏家居在电商领域实现破圈传播的需求更为迫切。如今,循着 CORE 经营方法论的路径,林氏家居也跳出了传统家具行业的营销思维桎梏,以「价优货全」和「全域内容」为主要支点,打造了一款现象级明星产品「包包椅」,实现从「单品爆发」到「全店爆发」,由此找到生意增长的新解法。

首先,林氏家居结合市场趋势与用户需求,打造了一款百元价位、随时可以携带出门的「包包椅」,并将包包椅作为引流品,围绕其延展出大黑牛沙发、云端白马床等一系列同款新品矩阵,同时注重设计产品的硬性价格和软性福利机制,保证全店货盘能够顺利承接包包椅带来的流量。

随后,林氏家居利用包包椅天然自带的场景性、话题性与破圈潜力,打造了一系列有创新、有看点、易传播的配套内容。例如,在自播间中摒弃简单的直播叫卖方式,在产品演绎中加入办公室场景和剧情,或是在直播间中上演一场时尚大秀,联合头部达人共同完成时尚走秀。与此同时,达人专场直播、短视频种草等全域内容集中释放,使包包椅迅速化身风靡一时的潮流装备,林氏家居也从此一举爆发,14 天即实现销售额 7000 万,新增人群资产 2000 万,成交迅速跃升至家居行业 TOP1。

不难发现,CORE 经营方法论的价值在于系统化,同时也在于其灵活性。无论是像小米这样电商经验丰富的成熟品牌,还是像林氏家居这样需要打破电商发展瓶颈的传统品牌,抑或是仍处于初期发展阶段,急需以单点突破的方式提升生意效率的耐消行业中小商家,都能在 CORE 中选择不同经营侧重,实现有的放矢地成长。

商业环境变幻莫测,CORE 经营方法论所提供的标准化和系统化引导,正是商家面对充满不确定的外部环境和内部发展时,更易用的经营效率工具。

按照这一思路,伴随抖音电商生态的继续进化,平台方法工具不断革新,商家经营效率还将持续向上优化,全域兴趣电商的生意增长潜力也将得到更彻底地释放。

 

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

展示量: 63

AI、社区、带货,YouTube 平台要「变天」了

作为全球最大的视频平台之一,YouTube 拥有超过 26 亿用户,差不多是地球三分之一人口的数量。

它影响着全球流行文化,也创造了一个内容经济生态系统,让数百万视频博主在上面分享数百亿美元的内容收益。

与此同时,面对各类流媒体、短视频平台的竞争,YouTube 一直在研究、模仿各种功能,试图让用户在 YouTube 上停留更多时间。

在纽约周三举行的「Made on YouTube」大会上,YouTube 宣布了一系列新功能,包括 AI 生成视频、粉丝社群、直播打赏等等,似乎要把谷歌的技术、以及海内外已经流行了好几年的社交平台功能,通通融进 YouTube。

现在,为了永续和生存,Youtube 想做的,已经不止是一家视频平台。

 

01 谷歌 AI,落地油管

 

去年,YouTube 已经推出了 Dream Screen,可以让创作者通过自然语言提示,在 YouTube Shorts 中生成视频背景。这仅仅只是开始。

YouTube 宣布,今年晚些时候,要开始将谷歌 DeepMind 最强大的 AI 视频生成模型 Veo 集成到 YouTube Shorts 的 Dream Screen 里。

在谷歌今年的 I/O 开发者大会上,谷歌推出了 Veo 视频生成模型,与 OpenAI 的 Sora 以及 Pika、Runway 和 Irreverent Labs 等视频生成模型展开竞争。

有了 Veo,YouTube 创作者可以生成视频背景,或给 YouTube Shorts 生成六秒钟的独立视频短片。

其关键优势之一是编辑和重混先前生成的素材的能力。当创作者选择「创建」并输入提示时,Dream Screen 将生成四张图像。然后,他们选择一张照片并将其转化为视频。

据称,这一新功能将帮助创作者为他们的视频添加过渡场景,从而实现更流畅的转换并将整个故事串联起来。例如,创作者可以在观光视频的开头加入纽约市天际线等场景,以增加更多背景信息。

不过,值得注意的是,这些创作将使用 DeepMind 的 SynthID 技术进行水印标记,并添加明确的标签,告知观众这是由 AI 生成的。

YouTube 集成谷歌的 Veo 视频生成模型|图片来源:YouTube

除了视频之外,YouTube 的创作者工具 YouTube Studio 也将在各个方面融入 AI。

YouTube 首席产品官称,YouTube Studio 的灵感标签页将有所升级,加入一个由生成式 AI 驱动的「头脑风暴助手」,给创作者提供建议,包括视频创意、标题、缩略图和大纲,并匹配创作者的相应风格。

据其称,明年还将引入一个新快捷方式,让创作者可以从热门评论、其他视频或者自己的目录等地方,直接前往灵感标签页。

YouTube Studio 中的评论区管理也升级成「社区中心」,添加了 AI 回复建议功能,该功能类似于 Gmail 上的建议回复,意图是加深粉丝互动,据称还可以匹配创作者的相应风格,以便创作者尽可能多地回复观众,AI 还将帮创作者筛选好的评论。未来据说还要推出其他省时工具,包括」社区聚光灯「和」观众指标」等。

对于谷歌来说,在其视频平台 YouTube 中整合自己的 AI 工具,可以鼓励创作者使用其 AI,而不是其他热门平台,比如 OpenAI 的 ChatGPT。

YouTube 创作者应用整合谷歌 AI 功能|图片来源:YouTube

另外,YouTube 还推出了「自动配音工具」,该工具可以给视频生成不同语言的翻译音轨,目前仅有一小部分创作者受邀测试,「未来几个月」此功能将扩展到数十万创作者,支持的语言数量也会扩大,从西班牙语和葡萄牙语到法语、意大利语等,意图是让创作者的内容找到全球受众。

YouTube 推出自动配音功能|图片来源:YouTube

据称,YouTube 正在测试「表达性语音」功能,能够将创作者的语气、语调和环境声音转移到配音中,创造更自然的体验。

 

02 请粉丝加入社群和视频「炒作」

 

为了提高用户黏性、使用时间和参与感,YouTube 还专门推出了「社区」功能——每个频道的创作者都可以创建一个社群,用户粉丝不再只是观众,他们可以在里面发布自己的帖子。

YouTube 的高管还把这一功能概念包装了一下,将其称为创作者频道的「专属互联网角落」,认为这一功能将是讨论视频、分享粉丝内容、与志趣相投的人建立联系的充满活力的「归属感的中心」。

粉丝可以在频道社区发帖|图片来源:YouTube

YouTube 的社区设计主管举了一些受邀测试的早期社区案例。比如,在一个健身社区中,女性们可以分享她们的个人健身照片,记录自己的进展,提出问题,建立一个支持性的社区,彼此鼓励实现目标。

在一个烹饪社区中,创作者正在挑战参与者尝试新食谱,社区成员则以照片展示自己的作品,分享成功与失误,并集思广益讨论创作者下一个视频应该烘焙什么。

此外还有众多游戏社区。YouTube 这一功能虽然并不新鲜,但可能会被视为对其他社交平台的挑战。

例如,Discord 在美国等地区是一个流行的社群聊天平台,广泛用于游戏、教育和社群活动。许多创作者在 YouTube 上发布视频,但实际上却选择在其他平台与粉丝和观众互动,其中就包括 Discord。

有了 YouTube 的「社区」,用户能直接在平台上互动,这样一来,创作者或许就不再需要使用 Discord、WhatsApp、 subreddit 或 Facebook 群组了。

但这一功能是否能如实现预期,尚待观察。这些互动对一些创作者来说可能会加重负担,最具风险的是复杂的审核问题,因为要面临大量粉丝在频道中发布自己的内容。

目前,YouTube 的「社区」功能并未全面铺开,仅在移动设备上的一小部分创作者及其粉丝进行测试,YouTube 计划在今年与更多创作者进行测试,然后在 2025 年初扩展到更多频道。

在社区功能之外,同样是为了增加用户参与感,又或者是为了换个法子变现,YouTube 还推出了「Hype」功能——这个词有「大肆宣传、炒作」的意思,粉丝可以点击这个新的按钮来支持新人创作者,比普通的点赞更有分量,每个用户每周只有三次免费「Hype」机会,多了要交钱,据称一次可能是 2 美元,创作者也会获得一笔奖金。

YouTube 推出 Hype 功能|图片来源:YouTube

YouTube 拥有海量创作者,但目前平台上出现的一个问题是,对于那些有专注粉丝群体但规模较小的创作者来说,吸引新的观众往往是一道难关,平台也不想简单地调整算法影响到大频道。

鉴于此,获得最多「Hype」点数的视频有个好处,就是会在 YouTube 设置的前 100 个视频排行榜上展示曝光,抵达更多的新观众,获得的 Hype 越多,排名越高,并获得特别徽章,「向所有人展示它们是粉丝的最爱」。

这一功能据称还是为了扶持新人创作者,一个视频只有在上线的前 7 天,且频道订阅者少于 50 万,才有被「Hype」的资格,而且频道订阅者越少,权重越高。

值得注意的一个数据是,300 万开通收益的 YouTube 创作者中,有超过 100 万都是「老博主」,他们早在十年之前就创建了自己的频道,借着强者恒强的算法推荐机制,这些大频道占据着平台上的大部分流量,新人创作者要脱颖而出比以往更难。

「我们听到了关于小频道无法与拥有更多订阅者的大频道竞争上榜的担忧。因此,我们添加了『新人创作者奖励』,以帮助较小的创作者,平衡竞争环境。」YouTube 的产品经理称。

YouTube 推出 Hype 视频排行榜|图片来源:YouTube

另外,YouTube 称,给视频加 Hype 不会影响用户的传统的 YouTube 推荐算法和搜索结果。但 被 Hype 的视频会有自己的筛选分区和特定主题的排行榜,并将开始出现在推荐的新部分中。YouTube 还计划为每个用户个性化 Hype 部分。

 

03 更多变现渠道:直播打赏、购物、电视

 

根据 YouTube 数据,截止 2024 年 8 月,平台上面已经有 300 万个频道开通了盈利,其中约有 70 万个开通盈利的频道是过去三年内创立的。

YouTube 的首席产品官声称,要给创作者「实现财务自由」提供持久的机会。据其披露,YouTube 的合作伙伴计划支付的报酬「比任何其他创作者平台都要多」,具体数据是,在过去的三年中,YouTube 已向创作者、艺术家和媒体公司支付了 700 亿美元。

想在 YouTube 上赚钱的人并不少。目前 YouTube 创作者的变现方式包括广告收益分成、粉丝资助、品牌交易等。YouTube 现在还在探索更多的变现花样。

为了增加创作者的变现方式,YouTube 宣布在美国地区的竖屏直播中推出「Jewels」礼物功能,让观众用数字商品进行实时互动,表达兴奋,简言之就是直播打赏。

YouTube 推出直播礼物打赏|图片来源:YouTube

与此同时,YouTube 还宣布要扩大在该平台上购物的业务。据称,目前有 25 万创作者加入了 YouTube 购物联盟计划,可以理解为创作者开店或当买手,创作者可以与粉丝分享他们喜欢的产品,并发展他们的业务。

YouTube 购物联盟计划目前在美国和韩国地区提供,YouTube 称将与 Shopee 展开合作,将该计划扩展到印度尼西亚,并在「接下来的几周内」扩展到泰国和越南。

YouTube Shopping|图片来源:YouTube

另外,为了在客厅的电视屏幕能与 Netflix、Max 和 Disney+ 等流媒体平台对打,改进电视用户的观看体验,YouTube 还计划对电视应用进行改版,仿照一些流媒体平台的界面设计,允许创作者将视频节目内容组织称「季」和「集」,并增加电影式的「沉浸式预览」,让用户导航到创作者的页面时将自动播放等。

这样的话,YouTube 创作者的电视页面感觉就像 Netflix 或 Max 上的节目页面一样,这成为 YouTube 与主要流媒体服务竞争的一个策略。

此外,YouTube 还给电视应用推了一些小功能,包括从视频描述中的链接生成二维码,目的是提高互动性,以及更显眼的订阅功能等。

据 YouTube 称,其沉浸式预览、二维码链接和新的订阅功能将于今年推出,而剧集和季节功能将从 2025 年开始逐步推出。

YouTube 电视应用的设计|图片来源:YouTube

之所以重视电视体验,是 YouTube 看到了数据:依靠电视获得大部分收入的创作者数量同比增长了 30%。在过去三年中,在电视端获得大部分观看时间的创作者数量增加了 400% 以上。这归功于 YouTube 电视应用的普及,以及广告商愿意为通过电视接触消费者支付的高额费用。

另据尼尔森的数据,YouTube 今年 8 月份占据了联网电视设备观看量的 10.6%,而 Netflix 为 7.9%,Prime Video 为 3.1%(其他所有平台均低于 3%)。

YouTube 的电视业务,在海外已经非常庞大,用户甚至会在电视上刷 YouTube Shorts 的短视频。在这种情境下,传统的电视购物若要借着流媒体的电视应用复苏,也并非完全不可能。

从刚刚结束的 YouTube 发布会来看,这个谷歌旗下的中长视频霸主,一方面将母公司的 AI 能力加入到平台之中,借助大模型持续降低视频创作门槛;另一方面,开辟 Hype 这样抬高「粉丝权重」的方式为新人 UP 主打开上升通道;同时,在变现和粉丝运营上引入电商和群聊模式,试图追赶对手,补齐此前的短板。

可以看出,YouTube 短期内的目标是补齐社区、即时通讯和电商能力,压制对手;长期则加强 AI 这条暗线,为后续内容的持续爆发做准备。

 

*头图来源:YouTube

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

展示量: 136

微信朋友圈支持发布实况照片;欧盟要求苹果对第三方开放操作系统;特朗普首次使用比特币支付餐费|极客早知道

微信宣布朋友圈可发实况照片

9 月 19 日傍晚,「微信派」公众号宣布,微信朋友圈发布实况照片功能正式推出。

用户打开朋友圈-从手机相册选择,即可选中并发布实况照片,照片将包含动态画面和声音。发布时,也可以点击关闭实况效果,支持静态照片与实况照片混合发布。待内容发布后,朋友圈图片将出现实况圈圈效果。

目前,功能正在 iOS 8.0.51 及以上版本逐步覆盖中,用户更新完并被覆盖后即可使用。

Android 手机目前还不支持,微信派官方对此回应称:「再等等」。(消息来源:IT 之家)

OpenAI 要求投资者投资超过 2.5 亿美元

OpenAI 筹集融资的行动已经进入后期,融资后估值可能达到 1500 亿美元。

据知情人士透露,OpenAI 要求投资者至少支付 2.5 亿美元以参与融资。

新一轮融资由 Thrive Capital 领投,Thrive Capital 承诺投资 10 亿美元。微软、英伟达和苹果正在洽谈投资事宜。一位知情人士表示,这些科技公司在本轮融资中的投资总额预计将达到 20 亿至 30 亿美元,目前还不清楚这些科技巨头是否会投入现金,或者现金和其他资源(例如算力资源)的组合。

投资者获得的是该公司新发行的股票,这些股票可能附带某些权利和特权。这与最近两次的融资不同。因此 OpenAI 很可能在通过限制投资者投资的最低金额来限制本轮融资投资者的数量。(消息来源:The Information)

 

米哈游跌出手游厂商收入 TOP3

9 月 19 日,Sensor Tower 发布的 8 月中国手游发行商全球收入 TOP30 和中国 App Store 手游收入 TOP 20 榜单。

腾讯、网易两大巨头依然稳坐 8 月中国手游发行商全球收入榜前二,但米哈游的排名却有所下降,跌到了第 4 名,第 3 的席位被点点互动收入囊中。

Sensor Tower 表示,点点互动收入本期增长,主要得益于旗下的末日题材生存策略手游《Whiteout Survival(无尽冬日)》在全球范围内的突出表现,据估算,该游戏在总收入至今已经突破 10 亿美元,且其 8 月在国内、海外市场的收入都创下了新的记录。

而米哈游出品的《崩坏:星穹铁道》《原神》和《绝区零》,却在本月集体跌出了中国手游收入榜 TOP20。在今年 6 月的时候,米哈游旗下的《崩坏:星穹铁道》还在榜单中排到第 6 位,《原神》也能稳坐第 11 名;7 月,《绝区零》上线后直接空降收入榜单 TOP5,虽然《崩坏:星穹铁道》和《原神》已经跌出 TOP20,但米哈游仍能稳坐国产手游发行商收入 TOP3。到了 8 月,米哈游旗下的三大龙头产品均跌出收入榜 TOP20,米哈游排名也遗憾下滑到了第 4 位。(消息来源:游戏茶馆)

图片来源:视觉中国

欧盟要求苹果须在 6 个月内开放操作系统

9 月 19 日,欧盟要求苹果公司向开发者和竞争对手开放其 iPhone 和 iPad 操作系统,否则可能会面临巨额罚款。

欧盟的要求可细分为两项,第一项要求是苹果须确保智能手表、耳机和虚拟现实设备能够与 iPhone 及其操作系统互操作,第二项要求涉及苹果如何处理开发者和第三方企业提交的 iOS 和 iPadOS 的互操作性请求。

欧盟留给苹果 6 个月时间来履行要求。如果被正式认定违反了 DMA 的规则,苹果可能面临最高相当于公司全球年营业额 10% 的罚款。

欧盟监管机构的执法依据是 2022 年 11 月出台的《数字市场法》(DMA),该法针对在欧盟运营的最大数字平台,例如苹果、微软、谷歌、亚马逊和 Facebook 等科技巨头。

苹果的操作系统以封闭而著称。例如,苹果目前只向第三方开发者提供有限的 Siri 语音命令系统访问权限。此外,苹果长期以来对 NFC 芯片的使用有着严格限制,仅允许 Apple Pay 等自家服务使用。在欧盟的监管压力下,苹果今年 8 月宣布将向开发者开放 iPhone 的 NFC 芯片。(消息来源:快科技)

美团外卖调整经营目标,从追求 GMV 变为追求订单量

9 月 19 日消息,美团外卖于今年 Q2 调整了经营目标第一优先级,从追求 GMV 转向追求订单量增长。该调整的背景是美团外卖出现了持续的客单价下滑,导致其 GMV 下滑 10%-20%,因此受消费环境影响,美团决定转向提升频次,以稳住外卖大盘。

9 月,美团核心本地商业 CEO 王莆中在美团餐饮产业大会上分享数据:今年一季度以来全国餐饮增速在迅速下降,北上广深四个一线城市进入负增长。美团外卖、到店、餐饮收银 SaaS 监控的同店业绩下滑,客单价持续下降。

目标调整后,美团投放了大量的补贴刺激市场需求。今年 8 月,美团外卖通过「秋天第一杯奶茶」营销活动,实现单日峰值订单突破 9000 万单。

此外,美团还开设了聚合外卖店形式的「美食集合店」,由美团自行招募多个餐饮品牌入住并参与日常管理,挑选部分商品上架到聚合店铺,消费者可在该店铺购买多个商家提供的产品。报道称,美团希望解决中小商家外卖档口卫生质量差、用户不信任的问题。(消息来源:IT 之家)

 

阿里云宣布开源 Qwen2.5,上架超 100 个模型

9 月 19 日下午消息,今日举办的 2024 云栖大会上,阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5。据悉,Qwen2.5 全系列涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架 100 多个模型,其中旗舰模型 Qwen2.5-72B 性能超越 Llama 405B。

相比 Qwen2,Qwen2.5 全系列模型都在 18T tokens 数据上进行预训练,整体性能提升 18% 以上,拥有更多的知识、更强的编程和数学能力。

此外,在多模态模型方面,阿里云还宣布了视觉语言模型 Qwen2-VL-72B 开源,Qwen2-VL 能识别不同分辨率和长宽比的图片,理解 20 分钟以上长视频,具备自主操作手机和机器人的视觉智能体能力。(消息来源:新浪科技)

 

三只羊全面复播,设置仅粉丝可以评论

经历了美诚月饼风波,9 月 19 日,包括“三只羊网络”、“三只羊网络水果生鲜”、“三只羊网络美丽生活”在内的多个三只羊公司旗下账号在停播两天后复播。此外,多个三只羊官方授权账号也都在正常直播中。

“三只羊网络”直播间评论区显示“主播已设置仅粉丝可以评论”,约有 1 万名网友在线观看,不少网友在评论中打出“加油”。

而“三只羊网络”直播间最新带货服装新品,在直播中也没有对月饼事件进行回应。

中秋前夕,小杨哥以及三只羊旗下主播力推的“香港美诚月饼”因涉虚假宣传一事引发关注。9 月 17 日,安徽合肥高新区市场监督管理局通报立案调查三只羊。(消息来源:IT之家)

图片来源:视觉中国

Instagram 实施最严格「青少年用户保护法」

9 月 19 日消息,从本周开始,Instagram 上所有年龄不到 18 岁的用户都会被归类为「青少年用户」,默认设置为私密状态,自动实施诸多防护措施,体验功能受到诸多限制,主要包括以下措施:

第一,互动限制,隔离普通用户和青少年用户。在私密状态下,普通账号无法搜索或者看到青少年账号,也无法向青少年账号发送私信。只有互为好友的青少年用户之间可以发送私信。青少年用户只会看到他们关注用户的「标签」和「提及」。

第二,时间限制,限制青少年用户的使用时长。青少年用户每天上网 60 分钟就会收到提醒,告知他们今天使用时长已到,需要退出应用。青少年账号还自动设置了「睡眠模式」,晚上 10 点到次日早上 7 点之间,他们的账号不会收到通知,避免沉迷网络影响睡眠时间。

第三,内容限制,限制青少年用户所接触的内容。Instagram 为青少年用户推出了内容分类过滤,限制青少年看到的图片与视频。举例来说,暴力、整容、减肥等内容就被平台分类为「青少年不宜」,不会出现在青少年用户的信息流中。

第四,算法区别。青少年用户可以通过平台筛选过的兴趣词,自主选择他们希望看到的内容与推荐。但 Instagram 将对成年用户和未成年用户实施两套不同的兴趣推荐,两个用户群看到的内容和信息流也会存在显著差别。

第五,家长监督。上述青少年用户保护功能都是自动默认的。只有 16 岁以上的用户才能自主更改这些设置。16 岁以下的用户,必须得到家长的批准才能进行调整。家长可以设立一个家长监督机制,对自己孩子账户的活动甚至是信息流进行监督。(消息来源:IT 之家)

大疆发布超旗舰画质运动相机 Osmo Action 5 Pro

9 月 19 日,DJI 大疆发布全新超旗舰画质运动相机 Osmo Action 5 Pro。

相较前代产品,Action 5 Pro 的续航能力飙升了 50%,一块电池最长可使用 4 小时。大疆也首次在运动相机中实现人物跟随功能,即使没有云台,Action 5 Pro 也能智能判断人物位置并动态调整画面构图,始终保持人物处于视觉中心。

全新一代 1/1.3 英寸传感器,让 Action 5 Pro 的画面等效像素尺寸达 2.4 μm,动态范围高达 13.5 挡,并配合 4 纳米高性能芯片,即使在城市夜晚或日落日出等大光比时刻,也能拍出清晰锐利、明暗层次丰富的画面。在低光环境中,最高支持拍摄 4K/60fps 高动态低光影像。同时,Action 5 Pro 的最高视频规格升级至 4K/120fps 4:3,并支持 4K(3840 × 2880)全像素录制。

DJI Osmo Action 5 Pro 配置了专业压力计,可以记录水下深度、时长,也可以记录海拔高度数据。产品可以实现入水自动开启录制,出水自动停止录制的联动。

上市售价为标准套装 2598 元,畅拍套装 3298 元。(消息来源:新浪数码、中关村在线)

图片来源:大疆

乐道 L60 正式上市:售价 20.69 万元起,9 月 28 日开启交付

9 月 19 日乐道 L60 上市发布会上,蔚来全新品牌乐道的首款车型——乐道 L60 正式上市,定位家庭智能电动 SUV,售价 20.69 万元起,将于 9 月 28 日起全国开启交付。

蔚来高级副总裁、乐道汽车总裁艾铁成介绍,乐道 L60 一共有七款外观颜色:雪峰白,极地银,星空黑,晨曦橙,海岸蓝,远山青,云霞紫;长宽高分别为 4828mm、1930mm、1616mm,轴距为 2950mm。

在智能方面,乐道 L60 首搭 NT.Coconut 椰子乐道智能系统,首次全量应用整车全域操作系统 SkyOS·天枢。座舱方面,配备 17.2 英寸 3K 中控屏与后排屏、HUD 三屏联动,标配 7.1.4 杜比全景声音响,小乐 AI 助手。

智驾方面,乐道 L60 全系标配 OSD 乐道智能驾驶系统,高速城快领航辅助 NOA 全国覆盖率 99.99%。智能泊车泊入成功率高于 99%。

售价方面,标准续航版(555km)整车购买 20.69 万元起,电池租用方式购买 14.99 万元起,电池租用月费 599 元/月;长续航版(730km)整车购买 23.59 万元起,电池租用方式购买 14.99 万元起,电池租用月费 899 元/月。(消息来源:新浪科技)

历史一刻:特朗普支付比特币请客吃汉堡喝可乐

特朗普又创造了一项新纪录:美国历史上第一个使用比特币付款的前总统。

当地时间周三,特朗普出现在纽约曼哈顿的加密货币主题酒吧 PubKey,高声吆喝着请客在场的所有人吃汉堡。

现场画面显示,酒吧老板拿来一个比特币付款码,特朗普拿着定制版 iPhone 试图扫码付款,但很快就被现代科技搞糊涂了,随后酒吧老板和助理接手完成付款流程。在现场欢呼声中,特朗普露出标志性的笑容,高呼「历史正在被创造」。

据悉,特朗普大概花了等价 950 美元的比特币,购买了单价 17 美元的手作汉堡和健怡可乐。

顺便一提,特朗普在付完比特币后,转头就对记者们评价了一番美联储降息 50 个基点的事情——他表示如果不是政治操弄,那就是美国经济已经非常糟了。特朗普请客的同时,比特币在美联储降息等利好下正逐步走强。目前的最新报价已经突破 6.2 万美元。(消息来源:财联社)

图片来源:Fox News

 

 

展示量: 75

云栖大会开幕,将推重磅发布;iPhone 16 首周销量下降 12.7%;字节跳动豆包大模型将发布视频生成模型

云栖大会今日开幕,阿里云将推年度最重磅发布

阿里云将在云栖大会推出年度最重磅发布,首度展示面向 AI 的云计算技术架构全景图,涵盖从数据中心到推理引擎,从底层硬件、数据处理、模型服务到应用开发的完整技术进展,通义大模型则将进行「全尺寸、全模态、多场景」升级。

根据云栖大会官网,阿里云 CTO 周靖人在 19 日下午有一场题为「年度云与 AI 先进技术」的发布。通义大模型通过阿里云服务企业已经超过 20 万,通义千问开源模型下载量超过 2000 万。

云栖大会是云计算和人工智能领域的科技盛会,今年大会将于 9 月 19 日至 21 日在杭州举行。根据官方消息,大会设有三日主论坛、400 多个分论坛、4 万平米智能科技展区,全球各地上百款 AI 应用将在此亮相。

 

苹果市值蒸发千亿:iPhone 16 首周销量下降 12.7%

天风国际分析师郭明錤表示,iPhone16 系列在首周末预购销量预估约 3700 万部,较去年 iPhone15 系列首周末销量同比减少约 12.7%,关键在于 iPhone16Pro 系列低于预期。

郭明錤指出,iPhone16Pro 系列出货时间显著低于 15Pro 系列,除预购前备货量增加外,从首周末销量同比减少来看,关键还是在于需求低于预期。

最近一周内苹果市值蒸发 690 亿美元(约合 4900 亿元人民币)。在一些国内商家和用户看来,创新在苹果手机上越来越弱,而今年表现的尤为明显,特别是同天华为三折叠推出。据报道,华为三折叠手机 10 天预约量达 625.9 万,而 9 月 20 日其也将迎来开卖,据说备货有 100 万台。(来源:快科技)

字节跳动豆包大模型 9 月 24 日发布视频生成模型

字节跳动宣布,豆包大模型将于 9 月 24 日发布视频生成模型,并带来更多模型家族的能力升级。

9 月 24 日 14:30,2024 火山引擎 AI 创新巡展・深圳站将于深圳举行,字节跳动将在大会上公布火山引擎整体介绍及豆包大模型进展,还有火山引擎 AI 产品最新进展和多个行业企业 AI 落地实践分享。

目前快手、智谱等国内厂商已推出视频生成模型,阿里通义也将在 2024 云栖大会(9 月 19 日至 9 月 21 日)期间发布视频生成大模型。(来源:IT 之家)

微软、贝莱德、GIP、MGX 宣布成立超 300 亿美元 AI 基础设施投资基金,英伟达提供专业知识支持

9 月 18 日消息,微软联合多方成立了一只名为「全球 AI 基础设施投资伙伴关系」的基金,旨在投资 AI 基础设施,以建设数据中心和能源项目。

微软宣布联合贝莱德(BlackRock)、全球基础设施合作伙伴(GIP)及阿联酋 AI 投资公司 MGX 成立全球 AI 基础设施投资伙伴关系(GAIIP),以投资新兴及扩建中的数据中心,满足对不断增长的算力需求,并投资能源基础设施,为这些设施提供新的能源来源。

英伟达还将为 GAIIP 提供支持,包括在 AI 数据中心和 AI 工厂方面的专业知识,以惠及 AI 生态系统。

据称,这些基础设施投资主要集中在美国,推动 AI 创新和经济增长,其余部分将投资于美国的合作伙伴国家。微软透露,该合作伙伴关系最初将寻求逐步释放 300 亿美元的私募股权资本,来自投资者、资产所有者和企业,加上债务融资,最终有望撬动总计 1000 亿美元(当前约 7094.48 亿元人民币)的投资潜力。(来源:IT 之家)

谷歌论文提前揭示 o1 模型原理:AI 大模型竞争或转向硬件

谷歌 DeepMind 团队在 2024 年 8 月 6 日发布的论文《优化 LLM 测试时计算比扩大模型参数规模更高效》中探讨了大模型(LLM)在面对复杂问题时,是否可以通过增加测试时的计算量来提高决策质量。研究表明,增加测试时(test-time compute)计算比扩展模型参数更有效。这一发现与 OpenAI 近期发布的 o1 模型原理相似,o1 模型在给出答案之前,会生成一系列中间推理步骤,不断完善自己的思维过程,尝试不同的策略,并能识别自身错误,从而提升性能。

此外,谷歌和斯坦福大学研究人员在 2024 年 1 月发表的论文《思维链赋能 Transformer 解决本质上的串行问题》中也提出了类似的观点,探讨了「思维链」(Chain of Thought,简称 CoT)技术,旨在突破 Transformer 模型在串行推理方面的限制。

这些研究表明,AI 大模型的竞争可能正在从单纯的模型参数规模扩展转向更高效的测试时计算和硬件能力的提升。随着技术的发展,大模型的竞争已经不仅仅局限于模型本身,硬件能力也成为关键因素。在 AI 领域,拥有更强大的算力可能意味着在下一阶段的竞争中占据优势。例如,OpenAI 近期被曝出其首款芯片计划,采用台积电最先进的 A16 级工艺,专为 Sora 视频应用打造,这表明大模型的竞争已开始向硬件能力扩展。(来源:澎湃新闻)

美团王兴:去年获得收入的骑手约 745 万,报酬 800 亿元

中秋假期期间,美团 CEO 王兴对内发布全员信,信中提到,过去 3 年每年招聘超过 5000 名应届毕业生,2025 届计划招募 6000 名,同时,内部提拔比例高达 69%。去年在美团平台获得收入的骑手约 745 万,获报酬超过 800 亿。(来源:泉州广播电视台)

特斯拉国内车机惊现 FSD 功能选项,目前处于未激活状态

9 月 18 日消息,据媒体报道,特斯拉在中国的车机系统中最新曝光了全自动驾驶(FSD)功能的按钮。

据悉,该按钮位于巡航控制和 Autopilot 菜单中,与北美车型的布局相似。但是,尽管 FSD 按钮已出现在车机界面上,但目前该功能还不能被启用。据截图信息显示,要激活 FSD,需要更新导航地图,特斯拉正与百度就地图数据进行沟通。

埃隆·马斯克在特斯拉 2024 年第二季度财报电话会议上表示,预计 FSD 功能将在今年年底前在中国获得批准。这表明特斯拉正在积极推进 FSD 服务在中国的推出。(来源:快科技)

YouTube 将推出 AI「一站式服务」:可生成创意、标题、完整视频

在当地时间周三举行的「Made on YouTube」特别活动上,谷歌宣布为 YouTube 带来一系列 AI 相关功能,有望改变视频制作的方式乃至视频本身。YouTube 正在引入一系列 AI 工具,以帮助创作者更高效地制作视频内容。其中包括一个名为「灵感」的新选项卡,这个 AI 驱动的功能可以为创作者提供视频概念、推荐标题、缩略图,甚至编写视频大纲。

此外,YouTube 还推出了 Veo,这是一个集成了谷歌 DeepMind 视频模型的工具,能够生成视频背景和最长 6 秒的完整视频片段。这些功能将在今年晚些时候或明年年初向创作者推出。YouTube 还计划推出自动配音功能,可以将视频转换成多种语言,以及通过 App 的新社区版块与粉丝互动的 AI 工具。这些工具旨在帮助创作者更容易地制作新内容,同时也可能带来 AI 制作的视频内容在平台上的增加。YouTube CEO Neal Mohan 表示,公司致力于确保创造力在 YouTube 上蓬勃发展,社区兴旺,创作者经济成长。(来源:IT 之家)

小米三折叠屏手机专利曝光

9 月 18 日下午消息,国家知识产权局 9 月 3 日公布的专利显示,小米公司获得了一项「手机及其主体」的外观设计专利,展示了小米三折叠手机设计。信息显示,小米于 2022 年 12 月 21 日提交了该设计专利,展示了两种设计方案,专利权人为北京小米移动软件有限公司。此外,专利草图显示,小米三折叠手机背面采用水平放置的摄像头方案,水平放置了 3 个摄像头,并配有一个 LED 闪光灯。(来源:新浪科技)

萤石首款会「行走」的摄像机 TAMO 发布:16Wh 电池、EIS 电子防抖,999 元

9 月 18 日消息,萤石首款会「行走」的摄像机 TAMO 正式发布,该款摄像机内置 16Wh 电池,支持 EIS 电子防抖,目前上架官网,定价 999 元。

据介绍,萤石 TAMO 摄像机配备双无刷电机 + 高精度电控系统,内置 16Wh 电池,支持原地掉头、位置锁定、角度锁定等功能;摄像机配备 300 万像素摄像头,采用单轴机械增稳,支持 EIS 电子防抖。(来源:IT 之家)

OPPO Find 产品负责人周意保透露「超薄」配件新品,有望为磁吸充电宝

9 月 18 日消息,OPPO Find 产品负责人周意保今日发文称「这次是手机和生态产品一起发布」,并透露了一款「超薄」配件新品。

预热图显示,该款新品侧边拥有一颗按键,底部有四颗指示灯,产品正面印有「OPPO」和「Magnetic PowerBank」字样。再结合评论区讨论来看,这款「超薄」配件新品还适配 OPPO Find X6 Pro 和 iPhone 手机,有望为磁吸充电宝。(来源:IT 之家)

美联储宣布降息 50 个基点!为 2020 年 3 月来首次降息周期开启

北京时间 9 月 19 日凌晨美国联邦储备委员会宣布,将联邦基金利率目标区间下调 50 个基点,降至 4.75% 至 5.00% 之间的水平,为 2020 年 3 月来首次降息。美联储自 2022 年 3 月至 2023 年 7 月连续 11 次加息,累计加息幅度达 525 个基点。

过去一年间,美联储将联邦基金利率目标区间维持在 5.25% 至 5.5% 之间,为 23 年来最高水平。(来源:环球市场播报)

展示量: 106

文章分页

上一页 1 … 105 106 107 … 116 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间