Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

标签: 科技

OpenAI 发布「代码神器」;苹果 MacBook Pro 或变「打孔屏」;保时捷:中国车主平均年收 300 万元

谷歌量子芯片 5 分钟完成目前超算需「10 的 25 次方」年运算

当地时间 12 月 9 日,谷歌宣布其最新量子芯片 Willow 在基准测试中表现惊人,Willow 在不到 5 分钟的时间内完成了一个标准的基准计算,而当今最快的超级计算机需要耗时 10^25 年(即 10,000,000,000,000,000,000,000,000 年),这个数字远远超过了宇宙年龄。

传统计算机每个晶体管只能处于 0 或 1 两种状态,但作为量子计算机中的计算单位,一个量子比特可存在多种状态,这可以加速某些类型的计算应用。量子计算在人工智能、物流规划、化学模拟和加密等应用领域有望改变「游戏规则」。(来源:澎湃新闻)

宁德时代与 Stellantis 集团将合资成立西班牙工厂,总投资高达 41 亿欧元

12 月 10 日消息,宁德时代与 Stellantis 集团共同宣布双方将各持股 50% 成立一家合资企业,在西班牙萨拉戈萨建设一座大型磷酸铁锂电池工厂,投资高达 41 亿欧元。该工厂计划于 2026 年底开始生产,规划年产能可达 50 吉瓦时。同时,该工厂将按照完全碳中和标准设计,目前该投资计划正稳步推进中。

据悉,Stellantis 集团是世界领先的汽车制造商之一。2023 年 11 月,Stellantis 集团与宁德时代共同签署了一份非约束性谅解备忘录,旨在服务 Stellantis 集团在欧洲的电动汽车制造,为其提供本地化的磷酸铁锂电芯和模组。(来源:新浪科技)

 

OpenAI 开放 Canvas 效率神器:让 ChatGPT AI 更懂你,可执行代码、风格化写作

12 月 11 日消息,OpenAI 宣布将面向所有 ChatGPT 用户,开放 Canvas 功能,重点提升用户写作和编码项目的效率。OpenAI 表示,目前用户可以在网页版和 Windows 10、Windows 11 版 ChatGPT 应用中体验该功能,并即将推出 Mac 版和移动平台版本(iOS、Android、移动网页版)

OpenAI Canvas 是 ChatGPT 的一个新界面,用于处理需要编辑和修改的写作和编码项目。该功能最早于 2024 年 10 月推出,现在向所有 ChatGPT 用户开放。

Canvas 入口位于 ChatGPT 聊天机器人的旁边,点击按钮进入;用户也可以在提示词中加入「使用 Canvas……」,或在网页版 ChatGPT 中输入「打开 Canvas」或「打开代码 Canvas」来打开一个空白 Canvas。

Canvas 提供了丰富的快捷键,例如建议编辑、调整长度、更新阅读水平、添加表情符号等;用户可以直接在浏览器中执行 Python 代码,输出结果会显示在控制台,ChatGPT 还会提供错误建议并尝试修复错误。(来源:IT 之家)

 

苹果有望将 MacBook Pro「刘海屏」改成打孔设计 同时内置 5G 基带芯片

12 月 10 日消息,据外媒报道,根据市场研究公司 Omdia 分享的路线图,苹果计划在未来几年内从 MacBook Pro 上移除「刘海屏」设计。

Omdia 路线图显示,苹果计划在 2026 年发布的 14 英寸和 16 英寸 MacBook Pro 型号将在显示屏顶部采用打孔式摄像头,而不是「刘海屏」。

没有「刘海」的 MacBook Pro 将拥有更多可见像素,这可能会略微增加 macOS 菜单栏的可用区域。移除「刘海」也会使显示屏整体看起来更加无缝。

还有报道称,这款 MacBook Pro 还将内置苹果自己的 5G 基带芯片,让用户可以在没有 WiFi 时通过蜂窝连接网络。

另外,之前的传言表明,首款搭载 OLED 显示屏的 MacBook Pro 型号将在 2026 年发布,和 Omdia 的路线图时间框架相同。预计转向 OLED 技术将是 MacBook Pro 自 2021 年以来的首次重大重新设计,会带来更薄的设计和其他变化。(来源: TechWeb)

 

通用汽车将不再为 Cruise 无人出租车提供资金支持,重点转向私家车智驾

12 月 11 日消息,通用汽车宣布,将停止对 Cruise 自动驾驶出租车项目的资金支持,并将研发重点转向个人汽车的自动驾驶技术。

据了解,Cruise 的员工将被整合至通用汽车的内部团队,与研发高级驾驶辅助系统(如 Super Cruise)和个人自动驾驶车辆的项目组协作。

这一决定反映了通用汽车对高昂成本的担忧。据 The Verge 报道,Cruise 作为通用的子公司,在 2023 年亏损达 34.8 亿美元,已成为公司的巨大负担。通用汽车发现,这一项目不仅吞噬资金,还缺乏明确的盈利前景,这让股东难以接受继续烧钱的必要性。

通用 Cruise 项目的宣告停止,标志着其打造新收入来源的多年尝试失败。自 2016 年收购 Cruise 起,公司已累计投入约 100 亿美元。(来源:IT 之家 )

小米 YU7 SUV 命名引发热议,雷军回应:直接读 Y-U-7

12 月 10 日,小米汽车官方揭晓了首款 SUV 车型——小米 YU7 的外观设计,并宣布新车预计将在 2025 年六七月上市。随着小米 YU7 的官宣,其车名 YU7 的发音成为了网友热议的焦点。

针对这一热议,小米 CEO 雷军通过微博发文回应了 YU7 的正确读法:「很多人问 YU7 如何读?就直接读 Y-U-7[doge][doge][doge]。」雷军表示,在发布时会详细解释为什么选择这样的命名方式。

根据工信部申报信息,小米 YU7 的车身尺寸为 4999mm×1996mm×1600mm,轴距为 3000mm,与 SU7 尺寸相近,但在宽度和高度上有所增加。动力方面,小米 YU7 将搭载由苏州汇川联合动力系统股份有限公司提供的双电机系统,最大功率分别为 220/288kW。(来源: TechWeb)

 

特斯拉 Robotaxi 仍配有安全员,并将使用自研打车应用

12 月 10 日消息,据路透社报道,德意志银行发布报告称,特斯拉计划使用公司拥有的车队来启动其自动驾驶出租车服务,并将借助人类操作员远程提供安全保障。

德银与特斯拉投资者关系主管特拉维斯・阿克塞尔罗德 (Travis Axelrod) 进行了会晤,并在上周五发布了这份报告。德银称,特斯拉计划明年在加州和得州推出自动驾驶出租车服务。特斯拉在今年早些时候已透露过这一目标。

德银称,特斯拉将使用自研网约车应用,并在初期部署远程操作员。「特斯拉认为,出于安全 / 冗余系统考量,至少在最初阶段需要某种类型的远程操作员,」德银在报告中称,「管理层打算完全使用公司拥有的车队,并使用内部开发的网约车应用。」

报告还指出,特斯拉仍计划在明年上半年推出更便宜车型,然后在晚些时候推出其他车型。(来源:凤凰科技 )

 

保时捷董事会主席:保时捷中国车主平均年收入 300 万元

12 月 10 日,上汽大众举办「成立 40 周年庆典」活动,大众汽车集团管理董事会主席、保时捷董事会主席奥博穆参会。活动上,奥博穆在谈到保时捷在中国市场发展现状时表示,保时捷的中国客户平均年龄只有 37 岁,而且 51% 的车主为女性车主,保时捷中国车主的家庭平均年收入达到 300 万元。

而在此前,保时捷方面曾表示,保时捷在欧美市场的车主画像,是以 50 岁左右成熟男性为主。

保时捷中国车主与欧美市场相比,车主平均年龄更为年轻,足足相差一代。

并且,保时捷中国车主中的女生比例更高,超过了 50%,而在德国和美国市场仅为 20% 左右。(来源:快科技)

影目 INMO GO 2 同传翻译 AR 智能眼镜首销:支持八门离线语种,3299 元

12 月 10 日消息,影目科技在 11 月 29 日推出新款同传翻译 AR 智能眼镜 INMO GO 2,主打「实时翻译,双向翻译,离线翻译」,目前该眼镜已在京东上架开售,标准价为 3999 元,首发到手价 3299 元。

据介绍,这款眼镜采用日常轻薄的外观形态设计,整体和普通眼镜无异,不过可以实现同声传译等功能,适用于旅游等场景,其搭载了影目自研 IMAR 显示引擎 Lite,实现了正面完全无漏光,确保隐私性。

在翻译方面,这款眼镜支持离线翻译功能,支持中英日韩法西俄德八门离线语种。官方同时提到,INMO GO2 还具备演讲题词功能,通过眼睛标配的戒指(INMO RING)还能实现隐蔽翻页等功能,适合会议场合使用。

规格方面,该眼镜搭载紫光展锐 W517 处理器,采用 2GB RAM 和 32GB 存储空间,配备一块单绿色 640×480 分辨率 Micro LED 屏,亮度至高 2000 尼特,FOV 视场角为 30 度,内置 440 毫安时电池,号称至高可连续使用 150 分钟(2.5 小时)。(来源:IT 之家)

 

诺基亚推出全球首款 5G 技术 8K 全景摄像机 Nokia 360 Camera:支持防水抗震、面向工控市场

12 月 10 日消息,诺基亚在 2015 年发布了 OZO 全景 VR 摄像机,然而到了 2017 年,诺基亚退出了这一市场。而如今诺基亚重新进入这一领域,推出了全球首款基于 5G 技术的 8K 全景摄像机「Nokia 360 Camera」,不过也可以选择纯 Wi-Fi 版本,价格信息暂未公布。

这款摄像机支持实时传输 8K 视频和空间音频,号称拥有「极低延迟」,诺基亚称这款摄像机的目标市场并非普通消费者,其主要面对商用市场,具备 IP67 级防水功能,号称抗震性能出色,能够在极端温度环境中运行,同时拥有高度网络安全性。

诺基亚同时表示,这款摄像机能够与诺基亚的实时扩展现实多媒体(RXRM)解决方案配套使用,可应用于工业设备的远程监控操作场景。(来源:IT 之家)

 

小鹏 G9 新车型亮相:配色升级 电机功率提升至 423 千瓦

12 月 10 日,新款小鹏 G9 纯电 SUV 在工信部《道路机动车辆生产企业及产品公告》中亮相。新车主要变化包括新增双色及全黑化外观选项,电机最大功率提升。

新款小鹏 G9 延续现款车型的 X-BOT FACE 3.0 设计语言,前脸采用封闭式格栅与分体式大灯。

新增的双色撞色和全黑化车身风格,以及花瓣风格轮毂,为消费者提供更多个性化选择。规格方面,车身尺寸为 4891x1937x1680 毫米,轴距 2998 毫米。

动力部分,后驱版电机最大功率提升至 258 千瓦,双电机四驱版的前后电机功率分别为 165 千瓦和 258 千瓦,综合最大功率提升至 423 千瓦。(来源:快科技)

Netflix 独占游戏《纪念碑谷 3》明日发售,登陆 iOS 及安卓平台

高分解谜游戏《纪念碑谷》系列新作《纪念碑谷 3》于今日发售,登陆 iOS 和 Android 平台,限 Netflix 订阅会员独占游玩,Netflix 今日还特意发布了关于这款游戏的原创动画短片「灯塔」。

这部短片讲述了主角 Sula 发现自己被困在一个神秘莫测的岛屿上,为了找寻曾经失去的东西,她决定踏上旅程,向世界发出信号。

这部动画由位于伦敦的 Moth Studio 工作室制作。官方介绍显示,团队成立于 2015 年,旨在通过动画分享其对故事讲述、绘画和电影制作的热爱。

App Store 显示,《纪念碑谷 3》体积约为 448.9 MB,支持简体中文,须使用 iOS 16.0 或以上版本才能游玩。(来源:IT 之家)

浏览量: 35

OpenAI 正式发布 Sora,一文看懂它的文生视频功能到底强在哪?

 

文|黎诗韵

编辑|靖宇

 

正如外界猜测的那样,在为期 12 天直播的第三天,OpenAI 正式发布了文生视频产品 Sora。

北京时间 12 月 10 日凌晨两点,Sam Altman 和几位 OpenAI 内部员工通过直播,展示了 Sora 的功能和实际用例。继今年 2 月释出视频样片后,Sora 引发了全球人工智能界热潮,此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者,今天 Sora 终于揭开了神秘面纱。

整体来说,Sora 展示的一系列产品功能,表明其在视频生成的质量、功能的独创性、技术的复杂度等方面,远远超出了目前的文生视频产品。

在文、图生视频的基础功能之上,它加入了故事板(相当于通过分镜创作自己的故事)、用文本调整原视频、不同场景视频的融合等功能(相当于给视频直接加特效),整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。

当地时间 12 月 9 日晚些时候,美国、以及大多数其他国家的用户,可以访问官网体验 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的会员订阅中,无需额外付费。其中,Plus 能生成最多 50 个最高视频、视频分辨率最高达 720p、时长为 5 秒,而 Pro 则能生成最多 500 个最高视频、分辨率高达 1080p、时长为 20 秒、还能去水印。

Sam Altman 介绍做 Sora 有三大原因:

一是从工具性角度,OpenAI 喜欢为创意人员制作工具,这对公司的文化很重要;

二是从用户交互角度,人工智能系统不能只通过文本交互,也应该理解并生成视频,帮助人类使用人工智能。这类似于国内大模型公司谈到的,「模型每扩展一次模态,用户渗透率就会上升。」

三则是从技术角度,这对 OpenAI 的 AGI 路线图至关重要,人工智能应该学到更多关于世界的规律,这正是所谓理解物理规律的「世界模型」。

既要用技术改变世界,也要用产品促进人类创造,这就是 Sora 在做的事情。

 

生成视频之外,还能分镜、加特效、无限创作

 

Sora 最基础的,首先是文生视频、图生视频功能。

打开主界面,用户可以查看和管理所有的视频生成内容,并且切换网格视图、列表视图,以及创建文件夹和收藏夹,查看书签等。研究人员称这个主界面设计,是为了更好地帮助用户创作故事。

在主页面的中间底部,是 Sora 的文生视频、图生视频功能。

比如,Sam Altman 先给到文字输入,「长毛猛犸象在沙漠中行走,广角镜头拍摄」。接着,需要选择视频的画面比、分辨率、时长(5-20 秒)、以及最终生成的视频数量(最多可生成四段以供挑选)等,才能获得生成的视频。

最终,可以看到生成的视频效果非常真实、有质感,且基本遵照了输入的指令。对于 Sora 视频生成效果的出色表现,或许人们是不意外的。

 

输入「长毛猛犸象在沙漠中行走,广角镜头拍摄」的文字后,Sora 生成了四段视频 | 图片来源:OpenAI

 

但此次,Sora 还发布了一系列独有的、进阶的的产品功能。在极客公园看来,这些功能基本围绕视频的更准确表达,也就是通过分镜、加特效等等方式,让人们能通过视频创作出一个自己想要的故事。

首先是故事板(storyboard),它被研究人员称为是一种「全新的创意工具」。

从产品设计上看,它相当于按时间轴的方式,把一段故事(视频)切成了多个不同的故事卡(视频帧)。用户只需要设计和调整每张故事卡(视频帧),Sora 会自动把它们补成一段流畅的故事(视频)——这很像电影里的分镜、动画的手稿,当导演画好分镜、一个片子就拍出来了,一个漫画师写好手稿、一个动画就设计出来了。

比如研究人员设想的第一个分镜是,「美丽的白鹤站在小溪中,拥有一条黄色的尾巴。」第二个分镜是,「鹤将头探入水中,并捉出一条鱼」。那他做的工作就是,分别创建这两张故事卡(视频帧),并在两者之间设大概五秒钟的间隔。这个间隔对 Sora 很重要,给了它把两组动作连起来的发挥空间。

最终,他得到了一个完整的视频镜头,「美丽的白鹤站在小溪中,它拥有一条黄色的尾巴。接着鹤将头探入水中,并捉出一条鱼。」

 

通过两张故事卡(视频帧),Sora 生成了一个完整的故事(视频) | 图片来源:OpenAI

 

更为奇妙的是,在这个故事板上,创作要素不只是故事卡,也可以是直接的图片、视频。也就是说,可以将任意的图片、视频拉到故事板上,结合故事卡,对它进行创作。

以视频为例,研究人员将上述白鹤的视频切下来导入故事板,进行了剪切,这就给视频的前方和后方留出了继续创作的间隙,也就是说可以有新的开头和结尾。

这带来的想象是,故事板可以无限的创作下去。也就是说 Sora 生成的 20 秒视频,可以被不断地创造、剪切、创造……直至完全达到心目中理想的镜头。这个过程就像一个剪辑师、导演,通过对分镜设计和镜头素材的不断生成剪辑,慢慢剪出自己心中的片子。

和真实世界中不同,Sora 提供的素材是无限的。而和其他的文生视频产品不同,Sora 的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。

这似乎正是 Sora 此次产品的核心思路:尽最大可能地,让生成的视频符合用户心中想要的创意。

这样可以更好理解 Sora 的其他功能,比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等,这相当于是直接给视频加「特效」了。而一般的文生视频产品,可能需要不断地调整 prompt(提示词)、不断重新生成视频。

 

 

通过调整文字,用户可以直接调整视频 | 图片来源:OpenAI

 

Sora 能将两个两段视频合并为一段无缝剪辑 | 图片来源:OpenAI

 

总的来说,Sora 除了在生成视频上不出意料的出色表现之外,它还带来了更独有的视频创作产品功能,相当于给视频加分镜、剪辑、特效。这意味着,每个人都有机会创作出自己真正想要的表达,离当一个导演也更近了。

「如果你带着期望进入 Sora,认为你只需要点击一个按钮就可以生成一部电影,那么我认为你的期望是错误的。」OpenAI 研究人员说道。

他表示,Sora 是一种工具,允许人们同时在多个地方、尝试多个想法,尝试以前完全不可能的事情,「实际上我们认为这是创作者的超级特殊延伸。」

 

服务大众还不单独收费,还是靠底层模型的能力

作为文生视频赛道的开创者,Sora 的推出时间算是最晚的。对此,OpenAI 研究团队表示,为了对 Sora 进行广泛的部署,需要找到让模型更快、更便宜的办法。为此,研究团队做了大量的工作。

在直播中,OpenAI 宣布推出 Sora turbo,这是原始 Sora 模型的新高端加速版本。它具有今年早些时候 OpenAI 在「世界模拟技术」报告中谈到的所有功能,此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次 Sora 产品功能背后的技术基础。

看起来相比文字,视频的推理成本更高,但此次 OpenAI 并没有单独针对 Sora 收费。20 美元/月的 ChatGPT Plus 会员、以及 200 美元/月的 ChatGPT Pro 会员,都可以使用 Sora。

前者的权益包括最多 50 个最高视频、分辨率达 720p,时长为 5 秒,后者的权益包括最多 500 个最高视频、无限普通视频,分辨率高达 1080p、持续时间为 20 秒、并且下载无水印。

Sora 对 OpenAI 的意义不止于此。团队发现,视频模型在大规模训练时会展现出许多有趣的新能力,使得 Sora 能够模拟现实世界中人、动物和环境的某些方面。「我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」

或许正是因此,让 Sora 尽快被大众用起来、用数据更好地训练世界模型,对于 OpenAI 最终的 AGI 梦想如此重要。

在迭代技术的路上,也顺带推动了人类的创造。

「这个版本的 Sora 会犯错误,它并不完美,但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。」缔造它的 OpenAI 如此说道。

 

浏览量: 64

人形机器人,能横扫工业场景吗?

具身智能在2024年成为科技领域的新热词。

人形机器人和具身智能公司,纷纷成立,一时风头无两。

不过,目前的人形机器人和具身智能,往往更多停留在概念和demo之中,何时能真正落地,仍然未知。包括特斯拉的Optimus在内的不少人形机器人企业,都将人形机器人落地的第一场景,设在工业场景当中。

然而,工厂场景中,实际早已存在不少工业机器人。这些更传统的工业机器人,未来会被人形机器人取代吗?或者,它们是否将在哪些方面结合新的具身智能技术,带来新的生产效率的突破?

近期,极客公园接触到了移动机器人解决方案提供商优艾智合。

优艾智合在2017年就已经成立,为工业企业提供物流机器人和巡检机器人,尤其深耕半导体行业,已经形成上游晶圆生产、芯片封测、模组封装到下游组装的生产环节全覆盖机器人解决方案,是半导体领域出货量最大的移动机器人企业。在2022年,优艾智合的机器人已经做到年出货量两千余台。

极客公园了解到,从2022年起,优艾智合也在部署具身智能相关的技术能力,并在11月20日,与西安交通大学共同宣布成立具身智能机器人研究院。

在具身智能火起来之后,人们常常畅想,一个通用的人形机器人,可能会替代很多原有的专用机器人的未来。作为一个已经有真实成熟的工业落地场景的公司,优艾智合如何看待具身智能呢?

带着这样的疑问,极客公园采访了优艾智合CTO边旭。采访记录有删节。

 

具身智能可以让机器人更聪明

问:什么时候开始思考落地具身智能?

边旭:这应该是从 22 年 10 月份到2023年我们开始真正关注具身智能这个概念。

当时谷歌和Everyday Robotics合作,第一次将大型语言模型集成到机器人中,我们当时看了论文,下了一个判断是,多模态大模型,最终只是一个接口,真正机器人要发挥作用,光靠大模型是远远不够的,需要强化学习、模拟学习等很多技术产生突破。

这是我们思考的起点,我们也开始从2023年开始投入了一些预研的资源。

问:目前的具身智能技术进步,能够解决哪些你们面临的问题?

边旭:目前在进展中的,最快能解决的问题是视觉模型对环境的理解,能够让我们做出更安全、柔性的控制策略。

传统的机器人对物理环境的重建,基本都是基于激光雷达的这种直接测量的方法进行构建。激光测距这项技术是有极限的。

比如我们的地面是平的,但是其实传感器扫描出来的地面不是平的,是震荡的。它扫出来,可能是5cm厚的一个点云。其中上下2cm,都是它对地扫描的误差。但是这仍然导致有些情况下,地上出现一条电线,这条电线本身的凸起并不超过2cm,这时候对微小物体的识别,会被淹没在噪声中。

而通过视觉识别,则机器人能够直接认识到前方出现细小物体,从而进行避障。

我们运送晶圆的机器人,如果被绊一跤,一点点损伤都会带来很大的经济损失。在之前,我们只能通过工厂的安规管理,给机器人开辟出专门的运行区域来保证这样的事情不会发生。

优艾智合晶圆盒搬运机器人 | 图源:优艾智合

但是真正解决这个问题,要依靠具身智能中可自主学习的多模态感知——也就是机器人能够通过视觉识别,识别出物体,进行更智能的规避。

在这点上,我们的研发已经有了阶段性的成果,在我们的样机上,demo上效果已经能做到比较好了。

问:具身智能的下一步技术进步中,作为一个有落地场景的工业机器人公司,你们更关注于哪方面的技术进步?

边旭:我们也在关注端到端的运动控制,这件事本身是很难的,目前我们也只是在做前期的研究工作。

端到端的自动控制,类似于特斯拉在做的端到端的自动驾驶,也就是整个运动控制的指令都是模型生成的。而我们提供工业机器人,要到运动控制的指令都由机器人生成,实际上需要更精准,犯错率更低。

另外,达成端到端的运动控制,也依赖为我们提供机械臂本体的上下游生态伙伴,做相应的底层调整,共同进步。

问:端到端的运动控制可以帮你们解决什么样的问题?

边旭:比如我们为半导体行业提供工业物流机器人,机器人的形态是复合机器人,这样的机器人,每台对接一个工位,正常都需要经过一些参数化的配置和调试,这是行业通用的做法。

但实际上这个是非常耗时的。你要做一些标定,做一些过渡点的录制,这样的配置和调试过程其实是非常不柔性的,也无法被批量复制。

我们之前做出海,已经卖出了不少机器人解决方案,其实我们在全世界都有很大的需求,但是在近中国的日本和东南亚,开展地更顺利,原因之一就是出海的话,我们也需要很大的部署成本。

通过我们前面说的目标识别,融合视觉和3D的点云数据,保证目标识别的鲁棒性,再根据目标识别,做到通过少量学习和零次学习,可以让机器人完成手眼协同,自适应部署。

这样基于目标的端到端的运动控制模型,和通用代码大模型去自动化脚生成检测、生成部署脚本能够帮助我们大幅降低部署成本。

 

企业客户希望有更聪明的机器人,但最好没有成本增加

问:在之前已经落地的场景中,其实通过安规管理等方式,可以部分解决机器人不够智能的问题,那么使用具身智能会不会使成本提升很高?

边旭:在人形机器人上要做具身智能,可能需要非常强大的GPU,上万块的成本,这确实在工业机器人里是不可接受的。

我们考虑要使用低算力的平台,实现高具身智能的效果。我们主要是使用NPU,6-7 TOPS的算力,来跑一些视觉模型。

即使是我们后面说的这种,运动控制方向的具身智能的部署,在我看来,未来也是成本可控的。因为我们机器人硬件中,本身已经有了视觉和雷达的部分,这部分的成本是本来就有的。只是需要再对数据进行算法层面的训练。

问:你觉得企业实际上能接受多少成本的上升?

边旭:我觉得对企业来说,其实最好是没有成本增加,甚至有运维成本的下降。

比如我们前面说的,通过管理的方式可以解决的问题,实际上本身还是依赖于人工,而人是工业生产中最不可控的变量,根本上如果机器人能智能化地解决这个问题,整体运维成本是下降的。

对于我们自身而言,也会降低很多和企业之间的沟通成本。

问:除了成本之外,企业还会比较关注哪些问题?

边旭:企业也会比较在意数据链路的绝对安全。

很多客户的要求是数据不出园区,那可能一些人形机器人使用公有云上的模型的这种操作模式就不适合我们。

优艾智合智能巡检操作机器人| 图源:优艾智合

此外,前面说过,工业场景对AI的犯错容忍度很低。客户对我们的要求就是零异常。一般的工业公司对推AI都比较谨慎。

所以我们认为纯靠AI算法解决所有问题的思路本身是错的。越智能就越容易不可控。泛化性的智能控制,还是需要结合一些条件策略,才能更好地让产品闭环。

问:在工业领域,具身智能还有什么独特的特点?

边旭:我们理解具身智能是两部分,第一个是单体智能,也就是一脑多态的这种智能控制系统,另一方面是,群体智能。

在这套解决方案里,机器人只是一环,机器人的智能化水平可以无限接近于人。但是工厂中要实现全厂的生产,它还需要其他的,比如说电梯、产线,和其他设备类的东西,都会参与到整个的过程中。我们现在传感器只是布置在机器人上,未来可能传感器是部署在全场的解决方案里面的。

这个全场的解决方案,里面涉及到的就是群体智能。这里面怎么去融合感知,来保证机器人的安全和效率,我觉得想象的空间比机器人本体更大。

 

 

人形机器人,能够横扫工业场景吗?

问:过去一两年,有很多具身智能和人形机器人的公司成立。很多公司的愿景都是最后走向一个通用的人形机器人,它泛化性非常强,什么工厂都能进,什么工厂内的任务都能做。你怎么看待未来的通用人形机器人,它会成为传统工业机器人的终结者吗?

边旭:其实为什么工厂在很多场景下已经开始使用机器人了?就是因为其实人类在很多情况下已经不够适应工业所需的一些情况了。

比如在工业巡检领域,人只能看到可见光,看不到红外光,也看不到声波。我们只能依靠目视距离操作。

因此我们在巡检中,提出了超视距的多模态感知,首先传感器不局限于机器人在哪里,都能获得数据,其次能够通过AI的分析处理,获得隐藏在声纹等数据中的一些异常,得到自适应感知,这其实都是对人类能力的超越。

对于我们工业从业者来说,我们看问题比较实际。我认为我们的积累其实是一种壁垒。

一个机器人,你没有做过这个场景,怎么能讲它有泛化的能力,去解决这个场景的问题?

对于工业场景而言,首先,工业场景比较闭塞,很难通过互联网去学习到相关的知识,有很强的行业属性,机器人很难通过通用的数据进行泛化地学习。

其次,工业机器人的产品定义,本身就是工业机器人企业和工业企业一起推动的。客户需要机器人,但又不完全清晰的知道需求的细节。很多产品定义都是我们在这个场景中积累总结,和客户共创获得的。

问:传统工业场景下已经落地的机器人企业的主要优势在哪里?

边旭:主要还是在行业深耕后,获得的壁垒。

比如我们在最基本的SLAM能力上,我们有很多corner case的应对经验。比如环境对机器人定位的多种非线性扰动,对于机器人定位导航的干扰是非常大的,并且是很难量化。这对于你的定位导航的鲁棒性,和智能化要求很高。

人形机器人本身,如果能找到一个合适落地的场景,再有很强的技术基础,或许未来在工业场景中也会有一席之地。

但我认为在一个我们已经深耕过的行业里,我们再加入具身智能的技术,我们做这件事的路径可以是最短的。

问:工业场景,最终的形态会是人形机器人吗?

边旭:一个通用人形机器人,来适配所有的场景是很难的,你很难倒逼所有行业客户改去适配你的设备。

可能只有纯人工的场景,用人形做,客户改造成本就低一点。但也可能在那之前,全场景的移动机器人的方案已经覆盖了这个行业了。

我觉得工业,相对于对于服务场景等,最大的区别就是成本和效率。

越通用,代表着对于某个细分行业来讲,应用成本越高,它会有很多功能的冗余。

考虑到效率因素,其实不应该所有行业都用一样机器人。

特斯拉人形机器人Optimus | 图片来源:视觉中国

而为不同行业打造的话,模型也可以是更加针对这个场景的,可以就是以更小的数据去训练,然后运用的成本也更低,然后更针对这个场景,

问:对于只做大脑的具身智能企业而言,如果不是一个通用的人形机器人来承载其大脑的部分,而是有多种多样的终端形态,会对执行产生一些困难吗?

边旭:会有一些困难。

不同的上集成其实是一个新的模型。虽然从目标识别,视觉的角度来讲差别不大,但在执行和安全角度讲,不同的本体构型是有差异的。

在工业里边,其实在机电系统和机构学上不存在通用的。就是每一种构型其实都要满足它的一个特殊工艺的一个设计生产要求。

问:怎么看未来的人形机器人?

边旭:我觉得,现在的人形机器人,不论从技术成熟度、量产能力,还是商业模式的成熟度上,其实是和几年前工业移动机器人刚兴起的时候很像。

机器人本体是一部分, 但更重要的是智能系统端的进步。

在移动机器人行业,目前其实有很多做移动机器人本体的厂家,可以把产品做得很标准,成本很低,稳定性很强。而我们做解决方案的企业的优势,则在于需要长时间积累的智能系统。

我想未来,可能也会有很多做这种人形机型本体的厂家,将本体做的很好。而像我们这样的公司,可以在人形机器人上,构建我们的工业应用。

我们目前的技术布局,已经在具身控制器这块布局了未来兼容足式机器人的架构,我们目前看不到人形机器人在工业场景有太好的应用,但不代表未来没有,我们会持续关注提前布局。

比起机器人的形态,我们更关注具身智能技术在工业领域规模化落地的路径与节点。我们认为“一脑多态”是具身智能落地工业场景的最佳形态,再通过集群化的协同交互,可以实现工业企业生产效率和效率的提升。

 

浏览量: 82

OpenAI 正式发布 Sora,一文看懂它的文生视频功能到底强在哪?

 

文|黎诗韵

编辑|靖宇

 

正如外界猜测的那样,在为期 12 天直播的第三天,OpenAI 正式发布了文生视频产品 Sora。

北京时间 12 月 10 日凌晨两点,Sam Altman 和几位 OpenAI 内部员工通过直播,展示了 Sora 的功能和实际用例。继今年 2 月释出视频样片后,Sora 引发了全球人工智能界热潮,此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者,今天 Sora 终于揭开了神秘面纱。

整体来说,Sora 展示的一系列产品功能,表明其在视频生成的质量、功能的独创性、技术的复杂度等方面,远远超出了目前的文生视频产品。

在文、图生视频的基础功能之上,它加入了故事板(相当于通过分镜创作自己的故事)、用文本调整原视频、不同场景视频的融合等功能(相当于给视频直接加特效),整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。

当地时间 12 月 9 日晚些时候,美国、以及大多数其他国家的用户,可以访问官网体验 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的会员订阅中,无需额外付费。其中,Plus 能生成最多 50 个最高视频、视频分辨率最高达 720p、时长为 5 秒,而 Pro 则能生成最多 500 个最高视频、分辨率高达 1080p、时长为 20 秒、还能去水印。

Sam Altman 介绍做 Sora 有三大原因:

一是从工具性角度,OpenAI 喜欢为创意人员制作工具,这对公司的文化很重要;

二是从用户交互角度,人工智能系统不能只通过文本交互,也应该理解并生成视频,帮助人类使用人工智能。这类似于国内大模型公司谈到的,「模型每扩展一次模态,用户渗透率就会上升。」

三则是从技术角度,这对 OpenAI 的 AGI 路线图至关重要,人工智能应该学到更多关于世界的规律,这正是所谓理解物理规律的「世界模型」。

既要用技术改变世界,也要用产品促进人类创造,这就是 Sora 在做的事情。

 

生成视频之外,还能分镜、加特效、无限创作

 

Sora 最基础的,首先是文生视频、图生视频功能。

打开主界面,用户可以查看和管理所有的视频生成内容,并且切换网格视图、列表视图,以及创建文件夹和收藏夹,查看书签等。研究人员称这个主界面设计,是为了更好地帮助用户创作故事。

在主页面的中间底部,是 Sora 的文生视频、图生视频功能。

比如,Sam Altman 先给到文字输入,「长毛猛犸象在沙漠中行走,广角镜头拍摄」。接着,需要选择视频的画面比、分辨率、时长(5-20 秒)、以及最终生成的视频数量(最多可生成四段以供挑选)等,才能获得生成的视频。

最终,可以看到生成的视频效果非常真实、有质感,且基本遵照了输入的指令。对于 Sora 视频生成效果的出色表现,或许人们是不意外的。

 

输入「长毛猛犸象在沙漠中行走,广角镜头拍摄」的文字后,Sora 生成了四段视频 | 图片来源:OpenAI

 

但此次,Sora 还发布了一系列独有的、进阶的的产品功能。在极客公园看来,这些功能基本围绕视频的更准确表达,也就是通过分镜、加特效等等方式,让人们能通过视频创作出一个自己想要的故事。

首先是故事板(storyboard),它被研究人员称为是一种「全新的创意工具」。

从产品设计上看,它相当于按时间轴的方式,把一段故事(视频)切成了多个不同的故事卡(视频帧)。用户只需要设计和调整每张故事卡(视频帧),Sora 会自动把它们补成一段流畅的故事(视频)——这很像电影里的分镜、动画的手稿,当导演画好分镜、一个片子就拍出来了,一个漫画师写好手稿、一个动画就设计出来了。

比如研究人员设想的第一个分镜是,「美丽的白鹤站在小溪中,拥有一条黄色的尾巴。」第二个分镜是,「鹤将头探入水中,并捉出一条鱼」。那他做的工作就是,分别创建这两张故事卡(视频帧),并在两者之间设大概五秒钟的间隔。这个间隔对 Sora 很重要,给了它把两组动作连起来的发挥空间。

最终,他得到了一个完整的视频镜头,「美丽的白鹤站在小溪中,它拥有一条黄色的尾巴。接着鹤将头探入水中,并捉出一条鱼。」

 

通过两张故事卡(视频帧),Sora 生成了一个完整的故事(视频) | 图片来源:OpenAI

 

更为奇妙的是,在这个故事板上,创作要素不只是故事卡,也可以是直接的图片、视频。也就是说,可以将任意的图片、视频拉到故事板上,结合故事卡,对它进行创作。

以视频为例,研究人员将上述白鹤的视频切下来导入故事板,进行了剪切,这就给视频的前方和后方留出了继续创作的间隙,也就是说可以有新的开头和结尾。

这带来的想象是,故事板可以无限的创作下去。也就是说 Sora 生成的 20 秒视频,可以被不断地创造、剪切、创造……直至完全达到心目中理想的镜头。这个过程就像一个剪辑师、导演,通过对分镜设计和镜头素材的不断生成剪辑,慢慢剪出自己心中的片子。

和真实世界中不同,Sora 提供的素材是无限的。而和其他的文生视频产品不同,Sora 的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。

这似乎正是 Sora 此次产品的核心思路:尽最大可能地,让生成的视频符合用户心中想要的创意。

这样可以更好理解 Sora 的其他功能,比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等,这相当于是直接给视频加「特效」了。而一般的文生视频产品,可能需要不断地调整 prompt(提示词)、不断重新生成视频。

 

 

通过调整文字,用户可以直接调整视频 | 图片来源:OpenAI

 

Sora 能将两个两段视频合并为一段无缝剪辑 | 图片来源:OpenAI

 

总的来说,Sora 除了在生成视频上不出意料的出色表现之外,它还带来了更独有的视频创作产品功能,相当于给视频加分镜、剪辑、特效。这意味着,每个人都有机会创作出自己真正想要的表达,离当一个导演也更近了。

「如果你带着期望进入 Sora,认为你只需要点击一个按钮就可以生成一部电影,那么我认为你的期望是错误的。」OpenAI 研究人员说道。

他表示,Sora 是一种工具,允许人们同时在多个地方、尝试多个想法,尝试以前完全不可能的事情,「实际上我们认为这是创作者的超级特殊延伸。」

 

服务大众还不单独收费,还是靠底层模型的能力

作为文生视频赛道的开创者,Sora 的推出时间算是最晚的。对此,OpenAI 研究团队表示,为了对 Sora 进行广泛的部署,需要找到让模型更快、更便宜的办法。为此,研究团队做了大量的工作。

在直播中,OpenAI 宣布推出 Sora turbo,这是原始 Sora 模型的新高端加速版本。它具有今年早些时候 OpenAI 在「世界模拟技术」报告中谈到的所有功能,此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次 Sora 产品功能背后的技术基础。

看起来相比文字,视频的推理成本更高,但此次 OpenAI 并没有单独针对 Sora 收费。20 美元/月的 ChatGPT Plus 会员、以及 200 美元/月的 ChatGPT Pro 会员,都可以使用 Sora。

前者的权益包括最多 50 个最高视频、分辨率达 720p,时长为 5 秒,后者的权益包括最多 500 个最高视频、无限普通视频,分辨率高达 1080p、持续时间为 20 秒、并且下载无水印。

Sora 对 OpenAI 的意义不止于此。团队发现,视频模型在大规模训练时会展现出许多有趣的新能力,使得 Sora 能够模拟现实世界中人、动物和环境的某些方面。「我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」

或许正是因此,让 Sora 尽快被大众用起来、用数据更好地训练世界模型,对于 OpenAI 最终的 AGI 梦想如此重要。

在迭代技术的路上,也顺带推动了人类的创造。

「这个版本的 Sora 会犯错误,它并不完美,但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。」缔造它的 OpenAI 如此说道。

 

浏览量: 21

OpenAI 的 Sora 上线,官网挤爆;雷军:新车 YU7 提前上线,解除伪装;苹果:对 AGI 不感兴趣|极客早知道

AI 视频生成王者 Sora 上线:OpenAI 的「魔法棒」,1080P@20 秒具象化你的想象力

OpenAI 公司 12 月 9 日发布博文,宣布正式推出 Sora 文生视频 AI 模型,邀请 ChatGPT Plus 和 ChatGPT Pro 用户,通过访问 sora.com 网站,生成最高分辨率 1080p、时长达 20 秒的视频,并支持宽屏、竖屏和方形比例。

OpenAI 公司表示用户可以生成分辨率高达 1080p、时长不超过 20 秒的视频,并支持宽屏、竖屏或方形比,所有 Sora 生成的视频都带有 C2PA 元数据,便于识别以及后续验证来源。

ChatGPT Plus 每月可以免费生成 50 个 480P 分辨率的视频,如果选择更高的 720P 分辨率,则会占用更多的每月免费生成视频额度,但官方新闻稿中并未公布更多细节。

由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,Sam Altman 表示「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」(来源:IT之家)

雷军谈小米首款 SUV YU7「为何这么早公示」:希望尽早拆除重伪装,做更全面细致测试

12 月 9 日,工信部发布最新一批申报名单,不久后,小米创办人、董事长兼 CEO 雷军发文,谈到了「为什么这么早公示」。

雷军称:「我们希望 YU7 测试车可以尽早拆除重伪装,有助于我们做更全面、更细致的长时间大规模测试,来确保产品质量,做出更好的产品。」

12 月 9 日,小米首款 SUV 车型 YU7 申报图公布,小米宣布,这款 SUV 新车,预计于明年六至七月正式上市。(来源:DoNews)

 

英伟达受中国反垄断调查,事涉 2020 年收购迈络思

12 月 9 日晚间,中国国家市场监督管理总局(下称「总局」)发布公告称,近日因英伟达公司涉嫌违反《中华人民共和国反垄断法》及《市场监管总局关于附加限制性条件批准英伟达公司收购迈络思科技有限公司股权案反垄断审查决定的公告》(下称「公告」),市场监管总局依法对英伟达公司开展立案调查。财新就反垄断调查向英伟达问询,截至发稿暂未获回应。

此次反垄断事涉英伟达 2020 年完成的对以色列网络设备商迈络思(Mellanox)的收购,该笔收购作价 69 亿美元,为英伟达史上最大一笔收购。受该消息影响,英伟达美股盘前跳水,截至发稿,跌近 2%。(来源:财新网)

 

​苹果 AI 负责人称公司对开发通用人工智能不感兴趣,短期内难实现

12 月 10 日,苹果公司机器学习和人工智能战略高级副总裁约翰・詹南德雷亚(John Giannandrea)在接受 WIRED 采访时表示,苹果对通用人工智能(AGI)并不感兴趣,这一目标不现实且有些轻率。

詹南德雷亚认为,与许多竞争对手不同,苹果对开发通用人工智能不感兴趣,这种追求在公司看来是不现实的,几乎是轻率的。苹果很可能参与重要的突破,但不是为了启动奇点,而是为了改进其产品,「们从事我们所谓『调查研究』的工程师可能比从事明年即将推出的产品工作的工程师还要多,」他指的是公司的基础研究。

换句话说,詹南德雷亚并没有排除苹果参与 AGI 相关突破的可能性,但其最终目标不是 AGI,而是面向用户的产品,以改善人们的生活。苹果的 AI 负责人认为,一些常见的 AGI 乐观情绪是「非常天真的」。(来源:IT之家)

全球新能源汽车销量 TOP20 出炉:比亚迪稳坐冠军,是特斯拉 4 倍

12 月 9 日,CleanTechnica 发布了 2024 年 10 月全球新能源品牌销量 T20 榜单。

在这个月的排名中,中国品牌表现尤为突出,占据了前二十名中的十三席。德系品牌(大众、宝马、奔驰)占据三席,其余席位则被韩系、欧系、日系和美系各占一席。

比亚迪以 48.3 万辆的销量高居榜首,占据全球市场份额的 27.7%,这一数字甚至超过了第 2 名到第 9 名的总和。

特斯拉位居第二,销量达到 12.2 万辆,市占率为 7.0%。五菱、吉利和理想分别位列第三、第四和第五,销量分别为 7.8 万、6.6 万和 5.1 万辆,对应的市占率为 4.5%、3.8% 和 3.0%。(来源:快科技)

 

百川智能联合创始人洪涛离职,曾任搜狗公司首席营销官

12 月 9 日,据《智能涌现》援引多名独立信源消息称,前百川智能联合创始人、商业化负责人洪涛已经离职。多位接近百川智能的人士表示,洪涛已不再负责参与百川的日常经营管理工作,已离职有一段时间。

对上述信息,百川智能方面回复称:「洪涛因个人原因已从公司离职。在公司创立初期,他快速搭建了商业化团队,为公司发展奠定了基础。我们非常感谢他的付出和贡献。」

报道提到,洪涛最为人所知的身份是前搜狗公司的首席营销官(CMO)。他毕业于清华大学,于 2005 年加入搜狗公司,曾带领搜狗公司跻身互联网公司广告收入第六位。

2023 年 7 月末,洪涛入职百川智能,与前搜狗 CEO 王小川,原搜狗 COO 茹立云一起再度创业。洪涛作为联合创始人,主要从事商业化方面工作。(来源:IT之家)

 

字节跳动和 TikTok 提交紧急动议要求上诉法院阻止「出售或下架」法律

当地时间 12 月 8 日,字节跳动和 TikTok 提交了一份紧急动议,要求上诉法院暂时阻止美国国会通过的 TikTok 应用在美国下架的法律,除非该社交网络的中国所有权人在 1 月 19 日前撤资。

路透社报道称,这两家公司在动议中警告说,如果没有法庭命令,法律将生效,「在总统就职典礼前夕,TikTok–美国最受欢迎的言论平台之一将关闭其超过 1.7 亿的国内月活用户」。

在联邦上诉法院一致投票认定「出售或禁止」立法并不违宪后,这两家公司提出了动议。TikTok CEO 此前也对这一裁决做出回应,表示计划向最高法院提起上诉,并表示相信美国的最高法院将保护美国人的言论自由权。(来源:cnBeta)

消息称特斯拉最新一代 V4 超级充电站 2025 年登陆中国大陆市场,500kW 乘用车快充

12 月 9 日,据外媒 GuruFocus News 今日消息,特斯拉已经开始在北美、亚太地区和欧洲部署其最新一代 V4 超级充电站。该公司计划到 2025 年在中国大陆推出 V4 超级充电站。

V4 超级充电站采用了特斯拉最新的充电技术,增强了特斯拉车主的超级充电体验,同时支持更广泛的第三方车型。

最新发布的 V4 超级充电站为乘用车提供了 500kW 的最大充电功率,为特斯拉的 Semi 电动卡车提供了 1200kW 功率。

特斯拉两年来一直在部署新的充电站,并将其称为「V4 超级充电站(Supercharger V4)」。超级充电站由两大部分组成:充电桩(充电电缆所在的位置)和充电桩机柜(通常位于更远的位置,包含所有电力电子设备)。(来源:IT之家)

 

阿维塔 06 轿车更多官图公布:红色涂装,搭激光雷达、电子外后视镜

12 月 9 日,经过连续多天预热之后,阿维塔宣布新车命名「阿维塔 06」,随后该车的外观海报正式公布。

可以看到,阿维塔 06 沿用了家族式设计语言,前灯组提供双层式 LED 灯带并采用 L 形设计布局,配备车顶激光雷达以及电子外后视镜。此外,该车采用溜背式造型风格,尾部配有小型扰流板,全新的红色涂装搭配黑色车顶。

阿维塔 06 集成 HALO 交互屏与电子外后视镜,长宽高分别为 4855×1960×1450mm,轴距 2940mm。官方透露,阿维塔 06 轮高比超过 1:2,搭载大尺寸五辐运动轮毂,采用星弧式悬浮车顶设计。

目前,阿维塔官方暂未公布这款新车的具体配置、动力以及上市时间。(来源:IT之家)

国家知识产权局拟明确:AI 系统无法成为发明人

12 月 9 日,从国家知识产权局官网获悉,《人工智能相关发明专利申请指引(征求意见稿)》于 12 月 6 日公开征求意见。《指引》明确,对于人工智能生成的发明,在中国当前法律背景下无法赋予人工智能发明人身份。

《征求意见稿》提到,对于人工智能辅助作出的发明和人工智能生成的发明,人工智能工具或系统在不同程度上参与发明创造产生的过程。那么,人工智能系统是否可以署名为发明人,是此类专利申请引发普遍关注的问题。因此,需要对发明人资格问题予以明确。

《征求意见稿》指出,在专利文件中署名的发明人必须是自然人,人工智能系统以及其他非自然人不得作为发明人。当存在多个发明人时,每个发明人都必须是自然人。所以,对于人工智能辅助作出的发明,对发明创造的实质性特点作出了创造性贡献的自然人,可以署名为专利申请的发明人。但人工智能自主生成发明,就无法被赋予发明人身份。(来源:IT之家)

浏览量: 47

专访亚马逊云科技 AI 科学总监:Scaling Law 是否依然有效

今天基础大模型领域呈现出「一超多强」的行业格局,OpenAI 依然占据着王座,但 Meta 的 Llama、谷歌的 Gemini、Anthropic 的 Claude,以及 Luma、Suno 等垂类模型「列强」,也在过去一年里快速发展迭代,甚至在细分领域实现了对 OpenAI 的弯道超车。

最近,一个新玩家加入到这一阵营。刚刚结束的 re:Invent 2024 大会期间,亚马逊正式发布新一代 Nova 系列大模型,其中既有高性价比的实用模型,也有可用于定制模型蒸馏的「高性能模型」。同时还提出了 Any to Any 的新理念,要在明年实现从多种模态输入到多种模态输出的自由 AI 生成。

该模型的训练是由亚马逊云科技团队主导,作为全球最大的云计算平台和基础设施服务供应商,亚马逊云科技在 re:Invent 2024 期间发布了一系列涉及 AI 基础设施、AI 应用开发、再到实用 AI 应用的技术更新。

Sherry Marcus 博士是亚马逊云科技生成式 AI 科学总监,她领导的团队主要负责 RAG(Retrieval-Augmented Generation,检索增强生成)Agent 和模型蒸馏等工作,同时她也非常熟悉新发布的 Nova 系列模型,以及 Amazon Q 等 AI 应用。

在 re:Invent 2024 期间,极客公园等国内媒体采访了 Marcus 博士,她向我们分享了关于 Nova 的技术特点、未来方向,以及她对模型蒸馏、消除幻觉、Scaling Law 等行业热点话题的思考。

Sherry Marcus 丨来自:亚马逊云科技

以下是采访内容,由极客公园整理。

 

Sherry Marcus:我的团队主要负责一些具体的技术工作,比如 RAG Agent 和模型蒸馏等。感谢大家今天的到来。

问:你们在推出 Q for Business 这个产品线时,是否达到了预期目标?

Sherry Marcus:你可以把它看作一系列基于 Amazon Bedrock 的应用程序,这些程序包括预定义的 RAG 模型等一系列能力。客户可以利用这些技术来开发他们自己的应用程序。实际上,我们已经在客户渗透方面取得了不错的成绩,并且还提供了一些基于 Amazon Bedrock 的衍生产品。我们通过多种方式为客户提供解决方案,具体方式取决于他们的数据需求。

 

问:关于 AI 幻觉问题,你们有哪些解决方案?

Sherry Marcus:我们有解决方案应对 AI 幻觉问题。今天你可能在 Matt 的主旨演讲中听到了,我们推出了「自动推理」能力(Automated Reasoning),以确保大语言模型的正确性。目前,已有一些用户的实际应用案例,尤其是在安全和基础设施建设等领域,我们提供了相关解决方案。

此外,我们还有一个名为「上下文语境打磨」(Contextual Grinding)的解决方案,它确保大语言模型在基础原理和真实信息的基础上判断输出内容的准确性,以减少 AI 幻觉。虽然无法保证 100% 的消除幻觉,但目前我们的方案已经在行业中处于领先水平。

 

问:能否谈谈面向合作伙伴的 Bedrock Marketplace for Partner?

Sherry Marcus:这个目前还不能对外发布,明天的主题演讲后才会有相关信息。不过,我可以简单介绍一下。Bedrock Marketplace for Partner 允许模型供应商向平台提供他们的模型。客户可以在 Amazon Bedrock 上使用这些模型,以实现多种功能应用。它是 Bedrock 平台的一个战略支柱,旨在为客户提供尽可能多的模型选择。

 

问:你们已经有一些重大的模型供应商加入了对吗?那么合作伙伴如果使用这个 Marketplace,是进行销售吗?具体是怎么操作的?

Sherry Marcus:是的,合作伙伴是模型的开发者,若其他客户在 Bedrock 上使用了他们的模型,合作伙伴就能获得收益。这个 Marketplace 主要面向大语言模型供应商,他们通过向 Bedrock 提供 API 来获利。我们有多个 Marketplace,而你提到的这个 Marketplace 只针对大语言模型的开发者。明天 Swami 的演讲会有更多具体信息。

 

问:如果在使用合作伙伴模型时,出现安全或其他问题,责任如何划分?

Sherry Marcus:我们会共同分担责任。大多数模型供应商在发布之前会进行微调,针对偏见和常见攻击行为进行防护,这是他们的「零层防御」。在模型进入 Amazon Bedrock 之前,我们会对其进行忠实性、无偏性、稳定性和安全性测试。第二,针对使用这些模型的客户,我们提供了一个名为「Guardrail」的服务,客户可以根据需求制定更高的安全标准,甚至规定一些无法讨论的敏感话题。

 

问:现在很多用户都会将 Nova 与 ChatGPT 等工具进行对比。你觉得 Nova 与其他工具相比,有哪些独到之处?

Sherry Marcus:Nova 的设计考虑了客户需求的三个核心点:低成本、低时延和高准确性。在构建 Nova 时,我们成功地降低了成本,同时确保其准确性与其他模型相当,成本比其他模型低 75%。这对于市场来说非常有吸引力,因为很多进入市场的壁垒实际上就是成本。如果能降低成本,客户的购买意愿会更强。此外,Nova 是一个全新的系列,它与 Titan 不同,采用了新的专业知识和学术积累,因此与竞争对手相比,Nova 具有很强的竞争力。

 

问:关于 Nova 的升级计划,你们有什么打算?与竞争对手相比,如何保持升级速度?

Sherry Marcus:是的,我也注意到大模型的更新速度非常快,比如从 LLAMA 2 到 LLAMA 3 仅用了三个月。Nova 的升级计划是尽量与竞争对手保持相似的速度,但亚马逊的方式有所不同。我们非常注重与客户的合作,在推新功能和提升性能时,更多地依据客户在使用 Nova 后的反馈来做调整,这也是我们的不同之处。

 

问:Scaling Law 是否依然有效?为什么?

Sherry Marcus:是的,Scaling Law 依然有效。我认为这是一个数据问题。神经网络越大,准确度就越高。这实际上和我们所训练的数据集有关,语义数据的积累能让 Scaling Law 更有效。数据来源不断丰富,也使得训练和微调大语言模型变得更加高效。尽管生成的数据可以用于训练,但如果用来训练一个大模型,其效率会降低。

 

问:企业用户在使用大模型时,可能会遇到数据质量不高的问题。如何更好地利用行业已有的模型支持客户开发小型模型?

Sherry Marcus:我们建议使用「教师模型」(supervised teacher model)并采用蒸馏技术。通过这种方法,学生模型可以像教师模型一样准确,尽管它通常基于行业特定的应用场景。蒸馏能够帮助提高小模型的准确性,同时避免使用过于庞大的数据集。

 

问:大模型会不会取代小模型,尤其是在 AI 产品质检领域?

Sherry Marcus:不会,我相信两者会并存。在一些特定任务中,仍然会使用小模型,而大模型会通过 API 调用小模型来执行一些图形检索等任务。小模型对于特定的应用场景非常有帮助,可以降低成本、减少时延并提高性能。

 

问:Nova 的典型客户有哪些?

Sherry Marcus:目前,Nova 的用户覆盖广泛,从财富 100 强的大企业到初创公司都有。他们都在使用 Amazon Bedrock。Nova 特别适用于需要推理能力的场景,例如金融行业的对话和信息汇总,涉及从自然语言到 SQL 的转换,以及背后的计算需求。

 

浏览量: 38

企业部署生成式 AI,五个最大的挑战是什么?

生成式 AI 在提升生产力效率方面展现出巨大的潜力,这也使得企业生产力场景成为过去两年生成式 AI 落地速度最快的应用领域之一。然而,企业在初步体验了这一技术的「尝鲜」之后,如何确保员工在工作中持续使用生成式 AI,而不是将其搁置一旁,已成为所有竞争 AI 基础设施的云计算巨头们必须思考的重要问题。

这就需要回答一个核心问题:「今天企业在运用生成式 AI 时面临哪些挑战?」而在这一话题中,亚马逊云科技无疑是最有发言权的企业之一。

在正在进行的 re:Invent 大会上,亚马逊云科技推出了数十项生成式 AI 相关的新产品,涵盖了从最底层的 AI 算力芯片、模型训练和基础模型,到中间层的智能体开发,再到最上层的 AI 应用,技术栈涉及各个领域。

这些新产品和工具并不是技术团队随意定义的,而是源自过去一年中数万客户提出的各种需求。通过这些反馈,亚马逊云科技能够精准识别出客户面临的挑战,并据此推出符合需求的创新产品。今天企业引入生成式 AI 的主要挑战可以归纳为五点,按重要性排序如下:

  1. 丰富的选择权

  2. 更低的部署成本

  3. 训练更敏捷、更专业的小模型

  4. 消除幻觉

  5. 解决更复杂的任务

极客公园总结了为什么这五大需求成为今天企业引入生成式 AI 的关键挑战,并梳理了亚马逊云科技在本届大会上发布的生成式 AI 新产品和服务,是如何帮助企业应对这些关键问题。

 

01 选择权大于一切

在当地时间周二上午的 Keynote 环节中,无论是马特·加曼还是安迪·贾西,在谈及企业部署生成式 AI 时,都着重强调了「丰富的选择(Choice Matters)」对于客户的重要性。

这点在亚马逊云科技的大模型策略中表现得尤为突出。与微软云和谷歌云等厂商更倾向于依赖自家大模型或顶尖合作伙伴的策略不同,亚马逊云科技虽然自主研发了 Titan 和 Nova 系列大模型,并重金投资了 Anthropic 这样的顶尖大模型开发商,但其整体策略更注重为开发者提供一个多样化的大模型选择平台,用以构建 AI 应用。

亚马逊 CEO 安迪·贾西宣布 Amazon Nova 系列大模型 丨来自:极客公园

加曼指出,丰富的大模型选择是 Amazon Bedrock 吸引客户的关键因素之一。他表示:「我们发现,并非所有客户都希望使用单一模型。他们更倾向于根据需求选择多种不同的模型。有些客户偏好使用开源模型,比如 Llama 或 Mistral,这使他们能够自行进行微调;有些客户的应用程序需要图像处理模型,例如 Stability 或 Titan 提供的模型;还有许多客户尤其钟爱最新的 Anthropic 模型,因为不少人认为这些模型在通用智能和推理能力方面的表现堪称市场最佳。」

而作为亚马逊云科技最重要的「客户」,亚马逊对此深有体会。过去在亚马逊内部构建项目中所使用模型的多样性令人惊讶。亚马逊给了开发人员自主选择的权利,原本以为大家都会选择 Claude 这样的顶尖模型——虽然确实内部也有很多开发人员选择了 Claude,但他们也会采用 Llama、Mistral,以及一些自己开发的模型。

这其实并不奇怪。因为一直以来,很难出现一种工具能在某个领域一统天下。就像数据库领域探讨了 10 年,大家依然会使用各种各样的关系型数据库或者非关系型数据库。

而在今年的 re:Invent 上,亚马逊云科技进一步扩展了其大模型供应库。

一方面,亚马逊云科技发布了自研大模型 Amazon Nova,并宣布与擅长视频生成模型的 Luma AI 以及擅长代码生成的 poolside 等大模型开发商达成合作,继续丰富模型库的供应商合作伙伴。

另一方面,亚马逊云科技宣布推出 Amazon Bedrock Marketplace,里面提供了超过 100 个来自全球供应商的基础模型产品,现在用户可以在 Amazon Bedrock 上选择和测试这些新模型,并结合 Bedrock 上的知识库、FT、Guardrails 等功能,将其部署到 AI 应用。

 

02 更低的部署成本

对于企业部署生成式 AI 应用而言,计算成本一直是一个绕不开的问题。虽然今天鲜少有传统行业的公司投入数千万乃至数亿美元预训练基础模型,但当生成式 AI 应用达到一定规模,推理成本就成为企业必须衡量的投入。

今年早些时候,亚马逊云科技剧透了第二代自研 AI 计算芯片 Trainium 2。而在 re: Invent 大会期间,亚马逊云科技正式推出 Amazon EC2 Trn2 实例,相较 GPU 实例,性价比提升 30%-40%,这个计算实例包含 16 个 Trainium 2 芯片,每组应用实例可以达到 20.8 PFlops 的算力;此外还有包含 4 组实例即包含 64 个 Trainium 2 芯片的 Trainium 2 超级服务器(UltraService),浮点运算能力可以达到最高 84.2 PFlops。

更重要的是,Trn 2 芯片有着更低的单位算力成本。在生成式 AI 计算领域,英伟达的 GPU 可以占到全球 95% 以上的市场份额。当全球范围内所有的生成式 AI 应用程序基本都是基于一种芯片构建起来的,大家都迫切希望获得更高的性价比,这就是行业对 Trainium 2 兴奋的原因。

亚马逊云科技 CEO 马特·加曼宣布 Trainiums 3 丨来自:亚马逊云科技

此外,亚马逊云科技还在会上剧透了下一代算力芯片 Trainium 3。据悉,该芯片将采用 3nm 先进制程工艺,提供两倍于 Trainium 2 的算力,以及 40% 的单位能效提升。

除了更高性价比的算力供给,亚马逊云科技还在致力于利用工具和架构层面的优化,降低企业开发的 AI 应用在调用大模型的过程中消耗的算力资源。

除此之外,亚马逊云科技还在会上发布了 Prompt Caching,这是一种在大语言模型中存储和复用提示词的技术。也就是当用户提出相当的问题时,Agent 可以直接调用此前存储的结果,进而减少计算开销、延迟和成本,特别是在那些需要频繁使用相同提示的应用程序中。Prompt Caching 可以节省 AI 应用近 90% 的推理成本。

 

03 训练更敏捷、更专业的小模型

尽管生成式 AI 是一个创新速度极快的领域,但对企业而言,想要在成本、功能上找到完美契合自身用例的模型依然十分困难。

AI 应用开发者希望找到的是一个延迟低、成本低,但又能满足专业要求的模型,但要实现起来并不容易。有时候,开发者找到了一个专业知识匹配度很高的模型,它很聪明也很不错,可就是价格偏高,并且运营速度较慢;又有的时候,开发者找到了一个速度更快、成本更低的模型,但它在功能上又达不到今天的需求。

人们解决这一问题的其中一种方法叫做模型蒸馏。具体做法简单来说,就是将一个特定的问题集发给能力更强的大型模型(比如 Llama 405B 模型),然后把所有的数据、答案与问题一起用来训练一个较小的模型(比如 Llama 8B 模型),使其成为某一特定领域的专家,如此一来,就能得到一个规模更小、运行速度更快且知道如何准确回答特定问题集的专业模型。

这种方法在生成专家模型方面效果确实不错,但需要机器学习专家来操作,实际操作起来难度颇高,得管理所有的数据工作流,要处理训练数据、调整模型参数,还要考虑模型权重等,挑战不小,而亚马逊云科技希望能让这一过程变得更简单易行。

模型蒸馏功能丨来自:极客公园

为此,亚马逊云科技在会上宣布在 Amazon Bedrock 中推出模型蒸馏功能。相比于被蒸馏的模型,新模型的运行速度能够提升 500%,成本还能降低 75%,并且用户只需要将应用的示例发给 Amazon Bedrock,后者会帮用户完成所有的剩余工作。

不过,获取合适的模型只是第一步,用户最终的目的不是为了获取一个好的模型,而是要让 AI 应用能够输出足够有价值的结果。完成这一步不仅需要好的模型,也需要让企业过去积累的数据发挥作用,这也才能真正让企业构建未来的差异化竞争优势。

Amazon Bedrock 此前已经上线了相关的 RAG(检索增强生成)功能,最新发布了更进一步的 GraphRAG(图像检索增强生成)。

但要真正实现这一目标,企业首先需要做好数据治理。这是一个先决条件,只有在确保数据质量和管理完善的基础上,各类数据才能在增强大模型能力的过程中发挥最佳效果。

为此,亚马逊云科技今年在数据治理领域推出了众多新产品,包括新型数据管理工具 Amazon S3 Tables 和便于数据查找的元数据工具 Amazon S3 MetaData。此外,亚马逊云科技还进一步加强了数据系统与 Amazon Bedrock 和 Amazon SageMaker 等开发系统的整合,使开发者仅需在一个系统内进行简单的拖放操作,就能轻松实现 RAG(检索增强生成)等功能。

 

04 无幻觉,1% 都不行

第四是大模型老生常谈的问题——幻觉。实际上今天阻碍人们将生成式 AI 引入真正的生产环境(尤其是关键任务相关的应用场景)的,还有一个很多人都担心的问题,那就是模型的幻觉现象。

尽管如今的模型已经表现得很不错了,但有时还是会出错。当你在去年或者前年进行概念验证时,90% 的准确率或许还能接受,但当涉及到生产应用程序,深入到具体细节时,这样的准确率就不行了。

以保险行业为例,假设你早上走进浴室,发现漏水了,地上全是水,然后你去保险网站查询这是否在保险赔付范围内,作为保险公司,如果客户询问这类事件是否能理赔,你必须给出准确无误的回答,这是绝对不能出错的情况。

所以亚马逊云科技召集了一组专业人员,思考是否有可以运用的技术,通过新的方式来帮助他们解决这个问题。这组人员研究了各种不同的技术,其中一种就是自动推理。

自动推理实际上是一种能够从数学角度证明某事正确的 AI 形式,通常被用于验证系统是否按照既定要求运行,当面对的系统覆盖面非常大,大到无法人工逐一查看,且有关于系统运行方式的知识库时,自动推理就能发挥很大的作用,在必须确保答案准确无误的情况下,它显得尤为重要。

自动推理检查功能丨来自:极客公园

会上,亚马逊云科技宣布推出自动推理检查功能(Automated Reasoning checks),它能够防止因模型幻觉而导致的事实性错误。当你启用这些自动化推理检查功能时,Amazon Bedrock 可以对模型所做出的事实陈述进行准确性检查,这一切都是基于可靠的数学验证,并且会向永不展示得出结论的依据。

例如一家保险公司,决定启用自动化推理检查功能,要做的就是上传所有的保单,然后 Amazon Bedrock 内部的自动化推理系统会自动生成相应规则,接着会经历一系列大概需要 20 到 30 分钟的迭代过程,来调整并确定正确的回应方式,它会通过向开发者提问等方式,真正搞清楚保单的具体运作机制。

回到之前浴室漏水的例子,自动化推理系统会查看反馈结果,如果模型对答案不确定,它会将相关情况返回,并给出其他提示建议,或者告诉客户可以怎样向模型补充信息,只有当自动化推理检查确保答案准确无误后,才会将结果发送给客户,这样就能百分之百确定发给客户的结果是准确的,这是在其他地方无法获取的功能,这将切实帮助企业用户在把推理功能融入关键任务应用程序时避免出现问题。

 

05 能解决复杂任务

企业部署生成式 AI 应用的最后一道门槛,在于能否开发出能够解决复杂任务的应用。

这点在过去几个月里逐渐成为全行业的共识。智能体 Agent 的出现,让企业用户可以非常简单的构建 AI 应用,这也是亚马逊云科技推出 Amazon Bedrock Agents 的原因。

Amazon Bedrock 让构建智能体以及创建能够在公司所有系统和数据中执行任务的智能体变得十分容易,通过使用 Amazon Bedrock,企业用户只需用自然语言描述想要智能体完成的任务,它就能快速构建出来,然后智能体便可以处理诸如处理销售订单、编制财务报告或者分析客户留存情况等任务。

目前这些智能体在处理简单任务(单个独立任务)时表现得很不错,客户也已经从 Amazon Bedrock 智能体中获得了不少收益。但亚马逊云科技团队收到的反馈显示,客户期望更多,他们希望能够跨多个智能体执行复杂任务,可能涉及数百个智能体并行操作,但在当下,要协调这么多智能体几乎是不可能的事。

举个例子,假如你经营着一家全球咖啡连锁店,想要创建一些智能体来帮助分析开设新店的风险,那你可能会创建一系列智能体,比如创建一个分析全球经济因素的智能体,一个查看相关市场动态的智能体,甚至还可以创建一个为独立门店做财务预测的智能体。

总的来说,你或许会创建十几个智能体来针对一个地点进行分析并返回相应信息,这本身是很有价值的。但当这些智能体返回信息后,你还需要将它们整合起来,分析它们之间的相互关系,然后再与不同地区的情况进行对比。

一般情况下,这样的操作还算可控,但经营者可能不会只考察一个地点,也许是想对数百个潜在的开店地点进行分析,而且这些地点还分布在不同的地理区域。当这样做的时候,你会发现这些智能体可能并非独立工作,智能体 A 所掌握的信息或许对智能体 B 是有价值的,所以你其实希望它们能够相互交互、共享信息。可一旦涉及到数百个智能体都要进行交互、返回数据、共享信息、再返回操作时,整个管理系统的复杂程度就会急剧上升,变得完全难以掌控。

马特·加曼宣布多智能体协作功能丨来自:极客公园

但实现这样的功能,有巨大的商业价值,所以亚马逊云科技推出了多智能体协作功能 multi-agent collaboration,后者能够处理更复杂的工作流程。就像前面举的例子一样,经营者可以创建一系列专为特定个性化任务设计的智能体,然后再创建一个监督智能体,负责管理智能体访问信息的权限、确定任务是按照顺序启动还是并行进行,并协调处理各个智能体返回的信息,确保智能体之间能够有效协作。

金融数据分析公司穆迪评级与亚马逊云云科技展开了合作,并对这个早期版本进行了试用,开发了一个可以让客户生成全面的财务风险报告的应用程序。从结果而言,过去完成这样的工作需要花费一名员工大约一周时间,而使用了多智能体协作以后,仅用一个小时就能完成同样的任务,效率得到了极大的提升。

 

06 结语

今年的 re:Invent 无疑是一场令人震撼的盛会。不少已连续参与多届的企业客户、技术人员和工程师都用「震撼」来形容。甚至连已经离开亚马逊云科技数年的传奇 CEO 安迪·贾西——曾带领亚马逊走出困境的关键人物,也时隔多年再次登上了 re:Invent 的舞台。

前三天的活动里,亚马逊云科技发布了数十个生成式 AI 领域和云基础设施相关的新产品和技术,这些新产品中,单独拿出一两项往往便足以成为一场云服务公司大型发布会的核心内容。亚马逊云科技之所以选择在一场发布会上集中推出如此多的新功能,主要有两方面原因:一是当前 AI 应用企业面临的问题异常复杂,需要多维度、多场景的解决方案来应对;二是亚马逊云科技长期以来秉承的「客户至尚」文化,驱动其以全面的创新满足客户需求。

而这种高密度的发布也从侧面展现了亚马逊云科技在生成式 AI 领域的巨大资源投入和坚定的战略意图,表明其在这个迅速发展的领域中占据领先地位的决心。

即将到来的 2025 年,无疑将成为生成式 AI 在企业级市场大规模部署的关键节点。从今年 re:Invent 发布的众多应用和新功能可以看出,经过几年的尝试与探索,生成式 AI 的发展已经迈出了从早期试验阶段向产业落地的转变。这一阶段不再仅仅关注技术的可行性,而是开始聚焦于如何解决企业具体的业务需求和实际问题。

这些问题正被快速解决,标志着生成式 AI 不仅作为生产力工具的潜力被验证,更逐渐具备作为核心生产力的能力。换句话说,生成式 AI 已经逼近了「真正可用」的临界点,即从概念验证走向大规模应用的边缘。

 

浏览量: 23

第一批 AI 员工,即将入职电商公司

有赞 12 周年发布会,主题是「做不卷的生意」,有赞 CEO 白鸦(朱宁)这样表述他对「不卷」的理解——不累着就可以做大销售额,「你只需要等客到店、看单发货」。

但商家的体感与之相去甚远,会场展板前,总有参会人员发出同样的感慨,「今年哪有不卷的」。有赞现在的主要客户是零售商家,这一年商家经历了:女装退货率高达 90%、平台一度相继推出「仅退款」、无底线的价格战……当消费放缓,怎么看,供给侧的商家们都不会不卷,卷得还很具体。

比如,有客户表示已经用有赞的产品做了微信小程序,但视频号现在支持微信小店,要不要再开个微信小店?同样,小红书要不要也开个店?他的犹豫在于:再开店的自然流量不多,成交的订单未必能覆盖招人运营、客服问询和调整库存的成本,做还是不做?

以前线上的选择有限,现在渠道多了,在中国做生意的难度陡增。除了把握商品性价比,商家现在还需要在多渠道比如视频号、小红书、抖音、快手、大众点评、美团、京东、饿了么、淘宝逛逛等做运营和私域内容营销,因为消费者在那儿。但问题是,每增加一个渠道,也意味着多一份运营成本。

对于商家的烦恼,白鸦的答案是 AI。2022 年底以来,他四处调研、亲自带队探索 AI 的落地应用,现在他给出了阶段性答案。在他看来,像海外公司那样做 AI 生成营销图文不是解法;在商家的具体场景中,交付结果、并为结果负责,才是 SaaS 公司的出路,这是有赞在 12 周年大会上推出智能体方案的原因。现在,一个有赞智能体可以帮助商家在小红书完成种草文案撰写和发布,也可以在微信小店完成库存调整、客服问询等,这些都是 AI 自动化的过程,甚至不需要人在中间接管。

在经历 2020 疫情带来的线上生意扩张、后在市场竞争与宏观经济环境下主动收缩、追求极致人效后,白鸦对商业规律充满敬畏。现在,尽管有赞的 AI 方案仍是免费,但白鸦对找到的这条路坚信不疑。他宣布将选出 10 家客户,亲自带队提供全托管的智能体方案,商家什么都不用管,由有赞帮助商家代运营整个 AI 工作流,直到商家有效果、带来了营业额,有赞再考虑分成收入。

让 SaaS 直接交付结果,这是有赞的「反内卷」答案,也是当下 SaaS 行业正在发生的变化。

AI 变革下,SaaS 不再是「软件即服务」(Software as a Service),而是「服务即软件」(Service as a Software),用软件来直接交付最终服务,卖服务而不是工具。换句话说,AI 让软件成为数字员工或者说 AI 员工,直接竞争人力预算,颠覆现有的软件和人工模式。SaaS 公司也迎来了更大的天花板,有潜力成为世界上最大的劳务派遣公司。

在中国市场,只卖软件工具本就很难卖出价格,而卖最终的交付服务容易看出价值、卖出价格,这可能也是中国软件的出路。

对于 SaaS 领域正在发生的变化和有赞的实践,有赞 CEO 白鸦和 COO 浣昉在有赞 12 周年大会后接受了包括极客公园在内的采访,以下是主要内容:

 

01 最近两个月,供给侧逐渐想清楚 SaaS+AI 该怎么做

问:有赞内部,在多大程度上用 AI 提效了?

白鸦:我们客服提效非常非常高,70% 的客服问题没了。过去商家要去帮助中心搜索关键词,在帮助中心里查答案,现在直接在智能助手上问,AI 就解决问题了。

再比如,我们客服的巡查几乎都在用 AI 完成。

还有过去一年,有赞大概百分之十几的销售的效率提升,来源于 AI 的帮助。

 

问:怎么帮助?

白鸦:我不想说具体怎么做到的,因为我还没看到中国的 SaaS 同行有谁在干。

另外,在产品和研发上,至少从产品界面设计的效率上,原来有三十几个 UI 设计师,现在只有两个;研发用 AI,30 个人可以做出 100 个人的产量,研发产量提升了。

每一块其实(提效)可能没有那么大,但是实际上整体提效、潜移默化的影响是很大的。

而且我觉得这里不只是 AI,更多的是智能化工具和数字化工具的作用。举一个特别小的例子,有赞「加我智能」官网上有两个入口,一个入口是去有赞的工作台找智能体用,右边还有一个入口,是客户报名申请全托管(代运营)用的。

截图来源:有赞官网

这个入口怎么做的?以前是要自己开发一个信息收集的程序,然后再搞个数据统计,再通知。现在用飞书表单做的,长得还挺好看,点进去是个飞书表单,你一填了我马上就能收到飞书机器人发的通知,自动形成了一个飞书的多维表格,这个研发人/天只用了 20 分钟。

我想表达的是,数字化和智能化带来的效率提升,首先是从理念上变化的。只要你从理念上变化了,后面所有的东西,你习惯了找工具,这个问题就解决了。

 

问:全面推出半年以来,现在「加我智能」做到什么程度了?客户反馈如何?

Leo(浣昉):我觉得过去两年其实有相当长的时间,整个行业都没有明确的进展。大家都在等,大模型本身的技术突破。最近半年是应用上进展相对清晰的几个月,行业越来越多地看到了 AI 可以怎么用,比如我们会有智能助手、生意专家、生意参谋等自动化的一个一个产品。

从使用度和交互的活跃度上面来讲,供给方可能刚刚想明白一两个月可以怎么做,现阶段的方向和路径也越来越清楚;从使用者的角度来讲,还在很早期的状态,还有大量的 gap——「原来还可以这样用」。

 

问:客户对 AI 产品的实际付费情况如何?

白鸦:我们还没有收费,而且接下来全托管的服务不是收费的(按效果分成)。

 

问:那你怎么判断「加我智能」(有赞 AI 产品)做得越来越好、越来越接近 PMF(产品市场匹配)?

白鸦:我觉得这是个不同发展阶段的节奏问题。去年主要是自己内部用,今年是商家们开始用起来的产品,最近这半年开始一个一个地交付结果。应该到 2025 年,我们所有的产品都是冲着交付结果去的。

我其实不太喜欢拿有多少个商家用、用得有什么效果、到底提效多少、创造了什么东西……来评估今天 AI 对于任何一个公司,不管是 SaaS 公司、还是我们的客户、还是中国的其他企业有什么用,我觉得今天质疑 AI 到底创造了多少具体的价值,跟最早说它是个智障没什么区别。

现在先要看有没有用起来,差不多到 2025 年年中再去看,才可能有人能评估说,到底用 AI 给他们带来了多少效率的提升、多少的交易额.……因为今天结果还没有出来。

我可以讲一个数,过去两个月,有赞(消耗大模型)tokens 的费用翻了 10 倍。模型厂商 tokens 的费用其实在降价,但是我们消耗 tokens 的费用翻了 10 倍,这意味着大量的商家真的开始用起来 AI 了。

 

问:要放在更远的时间来看 AI 的效果,目前有赞自己和商家的实践已经开始有了正反馈。这让你相信 AI 给 SaaS 带来的影响。

白鸦:我觉得第一在有赞自己身上,看到了数据;第二我看到了商家的活跃的使用;第三是在我们捏出来的智能体上,它真的在显著地解决问题。有赞今天的销售效率的提升真的是几个人带来的,那几个人就是在拿 AI 解决问题。

至于 SaaS 加不加 AI,也改变不了太多 SaaS 公司长期在中国的发展速度和状况,你必须要做 AI 智能体。过去做一堆由 GUI 界面组成的软件功能,和接下来用一堆由 AI 组成的软件功能,没有意义,你必须拿 AI 来直接解决问题,必须拿 AI 来直接给它带来销售额,直接带来复购率的提升。如果不能直接给结果的 AI,都不是好 AI,还是卖个功能,大家也都不会有更高的利润率。

 

问:智能体与模型的复杂推理能力强相关,在技术达到 AGI 或者说 Autopilot 之前,谈智能体在企业场景的落地会不会有点早?

白鸦:我觉得大家聊的话题不是一个话题,因为聊这么大话题的人,基本上都是基于人类视角的,比如机器人、消费、看病等等。但我在解决的是个很封闭的题:一个商家今天有这样的一个工作流、要完成这些任务,到底该怎么用机器来完成。它是不是 AGI 根本不重要,只要我能深度理解它的工作流、业务流以及数据流,我哪怕拿算法都可以解决问题,只是今天因为 AI 的出现,所以不需要完全的算法模型,我的构建成本更低,商家的使用成本更低,仅此而已。

你说今天训练一个模型,从 AGI 的视角看,怎么搞定小学数学?好难的。但是如果你从封闭的数学问题想,就好简单。从 AGI 的视角上,我聊的这个话题根本就不值一提,因为它太封闭了,封闭到其实有一万种办法来解决问题。

 

问:像这种在封闭工作流下解决问题的智能体,对大模型的复杂推理,尤其是长序列决策(long sequence decision)的能力要求如何?

白鸦:其实大模型的含量不需要那么高,因为无外乎是用大模型理解用户的意图,然后再把结果由大模型来编排。让用户更理解中间的所有过程,其实用的是我们自己的数据和算法。

 

问:一个更智能的 RPA?

白鸦:举一个更简单的比喻,软件其实是在数据库上套了个壳,只是今天有一个新的东西可能要把软件吃掉,在数据上套了一个更好的壳。

过去你要编排一堆业务逻辑,今天只需要理解基础的业务,上面的很多东西靠模型就可以解决了。

更进一步说,软件是在数据库上套了个壳,包装了一套很复杂的 GUI 迷宫;今天是在理解基础业务流之后,在数据库上搭了一个现成的、可以直接用的设施,连那个迷宫都没了,所以它就是一个一个的数字员工,而且是基于特定任务给特定结果的数字员工。

 

02 SaaS 未来一定会按结果付费

问:今天有赞推出了全托管(代运营)的模式,有赞帮客户捏智能体来自动托管比如微信小店、小红书薯店,客户按效果付费。你觉得为什么这种新的商业模式是可行的?

白鸦:因为只要推演它就一定是那样。

两件事,第一,AI 的企业服务一定可以做到直接给用户交付结果,不是卖功能给用户,是交付结果给用户;如果你不逼自己说我的商业模式只跟结果挂钩,那你怎么做到那一步?所以就不应该卖功能,就应该直接和结果挂钩。

只接 10 个全托管客户,因为这 10 个代运营我都要自己做。我会在公司带一个新的部门,给这 10 家公司做代运营,看他们每一个内容、每一条评论、每一个私信、每一个商品的上下架、每个订单和售后和 AI 销售,不是这样肯定搞不出来。

有赞智能体平台|图片来源:有赞

 

问:AI 时代的 SaaS,不是软件即服务,是服务即软件。前者是订阅付费的软件工具,后者是 AI 员工竞争人力预算,用 AI 来交付最终服务,卖服务而不是软件。你怎么看这一观点?

白鸦:我不知道,我比较不擅长造这些概念,但我明确知道一定要交付结果,一定要为结果负责,一定要一号位亲自去做,才能真正搞懂那个业务到底是什么,才能把那个业务彻底重构。

 

问:你今天官宣推出智能体的时候,有客户在台下问,选择智能体就能保证业绩吗?

白鸦:我免费啊。有业绩你再给我钱,我就一定要冲着保证结果去,所以我免费,没效果,你不给我钱就好了。

 

问:过去两个月,有赞的大模型 tokens 消耗量翻了 10 倍,还在继续涨,会一直不收费吗?

白鸦:不知道。现在成本还扛得住,我觉得有可能是 SaaS 里加 AI 的功能,会适当收费打包到服务费里面。

但是智能体我更希望它不是用预付费的方式,因为不管是收软件费还是收 tokens 的费用,都不是为结果服务。我觉得为结果负责是 AI 真正要做的。

Tokens 成本的问题应该很快就解决了,因为过去几个月没太关注这个。最近已经把我们自己模型的识别率提高了,以前写 Prompt 只有 68% 正确率,现在自己训练的模型正确率已经 98% 了。在一个窄的领域提升没那么难,现在只要切换到我们自己的模型就好。

 

03 因为 AI,Salesforce 把大企业砍掉的 IT 预算圈过来还翻倍了

问:ToB 领域,最近让你受到启发的 AI 产品有哪些?

白鸦:我觉得有两家美国公司,其实把 AI 用在了挺符合他们那个生态的状态。

一个是 Salesforce,因为 Salesforce 有全世界,尤其是英语市场几乎所有的大客户,所以只要有个新概念,它就可以有很好的收入增长。

Salesforce 发布了 Agentforce,甚至一度传言他们准备把公司名都改了。我觉得商业策略上他们做的是对的,虽然他们的 AI 产品依然很难用。英语世界里所有的大企业几乎都把 IT 预算砍掉了一半,但拿这部分预算乘以二,作为 AI 的新的数字化的预算。对于这部分预算,Salesforce 都有一定能力把它圈过来,再向生态分配。

短期之内,在垂直行业里做一个个小创新的创业公司,数量非常多,可能会把 Salesforce 的一些垂直行业市场挤走,但是 Salesforce 的基本盘应该会因为这个有增长,因为他把那波预算都圈过来了。

2024 年 9 月 12 日,全球排名第一的 CRM Salesforce 推出了 Agentforce,这是一套自主 AI 代理套件,可增强员工能力并处理服务、销售、营销和商务方面的任务。|图片来源:Salesforce

 

问:长期怎么看 Salesforce 的 AI 策略?

白鸦:不知道,就看美国那些新的创业公司,能把它蚕食成什么样。

然后我们自己做的蛮有意思的 AI 产品,就是我今天说的「结绳记事」那个产品。其实它就是一个大号的数据搜索,但它数据检索最后的结果,会让很多品牌商受益,因为它快速的能理解到消费者想要什么,而且还有很大的扩展空间。

还有我们在做一个产品设计方面的 AI 产品,有赞的人作为天使用户在用,那个可能也还有点意思。

 

问:还有其他产品吗?

白鸦:11x.ai 做得也有点意思。它其实是把一个个的角色,设计一个个的智能体,然后再按一个个角色的工单,向客户收费。

但是我觉得这个不适合中国,因为如果把每一个智能体都当成一个现在的工种的名字,那意味着你认为工作流不用发生变化。如果你要认为工作流发生变化,它就不应该是现在这个工种的名字。

它那个做法在美国比较合适,因为美国中大型企业的工作流都相对稳定,不会今天要转型,明天要怎么怎么样,所以 11x.ai 在美国市场上就适应。

 

04 SaaS 以不到 5 倍的 PS 被估值,极不合理

问:有一种观点称有赞有平台依赖症或者流量依赖症,比如 2020 年快手直播电商 50% 的商家用有赞,但后来快手自己做了商家侧的工具。你觉得有赞是否已经摆脱了所谓平台依赖症的问题?

白鸦:我觉得不是有赞有没有平台依赖症,是在中国做电商,有没有平台依赖症?如果你是个商家、如果你是个电商的服务商、哪怕你是个 ERP、是一个电商的代运营商、是一个电商的任何参与者,有没有平台依赖症?

我觉得所有的电商可能都不是依赖平台,而是依赖流量,但是中国的流量在平台那里。好在有赞已经不是电商公司了,有赞的大部分营收已经是门店了,很快绝大部分都会是门店,所以我们只是在服务门店,也就不存在平台依赖症这个问题。

过去有赞在最早期提供的价值太薄了,它只是开一个电商的店和电商的交易。当直播来了之后,直播就是原先的商品详情,这个薄薄的价值就变成了是个收银台。但从 16 年开始,我们就做线下的数字化系统、线上营销、会员运营、整个新零售的解决方案、CRM 系统、导购的解决方案,包括现在的 AI,没有一个薄的,所以它不依赖于任何平台。

也就是说,商家完全可以不用我们的电商、不用我们搭小程序、不用我们搭 H5 商城,完全可以用其他商城,但是他可以用有赞的导购、CRM、线下的数字化系统、AI,该用什么用什么,完全可以做到这样。相反,电商如果你只是经过、建立一个交易服务,确实太薄了。

过去 16 年,SaaS 平均估值倍数变化|数据/图片来源:SaaS Capital

 

问:目前 SaaS 行业的股价比较低迷,你怎么看未来的增长空间?

白鸦:作为 CEO 首先我只能保证我干好两件事儿,第一是尽全力做好战略决策。第二尽全力亲自把战略决策中最重要的事情和客户最关心的事情,找到解决方案、把它搞定。

至于股价不是我能决定的,那是市场决定的,我哪有办法。

中国的软件今天以不到 5 倍的 PS 在被估值,我觉得是极其不合理的。如果今天中国的一个 SaaS 能盈利,且营收在增长,我觉得它就应该是 10 ~ 15 倍 PS;如果它盈利了但是不怎么增长,可以是 8 ~ 10 倍 PS。

估值是在买未来的,哪有把软件公司拿 PE 来估值的?你拿 PE、拿盈利来估值一家软件公司,那软件公司还不如分红算了,因为软件公司的稳定性太强了,不应该拿 PE 来估值。

我们能做的就是好好做好自己的业务,给客户创造价值,让员工能有成长,最好市场能回归到理性,回归不到理性,无法理性估值,那我就分红了。

 

05 女装行业 90% 退货率,但有的生意做得相对好

问:目前服饰行业整体面临一个非常严重的问题,退货率非常高,爆款周期非常短。在这个问题上,有赞提供的产品功能和生态服务怎么能够帮到商家?

Leo:从今天对于服装行业商家的了解,就几条出路,第一做线下,第二做品牌,第三做细分的市场,是有可能降低退货率的。

线上的品牌也在想办法做线下。因为他算账发现,在线上做服装的生意感觉像做期货生意一样,已经不是服装生意了。反正既然都这么退货,我也干脆不产了,卖的都是期货,都是预售,它就变成慢慢变成两盘生意了。所以那些正经在做货的商家、做得不错的商家,干脆就去做线下了。

再比如做品牌,其实是要有溢价,要跟客户之间有深度的关系。直播间你跟一个人(联系)5 分钟,那就是买 10 件退 8 件的关系,神仙也救不了。但如果之前就跟客户有长期的互动、有曝光,是已经有心智的品牌,我觉得是可以。

但即使是品牌也缺流量,也缺触达通道,这是有赞能帮助商家去做的,比如通过线下导购的方案,能够更高频、更精细化地触达用户。

单车骑行爱好者沿绿道骑行健身|图片来源:视觉中国

第三,找垂直细分场景。这两年大类目的好生意几乎就绝迹了,每年可能有一两个,但是可以努力地发现一些小场景,里面的生意可能还不错,这跟消费趋势有蛮大关系。比如最近两年小众兴趣的户外运动,滑雪、露营、骑行、跑步等,疫情之后,整个保健和养生也还不错,国潮、文旅、文创也有一些。总之,找不那么卷的地方,一些细分的场景会好一些。但说实话,就像游击一样,这个不卷的地方也很快就会被冲掉。无非是谁先看到趋势,很快就跟上来。

基本上就只看到这三个视角。如果说一定要在产品上还能有一些帮助的话,在私域本身就比在公域的退货率低。

 

白鸦:我觉得有几个数据其实可以看到,基于靠消费者运营,或者是基于门店,服装行业这个问题就会好很多。

比如私域直播退货率也只有百分之二十几。就像刚才 Leo 说的,一个陌生人忽悠你两三分钟就买了,那可不得百分之八九十退货,私域直播的退货率就只有百分之二十几。

另外,私域电商在线上买,门店把货发过去的退货率很低,只有 10% 左右。

门店的退货率就更低了,到店试穿了,退货率可以忽略不计了。

还有就是我们看到,私域直播和线上的私域电商的客单价在两百多元。一般线上服装现在客单价不到一百块钱。所以这几个数据看下来会发现,还是有好的做服装的途径的。

 

问:有赞今年增长最好的是哪一块业务?

白鸦:线下,线下连锁门店。

 

问:线下连锁门店的数字化运营,过去一年有什么变化吗?现在到了哪一个阶段?

白鸦:我觉得过去半年,其实最大的变化就是,过去大家还是围绕进、销、存、收银,在思考我要什么数字化系统;今天所有人都在围绕着怎么做复购,怎么做多渠道营销,来构建他线下的数字化系统。

因为不做不行,今天在中国开个连锁店,线上啥也不搞几乎没有可能;不把客户复购率翻一个倍,你也几乎没有什么可能。这两件事但凡有一个搞不定,你的生意就好不起来,这是大家已经不得不接受的事。

 

问:这几年有明显感觉到从电商进入到线下的客户明显变多了吗?

白鸦:有,但是大家都需要一个适应的过程。电商到门店的客户对于我们(相对应的产品)他不需要适应,但是他得适应线下,导购怎么管、装修怎么搞……也挺难的。

问:过去一年,商家经营其实是比较难的,追求质价比、平替对利润、效率都是一个非常大的挑战。从有赞客户的角度,有哪些比较成功的破局?

 

白鸦:我没有觉得是难,是过去太容易了。

过去每年 GDP 涨 10% 左右,每年城市化进程下,城市里涌入那么多人,消费猛涨,大家都很嗨。我们忘了本来就应该讲究质价比,本来应该就应该在乎复购、在乎质量,本来就应该去魅,这才是好的消费理念,这是正向卷。

当然低质低价的卷是很可怕的,质价比的卷我觉得是正常。

 

问:但是现在卷的方向在走向价格战。

白鸦:我们没看到,我觉得做私域的人不是这么干的,围绕着客户运营的人不是这么干的。还是那句话,我们整个的客单价是超过了 200 元,中国有哪个平台的客单价超过 200 元。

 

问:从有赞的客户——商家经营的角度看,有哪些突破消费低迷的方法?

白鸦:我觉得首先看消费者的偏好发生什么变化,商家跟着消费者的偏好去变,这是肯定的。

但是还是刚才说的,你跟着消费趋势变,还是会卷,因为大家都会看到那个趋势,只是有人看到早,有人看到晚,所以你唯一的办法就是不要这么干了,围绕着你的消费者做、围绕着你的消费者的增购、囤货、分销转介绍、复购这些方式,我觉得这是从业务视角看,唯一的解法。

 

06 AI 可以让你一周只工作四天,但「卷」是人性和文化问题

问:今天有赞 12 周年大会的主题是「做不卷的生意」,有观众说现在哪里还有不卷的生意。从有赞的角度,如何做不卷的生意?

Leo:我觉得有两个部分。从减少卷的角度来讲,整个消费的生意,我觉得就是做品牌和客户关系,品牌价值和做深跟用户的关系,那怎么才能做到?这是重要的事情。

你问大家都想做客户运营,但没时间做,在忙一些看起来必要的事情,在简单可重复、感觉能出收入或者出结果的事上,大家都在拼速度、拼效率,但是最后可能是拼不过。

但今天是一个开始,我们看到一个解法,在需要消耗大量数据的、繁琐重复的事情上,能够交给机器,然后让大家能专注在长期更有价值的事上。

 

白鸦:说白了有客户复购率,你的生意就不用卷。一个线下服装店从年客户复购率 35% 不到,我们头部的、运营得好的商家,180 天复购率 60%,年复购率 80%,那就不用卷了。

还有,今天真的花了太多时间去做那些不得不做的,但其实没有创造价值的、很重复的劳动上。AI 时代,这些事儿靠机器肯定可以完成。没必要天天累死累活用自己的身体在卷,你怎么卷都卷不过机器。你学不会每个渠道该怎么做,你招一个人来做,他/她也未必学得会,学得会的人你又未必留得住。

AI 时代已经来了,我非常坚信,最多 10 年、最快 5 年之内,中国人只需要工作 4 天,所以不用那么卷,去找工具解决问题。

在白鸦看来,有赞智能体可以用 AI 帮助商家做大销售额、提高运营效率。|图片来源:有赞

 

问:AI 可以提效,但它可以帮助商家做大销售额吗?还是只是提高了商家竞争的门槛?最后大家都会用 AI 来卷,更卷了。

白鸦:不会。你看 N 年前,软件吃掉世界的时候,你的办公桌上有什么?书架、记事本、笔、打印机、照片、手表、工作日历……今天你办公桌上有什么?一个手机一个电脑,没了。这就是软件怎么吃掉世界的,你的办公桌上就剩手机和电脑了。

那你说人类变得越来越卷了吗?没有,变得越来越轻松了。

 

问:没有,我感觉我花在工作上的时间变得更长了。

白鸦:这个其实是技术平权的问题,效率都提高了。

然后另外一种卷,可能是态度上或者文化上的问题,我觉得跟一个区域的文化有关系,跟技术本身没关系,你回到技术的角度来看,就是人变得轻松了。

软件吃掉世界的时候,人变得轻松了,那如果你轻松了 10 倍,你给自己安排了 100 倍的目标,那你更累了,那是另外一个话题。

但我想说,同样的目标下人就是变轻松了。然后那接下来 AI 吃掉软件的时候,人也依然会是更轻松,但是如果 AI 吃掉软件多了 10 倍的效率,你又给自己搞了 100 倍的目标,那也不能怪 AI 吧。

 

浏览量: 55

杨植麟和朱啸虎的争议背后,什么才是问题的关键?

12 月 6 日晚,月之暗面创始人杨植麟首次回应了「Kimi 仲裁案」涉及到的相关争议。

此前的 11 月上旬,杨植麟等被其联合创办的上一家公司——循环智能及其 7 家投资方中的 5 家在香港提起仲裁,理由是在尚未拿到这 5 位投资方的同意豁免书之前,杨植麟等人就已启动融资并创立月之暗面。

几天前,金沙江创投的主管合伙人朱啸虎接连发声指出:在拿到循环智能几个投资方的同意豁免书之前,杨植麟的新公司就已开始创立并且融资。并且由于程序问题、金沙江创投时任主管合伙人张予彤隐瞒其在月之暗面的股权激励,此前对月之暗面的豁免协议也可以被认为无效。

对此,杨植麟的回应主动披露出更多的信息,这件事背后蕴含的争议关键点,也逐渐开始更完整地浮出水面。

 

01 从循环智能到月之暗面中间发生了什么?

仲裁案源起于,月之暗面核心创始团队来源于循环智能。

循环智能创始团队,从左到右:COO 揭发、CTO 张宇韬、CEO 陈麒聪以及 AI 和产品负责人杨植麟|图片来源:循环智能官网

在循环智能的 4 位创始团队中,AI 和产品负责人杨植麟,作为联合创始人之一,于 2022 年底离开循环智能创办月之暗面;循环智能时任 CTO 张宇韬一开始兼职帮助月之暗面,后全职加入月之暗面任 CTO。

这是这场争议产生的前情提要,也是争议的起点。近日,朱啸虎和杨植麟相继披露两方存在的不同的表述:

 

朱啸虎:

月之暗面本来就是循环智能内部已经开发 2 年的项目;

杨植麟:

22 年底是一个历史的拐点。我决定创办月之暗面,希望探究有效的产生智能的方法,探索智能的上限。

循环的股东对新公司的看法并不一致。红杉和真格选择主导投资新公司,金沙江、博裕、万物、靖亚、华山没有参与。朱啸虎先生指出了大模型创业公司面临的挑战,我虽然不认同结论,但我认为一些挑战客观存在,是非常有价值的提醒。我理解并尊重没有参投的这些机构的决策。

 

在朱啸虎看来,月之暗面与循环智能的关系是类似「内部孵化」与「分拆」的关系。而在昨晚的回应中,杨植麟则解释了 2022 年底,他决定离开循环智能、创办月之暗面,是出于对 AGI 技术的判断和信仰,创办的新公司。并指出,当时循环的股东对新公司的看法并不一致,这意味着循环智能老股东当时都有机会在最早的时间投资这家新公司,但循环智能的股东对此有不同的判断,5 家提起仲裁的股东没有参与对新公司的投资。

关于创始团队离开循环智能、创办月之暗面的合理性,二人分别作出了如下回应:

 

朱啸虎:

1)分拆到今天依然没有得到循环智能股东决议的签字,根本不只是豁免的问题,董事决议一直拖到分拆大半年后今年 1 月才签字,但因为某董事(张予彤)隐瞒自己重大的利益冲突也可以被认为无效;

2)杨植麟回避了关键问题:书面沟通是不够的,需要严格的按照公司章程,股东决议(每一轮股东多数的签字);董事决议有利益冲突的董事必须明示并申请回避,不能隐瞒欺骗。

杨植麟:

2023 年 2 月,我跟循环 CEO 陈麒聪达成了一致,月之暗面单独成立公司,循环无偿获得月之暗面一定比例的股份,沟通过程有书面记录。当时恰巧碰上硅谷银行倒闭事件,循环大部分现金存在硅谷银行,我帮忙对接了三家愿意在公司第一轮融资时就购买老股的机构,并同意循环出售数百万美元月之暗面老股来缓解现金流危机。这个过程循环的股东都知情。同时,我以 0 元的价格放弃了我在循环一半的股份,由麒聪安排给在循环继续奋斗的兄弟。

循环董事会决议通过了月之暗面成立新公司的安排,循环的每一位董事(包括循环团队董事和外部投资机构委派的董事)均签字同意。循环和月之暗面签订了协议,内容包括循环的占股安排,豁免我和宇韬的全职义务,约定了两家公司的合作关系,等等。根据循环交易文件的约定,我完成了离开循环重新创业的所有必要手续。

 

根据杨植麟的回应,他在月之暗面的创立之前承担了作为循环智能联合创始人的责任,放弃了一半股份权益,明确了循环智能对新公司的占股比例,也经过协商拿到了组建新公司的所有流程合理性,包括循环智能内外部的董事所有成员的签字同意。

但朱啸虎认为董事决议的签字是分拆后才完成的,也没有走完股东协议签字的流程,所以流程有问题。并且因为张予彤的利益冲突问题,认为之前的董事会决议也是无效的。

 

02 是否存在利益冲突和决策误导

 

朱啸虎提出的一个关键问题,是他认为张予彤作为时任金沙江创投派去循环智能的董事,隐瞒了她在月之暗面有股权利益带来的与基金的利益冲突。所以张予彤在当时签字同意杨植麟等人离开循环智能、创办月之暗面的协议上,代表的就未必是金沙江创投的利益。这出现了利益冲突,违反了对 LP 的「受托责任」。

 

朱啸虎:

张予彤向基金合伙人,其他循环智能投资人/股东故意隐瞒并欺骗自己在新拆分的公司有巨大的免费股份(900 万股,相当于初始股份的 14%,远超孵化月之暗面 2 年的母公司循环智能拿到的 9.5%)的事实,违反了基金合伙人对 LP 的受托责任,也违反了公司董事对股东的受托责任,而被金沙江解雇。

利益冲突必须第一天就披露,900 万股是第一天就给的,并不是后面陆续给的,而且不是简单的没有披露,而是设计了很多方式(代持,投很少的钱来欲盖弥彰)来隐瞒欺骗。虽然是月之暗面,但希望所有的行为都能在太阳底下,堂堂正正。

杨植麟:

大模型创业不光需要技术能力,也需要业务、战略、融资能力,这些方面我的经验不多,所以需要在团队上做补充。在我的朋友圈中,张予彤是最合适的人,她既对业务和战略有深刻的洞察,也有丰富的投融资经验,更重要的是,她愿意走出舒适区而选择冒险、选择相信和支持我。所以我邀请予彤作为联合创始人加入月之暗面,股份按照多年兑现(vesting),兑现的条件是持续性为公司提供多年的服务及产出业绩。迄今,予彤在业务、战略以及多场融资战役中对公司做出了重要贡献。月之暗面授予予彤股份的本质是其作为月之暗面联合创始人对公司后续多年持续工作的对价,跟循环及其股东对于我离开循环重新创业的决策是独立的,跟部分股东没有投资月之暗面的决策也是独立的。

 

在这一点上,双方披露的信息存在明显冲突。朱啸虎称月之暗面在第一天就给了张予彤 900 万股,并不是后面陆续给的。这相当于初始股份的 14%,远超孵化月之暗面 2 年的母公司循环智能拿到的 9.5%。

杨植麟则称邀请张予彤作为联合创始人加入月之暗面,这个邀请她的决策与离开循环智能这个进程本身是独立的,且股份是按照多年兑现(vesting)的方式,并且兑现的条件是持续性为公司提供多年的服务及产出业绩,这就意味着不是在月之暗面成立第一天直接授予了 900 万股的股权。

这个事实的明显冲突——也就是张予彤获得月之暗面公司的股权激励是在分拆之前还是之后,会影响是否存在分拆决策时的利益冲突,进而是否违反了「受托责任」的判断。

朱啸虎尚未披露在金沙江创投内部的投资决策机制和流程里,张予彤是否存在具体因为利益冲突出现的「误导」行为,理论上在金沙江这样一个机制完备的基金里,一个人绕过基金决策流程的「瞒天过海」总会留痕,如果存在误导应该会有明确的证据体现。

另外,张予彤在多大程度上,可以影响事情的走向目前尚未清晰。包括张予彤代表金沙江创投在杨植麟离开循环智能、创办月之暗面的进程里,是否对其他 4 位(博裕投资、靖亚资本、万物资本、华山资本)的决策产生了实质影响,以及这些影响对最终结果——如 9.5% 的循环智能占股比例和不进行对新公司的决策等的作用,目前还没有详细信息可以看到。

但有一点是清晰的,目前根据杨植麟的表述,在最早第一轮投月之暗面的时机,朱啸虎并不认可投资月之暗面。这一点也获得了朱啸虎的交叉验证。在朱啸虎近期接受「暗涌」的采访里,他的态度依旧,「我们的确一直不看好,所以去年三四月份,他们出来的时候问我们,我们就说不投。这里边是对技术模型和商业模式的理解。我之前做出的预判是不是全证实了?到现在大模型是不是没有形成差异化?所以我们从来不想投,现在也不想投。」

当然,这个对月之暗面公司价值的判断和过去决策的关系,并不影响如果有证据证明张予彤在当时确实存在利益冲突的情况下,所带来的「违反受托责任」的认定。

 

03「激烈」和「坚决」的背后是什么?

 

这是多年来国内创投领域少见的公开,且关注度非常高的激烈冲突,甚至是更少见的直接把焦点聚焦到某个具体人的分歧。朱啸虎相对张予彤激烈的定论性表述和杨植麟相对温和的整个事情的历程解释,其实都留下了一定的空间,但背后又体现了各自的坚决。

 

朱啸虎:

虽然我们对大模型有不同的理解,但是我们愿意豁免 Kimi、张宇韬以及月之暗面公司,支持年轻人追求 AGI 梦想,在张宇韬全职加入月之暗面的补偿上没有分歧。但这个支持不代表可以容忍商业伦理道德甚至法律!我们完全不理解 Kimi 为什么一定要绑定张予彤,一个有严重利益冲突,并且违背受托责任,还一直不承认加入月之暗面的人?!

杨植麟:

我过去、现在、以后都感谢循环的老朋友们。麒聪和发哥是我在创业路上最初的战友和老师。所有循环的投资人、月之暗面的投资人支持了我们的创业梦想,对此我充满感激。对于循环的五家投资机构,我在感恩的同时,也相信分歧会有合理的解决方式。

在我们讨论这个问题的时候,大洋彼岸的团队正在发布新的 AI 产品。对我来说,最重要的是,和团队继续全力以赴把 Kimi 的技术和产品做好。今天 Kimi 作为一个 AI 产品,受到很多用户的喜欢,但还处于 AGI 之路的初级阶段,还有很大的智能提升空间,这也是我们前行的动力。我们有充分的信心持续通过规模化来产出更高级的智能。在强化学习时代,因为技术范式的变化,模型的迭代会更加快速,我们会夜以继日地战斗。See you on the dark side of the moon.

 

在创业中,创始人放弃原有方向甚至转换赛道也是经常发生的事情。而杨植麟这样的作为联合创始人开启新的方向的时候,不是另起炉灶挖空原团队,而是在与原团队和投资人协商后,设定大家认可的利益机制补偿进行新的创业,这件事本身是投资人也普遍能认可的行为。

从朱啸虎的表态里也看到,他实质上的焦点也选择了关键人可能存在「利益冲突」的问题上。主动表示不是为了获取更多的利益,甚至理解创业者的选择和愿意和解的意图,甚至明确只要月之暗面和张予彤「切割」就可以解决目前的问题。

由此可见月之暗面和循环智能本身的流程是否完备并不是决定性问题。只有确实证据证明张予彤作为投资方外派过去的董事,在分拆之前就已经接受了股权授予或承诺,违反了「受托责任」,并且在这个过程里主导分拆进程和结果,才是那个决定性的问题。

在极客公园采访业内一位风险投资合伙人的时候,该投资人也提出了一个容易被忽视的观点:「在这个问题上尽责得出清晰的结论,也是金沙江创投勤勉尽责的义务,否则张予彤加入月之暗面已成事实,那么如果未来月之暗面发展得好,此前作为投资方的关键董事,在这个企业拥有巨大的股份。那这个股份为什么不是基金所有的收益,而是被投资方个人员工(哪怕后来解职或离职)所占有了,这是必须向 LP 解释的问题。所以这个问题需要清晰明确的现在就公开提出来,不管最终证明有没有这个问题,这都是最有力的澄清与责任切割。」

与此同时,杨植麟没有选择朱啸虎提出的与张予彤切割,而在回应里继续体现了对张予彤的认同和作为一个团队整体的态度。但是也保持着对投资人的基本尊重和相对克制的陈述,看得出来,这保留了继续沟通的基础。

从争议双方的诉求分析上看,这件事最终的化解也并不是没有机会。但不管结果如何,毫无疑问,这也会是中国创业和投资领域一个会被铭记的历史事件。

 

浏览量: 100

马云现身蚂蚁集团,寄语未来 20 年;小米考虑支持苹果手表、耳机;特斯拉低价小车明年亮相

 

马云现身杭州,寄语蚂蚁 20 周年,同日蚂蚁集团官宣换帅

12 月 8 日蚂蚁集团今日宣布一项重大人事调整。自 2025 年 3 月 1 日起,总裁韩歆毅将正式接任 CEO 一职,全面负责公司的业务运营及日常管理,并直接向董事长井贤栋和董事会汇报。井贤栋表示,自己将更加专注于董事长职责,全力支持韩歆毅及其团队。
韩歆毅自 2014 年加入蚂蚁集团,历任战略投资副总裁、CFO 及董事会执行董事等重要职务。今年 3 月,他被任命为总裁。井贤栋对韩歆毅的贡献表示高度赞扬,认为他凭借敏锐的战略洞察力和勤勉专业的精神,为公司的发展作出了重要贡献。
当日晚上,久未公开露面的马云今日现身蚂蚁园区,为支付宝和蚂蚁集团的 20 岁生日送上生日祝福。

 

马云表示,「很高兴和大家一起庆祝支付宝的 20 周年,过去的 20 年,你们无中生有,创造了支付宝,余额宝,蚂蚁森林……以自己的努力和方式参与了社会的发展建设。我在这里代表最早的创始群体,致敬支付宝,致敬蚂蚁,祝福蚂蚁!」(来源:TechWeb、网易科技)

 

谷歌称其 PaliGemma 2 人工智能模型可识别情绪,引发专家担忧

12 月 8 日消息,谷歌表示,其新的人工智能模型系列有一个奇特的功能:能够「识别」情绪。
谷歌周四发布了其最新 AI 模型系列 PaliGemma 2,该模型具备图像分析能力,可以生成图像描述并回答有关照片中人物的问题。谷歌在其博客中介绍,PaliGemma 2 不仅能识别物体,还能生成详细且与上下文相关的图片说明,涵盖动作、情感以及整体场景的叙述。
PaliGemma 2 的情感识别功能并非开箱即用,需要进行专门的微调,但专家们仍然对此表示担忧。
多年来,许多科技公司一直在尝试开发能够识别情感的 AI,尽管一些公司声称已经取得突破,但这一技术的基础仍然存在争议。大多数情感识别系统都基于心理学家 Paul Ekman 的理论,即人类有六种基本情绪:愤怒、惊讶、厌恶、喜悦、恐惧和悲伤。然而后续的研究表明,来自不同文化背景的人们在表达情感时存在显著差异,这使得情感识别的普遍性受到质疑。
情感识别系统的另一个问题是其可靠性和偏见。一些研究表明,面部分析模型可能会对某些表情(如微笑)产生偏好,而最近的研究则表明,情感分析模型对黑人面孔的负面情绪判断比白人面孔更多。
谷歌表示,PaliGemma 2 在进行「广泛测试」后,评估了其在人群偏见方面的表现,结果显示其「毒性和粗俗内容的水平低于行业基准」。但该公司并未公开测试所依据的完整基准,也没有明确表示所进行的测试类型。谷歌披露的唯一基准是 FairFace——一个包含数万张人像的面部数据集。谷歌声称,PaliGemma 2 在该数据集上的表现良好,但一些研究者批评 FairFace 存在偏见,认为该数据集仅代表少数几种族群。(来源:IT 之家)
 

消息称小米在调研是否兼容苹果硬件,含 Apple Watch、AirPods、HomePod 等

博主 @ 数码闲聊站 昨日发文透露,小米在调研是否兼容苹果硬件,比如 Apple Watch、AirPods、HomePod 等,软硬件生态全面深度兼容。
小米目前已布局部分生态产品兼容苹果设备:澎湃 HyperOS 2 系统已支持苹果生态互联功能,可实现与 iPhone / iPad / Mac 的快速文件互传,甚至妙享桌面也支持在 Mac 上使用,实现小米手机屏幕镜像到 Mac,一拖拷贝文件、共享键鼠输入。
另外,小米 SU7 汽车也全系支持无线 Apple CarPlay 互联。在 CarPlay 连接状态下,用户还可以正常使用小爱同学,同时 CarPlay 也支持 Siri 语音唤醒;SU7 的后排还支持 iPad 上车,下载安装「小米汽车拓展屏」App,还可实现座椅空调调节、多媒体调节、影音娱乐等原生车机体验。(来源:IT 之家)

 

华为应用市场新增「鸿蒙升级」入口,支持升级 HarmonyOS NEXT 设备的机型可查看应用适配情况

华为鸿蒙 HarmonyOS NEXT 系统已于今年 10 月已开启公测升级,目前 Mate70 系列、nova 12 Ultra 系列等超 20 款设备处于公测阶段。
华为应用市场现获推 14.4.2.300 版本升级,该版本新增「鸿蒙升级」功能,可查看当前设备安装应用适配鸿蒙 HarmonyOS NEXT 系统的数量情况。
IT 之家实测,该功能入口位于「我的」-「常用服务」-「鸿蒙升级」处。对于支持升级 HarmonyOS NEXT 的设备机型,点击可跳转到升级指数页面查看应用适配情况,适配情况会以百分比形式展现。
目前,华为鸿蒙已推送 HarmonyOS NEXT 5.0.0.112 SP1 版本,本次更新预置空气投篮主题,同时优化了视频编辑、上网、导航等场景的使用体验;华为 Mate 70 系列、X6 手机则获推 HarmonyOS NEXT 5.0.0.113 公测升级,支持跨设备互联、小艺智能体等功能。(来源:IT 之家)
 

哪吒汽车回应网传「更名为方舟汽车」

日前,有网传消息称哪吒汽车将改名为「方舟汽车」,随后多位网友转发了名为「关于哪吒汽车内部讨论拟改名为『方舟汽车』的初步方案」的邮件截图,引起网络热议。
12 月 8 日,哪吒汽车法务部发文澄清:网传更名一事,纯系谣言。

 

哪吒汽车是合众新能源汽车股份有限公司旗下的汽车品牌,品牌发布于 2018 年 6 月,总部位于上海普陀区,创始人为方运舟。
在网传「哪吒汽车更名『方舟汽车』」的邮件中,提到改名的理由,并表示用创始人的名字命名,意味着新起点,同时还解释了「方舟」一词的含义。(来源:九派新闻)

 

特斯拉 Model Q 将上市,入门车型补贴后或低于 3 万美元

据悉,特斯拉即将推出一款备受期待的入门级车型——Model Q,预计将在不久的将来,即明年上半年正式亮相市场。这一消息是在德银投资者会议上由特斯拉方面透露的,引起了广泛关注。
据特斯拉透露,Model Q 将搭载磷酸铁锂电池,为消费者提供更为经济环保的出行选择。同时,这款新车还将提供单电机和双电机两种动力选项,以满足不同消费者的需求。这一设计策略不仅体现了特斯拉在技术创新上的领先地位,也展现了其对市场需求的精准把握。
在车身尺寸方面,Model Q 的长度约为 3988 毫米,相比特斯拉的另一款车型 Model 3,它显得更加小巧紧凑。具体而言,Model Q 比 Model 3 短了约 15%,同时车身重量也减轻了约 30%。这样的设计使得 Model Q 在城市驾驶和停车方面更加便捷,也为消费者提供了更为灵活的出行选择。
特斯拉还宣布了在中国市场的进一步扩张计划。除了即将推出的 Model Q 之外,特斯拉还计划在中国市场推出更多车型,其中就包括备受瞩目的三排长轴距版 Model Y。这一举措无疑将进一步巩固特斯拉在中国市场的领先地位,并满足更多消费者的多样化需求。(来源:ITBear)
 

「克隆阿尔法」仿生机器人明年开放预订,拥有合成器官、人造肌肉

波兰机器人公司 Clone Robotics 近日宣布,其开发的限量版人形机器人「克隆阿尔法」(Clone Alpha)即将在明年开放预订。

 

据 IT 之家了解,这款机器人被描述为「肌肉骨骼仿生人」,其模拟人类的解剖结构,拥有超过 200 个「骨骼」和一个仿生呼吸系统。使用合成器官、人造肌肉和韧带,而非传统的机器人组件。
Clone Robotics 计划仅生产 279 台「克隆阿尔法」机器人。该公司表示,「克隆阿尔法」的肌肉系统通过名为 Myofiber 的革命性人造肌肉技术来驱动骨骼。其运动系统通过电池驱动的泵和阀门系统实现,通过在体内循环水来驱动关节和肌肉的运动。水储存在躯干内的容器中,躯干具有类似人类的肋骨和脊柱。这种水填充的设计使机器人更加柔软,更接近人类。
虽然 Clone Robotics 声称克隆阿尔法具备 16 项预设技能,包括记忆家居布局、厨房库存,甚至还能提供「诙谐对话」,充当私人管家和保姆,但许多人对这款机器人的实际能力仍持怀疑态度。该公司尚未展示克隆阿尔法的实际运行情况,其所有组件如何协同工作仍有待观察。
尽管存在质疑,Clone Robotics 的创始人 Dhanush Radhakrishnan 和 Lucas Kozlik 相信,克隆阿尔法不仅可以在家庭中发挥作用,还可以在工作场所发挥作用。这种能够像人类一样移动的机器人可以更轻松地适应各种角色,无需对生产线进行重大改造。(来源:IT 之家)

 

研究显示:北极最早可能在 2027 年迎来首个无冰夏季

一项新的研究表明,北极最早可能在 2027 年迎来第一个几乎完全无海冰的夏季,这将对地球的气候和生态系统产生重大影响。
由科罗拉多大学博尔德分校的气候学家亚历山德拉・贾恩(Alexandra Jahn)和哥德堡大学的塞琳・赫兹(Céline Heuzé)领导的国际研究团队首次利用计算机模型预测了北冰洋首次出现无冰日的时间。贾恩表示:「北极的第一个无冰日不会立即带来剧烈的变化,但它将表明,我们通过温室气体排放从根本上改变了北冰洋自然环境的一个决定性特征,即全年被海冰和雪覆盖。」
研究结果于 12 月 3 日发表在《自然通讯》杂志上,贾恩还将在 12 月 9 日在华盛顿特区的美国地球物理联盟年会上介绍这些结果。

 

据 IT 之家了解,科学家将北极海冰面积低于 100 万平方公里的情况定义为「北极无冰状态」。贾恩和赫兹通过超过 300 次计算机模拟发现,2027 年可能是北极首次无冰夏日的最早时间,而在 2023 年后 9 至 20 年内发生的可能性也很高。模拟显示,即便人类改变温室气体排放轨迹,这一趋势依然难以完全逆转。总共有 9 个模拟表明,北极无冰日可能在 3 到 6 年内发生。
尽管形势严峻,研究也带来了一丝希望。研究表明,迅速减少温室气体排放有助于延缓北极无冰的时间表,并减少无冰状态的持续时间。(来源:IT 之家)
 
浏览量: 50

文章分页

上一页 1 … 57 58 59 … 85 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间