Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

分类: 科技

WPeMatico Campaign中添加的类别

宇树科技王兴兴:人形机器人很热,但是要把所有细节做到极致

 

整理|黎诗韵、Jesse

编辑|靖宇

 

在近期大热的人形机器人、具身智能赛道,宇树科技是最头部公司之一。

这家公司最大的标签是硬件实力强:一方面是性能,去年其首款通用人形机器人 H1 能奔跑、原地空翻、踹不倒,拥有全球几乎规格最高的动力性能;一方面是成本控制,今年其第二款人形机器人 G1 价格 9.9 万元起,而同行普遍在数十万、乃至百万元。

宇树科技成立于 2016 年,是全球四足机器狗赛道的开创者之一。四足机器狗和双足机器人的底层原理相通,宇树只用 3 个员工、不到 6 个月时间,就做出了人形机器人 H1。在极客公园 IF2025 创新大会上,极客公园创始人&总裁张鹏对谈王兴兴,聊到了人形机器人技术本质、宇树创业历史、行业竞争格局等问题。

目前人形机器人公司、产品如雨后春笋般涌现,看起来造一台本体的门槛并不高。但在王兴兴看来,看似各人形机器人相似,但产品是由工业设计、生产制造、零部件、可靠性、认证、无线通信等等细节构成的,「你要把里面极致的东西做到非常极致,哪怕一个螺丝钉、一根线,都是非常重要的事情。」

这也是宇树的竞争力。目前,宇树的机器人本体(硬件)被全球各大科研机构、科技公司购买,用作研究。

回顾创业初期,那时机器人赛道还很冷门,宇树也经历过非常艰难的时刻。2017-2018 年间,公司第一笔融资款花光了,王兴兴只能把自己的钱拿出来给员工发工资。也正是在 2018 年,极客公园旗下的变量资本领投了宇树的天使轮融资。王兴兴提到,这笔投资款帮助公司从困境中「缓过来了」。

过去一直专注硬件,但这轮人形机器人的技术核心在于 AI。它让人形机器人有机会进化出真正智能的大脑,变成有自主感知、决策、执行能力的智能体,在工业、家庭等场景形成通用服务能力,作为全新的生产力供给、带来万亿规模的市场机会。

在王兴兴看来,目前机器人 AI 的进展还在 ChatGPT 出现前几年,技术还在极为开放而非收敛的阶段。核心不是数据,而是整个 AI 模型架构还未确定,这一进展会很快。因此,保持足够谦卑去学习新的技术、新的产品、新的方向,提前能预演未来一两年技术的发展方向——这是他给自己、以及想要人才的要求。

 

王兴兴在极客公园 IF2025 创新大会|图片来源:极客公园

 

人形机器人热潮:有开源就能做出来,关键是把各方面做到极致

 

张鹏:过去这两年,具身智能人形机器人这个领域一下就火了,你也成为了一个头部公司,大家非常关注,你个人心情怎么样?原来耕耘了很多年,突然就火了,涌出了很多同类的公司,开心还是不开心?

王兴兴:行业现在这么好,这么热,肯定非常开心的一件事,但是开心过后还是要更加用心把事情做得更好,开心归开心,但是压力越来越大了。

张鹏:开心跟压力成正比。所以今天,具身智能人形机器人这个赛道到底是过热了,还是刚刚好,还是不够热?你怎么评价这件事?

王兴兴:我个人感觉已经够热了。但是我觉得在当下,具身智能,包括机器人,它的热度还只是一个火苗。现在觉得很热了,但是对于长远更大的想象空间、更大的技术可能性、更大商业价值来说,这只是一个起点,未来肯定有好几波更热的浪潮等待着大家。

张鹏:所以今天更像是大家看到了一个可能性,还在等待一些新的台阶跳跃?

王兴兴:对,现在最多就算 20 几年前,互联网早期苗头的热度,后面还有好几波,我跟有些比较年轻的朋友说的时候,你可以有耐心,因为即使这波你可能没有跟上,后面还有好几波。

张鹏:错过了也不用着急,这是一个比较长期的进程。我记得早期咱们曾经聊过,最早你对做人形机器人不是特别感冒,那时因为一直做机器狗,做得非常好。但是过去两年发现人形机器人这个赛道热了,你们反而做出了最好的人形机器人,这个思维怎么转变的?

王兴兴:大家可能想问我们为什么突然转型做人形机器人?但是事实上我对人形机器人非常喜欢,大家可能想象不到,我自己从小时候到大学,大一,2009 年,寒假做第一款机器人就是小的人形机器人,这个机器人是我正式做的第一款机器人产品,这是一个机缘巧合。而且我本人对 AI 非常喜欢。

但当时,2009、10 年做了人形机器人之后稍微有点心冷。因为当时看了一下全世界的技术水平,会发现以当时的人类科技水平,很难驾驭高复杂度的人形机器人。就是做不好,也没有什么商业价值,只能做玩具,或者是科研,实验室场景,商业化非常难。

所以后来我 2013 年开始做小的机器狗,包括公司创业以后都没有做人形机器人。在 2018 年到 2021 年,有很多投资人问我,你们做不做人形机器人,我当时非常坚决地说我们不做人形机器人。但这并不是说我不喜欢或不想做,最大问题还是当时的技术,差一点火候,你过早或过晚做都不是太好。

张鹏:所以之前你说不做,是觉得在那个环境下,它不是一个最好的时机,这个时机怎么变化的?什么东西影响了你这个角色?

王兴兴:最大的变化当然是整个时代的机遇,尤其是大家应该感谢马斯克对行业的推动,他竖立了一个方向标,把原本在冰川下面的东西,提前让它浮出了水面,让大家更早看到了方向。

过去几年,他带领了全球大部分科研,让资本、政府也对这块领域非常关注。所以到 2022 年,我们当时还没有开始做人形机器人,已经有客户想找我们买人形机器人。

张鹏:那个时候马斯克已经开始明确了?

王兴兴:对,他已经明确在搞人形机器人,所以把这个浪潮带火了。其实马斯克最早搞人形机器人的时候,我是表示怀疑的态度,我感觉这个事情是不是随便说说玩的,后面就没有什么结果了?

张鹏:是不是因为很难?这件事,一个创业公司很难推动?

王兴兴:因为在马斯克说他要做人形机器人之前,日本的 ASIMO 机器人刚刚宣布停止研发,当时全球人形机器人应该说处于一个低谷期。所以当时马斯克说要搞人形机器人,我的最大感受就是「说着玩」。但后来,他们花了一年时间,把第一款人形机器人发布,这个对我的内心冲击是非常大的。

因为让我发现他确实在认真做这件事,大家都非常关注,认真想推动这个事了,整个行业势头就改变了。再加上 2022 年底 ChatGPT 出来以后,大家对整个 AI 的想象空间,AI 能力的信心爆增了很多,直接让我们决定从 2023 年,马上开始重新做人形机器人。

张鹏:所以要感谢马斯克在人形机器人最低谷的时候,强推了这件事。而且对创业公司来说,可能也是「贫穷限制了我们的想象」,马斯克手里有世界级的资源和影响力,他是生生把这个赛道从低谷期,立即拉出了一个上升曲线?

王兴兴:是的。但也可能有另外一个原因,就是过去两年 ChatGPT 很火,我非常怀疑马斯克当年决定做人形机器人的时候,已经掌握了 ChatGPT 的发展趋势。因为他是 OpenAI 早期的投资人嘛,他可能比普通人更早看到了 AI 的能力和价值,提前布局了。

张鹏:背后不只是一些「孤勇」,也在于他的视野,他能看到一些东西。所以这波浪潮来了之后,改变了整个大环境,所以对宇树来说,更是一个合适的时机了。当时宇树做机器狗积累了什么经验?怎么跟人形机器人关联起来的?

王兴兴:我们做人形机器人还是非常快的,到现在已经发布了两款人形机器人,第一款去年下半年已经量产发布。因为人形机器人(和机器狗)底层原理比较类似,关节电机、减速器、传感器、电控系统、控制软件、AI 算法等等,我们过去做机器狗的时候把很多底层技术都掌握了,我们自己做的技术还是非常多的。

所以在做人形机器人时,虽然它对机器人要求提高了很多,比如说关节扭矩更大,腿上会有更多关节数量,整机集成度更高,对 AI 的平衡能力、预控制能力更高,但两者的本质原理还是类似的,这是我们做得比较快的原因,这也是目前全球范围大家做人形机器人都很快的原因。

这一轮大家做人形机器人,最多也就一两年时间,但已经远超过十几、二十年社会做人形机器人的效率。这本质还是大家用了机器狗过去的技术积累,也用了很多新的 AI 技术。

以及,过去有很多顶尖的科研院所,他们也买了我们的产品,开发了很多开源的 AI 驱动的深度强化学习机器狗算法。现在我们公司,包括别的公司,其实很多都用了机器狗的算法在(人形机器人)里面。

张鹏:所以人形机器人应该算是机器人的一个亚种,一个子集,在机器人的大范畴里面,很多关键要素是相通的,只要进行组合、调整即可。所以一旦整个环境发生变化,宇树可以快速跟进,推动这件事。

我追问一个问题,今天大模型领域,国内很多公司都是在追赶,因为这个领域已经有了一些可收敛的东西。在具身智能技术上,今天是收敛阶段,还是创新阶段?

王兴兴:目前肯定是创新阶段。全球范围内还没有一条公认的路径,说它一定是未来最好的,最容易取得成果的路线,大家还是比较模糊的阶段。这里最大的问题是模型结构问题,并不是数据问题。

这个跟大语言模型不太一样,机器人通用模型最大的问题还是整个 AI 模型架构,大家没有统一,没有哪个模型架构特别好,大家都在尝试一些新的技术路线。但在水平面之下,还是有很多技术进步,有很多学者或公司,都有一些新的技术进展。

但大家都处于摸索阶段,这对我们公司,对大家其实是更好的一件事,更激动人心。因为当技术路线没有清晰,创新机会就会更公平,大家都知道现在很「卷」,个人、公司之间的竞争非常激烈,但在技术路线没有特别清晰的情况下,反而对所有人都更加公平,你有自己的聪明才智,有自己的想法和技术路线,可能就成功了。如果技术路线更加明确了,你去跟大公司拼资源,你就拼不过。在这种模糊的阶段反而有更多机会。

在这种技术相对模糊的阶段,即便是大公司,有钱有人,可能也使不上力,所以当下很多大公司处于观望的状态。当然,你要保持足够的敏锐度和前瞻性。如果你想参与这个行业,获得相对成功,你就要比绝大部分人提早看到技术路线和产品的发展方向,如果你能做到这一点,你就会获得机会。

张鹏:所以今天具身智能技术没有进入到收敛阶段,反而更加公平,对创业公司更好,这是让人兴奋的一点,大公司弹药充足也未必管用。

王兴兴:对,哪天一个小小的想法就有可能改变世界,这种感觉非常奇妙。

张鹏:看起来,今天整个技术环境,让造出一个人形机器人变得比较容易,没有想象中那么复杂。那就引发一个问题,人形机器人最终要拼的是什么?很多公司、团队也能做出人形机器人,我们如何评估它们有没有长期的价值?

王兴兴:这是非常现实的问题。所有的比较好的领域都有一些开源方案出来,它大大拉低了整个入门门槛,所以有更多人参与进来,既是好事,也不是好事。我觉得未来真正竞争力,对一家公司来说,开源方案是完全不够的。

我觉得人形机器人的未来竞争要分两部分:一是与传统的消费电子产品类似的产品竞争,二是决定整个机器人 AI 能力天花板的竞争,这两部分。

传统的产品竞争,就像无人机,过去十年非常火,整个行业非常大。这个领域其实从 09 年,国内外无人机开源方案已经满天飞了,2009 年的大学本科生,想做个无人机,从 0 开始,花几个月也可以做出来。但直到今天,你真的要做一个产品级的无人机出来,同样有非常大的挑战。

因为这是一个很大的系统性工程,不是随便搭个架子,写个算法就可以的。比如说飞控算法,它真正在产品的竞争力和价值中可能只占了 1%。一个产品有非常多层级,无论是工业设计、生产制造、零部件、可靠性、各种认证、无线通信……各种细节共同构成了整个产品。

对通常的消费电子产品,包括机器人、汽车,这是很大的系统工程,你要把里面极致的东西做到非常极致,哪怕一个螺丝钉、一根线,都是非常重要的事情。并不是有个开源方案就可以的。我大一就能做 DEMO 这并不说明什么,只是说明你有一个基本的入场券了,之后要做的东西还非常多。

对于人形机器人,所有具身智能 AI 机器人来说,目前的天花板就是没有很好的 AI 模型,这个决定了整个行业的天花板。前面那些通识性的产品技术是基本盘,你得有才能掌握基本的门票,之后还是要做更好的 AI,才能实现具身智能,这样就可能做到全球头部的公司。

张鹏:所以「具身智能」的梦想背后也有很多磨难,产品的硬件本身要比较好,具有系统性、可复制、稳定,还要把成本控制住,是挺难的一件事。这是一个复杂系统,不是一招鲜就能决定这家公司的价值。这时我觉得过度依赖一招鲜反而是很大的风险。

王兴兴:对所有做产品的公司都是类似的。做产品需要全能,各方面都要做到极致。你要做一个好的公司和产品,底层逻辑讲就是各方面都比别人好,你就成功了。

 

王兴兴在极客公园 IF2025 创新大会|图片来源:极客公园

 

创业故事:开辟四足机器狗赛道,从科研端切入、依旧关注行业端和 C 端市场

张鹏:你这两年被推到公众视野面前,大家开始关注这个赛道,要不讲讲你的创业经历吧。你最早出于兴趣做了机器人,从早期的热情,到真正走上创业这条路,是怎么一个过程?

王兴兴:我 2016 年突然创业,大家看上去比较突然,但是对我来说不突然。我从小就比较偏科,我是听着比尔盖茨、乔布斯的故事长大的,从小就想发明一个产品,改变世界。

到初中的时候,这种想法变得非常清晰。从初中、高中到本科,我一直在摸索做点什么东西,我玩很多技术,去想到底哪个产品能商业化,到 2013 年的时候接触机器狗,已经想到了要不要去创业,当时也是停留在一个想法的层面。

我很喜欢科技,但我分得很清楚,哪些科技是好玩、有趣,哪些科技是可以商业化的,这一点我一直想得比较明白。好玩的科技和商业化的科技,两者的差别其实非常大。

所以我 2013 年想到机器狗方案时,已经有想过要出去创业了,但当时条件不成熟,才没有去做。我本来是 2015 年要毕业的,但当时我做了一半的东西,觉得没有价值,所以主动申请延毕了半年时间才做好,2016 年才毕业。

2015 年我用那款小机器狗参加过上海的一个比赛,拿了二等奖,当时认识了几个投资人,我找他们拉过投资,但他们没有投我。所以我没有那么冲动地出来创业,而是还在积攒产品方向的技术、人脉,积累了一些资源。

到 2016 年 6 月份我已经在深圳准备去工作了,当时我做那款小的机器人火了一把,有人愿意买我的机器人,愿意投资,我才出来创业的。

张鹏:终于等到一个时代,给你凑齐了要素,才出来创业?

王兴兴:是的,很多人说做一件事要天时地利人和,但你等不到所有事情天时地利人和,相对来说,在 2016 年 6 月份,对我来说是很好的机会了。

张鹏:那个时候什么准备好了,什么没有准备好?

王兴兴:当时我去深圳工作了两个多月,但工作经验还是不够。人员上我没有团队,只有一个人,所以各方面还有很多欠缺的地方。但那个时间节点,时间不等人,就创业了。

张鹏:那个时候,MIT 的机器狗,包括开源方案是什么情况,这个时间线当时是怎么样的?

王兴兴:MIT 那个方案是 2018 年开源的,国内很多公司用 MIT 的开源方案,掀起了国内做机器狗的一波热潮,我们公司做机器狗那个方案是 2013 年的方案,2016 年公布出来了,所以比他们早很多。

如果大家关注一下 MIT 那个开源方案,会发现他们整个电机用的跟我的电机一模一样,整个电控方案也非常相像。所以其实有理由想象,可能是当时我在 2015、16 年公布了小的低成本的机器人方案之后,MIT 看到这个方案,发现这么便宜的小机器人也可以做出很好的系统,他们重新做了一个方案,最后开源出来了。

大家可能很难想象这件事。但除了硬件以外,里面软件也非常像,我看过他们的开源软件方案,里面关节电机的命名方式跟我一模一样,包括通信协议里面,他们的比较精简,他的通信协议是我的子集,我 2014 年搞的通信方案,很容易兼容他的通信方案。

所以说,当你在一个行业里面提前比整个世界看到了技术和产品的发展方向,做一个相对比较好的作品出来,是相对容易的一件事。

张鹏:所以还是要有正确的愿景和有效的行动。我记得当年机器狗刚出来时,很多人会跟你说这个是不是可以做成玩具?做成什么 toC 的东西,替你做产品经理,替你构想应用场景。

但你们过去相当长时间主要面向的市场都是科研市场,你是如何选择这个市场的,为什么没有往 toC 的方向去做?后来很多在开源基础上做产品的公司,尝试做 toC,但都不是很成功,你为什么避开了这个动作?

王兴兴:大家可能觉得我不太关注 toC 的产品方向,但实际上我非常关注 toC 的产品,我还关注过无人机行业,无人机也是靠 toC 产品起来的。

我们早些年 toC 做得比较少,原因也比较简单,我个人做产品比较克制,希望做的产品能够实现商业闭环。就是你不要觉得你定义产品就行了,是要客户愿意花钱买你的产品,这才是真正的商业闭环。客户不愿意花钱,就永远是失败的产品。

当年为什么没有做相对小点的纯 toC 的,或者说便宜点的小机器狗,原因比较简单:如果早些年做小的 toC 产品,就会变成「杀鸡用牛刀」,就是高端的技术用不上。而且 toC 的产品,在零售价格上有严格要求,面向大众的卖点打磨也很难。

可能你本来有很好的技术,可以做轿车,但你用它去做一个玩具,就会很麻烦,很多力量用不上。比如说 1000 块的机器狗,你要卖一万台才有一千万营收,这个利润也非常低。卖消费电子产品一定要起规模,才能有利润,如果只是卖几万、十万个,赚不了什么钱。这是非常现实的问题。

我们对过去无人机或者消费电子产品都非常关注,过去也尝试做过小的纯消费电子产品,一个健身泵。尝试过了以后,我后来总结了一些规律,这里分享给大家:如果大家要做一款消费级产品,我的建议是不要做太创新的消费电子产品,这时 99% 概率你会成为先烈。因为消费电子产品并不是你产品好、技术领先、价格便宜就能成功,大众对一个产品接受度是要满足时间规律的。

哪怕当年的手机和电脑,真正火起来也需要很多年时间去建立。这是一个需要时间的过程,所以消费电子产品要做好,你先要了解市面上所有当下卖得比较好的消费电子产品,去看是否有哪些需求点没有被满足,在现有比较火的产品基础上做创新,挖掘新的客户,这是相对比较保险的。

当你要卖一个消费电子产品,消费者是会做一下对比,对比之后,如果发现一个新产品比较有价值,他就会转头去买新产品。所以我觉得做消费电子产品,最好做加法,在原本比较大的体量上,做一些技术和产品创新,当然价格不能太贵。这样的话就是一个比较保险的策略。

张鹏:听你刚才讲这些,你对做成一个 C 端产品其实有系统认知,我感觉好像是你当时不愿意花那么多精力把这个完整链条填上,你更愿意花点时间把技术往上提升一下。

王兴兴:因为毕竟精力、人力和财力比较有限,现在可能好一点,当年公司其实没有几个人,那个时候你要产生更大商业价值,(技术)肯定是最值得做一件事。

张鹏:所以科研市场是你觉得技术该成长的方向,跟产品、市场最对齐的领域,所以你选择了这个市场。

王兴兴:科研和行业端都有做。之所以科研端做得多一点,因为我自己也是科研圈出身的,2018 年我参加一些顶级的学术会议,世界知名的学者都比较熟悉。另外我本人英语一直很差,但我们公司过去几年在海外产品做得挺不错的,这是很反直觉的事情。

张鹏:产品做好了就是一种语言,产品做好了就是有效的沟通。你刚才说,公司当年不能做 toC 也是因为公司本身能量有限,没那么多钱。今年在 AI 领域,很多创业者都反馈融资艰难,大环境发生了很大的变化,你当年也经历过融资不顺利的阶段,能不能跟我们分享一下当年你面对融资不顺,资源非常有限的时候,是怎么发展,怎么往前走的?

王兴兴:我们公司成立 8 年多时间。我个人当年创业起点非常低,没有名校背景,没有大公司高管的经历,而且 2016 年我们公司估值只有 1000 多万人民币,拿了 200 万融资,当时只有一个人,整个起点非常低。

当时整个行业比较冷,所以遇到不少困难,2017 到 2018 年公司第一笔融资款花光了,我自己把我自己待遇停掉了,我把自己钱拿出来给大家发工资,这是我比较自豪的一件事。我觉得,创业是创业,不能亏待所有人,也不要太亏待自己,因为这是底线,现在并不是二三十年以前,现在是一个非常好的时代,没必要把自己逼得特别狠。

当时工资发不出来,但到 2018 年初也拿了极客公园的投资,缓过来了。尤其在 2018 年下半年,我们的产品正式发货。我们从 17 年产品预售,2018 年底发货以后,整个流水就开始正常运转了,当时 2018 年大概有几百万的收入。之后到 2019 年,尤其 2020 年公司发展就变得更加顺畅一些。

张鹏:所以比较艰难就是 2017、2018 年,当时我记得因为缺资金,卖出去的产品交付遇到了困难?

王兴兴:当时我们 2017 年就接了订单,但是也花了一年多时间才交付给客户。原因比较简单,就是做的 DEMO 工程机,跟发货版本是两码事,你做个工程机出来很简单,可能两个月就搞定了,做产品级、满足定义要求,至少要花一年时间。

所以当时花了一年时间把产品做得更加完善,可以更放心地交换给客户,防止烂尾。当年那个版本 2018 年发货,我觉得也是非常自豪的一件事,那台机器是我们的第一代产品,但到 2022 年还有客户在用那一代产品。

张鹏:2018 年也是极客公园变量资本参与投资了宇树科技,中间有一些波折,但是看起来那笔钱还帮到了你,后来就进入了正循环,非常荣幸。当年我飞到杭州去找你聊天,聊这个事的时候,为什么我会愿意投资他,是我觉得他是少有的很踏实的创业者。

他不去描述一个恢弘的市场,更多是介绍自己做的东西,非常客观地讲产品,那个比较打动我。说明你是关注产品,关注技术本身的人,不是跟投资人忽悠一个未被验证的市场。现在我很好奇,今天你穿越回去,能描述一个宏大的 BP 吗?就是让更多投资人感兴趣,而不是让更少投资人看懂的东西。

王兴兴:其实到现在,我们公司,特别是我做的 BP 还是没有什么宏大的故事。这也有好处和坏处,因为投资人也分很多种,有时候你哪怕讲一个很大的故事,他们也不相信。要说服别人相信一个很大的梦想,这很困难。有时候说了一个很大的梦想,他相信了,但实现不了,这也会透支大家的期待。

某种程度上,我以前讲的故事比较保守,我们公司也不太喜欢画太大的饼,就是你不要透支投资人的耐心和增长空间。投了我们公司股东,都还是相对比较开心的,因为我说出来的话比我做的事要少太多。我们每年都给很多股东很多超预期的事情,这对预期管理非常重要,不要拔得太高。

我们公司已经走过了 8 年时间,期间有很多创始人,会没有耐心一直做一件事。如果期待拔得太高,就很容易出问题,公司一下子拿到太大的投资,把投资人的耐心耗光了,你再继续融资大家就不相信了。这是一个长期的事业,不要把预期透支太多了。到今天,如果我想把公司估值拉得很高,拿很大融资,也可以做到,但是要克制。当下只是一个起点,未来还有很长的路要有,不要把耐心耗光了。

 

王兴兴在极客公园 IF2025 创新大会|图片来源:极客公园

 

人形机器人的硬件成本能降至 2 万元

张鹏:问一个比较尖锐的问题,从全球角度去看,这种机器人公司,过去在全球产生宏大商业价值和长期价值的案例并不多。比如像波士顿动力已经被卖了好几回了,然后我们看扫地机器人的开山鼻祖,iRobot 也是被收购。

曾经在这个领域破风的公司,并没有多少真正获得了长期和宏大的价值,这是客观事实。你怎么看待这个挑战,未来要如何跳出这个历史?

王兴兴:这是非常现实的问题。浪潮一波接一波,竞争永远存在。我认为还是要对未来的产品和商业化有更清晰的认知,要想清楚未来产品的商业化价值体现在哪里,能不能带来更大的商业价值,让大家更愿意拿你的产品。另外,你要保持你的产品相对别的行业,有更多竞争力,这是一个持续的过程。

对于所有公司,包括小公司、大公司,最大的点就是你要持续保持公司成长,无论是产品、技术、人员的成长,这是最关键的。人都有惰性,一家公司的规模达到一定程度,公司内部的问题会非常多,公司内部团队之间的壁垒、沟通障碍,各种拉帮结派,内部阻力,给年轻人,新技术没有很多机会……

其中最关键的还是创始人本人,应该保持足够的谦卑去学习新的技术、新的产品,新的发展方向,持续往未来看,不要觉得当下做得好了就不去管。全球有这么多聪明人,每年都有新技术,没有谁永远是最牛的,永远有下一个最牛的人,永远保持学习和进步。这是最本质的问题。

张鹏:你刚才说的这些东西都对,有没有比较具象的方法?我理解你在这个领域里面,当年也是推动了(行业进步),你都比 MIT 的机器狗更早看到这个趋势,看到这个产品,你怎么做到谦卑、开放、持续学习,有什么心理准备,能实现这一点?

王兴兴:这个说实话,当年也很容易变成先烈的。你做了技术方案,之后别人有开源方案出来,其实就会有「努力白费」的感觉,因为后面的人可以拿来就用。包括现在大模型领域很多开源方案一出来,早期努力白费的概率还挺高。最大的感受,就是你要持续地,每天每个月每半年保持自己的进步,保持产品、公司在进步。这是最本质的进步过程。

你要关注同行业其他公司,他们在做什么事情,你要时刻观察最新的技术方向,不光只看到当下已经公布的技术方向,而是能想到未来一两年整个技术朝什么方向发展。你再去想未来一到两年、五到十年应该做什么事情,你提前去做,你做到这样,在未来这个行业内做到前三,就问题不大。

张鹏:看起来就是每天脑子停不下来地去想。这也是一种方法,让自己忙起来,总是给自己摆一堆问题,是保持谦卑的好方法。

王兴兴:是的,因为人非常容易飘。包括我自己也有飘的时候,觉得我是不是挺聪明,是不是做得挺好?每个人都容易发生这种事。傲慢是人的本能,很原始的东西。

张鹏:嗯,要花足够的能量对抗它。我再问一个大家很关心的问题,具身智能、人形机器人,这个东西最终它的成本会怎么构成?我们应该对他有什么预期,假定再过三、五年或者再长一点时间,他会以什么状态进入到人类社会和家庭,怎么看它的成本曲线,能不能拆解一下?

王兴兴:对于机器人或者人形机器人,现在肯定有一些观点,觉得它比较贵,可能要一辆车的价格。但人形机器人这个品类,未来的降价空间,硬件成本的空间,挖掘一下还是非常大的,我感觉未来 2-3 年或 3-5 年之后,一台人形机器人的成本可能不会超过 10 台空调,可能 5 台空调的成本价格(就够了)。

张鹏:10 台空调,就是 2 万块钱?

王兴兴:基本没什么问题。另外可能还有一些软件、算力的成本在里面,那个可能不太好预估,因为未来的模型会发展到什么阶段,算力发展到什么成本,现在还挺难估的,但对于一些硬件的成本,相对还是比较好评估的。

张鹏:这样看起来,每家一个几万块钱的人形机器人,这件事也许 5 年内(就能实现),不是没可能?

王兴兴:对,我觉得是非常有可能的,如果以 10 年的角度去看,我觉得机器人没准是免费的。

我觉得未来真正大规模发展以后,整个生产力结构是会改变的。大家也知道现在的生产力结构都是靠人的需求决定的,人有多少需求就生产多少东西,这个需求到现在已经接近饱和了,所以会出现产能过剩的问题。

但未来整个经济结构会发生改变,我们造机器人并不只是为了人类服务那部分,因为人类服务那部分是相对容易满足的,可能更大的环节是改造整个地球、改造月球或改造火星这种更大规模的改造。

那时候的机器人,如果你家里要用,可能政府或者某些大的公司集团(就能提供),你的房子是机器人帮你造好的,免费给你住,免费配置服务机器人给你用,比如把哈拉撒沙漠改造成一个绿地,或者把一个山给弄平了,比如把喜马拉雅山给挖一个大口子出来,让海洋的热带空气能进去,可以做这种更大级别的事情。未来各种的想象空间真的非常大。

张鹏:所以对机器人的需求,不只是人类今天这点事,人类有了这个能力,还会有更多的事要探索,所以机器人的量会越来越大。反过来均摊下来,甚至有可能到最后它的成本就不计了。

王兴兴:对,最终变成了能源和矿的问题。

张鹏:你觉得未来人形机器人会有价格战吗?

王兴兴:其实对所有产品来说,价格都是非常敏感的一个问题,我觉得当下可能没有太多的价格战,但未来肯定会有,因为有这么多公司进来,未来大家为获得更好的市场份额,肯定会有一些价格战。

张鹏:价格战会有意义吗?

王兴兴:这个很难说,我觉得在合理范围内的价格战,会促进行业发展,但如果太恶劣,其实也会拖累行业,可能会把整个行业搞的非常糟糕。如果我们公司在未来或者当下,发动很强的持续价格战,我觉得对这个行业都是非常糟糕的事情。

举个例子,如果苹果公司现在要打严重的价格战,我觉得手机行业会变成很糟糕的一个局面。对于我们公司来说,我一直觉得我们要持续地带领这个行业做的更好,要保持每个产品有合理的商业价值、利润,每年有新的产品和技术进步,每年要挖掘更大的市场,你不要盯着一个小的市场,挖掘一个老的市场,一直挖,搞价格战,这是非常不好的一件事,因为对整个人类社会来说没有意义。

所以更重要的是挖掘更大的市场,来创造更大的需求,从而推动整个行业发展,这是对整个社会最有价值的一件事情,也是最激动人心的一件事。单单盯住一个小的行业,持续做价格战,哪怕做到第一,都不是值得骄傲的一件事情。

张鹏:今天这个行业越来越热,你们也在快速地发展,对人才的需要也会越来越多,你今天会怎么招人?会需要什么样的人才?如何评价什么样的人才是好的人才呢?

王兴兴:人才肯定非常关键,说实在的,我目前花了很多时间招人,包括招聘、面试。可能大家想象不到,我平均每年面试的人接近 1000 个,每天平均差不多 2-3 个。

我最近几天在出差,晚上可能面试了 4 个人,而且是终面,公司高管或者 HR 已经面过一遍了,我还要面这么多。所以人才还是非常重要的,我们公司绝大部分,都是我终面过的人。在目前的全球竞争中,人才是决定公司天花板的一件事情。

我一直觉得中国的聪明人真的非常多,但由于各种方面的原因,大家的思维方式、学习的东西,没有真正学到当下最前沿的技术,哪怕最聪明的人。

如果不关注最前沿的东西,你关注的是 10 年、20 年或者 5 年以前的东西,永远都成为不了最顶尖的人才。所以目前,在国内外,都比较缺人才。

张鹏:你在挑选人才过程中最看重的点是哪里?

王兴兴:我最关注的是敏锐度。因为现在这个时代已经变成技术爆炸的时代,并不是说论文太少了,或开源的东西太少了,或产品太少了,最大的问题是在(大量的)信息或者知识中,你要非常敏锐地发现关键的问题。

包括产品上、公司内部管理上,技术上,你能在信息爆炸的时代,敏锐地抓住什么是重要的,什么是未来发展的方向,这是非常重要的。你能学当下比较主流的技术,能用起来,这已经是全球比较顶尖的人才了。

但这还不够,在学了当下比较前沿的知识以后,你要敏锐地发现整个技术里面最关键的点是哪些,敏锐地洞察到未来 1-2 年什么是重要的,如果你提前做这件事情,能预估整个世界未来 1-2 年的发展,就是全球最顶尖的人才。

张鹏:对于更丰富的信息,能够快速地接触并且结构化,找到关键点。

王兴兴:对,记忆和理解是两个层面,很多人习惯于把这个事情记住,但没有推理最本质的事情。包括现在的大语言模型,如果它跟人比知识,肯定比所有人的知识都要丰富,但现在大语言模型的逻辑推理能力还是比人差很多,本质是要归纳、总结、推理,这是最本质的问题。

张鹏:听懂了,我其实也蛮期待接下来,就像你预言的,再过 5 年、10 年,人形机器人成为人类生活里新的生产力,解决更大的问题。也期待宇树在这个过程中能够引领这个行业,或者跟这个行业一起更好地推动这个进程。

 

浏览量: 50

扎克伯格套现超过 22 亿美元;极越夏一平发长文道歉信;Lucid 工程师称自购小米 SU7 学造车

挑战 OpenAI,谷歌新动作:推出视频模型 VEO 2 和最新版 Imagen3

12 月 17 日凌晨,谷歌的旗舰 AI 研究实验室 Google DeepMind 推出了 Veo 2 视频生成模型和增强版 Imagen 3 图像模型,挑战 OpenAI 在 AI 图像和视频生成的领先地位。

截图来源:X.com

Veo 2 是谷歌的视频生成工具,能够生成多样化主题和风格的高质量视频。谷歌在博客中表示,这款模型在真实感方面表现卓越,能够捕捉到人类表情和电影效果等细节。其增强的物理和电影学理解能力使用户能够生成令人惊叹的内容,包括跟踪镜头和广角构图等。

例如,Veo 2 熟悉电影拍摄语言,用户可以要求某种类型的风格,指定镜头,建议电影效果,Veo 2 都会以高达 4K 分辨率并延长到数分钟的视频长度来呈现。值得注意的是,这一分辨率是 OpenAI Sora 模型的 4 倍,视频时长更是其 6 倍以上。(来源:每日经济新闻)

ChatGPT 搜索功能向全体用户开放,新增语音搜索服务

12 月 17 日,OpenAI 在其 12 天发布会的第八天正式宣布,ChatGPT 搜索功能将从即日起向全体 ChatGPT 用户开放。该功能于今年 10 月底正式发布,此前仅向 ChatGPT Plus 和 Team 用户开放移动及网络端的付费搜索服务。

截图来源:X.com

同时,OpenAI 还为用户提供了将 ChatGPT 搜索设为浏览器默认搜索引擎的便利选项。

值得注意的是,OpenAI 正在将 ChatGPT 搜索功能与高级语音模式相结合。这意味着,ChatGPT 现在能够以语音形式搜索网络,并以自然、流畅的对话方式回应用户的问题。例如,如果用户即将前往另一个城市度假,只需询问 ChatGPT 当地的天气情况,内置的搜索功能便能提供最新的天气信息。(来源:腾讯科技)

 

英伟达 Thor 芯片延迟量产 小鹏或搁置搭载并加速自研芯片

作为目前最强大的智驾芯片——英伟达 Thor 芯片。该芯片原本计划 2024 年中量产,现已大幅推迟,有消息称,该芯片预计明年中上车,且还是入门版本。

这影响着一些国内车企的新车产品决策。据 36 氪的消息,由于 Thor 芯片的延期,国内车企小鹏的明年新车正在考虑搁置采用 Thor 芯片。(来源:CNMO 科技消息)

 

Arm 与高通就芯片设计授权纠纷将对簿公堂,审判预计持续一周 

12 月 16 日消息,据英国《金融时报》报道,Arm 与高通因芯片设计授权的法律争端将于美国当地时间周一(IT 之家注:对应北京时间今晚至明日)进入审判。这场位于特拉华州的审判预计持续一周,Arm 首席执行官雷内・哈斯和高通首席执行官克里斯蒂亚诺・安蒙将亲自出庭作证。

争端的核心在于高通 2021 年收购了芯片设计公司 Nuvia,而 Nuvia 持有 Arm 的芯片架构许可。与此同时,高通本身也是 Arm 的大客户,持有该架构的许可,且以此为基础设计自家芯片。(来源:IT 之家)

 

美国新势力 Lucid 工程师:已购小米 SU7 学习如何制造电动汽车

12 月 17 日消息,美国新势力 Lucid Motors 的首席工程师 Eric Bach 在采访中透露,公司正在向中国电动汽车制造商学习,以增强竞争力。

Bach 指出,中国汽车在数字技术上处于领先地位,得益于快速的研发速度、积极的工作态度和政府的补贴政策。为了深入研究中国汽车的工艺和数字功能,Lucid 还订购了一台小米 SU7。

此外,Lucid 的车辆动态团队负责人 David Lickfold 表示,公司正在开发新车型 Gravity SUV,这款车型将配备大屏曲面显示和全新的信息娱乐系统,以改善之前软件系统的不足。

Eric Bach 认为,中国企业在编程领域投入巨大,产出丰富,Lucid 需要在这方面加大努力,以快速且创新地提升技术水平。(来源:快科技)

扎克伯格今年出售了超过 22 亿美元的 Meta 股票

12 月 16 日晚间消息,最新数据显示,Meta CEO 马克·扎克伯格(Mark Zuckerberg)今年抛售了价值逾 22 亿美元的 Meta 股票,创历史新高。基于对扎克伯格每笔出售交易的分析,这位 Meta 的联合创始人兼 CEO 在即将过的 2024 年年出售了价值超过 22 亿美元的公司股票。仅在 12 月,扎克伯格就卖出了价值 1.532 亿美元的股票。(新浪财经)

 

快手启动「付费短剧会员」模式,30 天 16.8 元

12 月 16 日下午消息,新浪科技获悉,近日,快手面向短剧合作方推出了全新的商业变现模式,即「付费短剧会员」。

一位短剧行业人士表示,在该模式下,快手会根据短剧播放时长再按照一定比例与合作方进行会员费分成。该人士还透露称,为了吸引更多合作方入驻,新模式扶持期,快手平台不进行抽佣,100% 会员费收入将让利合作方。

在快手 App,新浪科技注意到,「付费短剧会员」功能已经上线,3 天、7 天、30 天会员卡优惠后价格为 2.8 元、4.8 元、16.8 元,开通会员后用户可在相应期限内免费观看到超 8000 部付费短剧。(来源:IT 之家)

 

董明珠称小米空调侵权赔了 50 万,格力最新回应

12 月 16 日,话题「董明珠爆小米空调专利侵权赔 50 万」冲上微博热搜。

随后,小米公关部总经理王化发文称信息不实。

截图来源:微博

对此,格力电器证券部工作人员回应称,网传视频应是录播,不是今天说的。其称,公司在 7 月份已就小米的事情进行说明,此事项目前有专人进行跟踪,建议以相关部门口径为准。(来源:湖南日报)

 

消息称今年智元临港工厂预计下线超 900 台人形机器人

12 月 16 日消息,据澎湃新闻报道,稚晖君(真名:彭志辉)率领的智元机器人方面称,截至 12 月底,位于临港奉贤的工厂将总计下线超过 900 台机器人,「其中自用两百多台,发货将近 700 台。」目前智元机器人包括双足机器人和轮式机器人,今年出货量中双足机器人占比过半。(来源:IT 之家)

谷歌 Chrome 浏览器新增 AI 助手,助力开发者高效调试网页代码 

近期,谷歌在其 Chrome 浏览器的开发者工具中推出了一项革命性的更新——AI 助手功能,这一创新之举旨在极大提升网页代码调试的效率与便捷性。

该 AI 助手能够深入解读网页源代码,并在开发者遇到问题时,提供即时且针对性的分析与解答。这一功能的实现,让开发者无需离开当前操作窗口,即可轻松解决调试过程中遇到的各种难题。

启用这一 AI 助手的过程也极为简便。用户只需打开任意网页,按下 F12 键调出开发者工具,随后点击右上角的齿轮图标进入设置页面,在「AI 创新」板块中找到并启用「控制台洞察」与「AI 辅助」功能即可。

在功能启用后,开发者可以自由选择网页中的任意代码段,点击「询问 AI」按钮打开对话窗口。这一 AI 助手支持包括英语与中文在内的多种语言,开发者可根据自身需求选择 AI 回答的语言种类。在实际操作中,AI 助手会迅速读取并分析所选代码,结合开发者的提问与上下文环境,给出精准的回答与建议。(来源:ITBEAR)

 

消息称苹果拟在 2028 年推出可折叠 iPad 

知名苹果爆料记者马克·古尔曼表示,苹果希望在 2028 年左右推出一款可折叠的 18.8 英寸 iPad。公司工业设计团队已经成功打造出这款设备的原型,其「折痕几乎看不见」,本质上就像「并排放置的两台 iPad Pro」。(来源:财联社)

 

Kimi 发布视觉思考模型 k1,多项理科测试行业领先 

12 月 16 日,Kimi 发布视觉思考模型 k1。k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

Kimi 新模型发布即上线。k1 视觉思考模型已陆续上线最新版「Kimi 智能助手」的 Android 和 iPhone 手机 APP 以及网页版 kimi.com。在最新版手机 APP 或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,即可拍照或传图体验。

「Kimi 视觉思考版」会完整呈现推理思维链 CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。(来源:极客公园)

研究人员研发出超薄薄膜,可利用体温为可穿戴设备供电

IT 之家 12 月 16 日消息,澳大利亚昆士兰科技大学(QUT)的研究人员近日开发出一种超薄柔性热电薄膜,能够利用人体热量为可穿戴设备供电,甚至有望取代电池,同时也可能应用于智能手机和电脑芯片的散热。(来源:IT 之家)

极越 CEO 夏一平称「没有跑路」:对营销的执念占用了太多精力

新浪科技讯 12 月 16 日上午消息,今日凌晨,极越 CEO 夏一平发长文回应极越以及自己的相关传言。夏一平指出,「我没有跑路」,他表示「造车需要太大资金量,有幸得到百度、吉利的支持,还有所有极越同事的努力,自己太想把极越两款车卖好」。

 同时他提到,早期过于乐观,没有预见到资金问题的重要性。「对营销的执念也占用了太多精力。作为 CEO,我本该把主要精力放在融资和战略规划上,却一度亲自下场操盘营销体系,分散了精力,让其他重要事务被忽略。所有这些错误,都源于我的经验不足和认知的局限。」他说。(来源:新浪财经)

 

浏览量: 40

看见创新力量!极客公园 2024 年度「InnoForce 50」发布

 

排序按照拼音/英文首字母顺序

作为中国领先的创新者社区,极客公园自成立之初便与国内技术创新的浪潮同频共振,见证了一代又一代技术商业领袖的成长与蜕变。
自 2011 年 1 月首次推出 InnoAwards 以来,极客公园便致力于通过其记录和展示科技互联网领域的年度发展与变革。
「年度创新力量 TOP 50(InnoForce 50)」是「InnoAwards」精神的延续,已陪伴中国互联网走过超 10 个年头,每一年我们都从中看到新的可能。
在过去一年里,随着业界对人工智能技术的不断探索,这一轮技术与创新成果的可用度大幅提升,不仅通过各种产品形态深入我们的生活,以越来越细小的触角影响着每一个人;也给那些站在浪潮之巅的极客们提供了更加先进可用的底层技术,使得开发者们凭借很小的团队,甚至一人之力,就能打造出成熟的产品,并获得成功。
今天,极客公园再次推出 2024 年度「InnoForce 50」,旨在发现过去一年中,在人工智能技术领域及其交叉领域实现了创新突破的产品、技术、组织、项目和个人开发者。
2024 年度「InnoForce 50」主要关注 3 个维度:创新性、实用性和社会价值增溢。
我们相信,科技的使命既是解决现实世界中的真实问题,也是仰望星空的浪漫主义梦想。因此,2024 年度「InnoForce 50」的关键词是突破、想象、以人为本——技术与商业的突破,早期但足够前沿的创新,以及技术与商业的价值成长带来的社会温度。
2024 年度「InnoForce 50」不仅是对业界过去一年科技创新成果的认可,更是对未来创新潜力的期待。

以下为 2024 年度「InnoForce 50」:

 

豆包是字节跳动推出的 AI 对话助手,通过自然语言交互,豆包可以像朋友一样跟用户聊天、回答问题,豆包 PC 版则更像个人助理,帮助用户更好地工作和学习。目前在各大应用市场中,豆包 App 的月活跃用户数、用户留存率和总下载量均在 AIGC 类应用中排名第一。
在底层大模型技术栈远未收敛的 2024 年,豆包赢得了广泛的用户使用,验证了其定义的三个产品设计原则——「拟人化」、「离用户更近」和「个性化」,既满足了当下的用户需求,也为用户带来更好的体验。
以「离用户更近」的设计原则来说,豆包的产品迭代方向,致力于让豆包到用户身边,随时嵌入用户的不同使用环境中伴随用户,而不是用户到豆包身边。为此,豆包很早便发力优化语音交互体验,包括基于大模型的 ASR 和超自然的 TTS 音色,让用户可以随时在户外语音唤起它,带来与真人对话的体验。同时,为了帮助用户提高工作学习效率,豆包推出了浏览器 Web 应用、桌面客户端,以及网页插件版,让用户在读 PDF、写代码等任何场景下,都可以通过划词选中、截屏等方式,唤醒它帮助用户就近解决任务。
值得注意的是,今年豆包发布了首款 AI 智能体耳机 OlaFriend,用户只需直接触摸耳机或说出唤醒词「豆包豆包」,就能与它语音交流,把用户在手机里用的「豆包」App 调到耳机里,离人更近。
2024 年,豆包以模型技术驱动的产品能力,赢得用户喜爱。从其技术产品的进步速度来看,字节跳动正在大模型领域已经形成了「集团化作战」的团队和资源集结,正在快速追赶全球水平。

游戏本体销量在全球范围内超过 2000 万份,并获得了全球玩家一致好评。同时,《黑神话:悟空》在全球掀起了一股西游文化浪潮,成为了一个在全球产生的内容作品,让中国传统文化释放了全新的魅力。
《黑神话:悟空》的创造者——游戏科学公司,名字源于「游戏开发是一门需要勤奋与灵感并重的严谨学科」的寓意,这家创业公司也践行了这个原则。在《黑神话:悟空》之前,开发团队也曾产出数款在商业上已经取得成功的游戏,但开发团队没有止步于「复制商业成功」,而是坚持了创业团队创造世界级游戏作品的初始目标,在第一次 3A 游戏的尝试里,以六年磨一剑的坚持,最终交付了超越行业和用户预期《黑神话:悟空》。
游戏科学团队的成功很好地运用科技支撑了审美。团队在游戏开发中充分运用了科技的力量——比如曾在开发一年后,果断选择切换到虚幻 5 引擎平台进行开发,利用虚幻 5 引擎对于 3D 扫描实景后更高效进行建模的能力,极大的提升了开发效率,并因此获得了充分利用中国文化古迹遗产,创造世界级视觉体验的能力。同时也在传统西游文化基础之上,进行了世界观的创新设定,创造了与时代共振的故事表达,构建了引人入胜的视觉和感动人心的游戏故事。这让它成为了 2024 全球游戏行业难得一见的「清流」。也带给了游戏玩家期待已久的「更纯粹的快乐」。
《黑神话:悟空》的成功,无论是从产品创新还是游戏产业未来发展的角度,对于中国游戏领域都有着启发意义,值得作为年度创新产品给予掌声和鼓励。

今年 6 月,快手推出了首个全球用户可用的,真实影像级视觉生成大模型平台可灵 AI,展示了国内大模型技术的创新实力。
在技术上,可灵 AI 突破了传统图像生成与时序模块的局限,采用自研的 Diffusion Transformer 和 3D VAE 架构,结合高效的 3D Attention 时空建模模块与升维隐空间解码,精准建模复杂运动,生成符合运动规律的视频;采用 flow 模型替代传统 DDPM 方案,显著提高计算效率,同时通过专用语言模型优化用户输入提示词,提升视频描述质量,并支持多种控制信息输入和自回归时序扩展。这些创新使可灵 AI 在高帧率、复杂运动和多样化生成能力上树立了行业标杆。
自发布以来,可灵 AI 凭借其独特的技术特性与广泛应用场景,持续吸引全球用户并快速迭代升级。从最初的基础功能到最新的 1.5 版本模型,可灵 AI 在画质、美感、动态质量及语义响应度上不断取得突破,为用户带来更高水准的创作体验。其生成的视频能够达到 1080p 分辨率、最长 2 分钟的高品质效果,同时支持文生视频、图生视频、一键续写及多次续写等功能。到目前为止,可灵 AI 服务用户已超 500 万,累计生成 5100 万个视频,超 1.5 亿张图片。
快手对 AI 技术的投入效率很高,除了可灵 AI,还有 π数字员工等产品也值得关注。π数字员工是一款基于快意对话模型的多 Agents 协同平台,其具备全天候接待、高效服务、降低成本等功能,适应多行业需求,代表了快手 AI 技术的高效应用。

小米 SU7 是小米汽车推出的第一款产品,发布后迅速成为爆款,在原本并不属于热门细分市场的纯电轿车品类里,创下了 7 个月完成 10 万台交付目标的行业速度。这个超越所有人预期的结果背后也有着很多创新的思考。
在技术层面,作为电动汽车的立身之本,小米虽然入局较晚、但非常深度的参与了三电系统的研发。自主研发的超级电机小米 V8s 拥有全球最高的转速;优秀的电控能力,让小米 SU7 的能耗表现比肩特斯拉,达到行业第一梯队水准;CTB 倒置电芯技术不仅可以减少电池厚度,还能在发生碰撞时最大程度保证乘员舱安全。
在智能化领域,小米 SU7 依托于小米澎湃 OS,打造出流畅的屏幕、智能语音交互体验。同时,小米 SU7 支持车内硬件和小米生态内其他硬件进行共享,进一步打通人车家全生态体验。
而在外观设计上,小米 SU7 以低风阻和高颜值作为两个重要原则,在达到 0.195 超低风阻系数的基础上,依靠极致的轮轴比、轮高比、配色方案,打造一款外观破圈的产品,甚至完成了对女性用户群的跨越,比如小米 SU7 女性用户占比达到了接近一半的比例。这是过去主流汽车产品很难实现的结果。
作为小米旗下首款智能电动汽车产品,小米在 3 年的周期内,从 0 到 1 交出了小米 SU7 这款完成度极高的产品。它不仅充分运用了小米产品定义能力的优势经验,在行业内打造了诸多创新的功能点,也充分运用了传播和品牌和销售推广上的创新思路,给整个行业带来了突破性的思考。

在目前大热的人形机器人、具身智能赛道,宇树科技是最头部的公司之一。今年团队发布了第二款人形机器人 G1,引起全行业关注。
首先是硬件性能强,如果说其去年发布的首款人形机器人 H1 拥有全球几乎规格最高的动力性能,G1 性能依然强劲,用到 23-43 个关节电机,有超越常人的灵活性;由模仿和强化学习驱动,AI 技术持续迭代;同时力控灵巧手能实现精准操作。
其次,G1 价格仅 9.9 万元,将人形机器人平均数十万、乃至百万元的价格降了下来。这背后主要依靠团队对硬件成本的工程化控制能力。
目前,掣肘人形机器人应用落地的两大技术难点是,一是能否干活,二是成本能否下降。G1 对这两个问题做了很好的回答。因此,宇树的人形机器人本体(硬件)出货量领先,被全球各大科研机构和科技公司购买、用作研究。
H1、G1 底层技术主要迁移自宇树研发多年的四足机器狗技术。2013 年,还在读研的创始人王兴兴,自己设计电机、控制算法等,用不到两万块研发出了第一台四足机器狗 XDog。2016 年,王兴兴创立宇树科技。宇树的技术实力源于创始人的热爱与坚持,也来源于团队对技术路线的独立判断,比如宇树坚持电驱、而非主流的液压路线,被证明是更正确的。
技术之外,宇树的核心目标是做好产品、服务好用户。在务实的基础上,宇树科技一步步向人形机器人的技术星辰大海中走去。

 

2024 年,DeepSeek(深度求索)不断突破。DeepSeek-V2 开源 MOE 模型,上线即被视为「神秘的东方力量」,其多个模型版本在 LMSYS 全球大模型竞技场榜单上屡创佳绩,并创新性地引入了 MLA(Multi-head Latent Attention)结构,大幅降低了推理成本。
持续释放创新成果的背后,是其在组织目标、人才、创新机制上的独特选择。
在组织目标上,DeepSeek 致力于研究和探索 AGI 的未解之谜,以期用前沿技术推动整个 AI 生态发展。DeepSeek 以技术提升为核心,坚定选择开源路线,在商业化道路上形成了自己的风格。
当前,DeepSeek 团队体量在百人上下,但却形成了一套高效的组织创新机制。在人才招揽上,DeepSeek 强调热爱、好奇心以及扎实的基础能力。其团队的组织方式主要是自下而上。每个人带着自己独特的成长经历和想法探索,遇到问题自主协调训练集群和人才合作。只有当一个想法显示出潜力时,组织才会自上而下地组织和调配资源。举例来说,DeepSeek 引发大模型价格战的模型结构创新 MLA,最早来自一个年轻研究员的个人兴趣,后续是由组织自上而下探索验证。
在当下产业结构调整的创新环境中,DeepSeek 创新路径极具启发意义:比资本和信心更稀缺的,是如何组织高密度的人才,实现有效创新。

2024 年之前,理想汽车的智能驾驶技术曾被视为「差生」。去年,CEO 李想还在反思在智驾领域的投入偏晚。然而,进入 2024 年,理想却迅速迎头赶上,成功弥补了智驾的短板。
特别是理想智驾驶团队推出了创新的「端到端+VLM」双系统模式,类似于心理学中的「快思考」和「慢思考」的结合,可以大幅提升智能驾驶的反应速度与决策能力。
理想汽车的成功不仅依赖于技术创新,更源于其高效的组织架构与灵活的研发流程。借鉴华为的组织架构,理想采用了集成产品开发(IPD)流程+矩阵型组织架构,并结合自身特点进行了深度优化,确保各部门之间的高效协同。
同时,随着智能驾驶技术路线从规则转向端到端,在数据收集、样本制作、自动化训练等领域减少了人的参与度。与此同时,理想汽车适时调整了人力配置和组织架构,形成了以 RD(Research Development)和 PD(Product Development)为核心的双轨研发体系。前者专注于下一代人工智能的发展,后者则聚焦于现有技术的量产与用户维护,确保了技术的持续进步与市场需求的快速响应。
在智能汽车迅速迭代的时代,理想智驾团队的创新思路为我们提供了新的启示:创新的技术也需要创新的组织形态来助推,技术的革命背后需要首先用组织的成长和变化来匹配。

作为起家于农业、以农业为基本盘的公司,拼多多长期支持国内农业的发展。近两年,拼多多支持中国工程院院士、中国农业大学教授张福锁团队的「科技小院」项目,并于今年推出了「科技小院强农兴农人才培养行动计划」,探索公益性人才培养模式。
「科技小院」由张福锁和团队于 2009 年在河北省曲周县首创,是扎根生产一线的农业创新组织。目前,全国已有 157 个研究生培养单位积极参与,牵头建设了 1800 多个科技小院,覆盖 31 个省级行政区和新疆生产建设兵团。
该项目已取得初步成果。以曲周县第四疃镇下面的攻关千亩方为例,其为瘠薄、轻度盐渍化的中低产田。这一年来,在曲周各科技小院师生、各科研单位努力下,该土地实现:粮食周年亩产达 1.52 吨、较全县平均增产 42%;化肥效率 55kg/kg、增长 40%、减排 46%;水分利用效率 2.16kg/m³、节水 30%;亩节本增收 795 元。
在连续两届支持科技小院大赛之外,拼多多还帮助各地科技小院重点支持的农产品打造成爆品,送往千家万户。例如,科技小院重点研究的丹棱桔橙「爱媛 38 号」,近年来在拼多多平台打开销路,当地不少果农开起了线上店铺,直接服务消费者。
「科技小院」项目是学界和产业的双向合作,推动了我国农业的供给侧升级和高质量发展。

 

flomo 浮墨笔记在 2024 年的产品更新中,成功运用大模型技术实现了更智能的笔记分析与管理,使其在同类笔记产品中获得了优秀的用户口碑。
flomo 诞生之初的目的是在全平台支持用户随时随地记录想法。它允许用户通过微信、App、网页等多种渠道,快速捕捉灵感,无需担心格式差异,保持笔记的实时更新。
2024 年其更新的「相关笔记」和「找一找」功能,让笔记的回顾和整理变得井然有序。「相关笔记」通过深度学习分析用户记录,以单条笔记为出发点,智能推荐笔记库中与之有内在关联的其它笔记;「找一找」则是以提问的方式挖掘过往的笔记内容。其背后的 AI 技术是让 flomo 脱颖而出的关键。这种「学习」和「理解」的能力,使得 flomo 能够主动建立知识间的联系,让个人知识库不再是静态的积累,而是能够动态地支持用户的创新和决策。
同时,通过使用 API,flomo 与阅读软件等应用联动,极大扩展了笔记的应用场景。
flomo,在良好的产品设计和交互设计基础上,合理地运用了大模型技术,让用户的思维碎片从深度和广度上得到链接与扩展,释放了笔记产品更多潜力,在个人知识管理工具中,为用户交付了更高的产品价值。

Monica 作为一款 All-in-One 的 AI 助手,主要以浏览器插件的产品形态,实现了 AI 功能的分发。在 AI 技术栈远未收敛的今天,Monica 精准切中了当下的用户需求:在既有场景里用 AI 优化流程和用户体验。Monica 致力于把大模型「低垂的果实」和用户场景理解到极致,将最趁手的 AI 体验第一时间带给用户。
2024 年,Monica 以「速度」刷新用户体验和价值。在 GPT-4o、Claude 3.5、OpenAI o1 系列上线的第一时间,用户即可通过 Monica 解锁最新 SOTA 模型,用上新模型驱动下的网页内容新交互。比如随着接入模型的新进展,Monica 的专业搜索、DIY Bot、Artifacts 写小程序、记忆等功能深受用户喜爱。
同时,Monica 以对用户场景的深入研究见长,以满足在用户特定场景下的痛点和个性化体验。比如 Monica 在 YouTube、Twitter、Gmail、The Information 等不同功能的网页里呈现出不同的交互形态和功能,以适配特定场景的用户需求,今年已更新数百个网页的个性化 AI 体验。同时,Monica 也支持用户自行修改默认配置,以满足个人的最佳使用习惯。
功能更新快、场景积累深厚、基于用户的个性化迭代,Monica 在信息获取和处理上带来了高效的体验,也赢得了用户的喜爱。2024 年,Monica 用户数量翻番,达 1000 万。同时,其保持着可观的盈利,在海外同类产品中,位居头部。Monica 的表现验证了在当下,套壳到极致,既是 TPF、也是 PMF,最后都通往用户价值。

BaaS 电池租用服务是蔚来为用户提供的一种创新的电池租赁服务,该服务允许将车辆和电池分离购买,旨在降低购车门槛,提高了产品竞争力,同时推动电池管理和健康保障,进一步减少能源浪费和环境污染。
BaaS 服务最早于 2020 年推出,作为一种创新的服务型产品,它可以依托于蔚来独有的换电体系,为用户提供差异化购车和补能体验。但也正因为前期需要投入大量资源建设换电站,蔚来换电体系曾在初期遭受到行业质疑。
2024 年,蔚来已在全国布局超过 2600 座换电站,第四代换电站最快可实现 2.5 分钟满电出发的补能体验。同时,「可充可换可升级」的服务体系,允许用户日常选择标准容量电池,长途出行选择更大容量电池。目前,超过 95% 的蔚来用户在购车时选择了标准续航电池版本,进一步降低购车成本的同时,也可以避免能源浪费。
本年度,蔚来公司连续 6 个月销量突破 2 万台,蔚来长期在补能领域的研发和创新,终于兑现成了体系化的优势,超 7 成用户在新购车了选择了 BaaS 方案。BaaS 的推广,既为用户提供了智能电动汽车时代更灵活的购车方式,也让蔚来换电的体系化优势进一步凸显。

作为最早系统性投入研发物理世界 AGI 的公司之一,智平方 2024 年推出了 Alpha Bot 机器人解决方案,成为最早进行商业化推广的智能机器人公司之一。
智平方推出的通用智能机器人 Alpha Bot 系列,可以像人类一样迅速适应新环境,灵活执行多种任务操作。
其背后搭载的是智平方全栈自研的端到端具身大模型 AI2 Brain。智平方通过自有数据、原创模型结构与训练方法,在空间智能基础模型方面取得了显著的技术进展,为 AI2R Brain 提供了无与伦比的空间感知能力;加上独特的端到端架构设计优化以及软硬垂直整合技术,在非结构化场景中,AI2R Brain 的泛化任务成功率业界领先,其端侧运行速度也在全球领先。
目前,智平方推出的 AI2R Brain MaaS 服务与 Alpha Bot 机器人解决方案已经得到头部互联网企业、国际头部车企等行业客户的技术认证。
智平方由国家创新领军郭彦东博士创建,核心团队有多年硬核 AI 原创研发经验、智能硬件主机厂大规模量产经验。团队致力于构建一个可拓展的机器人体系,解决智能机器人在广泛、多样的真实场景中进行规模化交付的世界难题。

 

2024 年,百度文库凭借 AI 技术上的创新突破,重构为一站式 AI 内容获取和创作平台,提升用户创作效率的同时,进一步推动了内容创作的智能化转型。
除了 14 亿专业文档之外,基于文心大模型,百度文库推出智能 PPT、智能文档、行业研究报告、AI 全网搜索、智能有声画本、智能漫画等上百项 AI 功能,覆盖学习办公、家庭教育、兼职赚钱场景。
截至 2024 年 10 月,百度文库 AI 用户数累计超 2.3 亿,AI 功能累计使用次数超 28 亿。
百度文库与百度网盘也全面融合,在两个产品原有优势上实现了进一步打通、重构,并发布了 AI 创作新物种「自由画布」,后者不仅突破了内容创作的传统界限,还推动了公域与私域内容的自由流动,为用户提供从内容生产到消费的全流程服务。
通过技术赋能,百度文库为个体提供了更多创作与就业机会,促进了更广大人群的创作能力提升。

海螺 AI 是国内头部的大模型公司 MiniMax 旗下生产力产品。通过 MiniMax 出色的语言大模型,海螺 AI 能实现对话、文档理解、图片识别、文本写作等功能。
尤为特别的是,在国内的生产力工具里,海螺 AI 是率先推出语音交互功能的,口音逼近人声、低延时,交互流畅自然,比 GPT-4o 做得更早、效果出色。
此外,今年 9 月海螺 AI 又上线了文生视频功能,对标 Sora,产品表现力在国内产品中处于上乘,核心在于指令跟随、对高动态信息的表现力、以及视频的高分辨率和高帧率等。国内外不少用户使用该功能,做出了逼近电影大片的效果,用户反响很好。
这反映了该公司的多模态(文本、语音、视频等)产品策略,它相信每扩展一种模态、用户的渗透率会随之提高,而让大模型真正被普通人用起来,正是该公司的愿景。
作为最早成立的大模型公司之一,MiniMax 坚持技术和产品双轮驱动,认为技术决定产品、产品又会助力技术。除了海螺 AI 外,MiniMax 底层模型技术还支撑另一款重要产品「星野」,其主打虚拟社交、为用户提供情绪和陪伴价值。

凭借在长文本处理、效率工具、以及搜索助手方面的持续投入和功能更新,Kimi 智能助手在 2024 年聚焦生产力场景,成功在众多 AI 助手中打造出了自身的独特辨识度。
Kimi 通过支持上传超长文本文档,并快速对文字进行摘要、搜索、翻译、答疑等操作,首先在学术科研人士、互联网从业者和内容创作者等对于文本处理要求较高的行业人士中,产生了口碑传播。
2024 年,Kimi 进一步加强了其长板,在上半年更新了 200 万汉字的无损上下文功能,相当于能够一次性看完四大名著。下半年,Kimi 更新了搜索功能,利用其长上下文的优势,以及通过提升 AI 的深度思考能力,通过理解、拆解问题,Kimi 一次搜索可以阅读五百个网页界面,为用户提供更好的搜索结果。
2024 年 5 月,Kimi 还尝试了 AI 原生应用的商业化探索。当用户量激增、推理出现高并发时,系统会弹出打赏界面,引导用户付费支持。通过使用用户友好的产品设计,这一商业化尝试并没有引起用户的反感,反而得到一定的支持,是中国原生 AI 应用商业化的一次积极尝试。
在头部的大模型公司中,Kimi 是最坚定地投入 C 端策略的公司之一。但对于普通用户而言,分清各家 AI 助手的能力如何,其实并不容易。通过坚定的战略投入,用户友好的体验优化,和以「长文本处理」作为核心特色,Kimi 成功获得了一批自己的忠实用户,并成功塑造了独有的用户认知。

2024 年年初推出的秘塔 AI 搜索,推出不到两个月,就获得了数百万访问量,到 2024 年下半年,已经稳居国内 AI 应用访问量前列,表现出色。
颠覆了过去搜索引擎的形态,在秘塔 AI 搜索中,用户输入问题后可以直接得到答案,而不是去浩如烟海的网页中自己阅读和判断。
这是典型的这波生成式 AI 出现后才能成立的场景。秘塔 AI 搜索自建了网页索引库,在用户提出搜索词后,以自己的算法找到关联的网页,再使用 AI 总结搜索到的网页,交叉验证,直接给出最后的结论。
自研了百亿参数的小模型,秘塔率先在 AI 推理成本和 AI 应用能力上做到了相对平衡。通过对用户的搜索需求进行简洁、深入和研究三层分级,秘塔进一步分化用户需求,深入、研究层级能够自动呈现相关事件等更多信息,而简洁模式通常只有一段回答。
在 2024 年一年中,秘塔 AI 搜索还不断扩大了搜索范围,目前可搜索范围除了网页还包括学术网站、播客和文库,并上线了图片分析、AI 辅助撰写研究报告、专题知识库的功能。
在搜索这个公认更适合大厂参与的领域,秘塔 AI 搜索利用新的 AI 技术对搜索带来的变革,带来了新的用户体验,获得了一批稳定使用其搜索服务的用户,成为了 2024 年最被认可的 AI 原生应用之一。

新上线不久的纳米搜索,基于 360AI 搜索在 AI 搜索领域的积累,展示出了很强的产品能力,迅速成为了国内 AI 搜索的突出力量之一。第三方平台数据显示,360 AI 搜索单月最高访问量突破 3 亿。
AI 搜索是此次生成式 AI 革命中的重要原生应用场景,但对于 C 端用户而言,存在着产品同质化的问题。
不同于其他仅提供简单答案的 AI 搜索,纳米搜索作为全新的「多模态内容创作引擎」,以「搜学写创」为核心能力,实现了多种场景的「AI 生产闭环」。其技术创新与应用包括,构建 CoE 专家协同技术架构提升多语言和多模态搜索能力、引入多模型协作与慢思考模式大幅拓展了 AI 搜索的功能和应用深度。
比如多模型协作模式,可以让不同大模型接力回答用户问题,引入一个大模型对另一个大模型的回答进行判断,再引入另外的大模型进行总结处理。模型接力的方式新颖有趣,纳米搜索利用了多家大模型公司的综合能力,用属于 AI 原生产品的构筑方式,真正提升了用户获得答案的质量。
在搜索领域深耕多年,360 已经搭建起涵盖千亿网页与专属知识库的庞大索引库,拥有强有力的数据护城河,同时 360 自建了万卡 GPU 算力集群,结合 100 多座数据中心、10 万多台服务器,构筑了坚固的算力护城河。
凭借着「360 安全卫士」以及「360 系浏览器」在国内的用户基础和强大的产品更新能力,纳米搜索有机会为更广大的用户带来全新的智能搜索体验。

支付宝旗下 AI 生活管家「支小宝」作为服务型的 AI 原生应用,开创性地以对话式交互重塑了用户与服务的连接。
「支小宝」以 AI 为核心,通过连接支付宝丰富的生态系统,为用户提供了涵盖点餐打车、订票挂号及查询附近吃喝玩乐等一站式便捷服务。其场景感知系统能够根据用户的生活习惯及特定时间、空间智能推荐专属服务,真正做到「越用越懂你」。
目前,「支小宝」已累计服务 1.5 亿用户,并延展至出行、政务等领域,推出多个专业智能体,如乌镇峰会智能体「桐小乌」、黄山景区文旅智能体「黄小松」等,通过与智能体的连接,「支小宝」为用户创造便捷的生活服务体验。
「支小宝」背后是蚂蚁百灵大模型的强大技术,其在对话式 AI 交互中的应用,不仅突破了传统图形用户界面的限制,更率先在行业内实现了生成式 AI 能力的生活化落地。在日常生活中,「支小宝」能感知用户场景,记住通勤、饮食、娱乐等习惯,在不同时间节点提供定制化的智能服务。早上提醒带伞、地铁站调出乘车码、午餐时间推荐餐厅,甚至规划周末出游攻略——「支小宝」以独特的「AI 陪伴」模式,在点滴之间渗透到用户生活中,成为高效贴心的数字管家。
作为 AI 原生产品的典范,「支小宝」不仅展示了支付宝对 AI 场景化应用的深刻理解,也成为行业探索「拼应用」的最佳实践。以支小宝为起点,蚂蚁集团的 AI First 战略正引领 AI 服务生态走向未来,为用户带来更加丰富、多元的智能化体验。

 

成立于 2023 年的 AI 应用开发框架 Dify,一直是一个对开发者颇有帮助的开发平台。其在 2024 年更新功能后,在开发者中受到了更多的关注和好评。
灵活构建、可靠调试新兴的 AI 应用,对于传统应用开发者来说是一个全新的挑战。为了解决这一问题,Dify 集成了数百种大语言模型,为 AI 应用开发者提供了许多开箱即用的工具,让对大语言模型不够熟悉的开发者,也能经过简单的调试,设计出属于自己的 AI 工具。
2024 年,Dify 更新的 AI agent、AI workflow 功能,设计出了流程化的方式,补齐目前 AI 应用开发开发的短板。开发者不必再依赖特定大模型提供的有限工具开发 AI 应用,而是可以通过拖拽、点选等简单的操作,在 AI 不同的工作节点中利用不同模型能力优势,以及多种外部工具来实现丰富的能力,制造出可复制、迁移的应用。
方便的导入、导出功能,让 Dify 在开发者中广受欢迎,开发者可以在彼此 Dify 的工作流基础上,进一步构建自己的应用。AI 开发者社群中,甚至出现了专门围绕 Dify 设置的 AI 开发课程、AI 开发比赛和 AI 应用社区。
Dify,作为一个开源、中立的工具,让开发者避免了重复造轮子,提升了开发者的生产效率,也在某种程度上,让今年的 AI 应用开发生态更加繁荣。

硅基流动是国内 AI 基础设施方向的创业公司,团队专注为生成式 AI 开发者和企业打造高效能 AI 基础设施平台,通过算法、系统和硬件的协同创新,跨数量级降低大模型开发门槛与应用成本,加速 AGI 进程。
团队推出的大模型云服务平台 SiliconCloud,提供极速响应、价格亲民、品类齐全、体验丝滑的模型服务,可让生成式 AI 开发者与企业能够零门槛开发和使用模型,实现应用需求方和开发者能力的快速对接。
SiliconCloud 不仅上线了数十款全球最新、最强大的开源模型,还通过自研推理引擎套件(SiliconLLM & OneDiff)大大降低大模型推理成本,用技术让开发者实现 Token 自由。
公司自研的 SiliconLLM 大模型推理引擎,通过内核、框架、机制和模型协同优化,使得推理效率达到业内 SOTA,响应速度较同类开源产品最快达 10 倍以上,同时在 MoE(混合专家)架构、超长上下文、超低延迟等要求严苛、需求复杂的推理场景达到业界领先的产品能力。
SiliconCloud 公测上线一个月便获得了爆发式增长,平台用户日均调用数百亿 Token,受到众多 AI 开发者和企业客户的青睐。
硅基流动,用 AI Infra 技术降低了 AI 算力的成本,为生成式 AI 开发者与企业在「生产力」层面提供快速助力,实现 AI 的快速普及。

硅基智能是一家专注于数字人领域的科技创业公司,在 AI 时代,团队利用自研的炎帝大模型让数字人快速落地各种商业场景。
2024 年底,硅基智能推出全球首个具备感知能力的多模态大模型 DUIX ONE,实现了 AI 数字人「看得见、听得见、会思考、高情商、有具身形象」的全感知能力。当 AI 数字人通过观察到用户表情和动作,能更好地捕捉用户情绪波动,给用户带来更真实和更具深度的连接。
基于 DUIX ONE 多模态⼤模型技术的核⼼成果,硅基智能创始人成为全球首位将自己硅基化的 CEO,同时硅基智能也面向用户推出了个人数字分身服务,可实现「语⾳识别、情感理解、智能互动、能看会听多模态能⼒」的⾼度融合,为⽤户提供数字化⼈格的构建。某种意义上,该服务展示了「数字永生」的可能性。
通过大模型 + 数字人技术,硅基智能已将数字人产品在十多个行业、数十个商业化场景成功落地,加速了数字人业务的进化和市场开拓。

作为一款基于讯飞星火4.0 Turbo 技术的创新 AI 智能文档工具,讯飞智文彻底改变了传统 PPT 制作的方式,将办公效率提升到全新的高度。
多种生成方式任你选择;大模型联网搜索,内容丰富、结构清晰、时效为先;AI 文生图输入想法即可生成高清图片,解决配图难题、避免版权问题;在线编辑模组自由定制,操作灵活,一站式的创作流程迅速提升工作效率。
讯飞智文作为大模型时代下的数字生产力工具,不仅实现了技术创新,更紧贴用户需求,在职场、教育、商务等多个场景中都能提供实际的帮助,成为个人和团队提升工作效率与创作质量的好帮手。

有赞新零售是有赞旗下智能化消费者运营解决方案,致力于通过全域客户精细化运营,帮助品牌零售商深挖客户全生命周期价值,提升老客户复购率。
在存量经济时代,全域经营成为吸引消费者的关键。有赞新零售推出了一体化产品组合,打造「连接-触达-转化-忠诚」消费者旅程可复制的运营方法论,全维度整合消费者数据形成精准客户画像,开展自动化精准营销和会员增值营销,帮助商家提升复购率、客单价和客户转化率,实现全生命周期、全场景、全链路业绩提升。
另外,借助企业微信助手和导购助手等数字化工具,商家能够高效沉淀私域流量,并实现高效转化,推动新零售模式下的业务增长与品牌价值提升。
2024 年,在 AI 的加持下,有赞新零售把导购产品升级为「智能导购」,通过帮助导购发现精准商机,指导导购营销和维护客户,帮助每位导购每个月多做 2500 元业绩,获得利润增量。凭借其全域经营与智能化运营的独特优势,有赞新零售不仅推动了商家的成功转型,也为新零售模式的未来发展奠定基础。

在 2024 年,纵苇科技以其在智能制造领域的创新自研和卓越的市场表现,成功引领了生产力的新浪潮。
纵苇科技的成绩,首先体现在其产品的创新性上。智能磁驱系统作为纵苇科技的核心产品,底层算法由纵苇科技全自研开发,是国内柔性制造领域的先锋产品。公司不仅实现了产品的国产化,更在技术上实现了对欧美同类产品的超越。
纵苇科技的市场表现同样令人瞩目。在成立后短短三年内,实现了客户数量从 0 到 100+家的飞跃。公司产品已成熟应用于新能源电池、3C 电子、汽车零部件、消费品和医疗等多个行业领域的头部客户,积累了丰富的标杆客户交付案例和全球化的产品交付经验。2024 年,纵苇科技订单规模实现一倍以上增长,客户数量增长 3-4 倍,更为重要的是,纵苇科技切实地帮助客户实现了显著的降本增效。
公司通过磁驱输送技术的创新应用,全流程数控实现数据留存,以及将一次性设计的生产线变成模块化复用,可以将设备生产节拍提升 2-10 倍以上,精度达到 5 微米级别,同时为客户节省大量运营维护成本。
今年,纵苇科技在香港、新加坡、韩国、越南、泰国、德国等地先后开设研发生产及服务中心,以期实现业务增长并进一步扩大全球影响力。
纵苇科技以其在工业自动化领域的创新突破、快速的商业化进程以及对客户降本增效的显著贡献,不仅在技术上实现了国产化,更在全球市场上展现了中国智造的力量,其卓越的表现无疑是对「数字生产力」的最佳诠释。

 

一车多用,随时变形,汽车圈一个近乎科幻的难题,被长安启源 E07 破解了。这辆能在 SUV 和皮卡两种车型之间随意「流动」的产品,给爱车的人带来了极大惊喜。
作为一款颇具科幻感的新能源 SUV,通过可移动的后挡风玻璃、可下翻挡板设计,让长安启源 E07 可以在几秒钟内从一台城市 SUV,变形成一台真正能作为生产力的的皮卡车。
为了达到「变形金刚」的效果,长安团队需要重构车身结构和比例,精细地设计两段式开启的后挡风玻璃以及下翻式尾门,在确保皮卡形态可用的情况下,仍要保证车辆在造型、耐用和安全性上不妥协。同时,顶配版 440KW 的双电机、空气悬挂+CDC 智能魔毯悬挂的组合,也让车辆在动力、操控和驾乘享受上得到极大提升。「可城可野」、「可享受可拉货」,不再是空谈。
设计和结构上的巧思、更重要的,团队在打造一辆用户需要但甚至不太敢想的产品上的义无反顾,是长安启源 E07 获得 2024 年度汽车产品的资格和底气。

越野,已经成为中国新能源车的新战场。长城的坦克系列,是中国越野车型的先行者。
2024年长城推出了坦克 500 Hi4-Z,通过动力、布局和结构件上的创新,让新能源越野车的标准再次升级。
为让带「大梁」的硬派越野车能覆盖全部工况,长城 Hi4-Z 通过采用功率分流+三挡前驱模块的高集成创新设计,双电机分布式布置,解决发动机功率分流难题。在结构方面,Hi4-Z 的研发团队成功研发出全球集成度最高的泛越野变速箱及动力电池系统。在硬件布置上, Hi4-Z 搭载前后桥机械差速锁,物理加持实现前后轴各自的绝对同转,拉高泛越野的脱困能力上限。
动力方面,坦克 500 Hi4-Z 搭载 2.0T 发动机和前后大功率驱动电机,三擎联动,可实现百公里加速 4.6 秒;纯电续航里程 WLTC 201 公里,完美做到「一周只充一次电,一次就能开一周」,综合续航近 1100 公里;得益于功率分流 3 挡的前驱模块,发动机可以做到全速域的高效直驱。
搭配高水准的智能座舱系统,以及精心打造的内饰,坦克 500 Hi4-Z 坐实了覆盖越野和城市的「泛越野新能源 SUV」概念,通过技术满足了用户对于旷野的想象,和对舒适、节能与安全的保证。

A0 级纯电小车市场的产品,一直是廉价、凑合的代名词。吉利星愿以优秀的动力配置、充足的内外空间以及高水准的车机,将 A0 级汽车市场标准提高到令人吃惊的程度。
作为一款定价 8 万元左右、长度 4 米 1 的纯电小车,吉利星愿并没有因为车型定位而进行减配,反而通过巧思在空间、设计和智能等方方面面,让产品成为媲美 A 级轿车、但同时又能在城市通勤的利器。
4 米 4 以下的小型车,往往因为尺寸问题导致产品在空间、动力和配置上差强人意。为了创造足够的驾乘空间,吉利团队将电驱和电机后置,对车辆底盘进行重构,改动小到空调和滤芯的位置也不放过,最终让星愿拥有了媲美 A 级轿车的内部空间、70L 的前备箱和 375L 的后备箱。搭配银河 Flyme Auto 智能座舱、85KW 电机以及后独立悬架,让吉利星愿无论在智能交互还是驾驶操控上,都达到了令人意外的水平。
不将就,真正从用户角度和行业痛点解决出发,通过重构底盘和车身结构,打造出超出人们期望的 A0 级纯电小车,这是吉利星愿获得 2024 年度汽车产品的根本原因。

进入 2024 年,中国品牌在豪华 SUV 和 MPV 市场站稳脚跟,但轿车尚未突破。浑身黑科技的腾势 Z9GT,是中国品牌冲击豪华轿车市场的又一次尝试。
腾势成立于 2010 年,定位高端电动汽车制造商,最开始股东为比亚迪和戴姆勒(各持 50%),目前已成为比亚迪全资子公司。Z9GT 是腾势「Z」系列的首款车型,采用轿跑 GT 的设计风格,定位为「D 级智能豪华旗舰 GT」,并全球首搭比亚迪自研的「易三方」整车智能控制技术平台。
多年的持续研发,使比亚迪积累了丰富的技术储备,腾势 Z9GT 首搭的「易三方」技术平台便是最新成果之一。易三方全球首创三电机独立驱动与后轮双电机独立转向。其中,三电机独立驱动系统提供最大功率接近 1000 匹马力,使腾势 Z9GT 能够以 3 秒级完成百公里加速。同时,后双电机的扭矩主动控制能力与后轮双电机独立转向系统相结合,通过融合控制可以实现如圆规掉头、低附路面增稳系统和智能蟹行等多项智能功能。不仅如此,腾势 Z9GT 的最小转弯半径仅为 4.62 米,尽管车身长度近 5.2 米,但其转向灵活性甚至超过了小型 A0 级车。
腾势 Z9GT 的发布,不仅在产品创新层面具有突破性意义,更为中国车企的品牌向上跃迁提供了重要启示。这一车型的成功值得获得年度汽车产品的认可与赞誉。

小鹏 MONA M03 是 2024 年上市的一款新车。在 10-15 万元价格区间,它首次搭载了多项越级的智能化功能,重新定义了 A 级智能轿车的标准。同时,上市后首月交付即破万,成为本年度竞争激烈的智能电动车市场中,通过技术下放带动市场销量的典型代表。
小鹏 MONA M03 用多指飞屏、四音区独立语音控制等功能,取代了传统的车内交互形式,带来更加便捷和智能的座舱体验。在智能驾驶层面,标准版即搭载同级唯一的全场景智能泊车系统,让停车变得轻松高效;顶配版更是支持不限城市、不限路线的 XNGP 高阶智能辅助驾驶,首次将 L2+级别高阶智驾下放至 A 级车型。
早在 2022 年,小鹏就和阿里云在自动驾驶算力上合作,将自动驾驶模型训练效率提升 600 倍。2024 年,小鹏全面拥抱基于 AI 的端到端智驾开发范式,发布了全新一代「AI 鹰眼视觉方案」,用视觉感知模块实现了和激光雷达同等的体验,实现技术降本。同时,自研芯片「小鹏图灵」成功流片,也为下一步在智驾安全、车端大模型等提供了更强的计算储备。
这一年,中国新能源车市场渗透率来到 50%,智能化竞争将成为未来 10 年的角力重点。小鹏 MONA M03 是其中一个通过技术降本,从而将智能化下放并获得市场认可的成功创新案例。

DJI Neo 是大疆在空拍机领域为解决纯小白新手「畏难情绪」和「选择困难」两大难题而推出的性价比之作。作为一款性能强劲的掌上无人机,DJI Neo 引发了行业的广泛关注。
DJI Neo 仅重 135g,主打零门槛掌上起降,无需遥控器也可轻松完成拍摄;其搭载了 AI 智能算法,能跟随取景框中的对象,带来智能跟拍玩法。同时,DJI Neo 支持多种操控方式,既可以无遥控飞行拍摄,也可像普通航拍机一样搭配遥控器使用;也可搭配穿越摇杆、飞行眼镜,感受第一视角飞行体验的魅力。
DJI Neo 的定价显著低于同级别专业无人机,延续了大疆在硬件成本控制上的行业优势。这让更多用户能轻松享受到无人机技术给生活带来的乐趣。
目前,手持小型无人机领域的两大挑战,在于复杂环境下的飞控稳定性以及价格如何打动更多用户。DJI Neo 对这两个痛点提供了清晰的答案。
DJI Neo 体现了大疆深耕无人机技术的同时对用户需求的深刻洞察,同时也延续了其通过技术创新助力创作自由的愿景。在无人机的技术蓝海,通过 DJI Neo,我们看到了 Vlog 拍摄的更多可能。

在折叠屏技术日趋成熟的背景下,「如何做好一部让人眼前一亮的手机」却成为了新时代的难题,而华为 Mate XT 非凡大师无疑是中国手机品牌在 2024 年最有代表性的回答。
通过在大屏态下对易用性的深度打磨,同时提升折叠状态下的便捷体验,使得华为 Mate XT 非凡大师的整体体验更加全面。
得益于这种设计思路,华为 Mate XT 非凡大师采用了业内领先的铰链技术,使屏幕观感自然且耐用。无论在展开或折叠状态下,用户都可以无缝切换使用各种应用,打破了移动终端的使用边界,为日常生活和办公场景提供了全新的操作体验。
借助华为 Mate XT 非凡大师的多任务处理能力,让用户可以同时运行多个应用,高效处理各种信息需求。此外,华为还充分利用折叠屏的特性,提供了更符合用户直觉的交互体验。
2024 年,折叠屏手机已然成为未来智能设备发展的重要趋势。华为 Mate XT 非凡大师在保持硬件创新的基础上,成功将移动设备形态推向了一个新的高度,为未来多样化的智能设备形态铺平了道路。

界环 AI 音频眼镜是一款将眼镜、耳机、AI 大模型等结合在一起的全新形态的智能音频硬件。
不同于其他同品类 AI 硬件的探索,界环 AI 音频眼镜把「先好做一副眼镜」作为了最重要的产品优先级。团队重点对产品在轻量化、长续航、时尚感等多个方面进行了打磨,佩戴体验感、产品售价均接近传统眼镜。
得益于上述设计原则,产品的日均佩戴时长超过 7.2 小时,媲美智能手机的使用时间,加上独特的佩戴位置,让眼镜可以通过音频形式进行更智能的交互,为 AI 大模型接入硬件提供了先决条件和应用场景。
界环推出的 AI 通知播报功能,通过调取手机中相关应用数据,通过大模型进行筛选、总结、归纳,让海量通知既可以做到「长短短说、废话少说」,又能依托音频形式高效、实时传递,在过往基于视觉的交互上,开拓了新的以语音互动为主的 VUI 全新交互范式。
同时,界环不仅可以做到线上配镜开箱即用的服务,也在线下进驻 48 城 262 家门店,为这款智能硬件提供了堪比传统眼镜的配镜服务,大幅降低了购买门槛。
2024 年,「AI+眼镜」成为新形态 AI 硬件探索中的一个共识方向。界环 AI 音频眼镜在做好用户服务的基础上,将 AI 大模型的能力成功接入可穿戴设备,并为未来提供了更多可能。

2024 年, AI 手机迅速成为硬件主流赛道,OPPO Find X8 Pro 是其中最引人瞩目的产品之一。
在 Find X8 系列上,OPPO 用自己的产品哲学,向行业公布了「打造一台好用的 AI 手机」的配方:支持端侧 AI 能力的硬件 + 收纳完善 AI 能力的系统生态。
作为 AI 能力的基座,ColorOS 15 为各种 AI 提供了协同的智能调度能力,确保 AI 功能高效流畅运行;同时根据用户使用习惯自我学习,自动提供诸如 AI 一键问屏、 AI 千里长焦等个性化的操作体验。
更重要的是,Find X8 Pro 通过 ColorOS 15 与硬件深度协同,实现了优秀的软硬一体化 AI 体验。比如基于 AI 的智慧屏幕显示与隐私保护功能,不仅实用且贴合用户使用习惯。
Find X8 Pro 之所以在市场中独树一帜,不仅因为其完善的 AI 能力,更因为 OPPO 在产品打磨与用户体验上的坚持,充分展现了对智能手机未来发展的深刻洞察,是一款真正「超越用户期待」的 AI 手机。

以「骨气双单元」为底层技术,韶音 OpenRun Pro 2 引领了运动耳机的新风潮。作为 2024 年运动音频设备领域的突出产品,韶音 OpenRun Pro 2 体现了运动耳机设计与技术创新的结合。
这不仅是一款耳机,更是一种倡导运动与健康生活方式的科技实践。OpenRun Pro 2 的亮点在于对开放式声学技术的深度优化。它采用韶音自研的 DualPitch 骨气双单元技术,通过数字分频技术发声,采用骨传导单元发出中高频声音,定向声场低音单元发出气传导低频声音,突破了传统运动耳机音质的局限,为用户带来更加清晰、饱满且富有层次感的听感体验。延续开放式设计的安全优势,用户在跑步、骑行时依然能感知周围环境,从容应对复杂场景。
为了满足运动人群的需求,耳机采用了符合人体工学的设计,极致轻量化及贴合性让长时间佩戴几乎无负担。在产品研发中,「音质细节」「运动体验」成为了 OpenRun Pro 2 的两大关键词。开发团队捕捉到用户的核心需求,如更优质音效、更长续航,并快速通过用户反馈改进产品细节。
尤其在续航方面,OpenRun Pro 2 支持长达 12 小时的持续播放,结合快充功能,进一步解决了高频使用者的电量焦虑。此外,OpenRun Pro 2 支持 IP55 级防护,不论是日常通勤还是专业训练,它都能成为可靠的运动伙伴,在极限运动环境下也表现出色。
作为 2024 运动耳机领域的重要新品,OpenRun Pro 2 重新定义了运动耳机的边界:它不仅满足了用户对音质和佩戴体验的极致追求,还进一步探索了科技助力生活方式转变的可能性,成为运动科技产品领域的标杆之作。

进入 2024 年,智能驾驶的竞争焦点已从拼算力、拼算法转向全场景落地,地平线是首个推出软硬一体智驾方案的公司。
Horizon SuperDrive(简称 HSD)是地平线面向下一代全场景高阶智驾系统打造的产品。依托端到端的世界模型、数据驱动的交互博弈以及专为下一代高阶智驾而生的征程 6,HSD 不止拥有高度拟人的优雅从容姿态、超强通行效率,更能提供全国一致的极致智驾体验,让用户享受体验无断点、模式无切换、全场景无差别的安全美好出行。
这背后主要得益于地平线原生的软硬结合优势,以及特有的「铁人三项」(技术+工程+产品)系统能力。早在 2016 年,地平线便提出了自动驾驶端到端演进理念,并持续取得技术创新与突破:2022 年推出感知端到端算法 Sparse4D;2023 年地平线学者提出 UniAD 端到端大模型,并荣获 CVPR 2023 最佳论文奖。SuperDrive 依托地平线软硬结合的技术优势,以及强大的系统工程能力,帮助车企实现更高效的高阶智驾规模化量产。
地平线 SuperDrive 方案,通过软硬件的技术突破,实现了高效的全栈计算,为智驾的规模化落地提供了高度适配的解决方案,值得年度技术突破奖项的认可与赞赏。

2024 年 9 月 11 日,蓝箭航天在酒泉卫星发射中心成功完成了朱雀三号 VTVL-1 试验箭的 10 公里级垂直起降返回飞行试验。这是国内首次实现火箭发动机空中二次起动、跨音速大动压环境下「栅格舵-冷气姿控-发动机」联合制导控制,以及高空风实时风修技术验证,使得中国商业航天在可重复使用运载火箭技术上取得了重大突破。
蓝箭航天空间科技股份有限公司(蓝箭航天)是一家 2015 年成立的航天运输系统创建及运营企业,致力于构建以中大型液氧甲烷运载火箭为中心的「研发、制造、试验、发射」全产业链条,打造航天领域的科技综合体,为全球市场提供高性价比、高可靠性的航天运输服务。
朱雀三号 VTVL-1 试验箭搭载天鹊-12A 液氧甲烷发动机,具备强大的起飞推力和多次点火能力。此次飞行中,火箭在历经发动机关机、无动力滑行后,成功空中二次起动,通过在线制导控制算法,调节发动机推力和飞行状态,实现了精准软着陆。
此次试验验证了四项可重复使用火箭核心技术:火箭发动机二次起动、「栅格舵-冷气姿控-发动机」联合制导控制、不锈钢箭体结构的复用性能及射前实时风修正技术。这是中国民营火箭公司在可回收火箭领域的突破性进展。

群核科技是一家专注于 3D 软件和空间数据的公司,旗下有 3D 云设计平台酷家乐、群核空间智能平台等多款产品。
群核科技构建了一套基于 GPU 高性能计算的物理世界模拟器,并已运用在室内空间场景下的实时渲染、工业生产制造,以及虚拟物理世界训练等场景中。
基于其沉淀的空间认知能力和物理正确的数据,群核科技实现了多项技术突破。
其自主研发的百亿级参数模型—多模态 CAD 大模型,能够实现物理正确的 3D 结构化数据的识别和生成,对物理世界产生的或存在的设计数据进行翻译、兼容和数据流转。相比语言大模型对空间描述的模糊与不确定性,CAD 大模型能够实现对空间更准确和结构化的表述,这是 AI 在物理世界产生价值的基础。
在数据层面,群核科技推出了面向空间智能技术训练需求的技术产品:群核空间智能平台。该平台拥有全球最大的室内场景认知深度学习数据集,能为 AIGC、具身智能、AR/VR 等企业开放物理正确的 3D 空间数据资产,以及空间认知解决方案。团队还携手英特尔、慕尼黑工业大学推出全球首个高视觉与物理逼真度环境数据合成与训练仿真平台 SPEAR SIM。
在「空间智能」渐热的当下,群核利用在 3D 数据方面的技术积累,正在加速「AI 进入物理世界」的进程。

自 Qwen 系列模型开源以来,不论在模型性能还是生态影响力,都创造了中国开源大模型的历史。截至 2024 年 9 月底,全球开源社区基于 Qwen 系列二次开发的衍生模型数量突破 7.43 万,超越 Llama 系列衍生模型的 7.28 万。这表明 Qwen 系列开源模型成为最受开发者欢迎的模型群,在实际生产环境中得到了广泛应用与部署。
受开发者欢迎背后,Qwen 系列开源模型在训练数据、架构等多方面技术上实现了突破。
在预训练方面,Qwen2.5 使用了超过 18T tokens 的大规模文本数据进行预训练,数据类型多覆盖领域广,并且使用了精细的指令微调以及在线强化学习等后训练方法,更好地提升能力和对齐人类偏好。
得益于技术不断迭代,最新系列 Qwen-2.5 在编码和数学方面的知识显著增加,能力也大大提高。其模型能够丝滑响应多样化的系统提示,实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据(如表格)、生成结构化输出(尤其是 JSON)等方面,Qwen2.5 都进步明显。同时,在长上下文最多支持 128K tokens,最多可生成 8K tokens。
坚持技术创新,自 2023 年 8 月开源以来,Qwen 系列模型在全球开源社区生态中已形成重要影响力。

作为 3D 打印药物领域的代表企业,三迭纪以其独创的熔融挤出沉积(Melt Extrusion Deposition, MED®)3D 打印药物工艺,在技术创新和行业应用中的卓越表现,成为制药行业底层技术变革的重要推动者。
三迭纪立足于专有的 3D 打印药物技术,实现药品的数字化开发与连续化生产,改变药物的递送、开发和生产方式。凭借创新的 MED®3D 打印药物工艺,三迭纪获得 TCT Awards 最佳医疗应用奖,是首个荣获该奖项的中国企业。
在技术创新以外,三迭纪与全球药企合作兑现了巨大的商业价值。2024 年 7 月,三迭纪与免疫治疗公司 BioNTech 达成了超过 12 亿美元的研究合作与平台技术许可协议,通过 3D 打印技术开发口服 RNA 药物。
通过持续的技术创新和产品开发,三迭纪在全球 3D 打印药物领域产品数量、专利数量和产能方面名列前茅,奠定了行业标杆地位。

无界方舟致力于多模态大模型技术创新与应用,并依托此技术推出了全球首款基础智能体 Arki One。
利用跨模态融合与推理技术,Arki One 实现了超低延迟的音视频互动(400 毫秒),支持随时通过语音打断,具备完善的情绪系统,支持 21 种多语言互动。团队还创新性地引入了神经辐射场 Nerf 技术,能够在音频的驱动下高效地渲染出逼真的人物动画,并实现百毫秒级的虚拟数字人动作驱动。
Arki One 独创终身记忆系统,通过结构化知识图谱和参数化记忆模型,可在复杂环境中不断学习和积累知识,从而实现对每位用户的个性化 AI 定制。Arki One 还能通过用户的交互、规划、行动和反馈进行反思,逐渐构建起对用户及世界的深入认知。此外,凭借团队自主研发的 Action Q 技术,Arki One 能够通过自我监督的强化学习,在多变的环境中迅速掌握新技能,显著提升了 AI 的推理和执行能力。无论是在虚拟世界还是物理世界的任务中,Arki One 都能将 AI 转化为真正的生产力。对于高度复杂的任务,Arki One 能够创建一群虚拟的 AI 智能体专家组成「AI 团队」,通过智能体之间的协作来解决难题。
通过技术的不断进步,无界方舟的 Arki One 为用户带来了高度智能化和个性化的体验,极大地拓展了个人与企业用户的智能体验领域。

ReelShort 是枫叶互动(Crazy Maple Studio)2022 年面向海外推出的短剧平台,也是首家将国内一分钟短剧落地北美市场并验证市场需求的平台。ReelShort 有着其独特的内容生产策略和竞争优势:成立之初就选择在北美市场从零开始搭建产业链,并积极推行内容本地化生产;同时,Crazy Maple Studio 的产品矩阵——Chapters、Kiss 以及 ReelShort,分别覆盖网游、网文、短剧,从产业链侧为 ReelShort 的商业化打下了坚实的基础。
ReelShort 的爆款方法论聚焦于通过本土化内容生产和精准投流,实现对欧美市场的深度覆盖。首先,在内容制作方面,ReelShort 优先推出符合欧美本土文化的自制短剧,以强大的产能应对市场需求;同时,ReelShort 通过与国内版权方合作获取剧本,结合欧美市场的价值观,借助美国本土编剧的改编能力,精准地重塑故事,提升本土化亲和力。
通过大量生产海外自制剧,ReelShort 有效应对了内容供给瓶颈,形成了明显的差异化优势。与竞争对手相比,ReelShort 更具效率与速度,能够快速满足用户多样化的内容需求。
到今年 9 月,ReelShort 已实现全球双端内购收入约 1.42 亿美元,是 2023 年全年收入(2888 万美元)的 4.92 倍,增长势头强劲。

小冰公司是 AI 数字人领域最全面的技术公司之一,在相关的数字人、语音、大模型三大技术栈均有全面、领先的技术覆盖。其中,数字人技术覆盖从「1:1 复刻的超高精度定制」到「最低门槛、无需训练的 0 样本驱动」;语音技术覆盖「可实现完美声音复刻的精品 TTS」、「3 分钟高效复刻的小样本 TTS」,以及「无需训练、十秒可完成声音克隆的 TTS 大模型」。此外,小冰还有自研的千亿、百亿级大模型和独创的情感交互大模型,可满足不同场景的人机交互部署。
除了技术栈,小冰针对不同的使用场景,开发了一系列针对 B 端市场的 AI 数字员工产品。包括功能性、可用性居市场第一的数字员工平台 & App;数字人直播平台;支持用户自主构建 agent 的大模型平台;针对政企场景的数字人名片、数字人交互大屏等。
在过去「小样本」数字人产品的基础上,今年小冰在数字人领域实现了进一步的技术突破,推出首个「零样本」数字人产品。拍摄 40 秒素材,等待 10 分钟可以看到数字人成品。「零样本」数字人低门槛的特性,帮助广大的中国小微企业主可以低成本开展经营活动,应用包括导购、分销、客服、咨询、培训等场景,比传统「硬件+演员」节省约 90% 的投入。
今年以来,小冰在数字人领域的业务拓展快速增长。目前小冰框架已孵化出数以千万计的 AI 数字人,To B 注册企业用户数超过 10 万。

小红书的社区和电商正在以令人惊叹的默契和速度逐渐融合在一起。
月活用户已达 3 亿的小红书平台,以其独有的去中心化流量分发机制,和以笔记为中心的独特社区文化,让人与人之间真实的交流、分享,正在重塑用户与商家、用户与用户之间的关系,革新用户的消费体验与商家的商业模式。
不论社区还是电商,小红书奉行以「人」为核心的理念,让用户的真实需求在社区自由生长。平台基于用户需求,建立起以买手和主理人为特色的电商角色,也在不断打通社区与电商之间的通路,让海内外一批又一批品牌商家在小红书上开始经营,令小红书电商从传统电商的「多、快、好、省」模式中突破出来,向「个性化」生长。同时促进了平台商品的多样化供给,为消费者提供更多选择,也为个体创业者和小品牌创造新的机会。
此外,小红书的外溢价值还在不断增加:过去两年间,露营、户外、Citywalk、钓鱼等曾经的小众生活化内容在小红书线上线下掀起一波波热潮;数据显示,截至 2023 年底,近 70% 的月活用户使用搜索,「搜索」正在成为小红书的一个新标签;小红书的用户基础以及社区笔记的共创效果,正在成为国内个人开发者做产品宣发与导流的天然场域。
总而言之,小红书的成功,在于其深刻理解并满足用户的个性化需求,使个体的声音借助平台的力量得以共鸣,实现个性需求的商业规模化,从而在中国互联网商业中建立了独特的影响力。

过去两年,中国播客内容迎来大爆发,小宇宙 App 作为最大的中文播客产品起了关键推动作用。据官方数据,2023 年小宇宙新增了 32610 个播客节目、30 多万个单集,是增长最快的内容平台之一。
2020 年推出时,当时市面上没有专门的中文播客 App,小宇宙弥补了中文播客产品的空白。
在产品设计上,小宇宙做了多项开创性的尝试,包括极简主页、播客评论区、点赞进度条、评论区时间戳等等,给播客听众带来了更好的收听体验、推动了播客在国内的用户渗透。此外,小宇宙的推荐机制、播客广场功能等,也给了很多新播客被看到的机会,保持了良好的创作者生态。
今年,借助 AI,小宇宙又推出了「问问小宇宙」播客 AI 检索服务。用户可以在搜索框输入自己感兴趣的关键词,页面会弹出相关播客,也会生成相应的 AI 回答。
通过不断改进产品体验和内容生态运营,小宇宙吸引了越来越多人听播客,而这又吸引了越来越多人做播客,从而形成正循环。这背后,源于团队对播客本身的热爱、专注,这让他们更早看到了播客被低估的价值:陪伴感、真实感、信任感,依据自己对这件事的正确理解、以及产品的一步步改进,陪伴和推动了中国播客产业的繁荣。
在小宇宙上,人们通过音频见到更大的世界、获得认知的提升和情感的陪伴,人们也通过音频自我表达、打造个人 IP、获得自己的影响力。商业之外,小宇宙创造了更广的价值。

作为全球第一大云厂商,亚马逊云科技在大模型时代主动引领云的变革,积极布局 AI 算力层、中间层和应用层,延展了云计算的价值厚度。2024 年,亚马逊云科技凭借强大的技术创新能力、全面的服务生态以及稳定可靠的基础设施,助力客户在生成式 AI 时代,完成从提供软件工具,到直接交付生产力的跃迁。
在算力层面,亚马逊云科技通过自研芯片如 Trainium 和 Inferentia,为客户提供了更高效、更经济的训练和推理计算资源。
在应用层,Amazon Q 通过提供智能化和定制化的解决方案,帮助企业在数据分析、客户服务和运营优化等方面实现了显著的提升。
在中间层,亚马逊云科技延展了 PaaS 能力,推出了 Amazon Bedrock 服务。其通过标准化的流程和工具,帮助企业快速定制模型、构建和部署生成式 AI 应用。Amazon Bedrock 通过集成多种 AI 模型和工具,简化了 AI 应用的开发流程,使企业能够更专注于业务创新,而无需过多担心底层技术的复杂性,通过 Amazon Bedrock 标准化的服务就可以定制化模型、定制化 AI 应用。
具体来说,Amazon Bedrock 为客户提供来自 6 个领先模型供应商的最受欢迎的 24 个基础模型,同时提供微调、知识库、代理、模型评估等各种丰富的功能,满足客户在不同场景下的不同需求。
Amazon Bedrock 通过提供强大的模型支持、易用的开发环境和灵活的基础设施,极大地降低了生成式 AI 应用的开发难度和成本,帮助企业更快地实现 AI 驱动的创新。

成为独立开发者的 8 年,Baye 的探索体现了:独立开发不仅是一种商业模式,更是一种生活方式。多年来,他不断打磨自己在产品设计、产品开发、增长运营的全栈能力和全面视角,并利用不断变化的技术做出多款高完成度的产品,这体现在「熊猫吃短信」、「OpenCat」等多款产品中。在这个过程中,独立开发者 Baye 也实现了个人自由与秩序之间的平衡。
以「OpenCat」为例,它是一个 All-in-One 的大模型助手客户端,用户可以一站式地选择接入不同模型,生成图片、与 AI 进行多模态对话、使用 AI 键盘写作助手等。
在 Baye 看来,「OpenCat」是常见的做工具客户端的逻辑,最关键的是「快」,第一时间实现产品,再围绕用户体验打磨。他在 OpenAI API 推出的第二天,就做出了 OpenCat 的产品原型并在苹果应用商店通过审核上架。同时,他在第一时间构思好产品功能实现地图,在社交平台公开建立(Build in Public),比如让用户投票最想要哪一个功能,这种用户驱动的产品迭代思路也让「OpenCat」的产品高效迭代。当前,OpenCat 已累计有数十万用户,其中有不少比例的付费用户。
今年,随着大模型工具领域的产品生态发生变化,Baye 推出了新产品——Miley AI,并快速迭代产品。作为一款私人秘书的定位,Miley AI 集齐了「独立开发者三件套」赛道,利用大模型把 To Do、记账、笔记的需求于一体,让 AI 离用户更近、成为更懂用户的个人秘书,帮用户安排日程、记账、了解健康状况等。
不断尝试、快速验证,Baye 提供了独立开发者以用户驱动产品的样本。

在感知到分段双语对照的翻译需求后,开发者 Owen 以一己之力迅速做出了「沉浸式翻译」浏览器插件。该插件一经推出即迅速增长,仅 5 个月后用户量便自然增长至 40 万。自那以来,分段双语对照的翻译模式也被广泛采纳,成为行业最佳实践。
沉浸式翻译出圈背后,体现了 Owen 作为开发者的创新精神和产品审美。
在双语翻译的既有需求下,Owen 革新了全文翻译的传统方式,以分段对照的新思路来解决网页翻译需求,为用户消除了分屏幕对照浏览的繁琐流程,大幅降低了阅读外语网页的障碍,也成为最实用的创新产品之一。
同时,沉浸式翻译完成度高、产品简洁易用,这在沉浸式翻译团队的后续产品迭代中得以延续。今年,该团队顺着用户反馈,不断完善边缘 case,并扩大了用户场景。其相继推出了 PDF 双语翻译、Word 双语翻译、e-Pub 双语翻译、视频双语翻译、图片翻译、漫画翻译等多项功能。在解决方案上,团队通过引入上下文识别、提取专有名字和关键词的核心步骤,进一步提高了翻译质量和对不同文本格式的兼容性。
当前,无论是对免费用户还是付费用户,沉浸式翻译作为工具,都带来了丝滑流畅的用户体验。在升级迭代中,该工具始终从用户需求出发,没有掉入加功能和加 AI 的陷阱,体现了兼具创新性和启发性的产品开发思路。

作为国内最早一批接触 AI 绘图的开发者,秋风基于 Stable Diffusion 做了一款 AI 绘图工具 MewXAI。在敏锐把握用户需求后,MewXAI 通过微调出古风、流光女孩等风格,迅速赢得用户的喜爱,最高时 MewXAI 一个月涌入 20 万新用户,小红书平台自发产生数4000多万带 MewXAI 标签的贴子。
随着 AI 绘图的竞争格局发生变化,先后涌现出不少像妙鸭、Remini 等现象级产品,秋风迅速思考自己的生态位并转型。他先后尝试了 AI 二维码、AI 艺术字、视频生成模型等服务,最终瞄向了出海赛道下,AI 视频编辑的场景。2024 年 2 月,秋风做出了 GoEnhanceAI。作为一款一站式 AI 视频编辑平台,可以将真人视频转换为动画、还有文/图生视频,视频/图像换脸等,当前已有百万的月访问量,以及可观的盈利。
辞职成为独立开发者的一年半,秋风不断获得正反馈的成绩体现了其作为超级开发者的判断力、行动力和适应力。除了懂开发,他在产品开发的过程中也体现了超级开发者的全栈能力:建立社群、运营推广、Learn in Public、Build in Public、商业化,这些让他在开发产品的过程中不断接近 PMF(产品市场匹配)。
始于兴趣驱动,在独立开发者甚至是创业者中建立自己的生态位,秋风的探索体现了超级开发者创业的敏捷与能量,不需要融资输血,以用户、场景为中心,快速适应新变化的迭代,小组织也可以有大能量。

作为独立开发者,赵纯想对「如何利用 AI 时代的红利」做产品有独特的思考和实践。他开发的「胃之书」「陌生人闹钟」等多款 App 产品,有着强烈的个人特色:通过游戏化、动漫化的情节设计,富有特色的用户界面,传递出独特的审美和品味,赢得了用户和口碑。
举例来说,胃之书 App 是一款由多模态大语言模型驱动的食物洞察和记录应用。上线 72 小时,用户注册量即突破 10000。随即成为苹果应用商店美食佳饮类畅销榜前三。
陌生人闹钟 App,每天会由随机陌生人的早安播报,并由多模态大语言模型实现语音的审核和分发,为用户提供个性化的唤醒体验。在产品设计上,选择了 1999 年 Apple MacOS 9 的设计语言风格。
在产品开发过程中,赵纯想在小红书社区 Build in Public,以用户需求驱动产品迭代,把产品收敛为有特定情绪价值的边界。
对于一个人连续不断地开发 App 这件事,他认为:自己开发的产品是手工制品,不是互联网行业。他不去做既有的衣食住行刚需场景,而是追求特定场景下的情绪机制,通过产品设计、动画效果、情绪把控,提供情绪价值。在这个过程中,AI 的作用是让一个人做独立开发这件事算得过账,并「导演」出印着独特烙印的「影片」。他的实践为独立开发者在 AI 时代做产品带来了一种有价值的探索。

作为一名 15 岁的少年,张铭瀚开发的产品 Chat Nio 在今年被收购。在他看来:去掉年龄标签,他目前的开发成果并不亮眼,在产品设计、代码架构、商业化设计等多方面都有足够的优化空间。但这也是他的独树一帜:极致的兴趣驱动、超强的动手能力,成就了少年开发者张铭瀚。
2023 年初,为了让身边人可以在 QQ 里用上 ChatGPT,张铭瀚在 Github 上发现了「chatgpt-mirai-qq-bot」项目,加入项目发起人「lss233」开源共建。通过这一项目,用户可以在 QQ 里拉一个 AI 聊天机器人聊天、一对多发消息、甚至使用 RAG 定向搜索的功能等。在加入共建的过程中,张铭瀚顺着表层功能得到了一系列用户需求,比如接 API 付费、部署在云端等,这便是 Chat Nio 产品的来源。
从共建「chatgpt-mirai-qq-bot」项目中快速习得的开发经验和体感,以及衍生出来的需求,张铭瀚做了开源项目 Chat Nio。这是一个从 C 端聊天机器人到底层模型、云计算等的全栈解决方案。其支持接入各大模型,并支持对话分享、自定义预设、云端同步、弹性计费和订阅计划模式、图片解析、联网搜索、模型缓存等功能。Chat Nio 最高时月活 10 万+,4 个人的团队实现了 20 万 MRR 和 5 万元单月净利润。
超强动手能力背后,是张铭瀚对编程的兴趣与热爱。小学以来,他自学了 Turbo Pascal、C 语言、Python、VBScript 等多种主流编程语言,也在校园比赛和开源项目中不断实践,在这个过程中,开发产品始终是他最想做的事。

浏览量: 39

OpenAI 喊话马斯克:告我实现不了 AGI;《黑神话:悟空》获TGA 年度动作游戏;50% 年轻人始终保持在线|极客早知道

TGA 年度最佳游戏爆冷《黑神话:悟空》斩获最佳动作游戏奖

12 月 13 日,作为每年 TGA 的重磅压轴奖项,年度最佳游戏可谓备受关注,尤其是今年《黑神话:悟空》也在该奖项的提名名单中,无数中国观众等待见证这一历史性时刻。遗憾的是,《黑神话:悟空》未能如愿,最终《宇宙机器人》爆冷获得 TGA2024 年度游戏奖项。

结果揭晓后,《宇宙机器人》相关获奖词条迅速登顶微博热搜,引发玩家激烈讨论。许多玩家对此感到诧异和不解,认为该游戏在创意方面并不突出,销量也远不及《黑神话:悟空》,也有部分玩家认为《宇宙机器人》作为一款轻量级休闲游戏本身品质不错,但获得年度最佳游戏这一殊荣让人感到意外。

尽管未能摘得 TGA2024 年度最佳游戏奖项,《黑神话:悟空》已然在多个方面实现了突破,成为中国游戏行业的一座重要里程碑,也最终斩获最佳动作游戏奖。(消息来源:cnBeta)

百度、吉利就「极越汽车」发表联合声明

12 月 13 日,吉利和百度发表关于极越汽车的联合声明称,表示作为股东,将积极协助集度管理层妥善处理相关事宜,第一时间解决员工社保缴纳、离职员工补偿问题;维护用户车辆正常使用、售后和维修保养;推进其他事宜的合理合法解决。(消息来源:观察者网)

 

OpenAI 推出 Projects 功能

12 月 14 日凌晨,OpenAI 发布在第七天推出了一种全新的对话交互模式——Projects。

官网介绍:Projects 将聊天记录、文件和自定义指令集中在一个地方。你可以用它们进行持续性的工作,或者仅仅是让它们变得井然有序(看着干净、整洁)。

在一个 Projects 中,你可以使用 ChatGPT 的任何一项功能,例如 SearchGPT、Canvas 和编程。所有类似的工作都可以放到一起来集中处理,包括上传的文件、过去的对话、自定义的指令等等。

Projects 功能即日起将向 Plus、Pro 和 Teams 用户开放。类似的功能在 Claude 中之前就有推出。(消息来源:量子位)

 

OpenAI 再喊话马斯克:你无法靠诉讼实现 AGI

12 月 14 日消息,埃隆・马斯克与 OpenAI 之间的诉讼正在不断升温。OpenAI 当地时间 13 日发布了一篇公开为自己辩护的博客文章,并曝光了一些新的短信记录,涉及创始人伊利亚・苏茨克弗、格雷格・布罗克曼、萨姆・阿尔特曼、埃隆・马斯克以及前董事会成员希沃恩・兹利斯之间的对话。

OpenAI 博客中写道:「你无法通过诉讼实现 AGI。我们非常敬佩埃隆的成就,也感激他为 OpenAI 作出的早期贡献,但他应该在市场上进行竞争,而不是诉诸法庭。美国必须继续保持 AI 领域的全球领导地位。我们的使命是确保 AGI 造福全人类,我们一直坚持这一使命,也将继续做下去。我们希望埃隆认同这一目标,并支持创新和自由市场竞争的价值观,正是这些价值观推动了他个人的成功。」

马斯克今年 3 月曾指控 OpenAI 偏离了其最初的非营利使命,未能为公共利益发展 AI。马斯克又于 6 月撤回了该诉讼,未做解释,并于 8 月重新提起。

博客提到,马斯克 2017-2018 年就曾经试图让公司变成营利星架构,并进入 CEO 职位,并控制大部分股权,尽管他在一次电话中表示自己「并不在乎股权」,而是「积累 800 亿美元去火星上建立一个城市」。马斯克还曾提议将 OpenAI 并入特斯拉,否则「注定会失败」。(消息来源:IT 之家)

比特币的暴涨太诱人,养老基金也下场了

尽管比特币因波动性大而令全球大型基金管理公司避而远之,但随着其价格不断创下历史新高,澳大利亚养老金和财富管理公司 AMP 已成为该国首批投资加密货币产品的大型退休金管理公司之一,向比特币期货投入了约 2700 万澳元(1720 万美元)。

AMP 高级投资组合经理史蒂夫·弗莱格(Steve Flegg)本周在 LinkedIn 上发布的一篇帖子中表示,该基金今年早些时候「冒险并适度配置了比特币」。AMP 的一位发言人表示,该基金投资的是比特币期货,并补充说没有增持的计划。(消息来源:新浪财经)

 

微软 Windows 搜索将迎巨变!拆分为本地搜索和基于 Bing 的网络搜索

12 月 13 日消息,据报道,目前微软已经开始在欧盟地区的 Windows Insider 频道,测试新版 Windows 搜索功能。

新功能拆分为本地搜索和基于 Bing 的网络搜索两部分,旨在解决用户长期以来对 Windows 搜索功能的不满,特别是与 Bing 整合后带来的糟糕体验。

在新的搜索界面中,用户将默认进行本地存储的搜索,而如果需要查找网络结果,可以点击「Web Search from Microsoft Bing」标签进行切换。切换至 Bing 网络搜索后,搜索栏将显示「Microsoft Bing Web Search:」,用户可以在此输入查询关键词。这一改进相较于现有版本,用户体验将得到显著提升,避免了本地和 Bing 结果混杂的问题。

微软在 Windows 11 24H2 的 Release Preview 频道、Windows 11 23H2 的 Beta 频道以及 Windows Canary 频道中测试这一功能。

不过该功能目前仅限于欧盟地区,但用户可以通过更改地区设置或使用第三方开源工具来启用。(消息来源:快科技)

 

Google 的 NotebookLM AI 播客主持人现在也可以和你交谈了

Google 的 NotebookLM 及其类似播客的音频概览今年意外成为热门。用户可以上传材料,AI 会自动生成对话式的音频内容。

今天谷歌公司开始推出一项重大新功能:能够真正与概览的 AI「主持人」交谈。

具体操作为「:创建一个新的音频概览。点击新的互动模式(BETA)按钮。在收听时,点击「加入」。主持人会叫到您。提出问题。主持人将根据您的资料提供个性化的回答。回答后,他们将恢复原始音频概述。

可以进行互动式交互,对理解材料内容可能有很大助益。

Google 同时还宣布了 NotebookLM 订阅服务:NotebookLM Plus。这项订阅将为您提供「每本笔记本音频概述、笔记本和来源数量增加五倍」,让您「自定义笔记本回复的风格和语气」,让您创建共享团队笔记本,并将提供「额外的隐私和安全保障」,谷歌表示。这项订阅今天起对商业、学校及大学、组织和企业客户提供。它将在「2025 年初」加入 Google One AI Premium。(消息来源:The Verge)

苹果海外在线商店上新:三合一充电器、iPhone 磁吸移动电源、Vision Pro 便携包

12 月 14 日消息,苹果海外在线商店推出多款全新配件,涵盖充电器、移动电源和 Vision Pro 便携包等,商品均显示为苹果独家产品,仅在其官方渠道销售。

苹果中国在线商店暂未发现这些新品配件,不排除未来在中国在线商店上架的可能。(消息来源:IT 之家)

日产预告纯电动 GT-R R32 跑车,有望搭载双电机系统

12 月 14 日消息,日产汽车也加入了以电动化「复活」旗下经典老车的车企行列,当地时间 12 日,日产汽车公布了纯电动 GT-R R32 跑车的预告图,其将于 2025 年 1 月 10 日至 12 日的东京车展上首次亮相。

纯电动 GT-R R32 项目由一群志愿工程师共同打造,但它的引擎舱里不再是传统的 RB26DETT 涡轮增压发动机,而是换成了全电动驱动系统。新车的外观仍然保留了大部分 R32 的经典元素,不过雾灯被移除,刹车卡钳则变成了橙色。

动力方面,外媒 motor1 报道称新车有望搭载双电机四驱系统。作为对照,日产自家同样主打性能的 Ariya Nismo 车型提供 430 马力和 443 磅・英尺(约 600N・m)的扭矩,远高于 R32 原始燃油发动机的 276 马力和 271 磅・英尺(约 368N・m)。(消息来源:IT 之家)

近半美国青少年始终在线

根据皮尤研究中心的调查,近半美国青少年始终在线。调查是在 2024 年 9 月 18 日至 10 月 10 日之间进行的,有 1391 名 13-17 岁青少年接受了调查。结果显示:YouTube 是最受青少年欢迎的平台,九成被调查者会观看 YouTube 视频,略低于 2022 年的 95%,73% 的青少年表示每天都会访问 YouTube。常用的流行应用使用率相比 2022 年略有下降,TikTok 从 67% 降至 63%,Snapchat 从 59% 降至 55%,X 从 23% 降至 17%,Reddit 维持 14%,WhatsApp 上升 6% 至 23%,Meta 在 2023 年推出的 Threads 使用率 6%,Facebook 则是 32%。(消息来源:皮尤研究中心)

 

 

浏览量: 31

面壁智能获新一轮数亿元融资,继续聚焦端侧AI

12月10日,极客公园获悉,面壁智能完成新一轮数亿元融资,未来将继续聚焦端侧AI的发展。

面壁智能成立于2022年,脱胎于清华 NLP 实验室,是国内最早一批研究大模型技术的公司。

面壁智能宣布本轮融资金额为数亿元融资,由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投,北京市人工智能产业投资基金与清科创投跟投,万甲资本担任本轮独家财务顾问。

其上一轮融资宣布于2024年4月,金额也为数亿元融资。

与大部分大模型公司不同,面壁智能从2024年起,主要研发方向为端侧模型。

面壁智能表示,根据其实验结果,大模型时代存在新的摩尔定律:模型知识密度不断提升,平均每 8 个月提升一倍。即相同的模型能力表现,每过 8 个月,实现这样的能力的模型参数可以小一倍。

因此面壁智能将其主要精力聚焦于端侧模型。极客公园之前报道,其端侧模型面壁小钢炮 MiniCPM,模型参数仅仅 4B,但是宣称性能超过 ChatGPT-3.5 Turbo,且拥有函数调用(function calling)和 RAG(检索增强生成技术)能力。此外,面壁还将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧。

此次随着融资,面壁也公布了其端侧模型的商业化进展,和CEO内部信,表示将继续聚焦于端侧AI的方向。

端侧AI商业化进展

随着融资,面壁智能宣布了今年端侧AI商业化的进展。

目前的端侧模型,更多地被用AI Phone、AIPC、智能座舱、智能家居与具身机器人等消费电子设备的内置助手上,

面壁智能合作伙伴包括华为、联发科技、联想、英特尔、长城汽车、易来科技等企业。

面壁智能也与华为云、百度智能云达成战略合作,布局端云协同的未来范式。面壁智能希望以更高知识密度的端侧模型,更高的算力与内存利用率,更高效的模型算法和硬件调度,三项合力,突破算力层和模型层结合的关键障碍。

除此之外,在垂直行业面壁智能也有一些突破。在垂直行业模型中,通常垂直领域只需要一定的基础智能能力,而更多需要的是行业数据和行业本身的知识。由于面壁智能提供的模型参数量较小,部署和推理成本都更低,也很适合垂直行业的使用。

在法律、教育等垂直领域方面,得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累,面壁团队将大模型技术深度赋能行业场景。

今年7月,面壁智能助力深圳中院,发布全国首个司法审判垂直领域大模型, 应用范围已覆盖所有常见民商事案件。

11月,面壁智能作为联合研发团队,在最高法共同发布定位为国家级法律人工智能基础设施的「法信法律基座大模型」—— 通过为中国法治领域提供生成式人工智能底层能力,在数字时代提高司法效能,充分挖掘、发挥司法大数据资源价值助力审判工作现代化,更好满足社会各界和人民群众多元司法需求。

CEO内部信

随着融资,面壁智能CEO李大海,发表内部信。全文如下:

面壁智能的同学们,大家好!

很高兴和大家分享,面壁智能完成了新一轮数亿元融资,这轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投,北京市人工智能产业投资基金与清科创投跟投。

随着这轮融资敲定,我们已站在一个全新的台阶上:将进一步提速以端侧AI为代表的高效大模型商业化布局,以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业,为用户创造具体可感知的价值。

过去一年,以成绩说话,我们的小钢炮端侧模型,在全球一炮而红,站稳脚跟。我们基于高效大模型和端侧AI的商业化布局和业务推进,多点开花,进展迅速。

依靠小规模的精益创业团队,我们把MiniCPM推向了端侧ChatGPT、GPT-4V时刻;携手华为、联发科技、联想、英特尔、长城汽车、梧桐科技、易来科技等标杆合作伙伴,成为AIPC、AIPhone、智能座舱、具身机器人等行业创新发展中不可或缺的角色;并且深度参与国家级人工智能基础设施「法信法律基座大模型」的构建。

今天,在中国大模型「6+2」格局里,我们成为极具辨识度和竞争力的代表。在全球范围,面壁也是端侧智能的标杆,上榜《财富》全球人工智能创新50强!

这是小钢炮精神的胜利!我们值得骄傲!

同样的时间,更前瞻的判断;同样的资源,更具爆发力的创造;同样的机遇,一杆子捅到底解决行业与客户痛点的决心。

把高效发挥到极致,创造超预期成果,底气来自我们对大模型本质规律的深刻认知,基于高效为第一性原理的研发、产品与组织基因!

走先人一步的路,打以少胜多的仗,这就是响当当的小钢炮精神!

回顾过去一年,我们做对了几件事:

  1. 超前认知,以更小的样本,预判技术和产品方向。

2024年下半年,行业突然形成新共识,更高知识密度的小模型和端侧智能,成为大模型发展的新阶段。如今,因为端侧智能发展的深刻影响,主流消费电子和新兴硬件正演变成一个个在不同场景、执行特定任务的超级智能体,成为新一轮科技创业大风口。

面壁智能提前半年多,在世界范围内前瞻性发现端侧智能内蕴的巨大研究空间和应用潜力。在这个瞬息万变、竞争激烈、又充满想象力的市场里,大举发力端侧模型,打造享誉全球的面壁「小钢炮」MiniCPM,我们成功构建起了基本盘。

  1. 技术筑基,以先进技术为基,务实服务垂直行业,快速复用和价值放大。

有一个行业的高质量数据,就能快速赋能一个行业打造基座大模型。面壁发挥在文本基座模型的技术渊源和专业数据的深厚沉淀,今年 7 月,面壁智能、人民法院出版社、深圳迪博共同助力深圳中院,正式启用全国首个司法审判垂直领域大模型, 应用范围已覆盖所有常见民商事案件,行政案件。11 月,面壁智能作为联合研发团队参与的法信法律基座大模型在最高法发布,法信法律基座大模型定位为国家级法律人工智能基础设施。未来,全国数以千计的法院、检察院、司法系统单位,都将能成为我们有所贡献的地方。

  1. 以小博大,提出大模型的面壁定律、密度定律,通过大模型科学化越级超越同类产品。

自今年2月份面壁「小钢炮」MiniCPM端侧模型系列面世以来,累计下载突破300万,频频登顶全球著名开源社区GitHub、HuggingFace的大模型趋势榜单。MiniCPM不仅在多项基准测试中接连越级领先,还将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧,创造多项纪录。

面壁小钢炮以小博大、高效低成本特性,背后是我们坚持大模型科学化,以更本质的模型知识密度(知识密度 = 模型能力 / 参与计算的模型参数)指导技术研发和模型迭代。我们不断创新性提出大模型面壁定律、密度定律等引领性的大模型科学方法论,立志将更高性能的端侧智能技术带入千家万户、千行百业。

所有的领先,往深处都是认知的领先;任何商业竞争,归根结底都是效率的比拼。

高效,不仅是我们企业运营的核心;在商业环境中,也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。

感谢面壁智能的全体同仁,我们正在创造一场极致高效的大模型研发与商业奇迹!

坚韧、顽强,能量十足,面壁小钢炮已经开始震动全球。小钢炮精神,正带领我们走向AGI的最终胜利!

 

 

图片:ChatGPT生成

浏览量: 60

iPhone17 相机大改,变横向一条;百度吉利转账为极越员工交社保;谷歌推出全新 Android XR 系统

苹果 iPhone 17 背面有望改用条形横置模组

12 月 13 日消息,消息源「薛定谔的英短咕咕咕」在微博发布一张号称是「供应链上新 iPhone 的框」照片,并称该机「中间那个地方放超广角,让空间给前置结构光」。

该图片与博主 @ 数码闲聊站 透露的苹果 iPhone 17 系列背面改用条形横置摄像模组相符,不过目前镜头排列细节仍未知。

值得一提的是,就在 11 月下旬,The Information 就放出消息称,苹果 iPhone 17 Pro 和 iPhone 17 Pro Max 将迎来「重大设计变更」。(来源:IT 之家)

 

英伟达在华员工将增至 4000,大力推进自动驾驶技术研究

英伟达今年在中国大幅增强了其研究团队,特别是在自动驾驶技术领域,通过增加数百名新员工来实现这一目标。据知情人士透露,到今年年底,英伟达在中国的员工总数预计将从 2024 年初的约 3,000 人增加至约 4,000 人,其中北京地区新增约 200 名员工以强化自动驾驶研究。此外,公司还扩大了售后服务和网络软件开发团队,体现了其在华的全面扩张战略。

英伟达在中国的员工总数已接近 600 人,并在中关村科技中心新设办事处,进一步巩固其在中国的研究和市场地位。作为全球市值第二大的半导体公司,英伟达在全球范围内扩大员工规模,以满足对人工智能芯片的高需求。尽管无法在中国销售其最先进半导体,但英伟达在中国的季度销售额仍高达 54 亿美元,凸显了中国作为其重要市场和研究中心的角色。(来源:金融界)

 

OpenAI 让 ChatGPT「耳聪目明」:语音视觉双剑合璧,AI 交互体验再升级

12 月 13 日消息,「OpenAI 12 天」活动已进入第六天,OpenAI 公司宣布为 ChatGPT 的高级语音模式带来视频输入和屏幕共享功能,并为迎接圣诞节,限时推出全新的圣诞老人模式。

OpenAI 公司表示未来几天时间内,会向大多数 ChatGPT Plus 和 Pro 用户以及所有 Team 用户,推出视频和屏幕共享。该聊天机器人的企业和教育用户将在 1 月份获得视频和屏幕共享功能。

ChatGPT 的高级语音模式现在可以通过智能手机摄像头支持视频聊天,并通过屏幕共享来识别设备屏幕显示的物体。(来源:IT 之家)

特朗普第二次当选《时代》周刊年度人物

《时代》周刊将 2024 年度人物颁给了即将再次入主白宫的唐纳德·特朗普,以表彰他令人惊叹的政治复出以及他经历暗杀企图和重罪定罪的历史性一年。

该杂志写道:「由于特朗普实现了历史性的回归,推动了百年不遇的政治重塑,他被评为《时代》2024 年度人物。」

这一结果也印证了普遍的预期。自 2000 年布什以来,该杂志在每届总统大选中都将这一荣誉授予获胜者。特朗普在 2016 年首次赢得美国大选时也被评为该杂志的年度人物。(来源:环球市场播报)

ChatGPT 全球宕机,苹果 iOS18.2 Siri 集成功能受牵连

12 月 12 日消息,不少网友在社交平台反映,ChatGPT 服务出现了问题,无法正常使用。昨天晚上还能正常使用的服务,在一夜之间变得不可访问。

一些尝试使用 Siri 查询 ChatGPT 的用户也遇到了同样的问题,表明可能是服务器端的问题导致了这次故障。

随后,OpenAI 证实 ChatGPT 正经历全球范围的宕机,ChatGPT、Sora 及 API 受到影响。

下午,OpenAI 更新事故报告称,API、ChatGPT 和 Sora 服务现已全面恢复运行。此次故障持续约 4 小时 10 分钟。OpenAI 表示,将对此次故障进行全面的根本原因分析,并进行调查。(来源:TechWeb)

 

百度和吉利内部已开始转账流程,为极越员工缴纳 11 月社保

12 月 12 日晚间,极越员工代表、极越 CEO 夏一平,以及吉利和百度两大股东召开闭门会。界面新闻获悉,经多轮沟通,百度和吉利内部正在走转账流程,为员工缴纳拖欠的 11 月社保。

截至目前,夏一平还在上海办公室;吉利和百度股东方成立应急小组远程参与。员工关注的 12 月工资和社保、N+1 离职赔偿等问题,还在协商中。(来源:界面新闻)

 

小红书今年利润有望突破 10 亿美元

据外媒报道,知情人士透露称,预计小红书在 2024 年的利润将超过 10 亿美元。据此前报道,2023 年,该公司净利润为 5 亿美元。小红书方面未对此信息做出回应。(来源:36 氪)

谷歌再战增强现实:推出全新操作系统 Android XR,三星头显首发搭载

12 月 13 日消息,谷歌宣布推出全新操作系统 Android XR,「XR」代表「扩展现实」,包括虚拟现实、增强现实和混合现实等多种技术。

Android XR 可被视作苹果 visionOS 的「有力竞争对手」。谷歌计划将多款应用带入该系统中,官方表示,通过头戴显示器,用户可以随时在虚拟世界和现实世界之间自如切换,享受全新的沉浸式体验。

Android XR 的发布视频中并未透露太多细节,仅展示了头戴设备的渲染图和「概念化设计」示例。据谷歌介绍,XR 平台将支持 Gemini、Google Maps、Google 相册、翻译、Chrome、圈选即搜等应用,同时也为现有 Android 应用提供支持。(来源:IT 之家)

 

华为 MatePad Pro 13.2 2025 款首销,5099 元起

12 月 12 日 10:08,华为 MatePad Pro 13.2 英寸 2025 款平板开启首销,当前京东商城定金 100 元、尾款立减 100 元,到手价 5099 元起。

华为 MatePad Pro 13.2 英寸 2025 款平板于今年 11 月发布,该平板配备 144Hz 柔性 OLED 刘海屏幕、后置 5000 万像素摄像头,定价 5199 元起。

华为官方宣称 MatePad Pro 13.2 英寸 2025 款是「史上最强鸿蒙平板」。(来源:IT 之家)

字节在厕所张贴漫画打响「反互联网黑话」大战:不说黑话,清晰表达

12 月 12 日消息,多名网友近日发帖称,字节跳动在厕所张贴了许多反黑话的漫画,用调侃的方式鼓励大家「不说黑话,清晰表达」。

比如:

  • 把「你的车厘子在当前市场处于价格 lose 水位,建议适当调整价格策略」调整成大白话「你家车厘子卖得比别家贵,得便宜点」。

  • 「把你的试卷拿起来通晒一下,一起复盘看看怎么调整下阶段打法」调整成「把你的试卷给我和你妈看看,想想下一步咋办」。

  • 「阿姨,请增加红烧肉的浓度,同时注意菜品分发的稳定性」翻译成「阿姨,红烧肉多来点,别颠勺儿」。

  • 「统筹协调线下会议场域,保障项目信息高效拉通对齐」翻译成「这个项目的会议室都是我定的」。(来源:ZAKER 科技)

浏览量: 55

和水滴聊聊,怎么用大模型造一个接近 99% 真人水平的「Sales Agent」

「保费 52 元是什么意思?」

 

「这个价格其实是根据您的年龄,以及您过去的病史,我们测出来的保费,您今年 43 岁,算下来每个月就是 52 块钱,是这样的。」

「之前被狗咬了也没报呀?」

「嗯嗯,这个是要根据您购买的保险条款来的,不是每个都能报的,能报的我们要看政策,所以您可以看到有的病也不能报。」

……

这一段对话,看起来平平无奇——但如果告诉你这是 AI 保险客服和用户进行的语音对话,那你一定会有点惊讶。

对话里,它完全能理解用户在问什么,能给出专业的回答,情商、智商都在线,声音像真人一样,语气和停顿自然、「嗯嗯啊啊」的废字都很真实。以至于用户在对话过程中感受非常顺畅自然,不会过于生硬。就这样,他们聊了 50 分钟——如果说图灵测试(注:1950 年图灵提出的,用于测试某机器是否具备人类智能的方法)是标尺的话,那这场对话几乎可以说 AI 已通过了测试。

电话那头的 AI 保险客服,是由水滴公司开发出的一款保险 Sales Agent。在人工智能领域,Agent 并不是直译「代理人」的意思,而是代表具备自主性、适应性、交互能力、能够自主学习和持续进化的软件或系统。

这家 2016 年成立的公司,业务聚焦在健康保障领域,2017 年推出了保险经纪平台「水滴保」,累计服务超 1.1 亿保险客户。

早在 2021 年,水滴就想做这样一款 AI 保险客服,对标真人水平、能弥补保险经纪人的服务供给不足问题。在 2022 年大模型浪潮到来之后,这个设想才真正提速了——根据通用基座模型以及水滴积累的优质保险语音语料库,它在一年内做出了这个媲美真人 99% 水平的 AI Agent。

衡量一个保险 AI Agent 是否真有用的标志,是看它是否走进了业务、带来了成交。水滴公司创始人兼 CEO 沈鹏告诉极客公园,该公司「意外险」、「医疗险」等险种的部分电话客服工作已经由 AI Agent 承担。

大模型浪潮这两年来,国内外科技公司都希望能拥抱大模型、改造自身业务,而水滴是一个典型代表。相比于倾注精力攻坚通用大模型、期望实现 AGI 的公司,像水滴这样,在已有底座大模型基础上、结合垂直领域数据微调,打造垂直模型和垂直应用的路径或许更为适用。它也能将智能推到某个极限,并且创造出商业价值。

在沈鹏看来,水滴要做的是大模型的中间层和应用层,更聚焦在保险产业的各种场景,不断优化大模型来提升内容生成的质量。为了加强在中间层和应用层的科技探索,水滴每年的研发投入在 3 亿元左右。

随着技术不断迭代,水滴推出的 AI Agent 也在不断升级。下半年,水滴又推出了针对车险场景更复杂的 AI 客服——除了对话能力,它还长出了更复杂的规划能力,比如能在车险售卖的数月周期内,像人一样规划 5-6 次跟用户打电话的内容,一步步挖掘用户的真实需求,进而协助经纪人促进用户购买。

它还有复杂的多模态和操作交互能力,能在跟用户沟通的同时,一边「看」保险系统的数据,一边用「手」输入和查询数据,一边「穿梭」于微信等不同的通讯软件间,协助经纪人,解答客户的疑问。

目前,水滴计划将这些保险 AI Agent 的技术能力打包成 SaaS 产品,向其他有大规模坐席客服岗位的行业输出解决方案。

极客公园在跟水滴相关负责人交流之后,能感受到这款 AI Agent 的复杂性,也了解了这款逼近真人水平的 AI 保险客服的诞生过程、以及背后的技术积累和迭代思考。从中,不仅可以看到水滴这家科技公司在大模型上的行进经验,另外对于 AI 能实现的惊人潜力,也被隐隐勾勒了出来。

 

01

正在「充分智能化」的 AI 保险客服

 

AI 智能水平的判断尺往往是人类。现在大模型的智能评价标准,也是能否达到真人水平。而水滴,造出了接近真人 99% 水平的 AI 保险客服,后者能跟人类通话 50 分钟以上、且对话过程非常顺畅,这到底是怎么做到的?

把这个问题抛给水滴公司 AI 研发与产品部的同事 Star,在他眼里,造一个「人」实际上是可以工程化拆解的问题。以保险经纪人为例,核心是三点,智商(IQ)、情商(EQ)、多模态交互能力,而这些都可以用数据训练出来。

一方面是智商(IQ),由于保险是一个相对复杂的业务,它的核心就是要理解不同保险产品的健康告知、保障范围、理赔条款等,结合用户的问题和情况,理解其上下文语义交互,给出合理的回复和建议。在这点上,AI 甚至能做得比人类更好。

比如在记忆力上,人类无法清楚、全面记住所有的保险知识,但 AI 能用知识库实现这一点。当用户问自己做开颅手术、得了糖尿病,保险能不能保,人类可能得支支吾吾、去查询一下相关条款。但 AI 能直接给出准确的答复。

另一方面是情商(EQ),这本质是一种情绪价值,能让人觉得对方懂自己、沟通中感到「顺畅」和「亲切」。目前市面上的大模型基本是问什么回复什么,没有给到太多情绪价值。在水滴团队看起来,情绪价值是人类特有的能力。但实际上,AI 也能学、甚至能比人类做得更好。

在实际案例中,有一位用户提到自己几年没出过车险了,一般经纪人可能会回「好的」。但 AI 保险客服回了一句,「哥,你技术真好」。这说明,它不仅完全听懂了该用户有安全意识、保险记录良好,并用一种超高情商的方式进行了回应。

最后,关于多模态交互能力,包括响应时间、音色、口语化等等。这同样是可以学习的,人语气里的「嗯嗯啊啊」、一般人说话会停顿几秒……AI 都可以从人类的通话数据中学习、模仿。同时,语音的训练也从原来的 TTS(文本转语音)变成端到端,这能生成更自然的对话。

在 Star 看来,能训练出这样的 Agent,最核心在于水滴过往积累的数据。水滴从成立起就定位为一家科技公司,每年的研发投入在 3 亿元左右、累积有数十项技术专利,并且一直有意识地积累数据。过往,水滴不仅积累了数 T 的优质语音语料库,而且数据质量非常高,提前做过语音清洗、很多语音甚至是双通道存储。这样的数据很多传统公司都没有。

本质上,水滴是在把这些数据去粗取精之后,相当于「用前 10% 经纪人的水平去训练大模型」,最终使得 Agent 能够达到中等经纪人的水平。

「科技与保险业的结合将越来越紧密,这是行业发展的必然趋势」,沈鹏表示,保险业已经进入由科技驱动的「数智化」时代,科技驱动保险业高质量发展,助力行业降本增效,能够为用户、保险机构、线下经纪人提供更高效的科技产品和工具,推动行业进一步发展。

 

02

用 AI 解决保险行业的供给端不足

 

早在 2021 年,大模型出来之前,水滴就希望用 AI 造一位保险客服。本质上,这是希望解决保险业的供给端不足问题。

保险业务占据大头的水滴,拥有众多保险经纪人。他们大部分卖复杂的重疾险、兼带着卖简单的医疗险等。这些保险经纪人的工作,核心是提供专业咨询和服务能力。当用户有保险购买意向后,给他们打电话,讲解产品、解答疑惑,最终促成用户下单。

然而,过去水滴发现,有些保险经纪人的服务供给并不足够好。保险条款规则复杂、细碎,人很难都记住。比如医疗险涵盖上百种疾病,用户问到其中一种,经纪人可能答不上来,而这会影响用户体验。同时,经纪人的服务供给往往参差不齐,头部 10% 的经纪人服务水平可能是尾部 10% 的数十倍。

团队想到,可以用 AI 打造一位保险客服,协助经纪人解决服务体验的问题。而基于对大数据和深度学习路线的相信,团队认为,通过保险经纪人优质语料的不断学习、技术上能让 AI 达到真正保险经纪人的水平。

他们定的目标很高,一定要逼近真人的水平,也就是说不是 Copilot(副驾驶)、一定是 Agent——一方面在于,只有这样的技术水平,产品才能大规模铺开。另一方面,AI 研发的成本过高,只有具备这样的价值、最终才能算得过账。

回看当时水滴提出的此目标,其实非常接近 AGI 的设想。AI Agent 几乎是这轮 AGI 梦想的起点,据极客公园了解,OpenAI 创立之初的愿景就是打造一个「无所不能」的 Agent,它能响应人类的指令、自主执行所有的操作。简单来说,就是像人一样。现在,经过两年的人工智能热潮,AI agent 也是目前市面上最热的 AI 应用方向。

但水滴做出这个设想时,技术还远远没有成熟。Star 介绍,2018 年,市场上还只有 1 亿参数开源模型。2021 年,只有数亿参数的可用开源模型。当时水滴基于这种技术底座做的 AI 保险客服,跟用户的对话时长只有 1-2 分钟。本质上,在底层 AI 通用能力没有达到的时候,上层的智能很难突破、也很难算得过账。

而 2022 年底 ChatGPT 大模型的出现,让一切按下了加速键。

看到 ChatGPT 后,水滴团队几乎立刻做出一个判断:只要手里有 ChatGPT3.5 水平的开源模型底座,结合水滴过去的保险经纪人语料库,一定能训练出一个接近真人水平的 AI 保险客服。他们认为开源的时间大概在三年左右,也就是说这件事将在三年内实现。

基于这个判断,水滴团队开始全力攻 AI Agent 方向。Star 认为,大模型浪潮给团队带来的直接影响是,让 AI 变成了「真正的智能」,这让整个公司给了他们更大的信心和支持。

这种支持除了来自 AI 研发上的资金投入,还来自于对行业最优秀人才的追逐。沈鹏介绍,人才是水滴最宝贵的资产,作为一家科技公司,水滴时刻关注前沿技术,也组建了一支既懂保险又懂人工智能的研发团队,核心成员均来自北大、清华、中科院等名校。

实际上,AI 的发展速度比想象中更乐观,当全球的科技公司都在追逐大模型,GPT3.5 水平的开源模型底座比想象中释放得更快。水滴团队通过计算判断,在这样的技术栈发展下,水滴 AI Agent 的智能水平平均每个月能提升 5%左右,大概一年内就能在部分医疗险场景达到人类保险经纪人的平均水平。

从 2022 年 11 月正式投入算起,到今年年初——团队用一年多的时间,实现了这个结果。

 

03

迭代,做更复杂的 AI 车险客服

 

上述具备逼近真人水平通话能力的 AI Agent,主要用于比较简单的险种,如意外险、医疗险等。2023 年,水滴自研出保险垂直模型「水滴水守大模型」,技术的累积让团队得以深入到更复杂的险种,如车险。下半年,团队旨在打造一个车险 AI Agent,其复杂度又上了一个台阶。

车险的场景一般是,在用户的车险到期前 1 个月,各家车险公司的客服会与用户联系、并后续多次沟通,说服他们买自家的车险。车险经纪人不能只是打电话,还得进行任务规划、巧妙沟通、执行操作等,AI 有接近一半的时间在做沟通准备、总结、客户资料分析等工作。这对 AI Agent 的考验更大了。

比如任务规划,它指的是在一定的销售期内,车险客服需要规划和用户沟通的次数。既不能过于频繁、以免招惹他们厌烦,也不能过于冷淡、以免丢失销售线索。

对应到 AI Agent,实际上要求它有更高的智商(IQ)。它需要自主规划沟通几次,应该什么时候沟通,分别聊什么样的内容。「整个系统特别复杂,一次出错,就没法走了。」Star 说。

又比如巧妙沟通,由于车险的沟通频次更高、沟通空间更大,这考验经纪人更强的沟通能力。比如怎么衔接上一次的对话、怎么应对顾客的讲价、怎么在满足顾客诉求的同时保证公司利益,这本质上要求 AI 有更高的情商(EQ)。

在 Star 看来,以上对 AI Agent 更高的能力考验,需要通过迭代底层模型、加上高质量数据的微调实现。

在底层模型上,由于该 Agent 能力要求更复合,因此不是单一模型能搞定的。团队需要用到不同的模型,结合不同模态、不同大小模型各自的优势。比如大模型推理能力强,小模型拟合场景数据能力强,多模态模型能进行更多用户信息识别等。在这款车险 Agent 背后,水滴用到了多个大模型。

另外,依然要做好高质量数据的微调。当某一项能力不足的时候,就去筛选更好的人工数据进行训练,直到训练出效果为止。

在上述能力之外,该 Agent 还需要进化出操作执行能力。比如在协助经纪人与客户沟通时,Agent 可能要进入保险后台查数据、输数据、算数据等;需要切换不同的软件界面,比如电话、微信、app 等页面,跟用户沟通;也需要理解每一次用户的不同需求,为下一次聊天做准备等等。

在 Star 看来,这主要用到传统的 RPA(机器人流程自动化)技术。它相当于让 Agent 长出了人的「眼睛」和「手」,能够一边「看」不同的软件界面、一边「动手」操作。

这背后,是水滴根据不同阶段的技术形态,对产品的不断迭代。从只能简单协助沟通医疗险种 AI 保险客服,到能自主规划、能看能动手的 AI 车险客服,水滴不断解锁更复杂的保险场景,推高技术和应用的上限。

目前,这些 AI 保险客服已经被用到了水滴的真实业务当中,可以为用户随时解答疑惑。「大模型带来的是全新的生产力,它带来的是供给侧改革,这是根本的变革。」沈鹏说。

过去,人们提到保险经纪人最不可替代的价值是「信任感」。由于保险条款复杂,一般人并不具备看懂、分辨的能力,只能选择相信保险经纪人。他们倾向于跟亲朋好友、从业多年的经纪人购买保险,因为他们更有「信任感」,不会欺骗自己。

Star 认为,所谓的信任感,其实就是一种专业的服务能力。「当 AI 能协助提供更专业的服务,你也会信任它。」

有了这样的 AI Agent,人类保险经纪人的工作也发生了一些变化。他们中的有一些人,已经变成了 AI 训练师。而对于更多保险经纪人来说,他们开始将 Agent 作为自己的助手、为用户提供更复杂的保险服务,比如更长生命周期的保险规划等。

 

04

未来:从垂直走向通用

 

在大模型热潮的这两年里,国内外的科技公司都在思考怎么拥抱大模型,从而进行业务转型。水滴代表了一种比较主流的路径选择,不是投入巨大的资源攻坚通用大模型、直指 AGI。而是基于开源模型、结合垂直场景的高质量数据进行微调,打造自己的垂直模型和应用。

在跑通了 AI+保险这条新路径的「0 到 1」、「1 到 10」之后,接下来的「10 到 100」,水滴有两个方向的尝试。

首先是继续沿着垂直模型+保险场景的路径深挖。一方面,是继续提升 Agent 的能力,目标不是让它达到经纪人服务水平的「中位数」,而是要超越 60%-70% 的人。另一方面,要向更复杂的场景拓深,从现在的医疗险、车险,进入到重疾险等险种。而实现这些背后,还是依靠底层模型能力和优质数据的微调。

目前,水滴正在将 AI Agent 等系列产品,与保险行业的其他公司谈合作。或许在不久的将来,这家公司能打造所有险种逼近真人水平的 AI 保险客服。由点及面,或许有一天它能迎来保险行业的通用 AGI 时刻。

此外,水滴的目光也并没有只放在保险行业——一个很本质的问题是,具备真人保险经纪人水平的 AI Agent,能不能泛化到其他需要大规模坐席客服的行业?比如教育、电商等行业等?也就是说,垂直应用能不能逐渐走向通用?

团队判断,这是有可能的。原因在于,他们考察发现了两个事实:一、保险行业的销冠,只需要三个月就能转行去别的行业做销售。二、保险行业的销冠,也可以成为其他行业的销冠。

在人身上行得通的逻辑,在 AI Agent 也应该能行得通。目前,水滴团队正在将上述 AI Agent 服务能力打包为 SaaS 解决方案,测试在教育、电商、等行业推广的可能。在 Star 看来,虽然这套服务目前没法直接泛化到其他行业,但只要目标是确定可行的、坚持投入就能做成。

如果说过去的 SaaS 产品是按「坐席」收费,但大模型可能彻底改变 SaaS 产品的收费方式——直接按结果收费。对水滴来说,它可能直接从 AI Agent 的服务转化业绩中获益。目前,水滴已经获得了其他行业的一些意向客户。

从最初的业务需求出发,这家公司早在大模型浪潮之前,就看到了 AI 的最终愿景:一个接近真人水平的智能体,它会形成全新的供给、带来生产力的巨大变革。而赶上大模型的历史性机遇,它以坚定的相信和投入,慢慢接近了当初的目标:用 AI 造出了一位保险客服。

AI Agent 的技术输出是否会引发 AI 伦理担忧。对此沈鹏表示,科技助力行业发展的最底层支撑应该是价值观,科技没有价值观,但创业者有。要为 AI 科技赋予人性温度,才能打造出社会真正需要的产品和服务。

水滴探索出来的大模型之路,是中国科技公司的一个缩影。一边信仰、一边务实,从垂直场景慢慢走向泛化通用。而 AI 作为全新的供给、带来的这场生产力革命,也会从这家公司、这个行业开始,一直扩散到其他各行各业中去。这在不久的将来,是一定会发生的事情。

 

浏览量: 58

苹果发 iOS18.2,Siri 合体 ChatGPT;传剪映收入近百亿,获三位数增长;马斯克成全球首个 4000 亿美元身家富豪|极客早知道

谷歌发布新一代大模型 Gemini 2.0,主打 AI Agent

北京时间 12 月 11 日深夜,谷歌发布新模型 Gemini 2.0,直指 Agent 使用。

具体来说,Google 一次性发布了四个 Agent 相关的功能:

Project Astra,能够在 Gemini 应用中直接调用 Google Lens 和地图功能帮用户解决问题;

Project Mariner(海员项目),Chrome 浏览器的实验性功能,可以通过 提示词直接帮用户浏览网页做任务;

Jules,可以嵌入 GitHub 的编程 Agent,使用自然语言描述问题,就能直接生成可以合并到 GitHub 项目中的代码;

游戏 Agent,能够实时解读屏幕画面,直接在你打游戏的时候通过和你语音交流,给你 AI 打法提示。

虽然此次 Google 发布的功能仍然属于期货范畴,但是仍然十分令人兴奋。我们似乎已经可以洞见 Agent 真正到来的时代,人类生活的一角了。

该模型已提供给部分开发者内测,并计划快速集成到 Gemini 和搜索产品中。Gemini 2.0 Flash 实验版已在网页端开放,移动端即将推出。

苹果发布 iOS 18.2,整合 ChatGPT 与 Siri 功能

北京时间 12 月 11 日,苹果公司今日发布了其 iPhone、iPad 和 Mac 软件的更新(iOS 和 iPadOS 18.2),其中包括用户期待已久的 ChatGPT 与 Siri 的整合。

当用户向 Siri 提出复杂问题时,ChatGPT 整合就会被触发。例如,当 Siri 被问到一个问题,如果苹果的软件认定该问题更适合 ChatGPT 时,就会要求用户允许访问 OpenAI 的这项服务。

苹果公司表示,该功能内置了隐私保护功能,OpenAI 不会存储请求。此次整合使用了 OpenAI 的 GPT-4o 模型。

苹果用户不需要 OpenAI 帐户来使用整合的 ChatGPT,但用户可以通过苹果来支付 ChatGPT 的升级版本。此外,用户还可以通过一些文本菜单来访问 ChatGPT。

AI 功能的提升有助于推动 iPhone 销售和升级周期,巩固苹果在消费者 AI 领域的领导地位。此次整合也是 OpenAI 的一次重大胜利,因为它将其最重要的产品展示给了数百万 iPhone 用户。

除 ChatGPT 整合外,更新还包括图像生成应用 Playground,可根据提示生成图像;以及 image Wand 功能,用于从照片中删除物体或缺陷。用户可在「设置」中的「通用」选项下载更新,同时注册 Apple Intelligence 等候名单,通常当天即可访问功能。(来源:新浪科技)

字节跳动视频生成模型 PixelDance 开启内测

12 月 11 日上午消息,字节跳动推出视频生成模型 PixelDance 已在豆包电脑版正式开启内测,部分用户每日可免费生成十支视频。这引发了该模型向更广泛的用户群体开放。

PixelDance 于 2023 年 9 月底首次发布,早期通过即梦 AI 和火山引擎向创作者及企业客户小范围邀请测,其多镜头组合、运镜切换及人物运动能力广受启发。内测创作者表示,生成 10 秒视频时,3-5 次镜头切换效果最佳,场景和角色表现高度一致。通过渐进式提示词描述,模型可实现魔术效果,使用界面提示词和长镜头技巧可以提升视频复杂度度,尤其适用于剧情创作。

目前,该功能已在豆包电脑版逐步开放使用。豆包负责人表示,未来将持续优化和推广 PixelDance 的能力,帮助普通轻松用户实现创意表达。(来源:新浪科技)

小米集团公关部总经理王化:小米招聘没有年龄限制

12 月 11 日,小米集团公关部总经理王化发文并配上视频截图,图片内容为男子怒喷内地知名手机品牌在香港拒招 35 岁以上员工。王化称听说还有人在发这个视频给小米泼脏水,上个月专程问了 HR 的老大确认了三点事实:第一:视频中提到只给短期合同,我们全部是长期合同。第二:视频中提到了年龄限制,我们没有这个限制。第三:视频中的人应该是猎头,我们香港岗位没有在用猎头。(新浪科技)

剪映 CapCut 2024 年收入近百亿元,实现三位数增长

12 月 11 日上午消息,字节跳动旗下创作工具剪映和 CapCut,在 2024 年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和 CapCut 的全球月活用户,也已经超过 8 亿。

2024 年初,抖音集团前 CEO 张楠调任到剪映部门,负责剪映和 CapCut 的相关业务。张楠当时在内部信中表示,非常看好 AI 给创作工具带来的机会和前景。今年 5 月,剪映推出了 AI 创作工具即梦。随后,字节在文生图、图生视频等方向推出的新模型,大多都第一时间在即梦落地。

近期,有媒体报道称,字节豆包的人均使用时长仅为十分钟左右,字节管理层判断 AI 对话类(或称 chatbot 类)产品,可能只是 AI 产品的「中间态」。因此,计划提升即梦的产品优先级,尝试用新的路径打造 AI 时代的「抖音」。

一位字节内部人士告诉界面新闻,字节内部很多人确实很看好即梦,「长期看,即梦的价值空间可能是剪映的十倍」。(来源:界面)

爆小红书日均搜索量达 6 亿次,较去年翻倍

12 月 11 日下午消息,据媒体报道,小红书成立应用算法部,夏侯担任部门负责人。消息称,近期,小红书将商业化、社区、电商的算法部门进行了整合,新成立应用算法部,由小红书社区技术部负责人夏侯兼任,向小红书技术副总裁风笛汇报。

同时,有媒体爆出,2024 年四季度,小红书日均搜索量(qv)达到了 6 亿次附近,而就在 2023 年的年中,小红书 qv 是 3 亿次,一年多时间就翻倍,据业内人士估计,百度 qv 目前略高于 10 亿,因而可以说,小红书搜索的体量,几乎超过百度的一半。

对这两条媒体报道,小红书暂无官方回应。(来源:雷锋网,周天财经)

极越遭遇现金流困境,百度吉利合作造车计划触礁

12 月 11 日消息,据媒体报道,极越首席执行官夏一平在内部会议中表示,目前公司遭遇现金流挑战,正和股东充分沟通,想办法共渡难关;上个月员工社保暂时无法及时支付,对此表示抱歉。

作为百度和吉利控股集团联合打造的造车企业,极越是最新遭遇现金流困境的造车新势力,陷入员工欠薪、供应商欠款的一系列争议中。据报道,用户原本可以使用极越积分结算的内部超市,本周一挂牌称,因系统故障,不接受极越积分购物。另据员工透露,保洁等外包员工将于本月底完成服务,明年不再续约。有多位极越汽车的相关供应商称,极越汽车的应回款已经延期,极越付款的账面已空,已经暂停现有服务。不过在会议召开的当天下午,目前员工还处于工作状态,并不断有人来访。

极越的销量并不乐观,目前有极越 01 和极越 07 两款车型,2024 年前 11 个月,累计交付超过 1.4 万辆,月均约 1300 辆,全年销量还不及头部新势力企业的单月销量。夏一平在会议上表示,接下来进入创业 2.0 阶段,任务有四:坚持核心技术长期投入,加强销售和服务能力建设,合并重复职能部门和岗位,以及削减短期内无法提升财务表现的项目。(来源:《财经》)

 

荣耀 GT 手机「极光绿」配色外观公布:亮面「HONOR」大 LOGO,银白 GT 标识

12 月 11 日消息,荣耀 GT 手机将于 12 月 16 日 19:30 发布,官方公布了「极光绿」配色的外观图。

荣耀 GT 手机的「极光绿」配色与「幻影黑」「冰晶白」在设计上有所差异,其未沿用拼色设计,而是改为横置亮面「HONOR」大 LOGO 设计,其镜头 Deco 右下角的「GT」标识为银白色(冰晶白配色为红色、幻影黑配色为金色)。

据此前报道,荣耀 GT 手机将搭载骁龙 8 Gen3 处理器,采用 LPDDR5X 内存,16GB+1TB 版本为 UFS4.0;商城显示新机将提供 12GB+256GB、12GB+512GB、16GB+512GB、16GB+1TB 四种规格可选。(来源:IT 之家)

小鹏 MONA M03 汽车官方改色新增海湾蓝、烈焰橙配色,2990 元起

12 月 11 日消息,小鹏汽车宣布,MONA M03 汽车官方改色上新,增加海湾蓝、烈焰橙配色。

小鹏官方改色服务售价 2990 元起,支持积分兑换。该服务可选超过 50 种色彩,包含亮面、高亮、金属 / 珠光、陶瓷 / 电光四大系列。官方宣称「采用行业领先技术」,可保护原厂漆面,在剥离时也能做到无胶残留。

据 IT 之家此前报道,8 月 27 日,小鹏 MONA M03 发布并上市,售价 11.98 万元起:

  • 515km 长续航版本 11.98 万元

  • 620km 超长续航版 12.98 万元

  • 580km 超长续航 Max 版 15.58 万元

这款车长宽高分别为 4780mm*1896mm*1445mm,整体宽高比 1.31,轴距 2815mm,最小转弯半径 5.3m,号称「同级领先」。(来源:IT 之家)

 

马斯克成为全球首个身家超过 4000 亿美元的人

彭博亿万富翁指数显示,截至当地时间 12 月 11 日,全球首富、特斯拉 CEO 马斯克的净资产已达 4470 亿美元,成为全球身家超 4000 亿美元「第一人」,较居次位的杰夫·贝索斯高出 1980 亿美元,年初至今累计增加 2180 亿美元。

2022 年末马斯克的财富净值一度下降了超过 2000 亿美元,但是在特朗普上个月赢得大选后,作为他最大金主,马斯克立刻身价暴增。

近期推动马斯克财富大幅增长的主要原因是其私人控股公司 SpaceX 的一次内部股权出售,据彭博亿万富翁指数显示,这使其净资产增加了约 500 亿美元。此外,特斯拉公司股价于本周三也创下历史新高,直接推动马斯克的个人财富达到 4470 亿美元(当前约 3.24 万亿元人民币)。

马斯克单日财富增长高达 628 亿美元,也创下有史以来个人财富单日增幅的最高纪录,并助力全球最富有的 500 人总财富首次突破 10 万亿美元大关。据世界银行统计的数据显示,这一群体目前的净资产总额与去年德国、日本和澳大利亚的国内生产总值的总和相当。(来源:IT之家)

 

浏览量: 26

Google 深夜狙击 OpenAI:新 Agent 功能可以自己打开浏览器查资料了

作者 | Li Yuan

2024 年走到年底,似乎 AI 大厂们集体又决定搞点事情了。

在 OpenAI 宣布连发 12 天更新后,Google 选择 12 月 11 日深夜(在 OpenAI 发布更新之前),发布新模型 Gemini 2.0。

在多次发布被 OpenAI 精准狙击后,Google 今夜扳回一局,发布了 Gemini 2.0,直指 Agent 使用,一个 OpenAI 至今没有明确公开布局的领域——之前有消息称,OpenAI 将在明年推出使用电脑的 Agent。

Agent 功能,也称为智能体功能,通常指的是 AI 能够感知环境、执行任务并在一定程度上独立做出决策的能力,也就是能更自动化完成任务的功能。

此次 Google 似乎赌对了。OpenAI 凌晨两点的发布,主要宣布了和 Apple Intelligence 的合作,一个普遍被期待能与 Agent 能力强相关的合作。不过今夜最终的发布,主要仍然集中于文字生成和视觉智能方面,并没有 Agent 相关的内容。

而 Google,则一次性发布了四个 Agent 相关的功能:

Project Astra,能够在 Gemini 应用中直接调用 Google Lens 和地图功能帮用户解决问题;

Project Mariner(海员项目),Chrome 浏览器的实验性功能,可以通过 提示词直接帮用户浏览网页做任务;

Jules,可以嵌入 GitHub 的编程 Agent,使用自然语言描述问题,就能直接生成可以合并到 GitHub 项目中的代码;

游戏 Agent,能够实时解读屏幕画面,直接在你打游戏的时候通过和你语音交流,给你 AI 打法提示。

虽然此次 Google 发布的功能仍然属于期货范畴,但是仍然十分令人兴奋。我们似乎已经可以洞见 Agent 真正到来的时代,人类生活的一角了。

01

炸裂新 Agent 功能:自己查资料、写代码,教你玩游戏

 

Google 的新功能建立在新模型 Gemini 2.0 能力之上。

和大部分大模型选择的路线不一样,Google 最早就选择了使用原生多模态的的方式训练模型——OpenAI 到了 GPT-4o 模型才变成原生多模态的模型。

原生多模态模型,是在训练阶段,就将图像、文字、语音甚至视频等多种编码,统一输入给一个模型进行学习。

这样,模型可以在理解了一个「事物」后,更加灵活地利用进行不同模态的生成。

此次 Gemini 2.0,进一步升级了原生多模态能力。模型目前直接拥有了原生的图像生成能力、音频输出能力和原生的工具应用能力。

原生的工具应用能力就和 Agent 的能力高度相关。Google 介绍,除此之外,新体验还来自于多模态推理、长上下文理解、复杂指令遵循和规划、组合函数调用、本地工具使用和降低延迟等方向的改进。

看一下 Google 提出的新功能演示:

Project Mariner 是这个系列中,笔者看起来最惊喜的演示。

主要原因可能是因为相对于其他功能,Google 的 Chrome 浏览器是笔者每天都要使用的工具,也是对工作效率影响最高的工具。而 Google 的这项试验性功能,看起来也不需要对浏览器进行过多的额外配置——只需要用到扩展程序。

Google 很懂地选了一个生产力场景,让 Chrome 打开一个表格(演示里里用的是 Google Docs,不知道这与最终的成功识别是不是有相关性)。

表格里有几个公司的名字。演示者打开 Chrome 的这项试验功能,让 Chrome 自己记住这几个公司名字,去网上查找这些公司的邮箱。(同样的,查找使用的是 Google 搜索,不知道是不是与最后的演示成功相关。)

浏览器自己打开了网页,自己点开每个公司的官网,在找到邮箱地址后,自动记住邮箱地址,关掉网页开始查找下一个公司的邮箱地址。

全程,用户可以在右边栏输入提示词的位置,看到模型目前在如何思考,随时停止自动操作。同时模型只会在前台运行,不会在用户看不到的标签页中运行。

虽然前台运行似乎对用户的时间是一种消耗,但同时也保证了安全性。在这个案例中,也确实提升了生产效率——挨个查找邮箱确实是一件非常没有创造力的工作。

 

Jules,则让自然语言写代码似乎更近了一步。

在演示中,用户输入了一段非常详细的编程问题的提示词,包括在哪个文件中遇到什么问题,希望做怎样的修改。(Google 提到 Jules 可以直接嵌入 GitHub 中。)

Jules 对问题进行分析,给出了一个三步的编程解决方案,当用户点击同意后,模型开始自动编程,生成代码文件,这些代码可以一键被合并至用户原有的代码中。

 

游戏 Agent,则是看起来最有趣的一个演示。

Google 特意提到,Gemini 2.0 可以理解 Android 手机的屏幕分享和用户的语音,直接做到演示中的内容,不需要额外的后训练。

演示中,用户分享正在玩的手机屏,并用语音和 Agent 沟通,游戏 Agent 直接给出了接下来的最佳策略。

Google 表示目前正在和《部落冲突》、《海岛奇兵》等游戏做合作,帮助 Agent 理解游戏规则。同时 Agent 也会自己实时上网查找,来理解游戏规则给出最好的策略。

这个功能也可以说很炸裂了。对于纯策略型游戏,这个外挂可有点太厉害了——随着 AI 的进展,人脑对策略的理解恐怕没有办法和 AI 抗衡。或者说,或许只有最顶尖的大脑可以和 AI 相抗衡。

Gemini2.0 目前并没有对全部用户开放,Google 表示目前正在将 2.0 开放给开发者以及受信任的测试人员。这意味着以上的 Agent 功能,到用户真正能够使用,仍然有一段时间。不过此次演示仍然令人兴奋。

未来 Gemini 2.0 上线,Google 大概率也不会首发上述的 Agent 功能,而是将先将其融入 Gemini 和搜索功能。

Google 之前已经在探索将 AI 引入其搜索功能中。10 月,Google 曾经宣布,其搜索中的 AI 概述功能每月获得了 10 亿用户的使用。未来 Google 计划把 Gemini 2.0 的高级推理能力引入 AI 概述,以应对更复杂的话题和多步骤问题,包括高级数学方程式、多模态查询和编码。

此外,除了探索虚拟世界的智能体能力外,Google 还打算将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让 Agent 在现实世界中提供帮助。

02

Gemini Flash 常规更新

 

那么用户实际上能够马上使用的模型是什么?

答案是 Gemini 2.0 Flash。

作为 Google 大号模型蒸馏而来的小号模型,Gemini 2.0 Flash(对话优化版本)将成为 Google Gemini 中的默认使用模型。

Google 还推出了一项名为「深度研究」的新功能,该功能利用高级推理和长上下文能力作为研究助手,可以探索复杂主题并编制报告,今天在 Gemini 高级版中可用。

Gemini 2.0 Flash 的能力较上一代有明显提升,相当于上一代模型的 Pro 版本的能力。

图片

同时作为 2.0 模型家族的一员,Gemini 2.0 Flash 也支持支持图片、视频和音频等多模态输入,2.0 Flash 现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

03

Project Astra:为 Google Glasses 准备的模型,拥有无限记忆?

Google 此次还重点介绍了 Project Astra,为其推出了以下改进:

·更流畅的对话:Project Astra 现在可以在多种语言和混合语言之间进行对话,并且能够更好地理解不同口音和生僻单词。

·新工具的使用:借助 Gemini 2.0,Project Astra 可以使用 Google Search、Google Lens 和 Google Maps,从而在日常生活中更好地发挥助手作用。

·更强的记忆力:我们增强了 Project Astra 的记忆能力,同时确保你可以掌控对话。现在,它最多可以记住长达 10 分钟的会话内容,并且可以回忆起过去与它进行的更多对话,以便为您提供更好的个性化服务。 

·更低的延迟:借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。

Google Astra 是 Google 为了眼镜项目所做的前瞻项目。

从 Meta 和 Ray-ban 的合作眼镜开始,国内外的不少公司,已经又在重新探索眼镜作为新一代智能硬件的潜力。

此次 Google 重大更新之一,是记忆能力。在外网采访中,DeepMind 的 CEO Demis Hassabis 表示,在 Gemini 1.5 时代,内部测试中,已经将其上下文窗口扩展到了 1000 万个 token 以上。目前已经模型几乎可以做到无限记忆。

但是代价就是速度。记忆越长,搜索相关记忆的成本越高,速度越低。不过 Demis Hassabis 认为,接下来相当短的时间内,我们将真正拥有无限长的上下文。

而这对于 Google 真正想做的助手而言是极其重要的。Demis Hassabis 形容未来世界:「你在电脑上使用这一助手,然后你走出家门,戴上眼镜,或者使用手机,它一直都在。它能够记住会话以及你想要做什么,真正个性化。我们人类无法记住所有事情,而AIvu u会记住所有事情,来给你以灵感和新的规划。」

04

Agent 时代已来?

 

从去年开始,就陆续有人指出 Agent 是 AI 发展的未来。

不过,在过去一年中,Agent 这个词的使用相对比较沉寂,甚至有时候被偷换概念当成 AI 应用来使用。

但是在今年年末,我们终于开始看到了相对可喜的进展。

首先是 Anthropic,推出电脑使用的 Agent 模式。

国内的智谱 AI,也推出了一个手机 Agent 替用户操作微信等 App 的的演示视频。

明年的 OpenAI 与苹果合作的 Apple Intelligence,目前仍然不确定全貌。很多人期待它将让许多用户第一次在手机上体会到简单的 Agent 功能到底能如何帮助我们提升生产力。

而现在我们又看到 Google 推出的浏览器 Agent 和安卓手机上的 Agent 使用演示。

Agent 技术依然面临诸多挑战。人们会担忧误操作可能带来的安全隐患,会担心隐私,会担心一系列风险。

但同时,对于普通用户而言,Agent 才是最具「AI 感」的技术。全自动的任务完成,像魔法一般,不需要任何技术背景,直接就能提升工作效率和使用体验。

Agent 能力的提升,也为一个新的智能硬件真正进入人们生活打下了基础——只有发出语音指令,眼镜能直接自动完成部分任务的时候,许多任务才会逐渐从手机转移至新的智能硬件终端。

或许真的如 Google AI Studio 的产品负责人 Logan Kilpatrick 今天早些时候所言:未来,是 Agent 的时代。

 

浏览量: 37

为什么说,巨头 Adobe 可能输给这家 SaaS 创业公司?

2021 年,SaaS 领域达到十年来的繁荣顶峰,投融资总额约数千亿美金。IDG ToB 投资人牛奎光曾回顾这段「旧日好时光」,是泡沫中「灌」出来的创新与繁荣。

三年后的今天,这个赛道风口不再,估值普遍跌去了一大半。SaaS 公司从追求营收规模,转变为追求利润,以期靠自己努力活下来。

在宏观经济和 AI 的双重挑战下,只有 SaaS 订阅制的性感商业模式,在今天显然不行了。当我们谈论 SaaS,今天的好公司应该是什么样子?

你可能会说,有 AI、有足够的盈利和增长,最好还是一家全球化的 SaaS 公司。

按照这个标准,能挑出来的公司太少了,Canva 是最值得看的一家。

在老牌风投机构 Bessemer Venture Partners 评选的全球云软件榜单「Cloud100」中,Canva 连续四年排在第三、第四的位置,排在它前面的是 OpenAI、Stripe 和 Databricks。|数据来源:BVP;制图:极客公园

这是一家生于澳洲、发迹于硅谷、在全球 190 个国家推出产品的软件公司。在整个 SaaS 行业增长放缓的最近两年,Canva 月活跃用户数从 1 亿增长至 2.2 亿,连续两年产生净利润,ARR(年度经常性收入)也从 10 亿美金来到了 25.5 亿美金,成为逆周期增长的标杆。

但它也不是没有挑战,因为,AI 来了。

从事 SaaS 生意,都是听着「软件吞噬世界」的鼓吹长大的,也会本能地笼罩在「AI 吞噬软件」的恐惧中。对于 Canva 来说也一样,如何在新时代不被落下,甚至能更进一步借 AI 超过同一赛道的龙头 Adobe,成为头号命题。

作为最新估值 320 亿美元、最有希望 IPO 的 SaaS 公司,Canva 有自己的计划与打法。站在时代巨变的十字路口,它积极拓客、推进 AI 产品与合作,动作不断。

在 Canva 身上,你可以看到新一代 SaaS 公司的崛起路径,更可以看到在宏观经济和 AI 冲击下,它是如何快速转身的。在这些细枝末节里,下一代 SaaS 正在走来。

 

01 时代中的 Canva,瞄准大客户和 AI

今年,Canva 对外释放的最有辨识度的动作,是两笔收购——以 4.8 亿美金和 3 亿美金的价格,分别买下了专业设计套件公司 Affinity 和 AI 视觉设计公司 Leonardo.ai。可以简单理解为它买下了另一个「Photoshop」和另一个「Midjourney」。

这两笔收购放在 Canva 过往 11 年完成的 9 起收购中,交易金额远超其他。

图片来源:Canva 可画

如此大手笔背后,这直接关乎 Canva 未来的命运。站在 SaaS 行业巨变的十字路口,要想继续维持过往一贯的高增长,Canva 要做到:

1、「拍死前浪」,提高竞争力进一步能与 Adobe 等创意软件巨头比肩。

这两年,尤其在宏观经济的冲击下,Canva 正在把目标客群从 C 端的普通消费者,拓展到更多有付费能力的大型企业客户。在这个过程中,它面临与现有的成熟企业软件的竞争,潜在竞争对手包括:Adobe、Figma,甚至是协同软件巨头微软、谷歌等。

在从满足普通人的设计需求(ToC)迈向大型企业客户(ToB)的设计需求的转型过程中,收购 Affinity,可以帮助 Canva 填补其在服务 B 端企业客户上的不足、增强专业设计软件的能力,从而提高其竞争力。

2、同时,以大语言模型为核心的生成式 AI,正在颠覆现有的视觉设计生产流程。在新技术的浪潮下,Canva 如何能「不被后浪拍在沙滩上」,有能力抵挡 AI 原生的「新秀们」?这是 Canva 在新时代必须直面的又一挑战。

拿下 Leonardo.ai 正是其应对 AI 冲击的计划之一。

当然,在充满挑战的当下环境,收购只是 Canva 战略动作下的一隅,Canva 自身正在体系化地主动转型。

根据其最新给投资者的备忘录:今年 Canva 营收同比增长 44%,且连续两年产生了正现金流。

尽管如此,Canva 的增长速度正在放缓。2020 年以来,Canva 的 ARR(年度经常性收入)增长了六倍多,但去年同比增长只有 51%,今年最新披露的 ARR 增速只有 44%。

Canva 创始人兼 CEO、以战略眼光见长的珀金斯(Melanie Perkins),更早地看到了这一挑战。近来,她在多个场合阐述了 Canva 的破局计划,她表示,「Canva 在第一个十年(2013——2023)实现了简化设计、从而惠及最广泛的设计人群的目标;现在,当 Canva 迈向第二个十年,目标是为每个组织统一『碎片化的设计工具、AI和工作流的生态系统』。」

换言之,Canva 在下一个十年的两大增长计划是:迈向大客户和 AI。

 

02 当主打 To C 的应用平台,向 To B 大客户扩张

在 To B 或者说产业互联网领域,鲜少强调 MAU 这样的指标,但 Canva 创始人、CEO 珀金斯(Melanie Perkins)向其最重要的股东兼顾问、迪士尼 CEO 艾格(Bob Iger)透露,Canva 最终的目标是 10 亿 MAU。这意味着全世界每 6 个人中,就有一个人使用 Canva。

这是因为,Canva 在其历史上的前 10 年,主要面向 C 端普通消费者做产品,10 亿 MAU 也就成为 ToC 增长策略驱动下的目标之一。

Canva 创立于 2013 年,凭借简单、易用、免费的「傻瓜式」设计工具,吸引了大量 C 端普通用户。彼时,做平面设计需要花几千块买 Adobe 软件,还要在学校花整个学期学习怎么用 Adobe 工具,这种情况下,视觉设计着实是一件很有门槛的事。但 Canva 靠着海量的设计模版和免费的策略,让没有学习背景的小白用户就能直接上手做设计,创建社交媒体上各种帖子、视频中需要的各类视觉设计,比如图片、海报、PPT 等。

图片来源:Canva 官网

随着社交媒体兴起的 10 年,视觉传播(图片、视频)而不是文字传播越来越成为主流。满足 C 端普通消费者的视觉设计需求,也成为 Canva 在第一个十年里的主要增长路径。

由于产品体验好,Canva 在没有过多的市场营销动作下,仅依靠 SEO(搜索引擎优化)和用户口碑,就赢得了广泛的消费者用户。据拾象资本的一份调研,Canva 是提供免费模式的 SaaS 产品中,用户数和 ARR 最多的。据 The Information,Canva 最新的投资者备忘录显示,截止 2024 年 11 月,它有 2.2 亿 MAU,25.5 亿美金 ARR。

但瓶颈也在这里,在 Canva2.2 亿的月活跃用户中,只有大约 10%、2200 万用户为该产品付费,绝大部分仍是免费用户。如果要进一步提高营收规模,Canva 必须从 C 端普通消费者切入到 B 端企业大客户,尤其在经济下行周期,企业客户显然是更有付费能力的。

Canva 也是这么做的。2024 年 5 月,Canva 正式推出了面向大型企业客户的产品——Canva Enterprise,并在产品审批流、业务安全合规和 GTM(市场)团队这些拓展企业大客户的关键点上,做了大量努力。

其实从 ToC 迈向 ToB,这条路并不容易,既面向 C 端用户,又兼顾 B 端客户,尤其是大型企业客户,在软件交付上几乎是行不通的。企业客户做视觉设计的方式、协作的工作流、合规要求可能各不相同,软件供应商在做 To C 产品和 To B 产品的团队构成、技术实现方式也不一样。很难想象,原来做 C 端用户产品的 SaaS 公司,能一夜之间去服务大客户。

为什么 Canva 觉得自己能走这条路?

在 Canva 联合创始人 Cliff Obrecht 看来,Canva 在 ToC 路线上的成功,给了它从普通消费者(To C)切入企业大客户(To B)的底气。

有了数亿的 C 端用户基础,Canva 再去拓展企业客户时,就不是一张白纸般「贸然走进一个组织说,嘿,用 Canva 吧」,而是在 Canva 现有的使用者、使用流程上,做更好的工作流的整合,比如建立品牌工具包、建立审批工作流程,同时动员公司的领导层也加入进来,使用 Canva。

也就是说,Canva 旨在让用户「说服」自己所在公司的老板买 Canva 的软件。这与过去过去 SaaS 软件的购买决策路径,形成鲜明对比,传统软件的购买决策是由公司主导的,公司管理层决定买哪款软件给员工用。

从左至右依次为 Canva 的联合创始人 Cliff Obrecht、Cameron Adams、Melanie Perkins,三位也分别是 Canva 的现任 COO、CPO 和 CEO。|图片来源:The Australian

今年 7 月,Canva 创始人、CEO Melanie Perkins 在一档播客节目中透露,相比 2019 年在企业市场试水时的盲目——企图以协作打动企业客户,现在 Canva 再进军企业客户时,已经找到了有力的抓手——即,知识产权的控制与管理。

她表示,几乎所有企业里都有人用 Canva,「但我们希望确保的不只是有 10000 人在用 Canva,而是能有一个集中的账户管理系统。这对公司的知识产权管理至关重要;如果有人离开公司,知识产权的流失是个大问题。」特别是在这个 AI 时代,知识产权是核心资产,确保公司可以掌握并利用这些资源至关重要。

所以过去两年 Canva 在 To B 产品上投入的大量精力在于,让公司管理员能获得一个仪表板,查看他们的团队如何使用 Canva,并且将所有使用情况整合到一个账户中。这意味着公司有了更好的控制权,如果有人离职,他们也不会失去所有知识产权。

其实不止是 Canva,这两年,由 To C 切入到 ToB 的策略正在被越来越多 SaaS 公司采纳,比如靠用户口碑做大的 Notion,在 Notion2.0 产品推出之后,粉丝用户「带着」他/她们所在的企业用 Notion。

这一做法在今天有了更大的成功机率,因为 AI 的技术变革正在使得 SaaS 的产品设计可以同时兼顾 To C 和 To B 的用户需求,这给 Canva 从 To C 迈向 To B 带来了新的可能性。

就像 Cliff 所言,切入企业客户的关键是有能力「让组织决定他们的员工如何使用 Canva」,满足组织个性化的工作流。在这一点上,AI 可以做到,只是时间早晚和实现程度的问题。生成式 AI 正在帮助实现软件定制化、个性化生成的需求。

前不久,《软件吞噬世界,我们错失了什么?》一文赢得了企业服务领域的广泛讨论。在写作者、知乎前 COO 张宁看来,AI 在效率改进上的价值很可能并不会强烈的区分消费者和企业。比如生产力工具,很多产品起初的 PMF(产品市场匹配)是在专业消费者(Professional Consumers)上的,但最终赚钱是在企业客户身上——后者更有支付能力。AI 周期中 ToC 和 ToB 的边界正在越来越模糊。

按此推演,迈入企业客户的 Canva 有机会实现自己更大的目标——10 亿月活和更高的 ARR,甚至越过 Adobe 这座大山、拿下千亿美元的设计软件市场。

毕竟,「从用户(数量)的角度来看,Canva 可比 Adobe 大多了」,如果由 To C 切入 To B 的路线奏效,数亿用户将带着他们所在的企业使用 Canva,Canva 超过 Adobe 成为赛道第一不是没有盼头。

 

03『AI Canva』不会颠覆 Canva

迈向下一个增长里程碑的路上,Canva 需要攻克的另一山头是:AI 对设计软件的冲击。

第一次见到 ChatGPT 时,最被惊艳到的,可能不是像你我这样没有 AI 背景的普通人——同行的震惊最致命。做 AI 尤其是 NLP(自然语言理解)领域的创业者,曾向极客公园描述最初见到 ChatGPT 的心情时称,「过去十年、二十年,白干了」。

对于 Canva 来说,恐慌的处境也是类似的。因为它就是靠「简化设计」起家的,这让它在既有的创意软件市场如 Adobe 手中赢下了 2.2 亿月活跃用户;现在,AI 肉眼可见地更加「简化设计」,借此,一个 AI Native 的设计软件出现并颠覆 Canva,也并非不可能。

Canva 向投资者展示的 PPT 中,第 6 页是在 MacBook 上打开 Adobe Photoshop 的插图,上面用大字标题写着:「设计曾经非常复杂和困难」,暗含 Canva 改变了这一进程。但现在,AI 加速让设计更简单。|信息来源:The Information;制图:极客公园

从简化设计、让人人可用的愿景出发,Canva 也一直知道 AI 是设计的未来。2017 年,Canva 的搜索和推荐功能开始由 AI 驱动;当用户设计东西时,Canva 可以推荐一些设计中的补充元素。2021 年,Canva 收购了 AI 公司 Kaleido,其工具一键操作就可以去除图片背景。

「让我们感到惊讶的是 AI 的崛起速度,多年来它一直在演进,但是现在技术突破创造了它能力上的巨大变化」,Cliff 称。

「当这种情况(AI 加速改变设计)现在就发生时,对像我们这样的公司来说,它可能是最大的机遇,也可能是最大的威胁,我们将它视为机遇。尽可能快地采用 AI,把最聪明的员工放在这里,弄清楚并利用它,就像我们摸索所有东西一样。」

2022 年以来,Canva 把像 Stable Diffusion 这样的开源模型快速集成到 Canva 的产品中,也积极与各大模型厂商展开合作。比如在视频生成方面,Canva 集成了 Runway、D-ID、HeyGen 等产品。2023 年 11 月 6 日,Canva 也是 OpenAI 首次 Dev Day 上,少数现场展示的合作方,目前 Canva 也是 GPTs 中的头部应用。

Sam Altman 演示 GPTs 时首先使用了 Canva GPT 作为例子,展示了其为 OpenAI DevDay 活动做的海报,通过用自然语言描述想要的东西,便来开始设计。|截图来源:Youtube

随着大模型在实际场景中的落地探索,Canva 的优势也逐渐显现:通用的大模型 API 距离最终能解决实际问题,还有不小的距离,反而是有场景、有客户的应用利用 AI 重塑工作流,是眼下最好的解决方案。尤其是当涉及到实际生产环境中的设计时,AI 在可控性和一致性上仍不稳定,而 Canva 过往的积累恰好补齐 AI 短板、带来丝滑的体验。

如前所述,Canva 每月活跃用户超过 2.2 亿、客户 2200 万,从如此多的客户和用户每天在 Canva 上对 AI 功能的使用分布、搜索分布和各种反馈中,Canva 可以快速迭代 AI 工作流。

因此,Canva 并不担心被比如「AI Canva」颠覆的原因。「我们就是那个『AI Canva』」,在 Cliff 看来,很多价值来自于拥有分销渠道的公司,如果 Canva 能迅速采用、部署 AI 并成为 AI 领域的领导者、尽快将其交付给客户,它将对已经在使用 Canva 的客户最有价值,同时对 Canva 也有价值。

基于这一判断,Canva 在公司内部大力投入 AI,也在这个领域进行了大量收购。到今天,Canva 已经形成了应对 AI 变革的一套打法:

在 AI 应用上,Canva 带着用户、渠道、场景,重塑工作流。Cliff 认为,他们目前做得很好的就是面向客户的角度整合 AI、把 AI 贯穿到整个内容创作场景,「许多组织还没有真正认识到 AI 在他们组织内的力量,以及 AI 几乎可以在他们组织的每个部分带来的效率提升,这是我们非常兴奋能够进一步涉足的领域」。

在模型上,Canva 则有不同的策略。在语言模型上,它选择调用别人的,但 Canva 需要有能够了解、调度、指挥不同语言模型的能力,让其处理最合适的任务;而在 Canva 的核心阵地——视觉模型、尤其是视觉设计模型上,Canva 要掌握在自己手中,无论是收购还是自研。

Cliff 表示,Canva 不仅要成为 AI 的消费者、调用别人的语言模型,还要成为 AI 的领导者,在拥有数据优势的领域拥有自己的基础模型,在设计和视觉内容方面与其他公司有所不同。

这里所说的数据优势,也是 Canva 在 AI 时代最大的壁垒之一:模版生态。十年来,Canva 通过海量模版,将复杂的设计生态系统简化为一个易于使用的平台。

据海外独角兽此前的调研,Canva 内部也认为这无法被 AI 赶超而且差距会继续拉大。目前几乎只有 Canva 拥有最大数量的分图层数据,拥有训练一个好的模板生成模型和产品的潜力。

Canva 当前的几大设计场景:文档、白板、PPT……,界面简洁,且以设计模版和 AI 直接生成的交互形式为主,致力于人人可用。|截图来源:Canva 官网

具体到产品上,Canva 在 2023 年 10 月推出 Magic Studio(魔力工作室)加速其 AI 战略。魔力工作室是一款人人可用的一站式 AI 创作套件,它进一步简化了设计工作流,适用于 99% 没有经过专业设计培训的用户,提升初稿产出效率。主要功能如下:

  • 智能设计建议:根据用户输入的内容,提供相关的设计建议和元素。

  • 自动化工具:自动调整布局、颜色和字体,以确保设计的一致性和美观性。

  • 一键生成:用户只需输入主题或关键词,Magic Studio 可以快速生成适合的设计。

用户无需切换平台或软件,仅在 Canva 即可实现从创意文案撰写、图片生成及编辑、演示文稿排版制作等全创作流程的工作。比如,利用「魔力转换」功能,用户可轻松切换文档类型、语言和样式,一键将白板上凌乱的团队脑暴转换为要点清晰的文档。

现在,AI 已经重塑了 Canva 在图片、logo、slides、视频等各个场景的工作流,为用户带来更好的工具,在一些场景也为客户带来了直接的 AI 设计师生产力。

当下,Canva 便是新时代的「AI Canva」,作为一个可互操作的平台,它允许用户创建文档、演示文稿、社交帖子、视频、网站、印刷材料。

虽然生成式 AI 带来了从 0 到 1 的设计,但协作方面、调整和处理文档,1 到 10 的过程,使用 AI 作为助手、人作为主导操作工具,才是今天就可以落地的 AI。

在当下 AI 强烈冲击 SaaS 行业的当下,Canva 的成功经验和主动拥抱 AI 的思考,尤其值得行业参考和借鉴。

 

 

 

浏览量: 22

文章分页

上一页 1 … 56 57 58 … 86 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间