Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

只用 45 天达成 100 万美金 ARR,这家创业公司找到了 AI 落地的解法

Posted on 2025年1月17日 By admin 只用 45 天达成 100 万美金 ARR,这家创业公司找到了 AI 落地的解法无评论

45 天,3D 生成产品 Rodin 达成了 100 万美元 ARR。这是一个重要的里程碑,作为对比,GenAI 领域最成功的初创公司之一 HeyGen 达到这个数字花了 7 个月。

Rodin 来自影眸科技,刚刚完成数千万美元的 A 轮融资,投资方包括字节跳动和美团龙珠等。

四位联创,平均年龄 25 岁,但他们已经创业四年。四年前,都是同学,技术多自信,业务就多坎坷。

我们和 CEO 吴迪、CTO 张启煊坐下聊了很久,听到很多他们问自己的问题,那些问题在四年的探索中慢慢有了答案。

「我们技术这么好,客户为什么不用?」第一个问题,超典型技术小天才。

影眸已经花了四年求解这个问题。

Contents

  • 1 01
  • 2 02
  • 3 03
  • 4 04

Table of Contents

Toggle
  • 01
  • 02
  • 03
  • 04

01

3D 的表达是「割裂」的

Rodin 1.0 用 45 天迈过了 100 万美元 ARR,那已经是半年前的故事了。现在 Rodin 陆续完成几次版本迭代,升级到 1.5 版本,模型性能已经完成一次跨越。

1.5 版本最重要的特点是:能够生成直角。听上去却很「简单」,就是更准确地生成直线、直角和或者平滑曲面,以及更好的边缘锐度。

当外界对 3D 生成的期待变成动辄用几句自然语言就能变出现实世界一角,一个更准确的「直角」,价值在哪里?

使用 Rodin 创建的影视级作品

「3D 生成,生成的究竟是什么?」这是最基础,但也最关键的问题。

有人觉得是视频,或者说,大多数人对 3D 的理解,很大程度上等同于一段充满 3D 元素的视频内容。90 年代的《玩具总动员》,后来李安的数字版威尔史密斯,早年多边形的游戏,去年爆火的《黑神话:悟空》,所有人都能通过平面感受到 3D 作为一种影像呈现方式的魅力,不管是电影银幕,还是游戏电脑的屏幕。

于是,从 2D 视频出发模仿 3D,成为了一条很重要的技术路线。

Sora 在 2024 年初横空出世,demo 视频里的高一致性,引发了人们探讨它是否会直接覆盖 3D 生成的工作。但很快,Sora 迟迟不发,追随者表现一般,视频模型距离「电影级」或加入游戏管线还有很长的时间。

原因很多,比如生成式 AI 的能力仍然被高估了,就像电影概念艺术家和插画家里德·索森(Reid Southen)在早些时候的判断,「这些视频有点太草率了,有太多问题,尤其是时间一致性和额外肢体之类的伪影」。

但一个被忽视的问题在于,一段演示着 3D 形象的画面,到底是「3D」,还是更偏向「视频」?

视频作品意味着直接面对着它的消费者,但游戏和影视创作中的「3D」概念,本身是一个完整工业中的一环,比如一座虚拟建模的花果山,它需要能够在后续的创作环节中被继续使用。

「3D 生成,究竟生成的是什么?」

「与视频不同,3D 是个工业,它有下游环节。视频输出之后用户可以直接分享,手机里就可以看,但是 3D 生产好之后要想去进一步使用,需要适配渲染器,需要适配游戏引擎,如果是具身智能的话,需要适配仿真软件。这就要求我们对(模型)输出的东西,需要和一些工业标准需要去做好对应。」

「在我们的理解里,3D 是一种资产」,启煊说,「文字、图像、视频,都是消费级,直接与 C 端用户见面,但 3D 不是。」

用户使用 Rodin 批量生成的 3D 资产

文字、图像或者视频发展到现在,都已经成为消费级的内容,这意味着他们都是直接与 C 端用户见面的。这在技术层面也就意味着,三个模态的表达已经在行业里达成基本的一致。

「视频有它的主流编码,图像可能目前主流的是一个二维矩阵,每个位置上记录它颜色。文字可能就是一些字符上的编码」,启煊说,「但 3D 不是,到现在为止它的表达还是很割裂的」。

这种割裂是指,比如一个 3D 数字人的面部建模,可能会使用特定的格式来支持复杂的面部表情和身体动画,这通常需要高精度的网格和骨骼绑定技术;大逃杀游戏中的建模更注重性能和效率,对地上的一把枪通常采用低多边形风格的建模方式;而一款车在设计阶段的 3D 建模,重点在于精确的几何形状和功能性表现,需要详细地展示其内外结构、机械部件以及空气动力学特性,这种建模通常需要使用专业的 CAD 软件,并结合工程和设计的严格标准,以确保模型的准确性和实用性。

所有对 3D 数据有需求的行业,目前几乎都有着一套只对自身场景适用的标准和表征方式,它们的数据信息相互之间不可复用。

影眸科技团队一直希望将 3D 数据的表征统一起来,变成一种标准化的资产,这件事从 Rodin 1.0 开始就在做,团队提出了一种 remesh 的模型重置策略,通过把每个模型都稍微「变厚」一点点来达到表征一致,「变厚」之后对生成 3D 的美观性和它所包含的信息其实没有太大的影响,但是整个模型会看起来都圆鼓鼓的。

但在 Rodin 1.0 真正落入工业的过程中,表征的统一并不意味着生成的 3D 数据就可以顺利的作为资产被被使用了。在大量真实的产品设计或游戏工业里,对 3D 资产大量的需求并不是可爱的萌宠或者一个用云朵质地拼成的字母「A」,而是更偏向于无机形状(用数学的构成方式,由直线或曲线,或直曲线相结合形成的面)以及锐利边缘感觉的东西。

无机形状的生成能力、锐利的边缘以及非常干净的拓扑结构,这是 Rodin 1.5 在 3D 生成能力上最凸显出来的的性能提升。而这种对于 3D 生成数据在一致性和「可用」上的重视,是吴迪和启煊这几年用一个个坑踩出来的。

02

一定要 Production-Ready

几年前,一个大客户让初出茅庐的吴迪和启煊等人第一次碰壁,那就是《流浪地球 2》。

《流浪地球 2》的中有一些刘德华和吴京变年轻的镜头,后期团队希望用特效来呈现。2021 年年初,影眸团队在上海张江搭了一座直径 3 米的黑色球形框架,光源和摄像机遍布球体内部,整个装置占满了一整个房间,这是影眸科技当时用于高精度人物面部采集的第一代穹顶光场。穹顶光场做出来后,一些影视行业的团队陆续来问,其中就包括《流浪地球 2》。

穹顶光场

吴迪和启煊对自己研发出来的人脸扫描设备非常自信,但现实也非常惨淡。据吴迪回忆,「流浪地球团队的人来看了效果后,问的第一个问题:这玩意咋用?」

不能用的原因是,最初的穹顶光场其实本质上是一套纯打光的系统。一个人进入球体中心,通过 360 度的光源可以采集所有方向的光照,在这个基础上,可以在后期去合成不同的光照环境,然后再通过换脸的方法把它给换上去。,逻辑上更偏向现在说的视频生成。这使得它很难进入电影工业的 CG 管线。

「真的要用在 CG 管线上的 3D 人脸,它首先得是一个完整的 3D 模型,它有优秀的拓扑、可以反映出各种光照变化的材质、能控制并且做出各种表情,这样它才能够很好地被接入在后面去使用。」

在那之后不久,影眸科技做了一个重大的决定——砍掉了当时所有 base 2D 的技术研发投入,全面 all in 3D。生成路线从 2D 往 3D 的转向背后,是影眸科技团队内部对于「Production-Ready」的共识。

「Production-Ready」这个词来自 CG 行业。CG 行业中有一个词——后期(Post-Production),而「Production-Ready」的意思就是后期可用。

用户作品,70% 模型来自 Rodin

从第一代侧重平面数据采集的穹顶光场,在与客户不断碰撞的过程中慢慢演进到后来第二代采集 3D 人脸数据的穹顶光场,再到随着与客户的接触,技术最终达到了采集数据可以直接用于影视游戏数字角色的构建,「Production-Ready」逐渐成为影眸科技由内而外的一种理念。

「Production-Ready 不是个容易量化的指标,如果一定要说的具体一点,那就是在技术路线的设计、选择的优先级上,我们会把生成结果的可用性作为一个很重要的思考点。打个比方,如果一个技术它能带来视觉质量的提升,但是不会让 Production-Ready 的距离更近,我们就不一定会去做」,启煊说。

「Production-Ready」的观念也直接决定了影眸科技在生成式 AI 浪潮来临后,在 3D 生成上选择了一条反常识的道路。

在当时最主流的观念里,3D 生成本质上是一种从 2D 的升维,在 Stable Diffusion 出现之后,通过 2D 扩散模型,结合 NeRF 等方法实现三维重建的过程。由于可以利用大量的 2D 图像数据进行训练,这类模型往往能够生成多样化的结果。

随着多视角重建工作通过把 3D 资产的多视角 2D 图像加入 2D 扩散模型的训练数据,在一定程度上缓解了这类模型对 3D 世界的理解能力有限的问题,但局限性在于,这类方法的起点终究是 2D 图像,2D 数据终究只记录了真实世界的一个侧面,或者说投影,再多角度的图像也无法完整描述一个三维内容,因此模型学到的东西依旧存在很多信息缺失,生成结果还是需要大量修正,难以满足工业标准。

2D 升 3D 的路线,更像是在证明一个图像模型见识了足够多的图像之后能够理解 3D,但这种对 3D 的理解和工业上能够被使用的 3D 数据仍然相去甚远。从另一个角度,2D 升 3D 也反过来意味着一种对于 3D 信息的压缩——就像一个 200 条边的正多边形仍然离一个理想的圆形有差距一样。

影眸团队,在大量的数字人和 3D 扫脸工作之后,面对这条 3D 生成里看起来最有共识的技术路线,「没办法说服自己」。

「我们知道三维扫描这件事的上限在哪里。当前,它达到最完美的地步也很难直接投入到实际生产里,而拿 2D 的 Stable Diffusion 去升维到 3D 最好的情况也就是无限逼近了三维扫描的质量,凭什么这种方法可以一步到位?」吴迪说。

3D 生成要能够与人类工业对齐,只能走 3D 原生这条路,也就是抛弃从 2D 升维的想法,直接构建出 3D 模型。

计算机图形学顶会 ACM SIGGRAPH 2024 大会上,影眸科技团队的两篇论文——可控 3D 原生 DiT 生成框架 CLAY 与 3D 服装生成框架 DressCode——均入围了最佳论文提名。论文中提出了一种 3D 原生的 diffusion transformer 架构,也就是完全从 3D 数据集训练生成模型,从各种 3D 几何形状中提取丰富的 3D 先验。

这两篇论文的探索工作也引领了 3D 生成业内的技术路线变化,这之后 3D 原生开始取代 2D 升 3D,到现在已经是目前全球范围内 3D 生成主流的探索路径。

影眸团队在 SIGGRAPH 上

03

从实验室到创业公司

早在影眸创办第一年,他们就曾做出过一款明星产品。

2021 年,一款叫「WAND」的二次元角色生成产品上线,上线第二天被一个知名的日本博主看到,然后迅速在国内热闹起来,在很短时间内拿到了 160 万的用户量。

WAND 当年的 App Store 页面

流量与关注随之而来,「接不住」吴迪说。

流量并没有给吴迪和启煊带来选择成为哪种公司的机会,反而是要剥夺了这种选择的权利。

「所有人都觉得我们应该把自己做成个「WAND」公司,包括我们周围的人,还有一些想投资我们」,吴迪说。

但最终「WAND」公司没有出现。不久后,吴迪和启煊就主动停掉了「WAND」这个产品。现在外界更加熟悉的名字,是影眸科技和 Rodin。

「我们没有走那条大家认为该走的路,因为我们的技术能力和我们想做的事情,还是在 3D 上。」

完全抛开图片生成路线的决心,得到了陆奇博士的支持。

「既然做了这个决定,你们就要狠下心来,只做那个你们认为对的东西。」陆奇博士在 2021 年奇绩创坛秋季路演之后和影眸团队说。

2021 年末的奇绩创坛 2021 秋季创业营路演上,陆奇博士像「教练」一般,边回收着麦克风,边与刚完成路演的创业者激情击掌。这一期 4226 家创业公司中,最终录取了 53 个项目。1.25% 的录取率,其中就包括了影眸科技。

WAND 最终变成了让吴迪和启煊从实验室走向商业世界的敲门砖。

吴迪在之后有问过陆奇博士为什么会投自己这个团队。同年爆火的 WAND 是那个让奇绩注意到这个上科大年轻团队最初的契机,但最根本的原因在 WAND 背后,奇绩看到了一个纯研发团队能够难得在早期就具备商业化的思维。

这对一支 2021 年时平均年龄才 21 岁的创始团队来说并不容易,但产品化和商业化这两个非常企业式的思考维度,从影眸科技这个名字一开始在上科大的 MARS 实验室中酝酿成立时就有了。

吴迪在 2015 年进入上科大,启煊则是 2018 年,两人先后进入了上科大以人工智能结合计算摄影为主要研究方向的 MARS 实验室,那时的实验室里只有三位学生,也就是影眸科技最早的三位成员,第四位联创在 2020 年进入 MARS 实验室,这时候第一代的穹顶光场正在搭建,外界正是元宇宙和数字人概念势头正盛,吴迪和启煊们看到了这套数字采集设备背后的商业前景,就在实验室里决定了影眸科技的成立。

上海科技大学是一个非常非常年轻的学校,创办于 2013 年,吴迪是第二届学生,那时候上科大还不是「双一流高校」,校园只有一个宿舍楼,上课都要借其他学校的教室。

但有意思的地方在于,在上科大,无论是实验室、学生会、还是最开始的课程,一切都要从头开始搭建。吴迪很喜欢这种感觉,「念书念出了创业的味道」。

或者用启煊的话说,「(上科大头两年的情况)决定了当时学生的属性,都是他们这种胆大的,aka 创业精神。」

影眸团队在 SIGGRAPH Real-time Live! 环节展示 Rodin 3D 生成

公司成立于 2020 年 6 月,之后的整整一年多时间,吴迪和启煊都在生成内容和工业真实需求间的巨大落差之间受挫。将「Production-Ready」作为技术研发最核心的校准方向最初也是在这无数次受挫中形成的。

2021 年秋天,影眸拿到了第一笔来自奇绩创坛的融资。在奇绩创坛的路演日之后,他们又很快拿到了第二笔。

第二笔来自红杉,吴迪记得敲定红杉这笔融资的时候是 2021 年的圣诞节,那天下午他们见了好几波投资人,直到很晚。「那天刚好是我们圣诞聚会,但弄到最后我跟吴迪就只是去聚会上结了个账」,启煊说。

这条创业道路并没有从此一帆风顺。从 2022 年开始,影眸科技在接近两年时间里没有拿到融资,其中有一次融资过程消耗了吴迪大量的精力,却最终没能 close。

那次失败带来了两个结果:

第一,影眸的性格,做 AI 创业,第一天就要考虑商业化,先活下去,保证现金流;

第二,彻底坚定 3D 原生路线的选择。

「在这之前,我们做 3D 生成的想法是,招一个在 3D 生成领域有过尝试的人来帮我们一起做,但那样很可能跳不出当时技术路径的惯性」,吴迪说,「恰恰是因为那次融资失败,让整个核心研发团队下定决心,一定要做出真正可用的 3D 生成。」

几个月后,有了最初的 Rodin 1.0。

04

3D 就是那块拼图

影眸希望 Rodin 成为 WAND 一样的爆款 toC 产品吗?

这个答案很明确。

「3D 生成最终一定会走向 C 端,但不是现在。」启煊说,「现在拍一张图片或者一段视频可以很直接的分享社交平台上,但 3D 还不是一个可被分享的格式。」

或许新的硬件有机会,但肯定还需要时间。在那之前,「当你不清楚这个东西的终局在哪里,不如先做,眼前永远有很多值得攻克的问题。」吴迪确信,当前 3D 生成的机会,就在存量市场里。

影视娱乐不必多说,工业领域对 3D 生成的需求也越来越多。比如建筑设计,以往建筑效果图大多仰赖二维贴图,算力限制了可视化的选择。这种方法的局限性相当大,比如灯光永远看起来不正确,摄影机总是要在一定的高度上,动画也是大禁区。3D 原生技术可以让整个虚拟空间在任何光线情境、任何摄影机下运作,给建筑可视化带来了更多的想象力。

目前影眸已经与多个游戏、影视、制造业等行业的龙头企业展开合作,Rodin 的 SaaS 产品也积累了大量平面设计师、AR & VR 开发者、3D 打印爱好者等专业用户人群。

Rodin 用户在 X 上的评价

「我们现在的目标是存量市场,存量市场有真实的需求,它能告诉我们,大家到底需要怎么样的 3D 生成模型?」吴迪说道。

那以后呢?

一年前 Sora 石破天惊的时候,曾经一度让人怀疑行业是否还需要 3D。

启煊印象很深,「视频生成刚出来的时候,所有做传统图形学的——我们——都觉得它会被颠覆掉。」他解释说,对 3DCG 来说,视频生成意味着不再需要三维空间,直接拿到渲染结果,「这对传统 CGI 技术冲击非常大,做 3D 生成的会担心有一天 3D 不再被需要了。」

尤其,虽然 Sora 当时是「期货」,「但 OpenAI 在期货这件事上,reputation 还挺好的。」

影眸的研发团队开始频繁了解、测试视频模型。他们很快意识到,视频生成在做的只是「仿真」,是「模拟」,再「逼近」最终想要的结果。

「它是一个 frame consistency(帧间一致性)的生成器,并不是建立在 World Model 之上,它做不到 world consistency(世界一致性)。」启煊说,「这是两个 level 的概念,如果只靠视频生成,就只能停留在这里。」

「但有意思的是,3D 模型原来在 CGI 工业里做的,就是 world consistency。」

一段电影中的 CG 视频,比如房间里的一个人,首先需要房间里每个物品的模型,每个模型都需要表达光照属性的材质,人物需要动作的动画,需要虚拟世界里有一个摄影,对人物的每一帧动作做光线追踪,这时候光追就是渲染器的工作,通常离线渲染一个电影级 CG,往往需要集群级别的渲染才能达到逼真效果。

意识到这点,再看视频生成,在以上的管线里,似乎「只取代了离线渲染器的工作——而不是整个 CGI 工业」。

「视频不是 world model,」吴迪说,「它可能是 world model 输出,展示给大众时的一种形态。」

「一致性问题,尤其是 world-level 一致性,这是个信息量的问题,」启煊解释说,「如果这个世界的信息变化的描述,不能输入给 AI,它就一定做不到这种 consistency。」

通向世界模型,至少需要 world consistency,所以这个时候,就需要一个新的模块做好控制(control)。

缺少一块拼图,恰好就是 3D。

「我们有自己心目中的 World Model。」有很多正在做、值得做的事,想想都很兴奋。

「这段就别写了,等我们做好再拿给大家看吧。」

*头图来源:影眸科技

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

  • 微信或QQ扫一扫
浏览量: 27
科技 Tags:科技

文章导航

Previous Post: 世卫组织支持坦桑尼亚应对马尔堡病毒疑似疫情
Next Post: 快讯!巴基斯坦前总理伊姆兰·汗被判14年监禁

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

允许上传的最大文件为50 MB。 您可以上传:图像, 视频, 文档。 Drop files here

Copyright © 2024 51蛙吖蛙 – 3D社交空间