生成式 AI 在近两年大杀四方,它们看起来无所不知,有求必应。图灵测试早已不停留在对话上,而是在各项能力上,审视着 AI 能多接近人类,诸如写出的文章几分像人,创作的歌曲有多动人,生成的图片有多拟真。
勤奋「摸鱼」的 Claude

Anthropic 的公告|图源:X
ChatGPT 的「拖延症」

《血色将至》怎么看都属于 1% 的电影精品|图片来源:douban
生成式 AI 在近两年大杀四方,它们看起来无所不知,有求必应。图灵测试早已不停留在对话上,而是在各项能力上,审视着 AI 能多接近人类,诸如写出的文章几分像人,创作的歌曲有多动人,生成的图片有多拟真。

Anthropic 的公告|图源:X

《血色将至》怎么看都属于 1% 的电影精品|图片来源:douban
整理 | 汤一涛
编辑 | 靖宇
12 年前,赵纯想开始给韩寒的电子杂志写小说,后来陆续出版了《坏一坏》和《人生灿灿》两本书。

赵纯想在极客公园 IF 2025 创新大会上进行演讲|图片来源:极客公园
01 从写小说,到写代码

赵纯想的「人生履历」|图片来源:赵纯想
02 两个产品:胃之书、陌生人闹钟

产品「胃之书」的成绩|图片来源:赵纯想

产品「陌生人闹钟」的成绩|图片来源:极客公园

「一个人就是一家公司」|图片来源:赵纯想

说这些的目的是什么呢嗯?还是那句话,不要感到害怕。在从前的世界,你需要向技术走 99 步,最后一步由问答社区来完成。那么在今天,你只需要向技术走一步,AI 会向你走 99 步。相当于你只需要了解一点点的编程知识就够了,目的是提出更好的问题,写出更好的提示词。
03 做独立开发,请注意以下三点

独立开发者的三个重要「注意事项」|图片来源:极客公园

没想到上线之后各种各样的问题,各种各样的 bug,永远有优化空间。所以你千万不要觉得要弄个完美的东西再上线,上线比什么都重要。只要先弄上去,就有源源不断的修改的想法。

后来有一天,胃之书的 OSS 系统挂了。我就找到那个图片服务,最终把它修好了。当时最终画面停留在了用户的上传图片的一个大的表单上面。那些用户那个文件名的图片名都是乱码,我随便点进去一张,一看都是用户的早餐、晚餐、午餐,还有跟朋友一起吃饭的照片。

12 月 28 日,小米汽车宣布,截至目前,小米 SU7 全年交付量已超过 13 万辆,已提前完成全年所有目标。

据小米汽车透露,今年来,小米汽车持续布局销售网络,目前已开业 200 家门店,覆盖全国 58 个城市。研发方面,小米汽车坚持投入底层核心技术,在智驾、三电系统、智能底盘、智能座舱等领域持续深耕,目前研发投入超 130 亿元,专利授权超 1000 项。智驾方面,目前小米汽车累计智驾里程已突破 1 亿公里,端到端全场景智能驾驶即将开启先锋测试。昨晚,小米创始人、董事长兼 CEO 雷军在微博上称,小米智能驾驶正式接入 VLM 视觉语言大模型。
雷军在微博中表示:「我们任务从最早的 7 万,提高到 10 万,到 12 万,最后 13 万。作为汽车行业新人,SU7 上市 9 个月,交付超过 13 万辆,绝对是奇迹!感谢大家支持!」(来源:证券日报)

12 月 28 日,据美媒 CNBC 报道,谷歌 CEO 皮查伊上周告诉员工 2025 年「风险高、赌注大」,因为公司面临着日益激烈的竞争、监管障碍以及 AI 的快速发展。
皮查伊表示,「我认为 2025 年将是关键的一年。我们需要深刻认识到当前的紧迫性,并加快公司步伐。这是一个具有颠覆性影响的时刻,我们必须专注于推动技术带来的变革,解决用户的实际问题。」
他还认为,打造包括 Gemini 应用的「大型新业务」是重中之重。高管们表示,他们认为 Gemini 将成为谷歌下一个达到 5 亿用户的应用(该公司目前有 15 款应用达到了这一里程碑)。「Gemini 应用发展势头强劲,尤其是在过去几个月。但我们在 2025 年还需要做一些工作来缩小差距,并确立领先地位。」
他后来补充道:「明年,在消费者端推广 Gemini 将是我们的首要任务。」此外,皮查伊展示了一张大语言模型图表,其中 Gemini1.5 领先于 OpenAI 的 GPT 和其他竞争对手。「我预计 2025 年会有一些来回拉锯。我认为我们将达到最先进的水平。历史上,你并不总是需要成为第一,但你必须执行得很好,成为同类产品中最好的。我认为这就是 2025 年的意义所在。」(来源:IT之家)
12 月 28 日,美国当选总统特朗普向美国最高法院提出请求,要求暂停执行 TikTok 强制出售令。特朗普表示,希望法院在他于明年 1 月 20 日正式就职后,给予他时间通过政治手段解决此争议。
据此前消息,当地时间 12 月 18 日,美国最高法院宣布就禁止 TikTok 在美国运营的法案再次进行讨论。据悉,美国最高法院将于 1 月 10 日就此案进行辩论,允许法院在法律 1 月 19 日生效前对该问题作出裁决。该法案要求 TikTok 母公司字节跳动剥离 TikTok,否则将禁止 TikTok 在美运营。字节跳动明确表示,不会出售 TikTok 业务。
不过,对于此次特朗普隔空喊话救 TikTok,有接近相关案件的法律人士表示不容乐观。
「特朗普只是申请延期,相当于一个专家意见,对法院没什么效力。」该人士表示,这一举动意味着,特朗普实际上更多的只是想把 TikTok 案件的解决权拿在自己任内,「它是想谈判,要更高价码。」(来源:新浪科技)
12 月 28 日,据博主数码闲聊站最新爆料,供应链物料基本确认,iPhone 17 标准版将支持高刷。
这是苹果历史上第一次为标准版引入高刷,对于标准版来说堪称史诗级提升,日常体验大大提升。(来源:新浪微博)

12 月 28 日消息,近期美团发文宣布,近期拟采取以下八项改进举措,同时更加广泛地听取社会各界意见建议。在此基础上,美团后续将依据各界意见,不断改进及公示相关举措,持续推进算法公开。
其中,在第四条改进措施中美团表示,将改善骑手激励机制。美团将以骑手利益为核心,持续优化管理办法,探索更公平、更人性化的激励机制。通过引入培训、积分制等替代方案,美团将在 2025 年底前逐步取消骑手超时扣款,推动从负向处罚向正向激励的转变。
美团近期也将在全国全面落地「弹窗提醒和强制下线结合」的防疲劳措施,着重解决骑手超长时间跑单等问题。(来源:IT之家)
12 月 28 日,亚马逊创始人杰夫·贝索斯旗下商业航空公司蓝色起源宣布,其大型轨道火箭「新格伦」(New Glenn)的 7 台 BE-4 引擎于佛罗里达州卡纳维拉尔角发射台同时点火,热火持续 24 秒,并达到所有目标。这是为该火箭首次发射太空铺平道路所需的最后一次关键测试。
据蓝色起源透露,在完成静态点火测试后,「新格伦」火箭将返回 HIF 进行载荷组装,随后便是万众瞩目的发射时刻。美国联邦航空局(FAA)已正式为蓝色起源颁发了发射许可证,为「新格伦」的发射扫清了障碍。
然而,尽管蓝色起源在关键测试上取得了圆满成功,但原计划在 2024 年底进行的发射似乎已无法实现。根据禁航文件显示,「新格伦」的暂定发射窗口已调整为 2025 年 1 月 6 日的 14:00 至 17:45。(来源:ITBears)
12 月 28 日,在「卢伟冰的年度总结」活动中,小米集团总裁卢伟冰提到了汽车业务,还回应了网友呼声很高的 REDMI 汽车。他明确表示:完全没有 REDMI 汽车的计划。(来源:IT之家)
12 月 28 日消息,博主定焦数码爆料,除华为外,目前只有三星在布局三折叠屏,其他家都没有三折或者折叠 PC 的计划,不过三星三折叠屏难以做到大规模的铺货。
此前在 MWC 2024 上,三星显示对外展示过三折叠屏样机,这款样机的屏幕尺寸为 12.4 英寸,分辨率为 FHD+,除此之外三星未公布任何细节,仅从样机来看,其完成度已经是相当高了。

在今年 9 月份,华为率先出击,带来全球第一款三折叠屏 Mate XT 非凡大师,这款三折叠屏手机的成功研发得益于铰链和屏幕的创新。(来源:新浪科技)
12 月 28 日,昨日起,又有博主陆续曝光了问界全新车型 M8 的更多谍照,这次主要披露了新车的尾部造型。

图片显示,新车尾部采用贯穿式尾灯,灯带点亮后形成一字形,不过仔细看能够看到尾灯模组整体的轮廓。其与问界 M9 的尾灯造型类似,预计问界 M8 将用上 M9「同款」的星河大灯。
而就在本月下旬,问界 M8 的前脸谍照也得到曝光。该车型使用暗红色车身配色,前脸造型较为圆润,采用分体式大灯,延续了问界家族式设计风格。该车侧边和背面暂未更清晰的图片,但可见门把手处较为平整,有望使用半隐藏式设计。(来源:IT之家)

12 月 28 日,四大顶刊之一的《数学年刊》,正式接收北大袁新意独作论文。在困扰数学界多年的 Uniform Bogomolov 猜想问题上取得重要进展。值得一提的是,这篇论文还在预印版状态时就已获得一定引用,据称还在不同的学术会议中被讨论。
这一成果延续了袁新意在算术几何和丢番图几何领域的成果,其中「将 Uniform Bogomolov 问题转化为证明某个直线丛的算术大性」等创新方法,更是被评价为给相关领域的研究提供了全新的视角和工具。

这篇论文旨在证明 Uniform Bogomolov-type 定理,这是一个关于代数曲线上有理点分布的问题。数学界对这个问题的研究还要追溯到 40 多年前。
著名的算术 Bogomolov 猜想由 Fedor Bogomolov 在 1980 年提出,由 Emmanuel Ullmo 和张寿武在 1998 年证明。进入 21 世纪,通过数域和函数域之间的类比,Walter Gubler 和 Kazuhiko Yamaki(山木壱彦)提出了几何 Bogomolov 猜想。
直到 2021 年,袁新意和谢俊逸合作,终于完全证明了几何 Bogomolov 猜想的所有情形。当时也正是这篇论文,让低调回到北大的袁新意重回大众视野。(来源:量子位)

12 月 28 日,据灯塔专业版,截至昨日 19 时 09 分,2024 年贺岁档(11 月 22 日—12 月 31 日)档期票房(含预售)突破 25 亿。其中,《好东西》位居第一,累计票房 6.79 亿元,不过该片已经上映 37 天。
《小小的我》成为一匹黑马,上映仅两天,票房就达到了 1.96 亿元。该片讲述了患有脑瘫的刘春和(易烊千玺 饰)勇敢冲破身心的枷锁,为外婆圆梦舞台的同时,也弥合了与妈妈的关系,并努力寻求着自己人生的坐标。在经历一个盛夏的蜕变后,他终于踏上了新的旅程。

《误判》紧随其后,票房 1.88 亿元。该片是根据真实事件改编的律政、动作题材影片。(来源:快科技)
头图来源:Linkedin
在大模型浪潮的推动下,社交平台正悄然发生深刻变化。
作为年轻人社交的创新平台,Soul App(以下简称“Soul”)正在通过 AI 技术重新定义「人机关系」的边界。
在极客公园 IF2025 创新大会上,Soul CTO 陶明回顾了 Soul 在 AI 层面的进展,从最初的社交连接到 AI bot 的创建,再到元宇宙构建,以及对话、语音、视觉和虚拟人等维度多模态端到端技术的推进。
Soul 在 2023 年推出的基于大模型的全双工语音技术,使得 AI 社交不仅限于传统的「人机对话」,还包括更加自然的互动和语境切换——全双工技术使得 AI 能在多人互动中具备灵活应对的能力,实现更具沉浸感的交互体验。

以下为陶明在极客公园 IF2025 创新大会上演讲内容的关键摘录:
社交是情绪价值和信息价值交换的双向关系,但一些人因表达能力不足而错失连接机会。Soul 想要做的是通过 AI 帮助用户做表达,提升交互效率和体验,特别是在破冰、关系建立和留存方面。AI 社交不仅是为了帮助用户交朋友,更是希望用户能与 AI 建立更深的情感联系。
通过 AI 虚拟人和智能生态助手,Soul 不仅让社交变得更加智能,也让每位用户都能在平台上找到更具情感深度和价值的连接。AI 社交时代正在悄然到来,而 Soul 已走在这场变革的前沿。
以下是陶明在极客公园 IF2025 创新大会上演讲实录,由极客公园整理。
陶明:大家下午好,我叫陶明,来自 Soul App,我叫陶明。今天我给大家带来的分享是人机关系的新边界,Soul 如何定义 AI 社交未来。
在开启这个话题之前,我分享两个有趣的事情:一是Soul最近在盘2024年的年度关键词。因为具有媒体和内容属性的互联网平台,都会在年底会发布一个年度关键词或者总结,Soul也一样。今年推进这项工作时,我们通过整理数据有一个有趣的发现:AI 苟蛋成为了 平台2024Soul 年度用户搜索高频关键词TOP3。
AI 苟蛋是去年推出的第一代超拟人自然对话聊天机器人,它能给用户带来情绪价值和信息兴趣价值,我们并没有给 AI 苟蛋在 Soul 设置固定的功能入口(但它依然成为了年度搜索高频关键词)。
第二个事情是我们有一个研究院 JustUST SoO SoulSOUL,它是 Soul 旗下关注年轻人趋势的研究院,它会在每年不定期通过不同的调研课题,向年轻用户群体调研一些趋势进展。今年上半年 Soul 发布了关于年轻人对 AIGC 态度在年轻人当中的白皮书,调研结果有两个数据特别值得关注:

年轻人对AI的接受度|图片来源:Soul
一是,超 6 成年轻人认为 AIGC 相关产品可以帮助缓解孤独感;二是,有 1/3 的年轻人愿意和 AI 做朋友。这两件事好像没有什么关联,但是实际反映了 Soul 在推进 AI 社交路径上的谨小慎微。因为 Soul 并不类似于其他「从零到一」开始的AI产品,Soul 本身目前有超千万日活,且它是基于人和人之间真实社交才赢得用户信任的平台。如果在 Soul 的平台上大量投放 AI 虚拟人,当前用户在 Soul 上获得的价值是否会随着虚拟人的加入而改变,这在一开始是不确定的。
所以我们在推进过程中,所有AI相关功能产品,在 Soul 的平台上,都没有设置固定入口。我们希望通过价值驱动的方式,让用户主动选择我们的 AI 功能产品,而不是平台强推,、通过策略手段强制让用户体验这些 AI 新功能产品。
结合这一背景,AI 苟蛋依然成为了当前 Soul 社交搜索高频关键词的第二名,说明我们用户知道 AI 苟蛋的存在,并主动通过搜索路径也会找到这个产品。这从这个角度,反映出我们的用户可以接受 AI 虚拟人这个产品。除此之外,Just UST So O SoulOUL 的研究结果也反应反映出年轻用户对新事物的态度,。基于这两点,我们在对年轻用户充分理解的前提下,谨慎推动了 AI 社交在 Soul 平台上的关键路径达成,这验证了 Soul 在 AI 社交这一块已经走出了第一步,和原有社交生态其实并不违和。

陶明在极客公园 IF2025 创新大会|图片来源:极客公园
这两个例子都反映出,年轻人正在理解这种新的人机关系。我们认为人机关系不仅仅只是一个「响应式」的单一关系,现在的人机关系已经变成了一种多边关系。过程中,它的社交对象、,交互效率,以及交互体验,成为了这个关系的最重要组成部分。社交已经被再定义了,AI 社交在我们千万日活的平台上已经取得了一定成绩。可以说,AI 社交时代已经到来。
2022年到2024年,尤其是今年,大家除了在技术层面讨论 Scaling Law 是否有效之外,很多企业、产品都开始把注意力从 AGI 转移到「如何找到合适的场景,务实地推动产生用户价值和商业价值」这件事上,这是今年最大的改变。作为天然具有流量入口属性的 AI 赛道,社交今年相对比较拥挤,很多公司都在推进 AI 社交相关产品。
Soul 作为从一开始就参与应用层的代表企业,我们也深感压力。但我们并不是从零到一去创造一个 AI 社交产品,我们是用 AI 解决目前人与人社交关系当中的痛点以及短板。
Soul 从 2016 年成立到现在已经 8 个年头。我们一直致力于打造一个开放式的社交平台,让因为受限于线下场景,不能得到更多社交资源的用户,能够在线上去实现这件事,在 Soul 上建立多元连接,你不需要加好友才能聊天,它是完全开放的。
Soul 被大家贴了两个标签,一个是产品模式创新,二是 Z 世代的用户,从现在产品形态来看,第一个阶段我们已经实现了基于人和人社交的一对一、一对多、多对多的社交场景构建。用户可以基于自己的兴趣,通过在 Soul 创造的虚拟人设,在不同场景里以游戏化的方式进行社交体验。正是因为有创新的产品功能,造就了年轻用户在 Soul 有更好的黏性,能够沉淀和留存下来。
这跟 AI 有什么关系?从上线之初,我们便希望以 AI 的方式,帮助用户在 Soul 里更高效地解决连接和沉淀的问题。其实一个重要问题是:当我们摒弃了物理属性、社会属性,我们对一个用户的了解就非常有限。我们希望通过少量数据,在高维空间帮助用户找到一个能够聊得来、,能够产生信息价值交换的,聊天朋友伙伴。这是第一阶段,就是用家用 AI 解决人和人连接的问题,也就有了我们的灵犀引擎。。
第二,社交本质是一种交换,交换情绪兴趣价值、信息价值,这是一个双边关系,很少有单一付出的情况。但有一些用户本身表达能力不够强,或就是 i 人,无论线上线下,他都很难通过社交去获取信息。这时我们就想像从 AI 角度帮他解决这个问题。
Soul 整体在 AI 层面的进展,我们在 2017 年之前,第一阶段,是用 AI 连接人。从 2017 年以后就在思考,如何创建一个 AI bot,帮助这些社交能力短板的用户达成社交。我们从 2019 年开始创建元宇宙,希望打造一个 AI being 和 Human being 的共同社交社区。从 2020 年开始,我们开始大力在AIGC技术,特别是对话、语音、视觉以及虚拟人方面进行全面推进。到 2023 年我们的大模型上线,到现在我们已经升级了端到端多模态大模型,正在推进落地了全双工、端到端的语音通话能力模型,并即将推出全双工和视频通话能力视频模型。
我们一直避免用技术术语来描述业务术语。全双工其实是一个技术术语,所以这里解释一下,在 AI 社交场景里,「全双工」的重要性。AI 社交本质上是模拟真实人和人的社交场景,不仅是声音、表情,聊天过程的场景和话题切换都要拟人,在行为上也要拟人。AI 社交一定不能「一对一」的,「一对一」是机械的,不管语音、文字多么自然,都很难让用户长时间交流。回归到线下,人和人的交流过程中,可能会有随时的打断,这种随时打断没有任何信号,对于 AI 来讲,也必须要实现这种功能。当单人和 AI 在一对一、多对多等场景和多人聊天过程中,AI 应该具备自主规划自己是否要停止讲话或者继续输出的能力。
我们希望通过 AI 增强用户在站内的社交需求达成。尽管我们在 AI 方面的投入很大,但是并没有像「摊大饼」的方式一样面面俱到,试图构建非常完善的技术方案,解决所有社交问题,我们本质上还是要聚焦在 Soul 的社交业务本身。
《美国大城市的死与生》里有一句话,我印象很深,大意是「这些地方如果与首要用途不具备相结合的可能性,未来一定是消亡或者萎缩的。」。这句话对于我们这种应用层面的公司、产品公司来讲,有很大的反思(价值)。Soul 的社交业务怎么发展,目前应该给用户带来什么样的价值,(基于这一点)稳妥推进 AI 技术的发展。
总体来看,我们的 AI 布局只有两部分,一部分是 AI 辅助社交,还有一部分是人机互动。AI 辅助社交是说,社交本身是一个双边关系,是为了情绪价值和的交换,信息价值交换而存在。有些人天然表达能力不强,我们试图打破的是一线城市和五线城市之间不同兴趣的人的连接,但因为物理性缺陷,美好的事情往往付诸东流。如果 AI 能够帮助用户做表达,增强在破冰、关系建立、留存过程中的作用,就能很好地服务用户。
第二是人机互动。社交本身是资源的置换,资源背后是人,当 20% 的用户在为 80% 的用户贡献信息和情绪价值时,这一关系天然是不对等的。我们希望在整个社交网络里面,投入一些 AI 虚拟人,能够帮助解决这种资源不平衡。
这就是人机互动。概括起来就是两句话,一,通过 AI 帮助用户交朋友;二,希望用户和 AI 交朋友。从两个方向稳妥积极地推进。我们整个战略想法就是聚焦社交,明确场景,做减法。
我们在 AI 方向上,非常明确有两条主线要做,包括在 AI 技术层面实现怎样的差异化,业务要差异化,技术发展也要差异化。我们(想让 AI 有)超拟人、超情感、超自然的对话效果,AI 机器人必须要有感知能力。
大家可以听到,这个效果特别贴近我们真实社会里面人和人的交流。你咳嗽了一声,它就感知到你可能感冒了,然后说下雨了,这个下雨并不是随机生成出来的,而是结合了刚才那个男生所在地的天气,判断出是否下雨了。我们想打造的是一个完全模拟自然的空间。
包括刚才的视频里还包括有一段四川话的元素。我们现在已经能够实现方言的切换。因为 AI 社交产品覆盖的并不只是一二线城市,以普通话为主的地区,三四线城市对社交的需求也很大,我们不能只看到高点,而忽略了一些边缘的存在。我们整体的 AI 一定是超拟人的,语言要超拟人,行为也要超拟人。
然后,我们要讲究端到端。因为人和人的交流语速很快,如果是应答式的交流方式,哪怕你生成的内容是自然的,用户的体感也会完全不一样。我们经常问自己一个问题,AI 到底开发到什么样的程度,才能带来价值?答案就两个字,要构建「真人」,这是我们最主要去做的(方向),真人能做到的,我们虚拟人也要去做。

Soul AI建设的三大重点|图片来源:Soul
另外是多模态,因为人和人之间的交互,不完全是语言的交互,还有其他模态的交互,比如说图片、语音。本质上来讲,我们希望我们的 AI 不是智商天才,而希望它是情商天才,这是我们相比于其他公司 AI 产品不一样的地方。
刚才提到我们用 AI 辅助社交,我们也推出了一系列产品,比如AI聊天助理,用户在说一句话的时候,我们自动帮他润色,将一些低级的表达,换成高级的表达。我们也帮他(创建)聊天数字分身,我们希望基于用户在站内的数据,以及他上传的数据,聊天的数据,能够帮他训练出一个分身。也就是说不管是面对 AI 聊天,还是面对人聊天的时候,我们的工具都能够帮他挖掘、寻找和发现一些关系。
另外就是人机互动。我们也上了蛮多产品,一是在主站之外,有个叫「异世界回响」的产品,另外我们主站内还有端到端的语音通话,以及AI游戏场景。游戏这块,我们既然说把 AI 打造成了一个人,其实是希望把我们的 AI 跟所有站内的功能都打通了,我们的任何一个 AI 既可以点对点地跟你聊天,也可以跑到我们的内容广场去发表内容,也可以跑到我们的狼人魅影杀里面跟用户玩狼人杀,跑到群聊房里上麦,跟更多的人聊天……我们的 AI 不是单体的存在,它是跟我们整站的功能体系全部耦合在一起的。
我们在稳妥推进 AI 社交的过程中,在 Soul 的业务层面上,收获了很多业务指标的提升。相比其他公司,我们用 AI 解决用户实际的痛点和短板,用 AI 来增强用户的聊天效率,对我们现在整个大盘数据带来了蛮多增长。特别是对人均对话消息数、APP使用时长等用户粘性相关的关键数据都有明显的提升。比如 AI 辅助社交这一块,现在在我们主站内渗透不足 2% 的情况下,已经给整个 App 的时长带来了将近 5% 的提升,这还不包括我刚才说的人机交互这块的功能。

Soul对 AI 商业价值的探索|图片来源:Soul
任何产品最终都逃脱不了商业价值的探索。我们从 2019 年上线 3D 方向的头像构建,我们用 AI 3D 帮助用户构建自己形象的时候,就已经开始探索 AI 在站内商业化的落地了。Soul 本身的商业化主要以增值为主,我们也希望在 AI 落地过程中,它的商业价值是用户通过我们的 AI 工具能够创造可流动性的资产、价值,在这个过程中,平台和用户都是受益的。从效率的角度和 UGC 创作角度,我们目前拿到了不错的收益。随着 AI 在站内的进一步渗透,我们未来也会在场景拓展、多元互动、情绪价值这一块,推进更多商业化的尝试。
今天就简单介绍到这里。AI 社交是一个非常大的命题,我们在推进的过程中,跟大家分享一些思考。但总体来讲,我们认为当要有 1/3 的用户愿意和我们的 AI 交朋友,那时我们才认为 AI 的时代真的来临,我们也相信情绪价值和信息价值的获取和交互是 AI 社交里面最重要的体验之一。
感谢大家,我来自 Soul。

12 月 27 日消息,OpenAI 刚刚发布了一篇关于其公司结构调整的博文,旨在「更好地支持其确保 AGI(通用人工智能)造福人类的使命」,主要包括三个目标:选择最有利于实现长期使命的非营利 / 营利性结构;使非营利组织具有可持续发展性;使每个分支机构都能各司其职。
OpenAI 表示为了追求使命,需要获得比「通过捐赠获得的」更多的计算资源,因此就需要更多的资金。OpenAI 董事会计划将其营利性实体转型为特拉华州公共利益公司 (PBC),以募集更多资金,加强非营利组织,并推进其使命。作为新结构的一部分,非营利部门将持有重组后公益企业的股份。
据介绍,PBC 拥有普通股,并将 OpenAI 的使命作为其公共利益。PBC 这种结构要求公司在其决策中平衡股东利益、利益相关者利益和公共利益。「它将使我们能够像该领域的其他人一样,以传统的条款筹集必要的资金。」
OpenAI 董事会表示,由于各大公司目前在人工智能开发领域投资数千亿美元,仅靠捐款无法获得所需的资金,因此传统的股权条款是必要的。他们计划将把非营利组织目前在营利性实体中的权益按公允价值转换为 PBC 股份。(来源:IT 之家)

12 月 27 日消息,浙商证券 12 月 25 日发布报告指出,字节跳动在 AI 上加大流量投放、扩大资本开支、大力扩张团队,研发投入显著领先同行。
报告称,在资金上,字节跳动在 AI 上投入巨大,2024 年资本开支达到 800 亿元,接近百度、阿里、腾讯三家的总和(约 1000 亿元)。2025 年,字节跳动资本开支有望达到 1600 亿元,旨在打造自主可控的大规模数据中心集群,其中约 900 亿元将用于 AI 算力的采购,700 亿元用于 IDC 基建以及网络设备。
推广力度方面,报告表示字节跳动在推广其 AI 产品上采取了大力度的广告投放:
例如,豆包智能助手在 2024 年 4 月至 5 月的广告投放金额接近 1800 万元,6 月上旬更是飙升至 1.24 亿元。同时,公司利用抖音等平台的内部流量优势,为 AI 产品引流。在许多大模型付费的环境下,豆包大模型在保障性能的前提下免费向公众开放,有助于快速提升用户数量,起到了扩大市占率以及获取庞大训练语料的作用。
此前有字节跳动内部人士称,字节跳动创始人张一鸣虽然已卸任 CEO 一职,但他一直积极参与该集团的 AI 战略。张一鸣亲自监督了从竞争对手公司招聘 AI 工程师和研究人员的工作,并在内部谈到了他的「通用人工智能」目标,即具有类似人类智能的系统。(来源:IT 之家)
12 月 27 日消息,根据媒体披露的微软和 OpenAI 在 2023 年达成的秘密协议,OpenAI 开发的 AI 系统若能实现 1000 亿美元的盈利,则被视为达成了通用人工智能(AGI)的目标。
目前,OpenAI 正计划从非营利机构转型为营利性公司,正与微软就持股比例、云服务提供商地位、知识产权使用期限以及收入分成等关键问题进行谈判。但这一转型面临的最大障碍来自微软。
根据 OpenAI 与微软之间的合同条款,一旦 OpenAI 成功研发出通用人工智能,该公司有权终止双方协议,微软将停止使用 OpenAI 后续开发的任何新技术。
怎么样才算是实现通用人工智能,OpenAI 将通用人工智能定义为能够在「最具经济价值的工作」中超越人类的人工智能。不过这个定义确实有点模糊不清,因此微软与 OpenAI 在去年达成了一项尚未公开的协议。
该协议规定,通用人工智能的实现取决于 OpenAI 是否能够开发出一个系统,为包括微软在内的最早投资者带来约 1000 亿美元的总利润。
这一目标估计短期内难以实现,OpenAI 目前每年仍亏损数十亿美元。(来源: 快科技)
12 月 27 日消息,蚂蚁集团旗下数字蚂力公司推出 AI 就业平台「蚂上就业」,个人就业者登陆支付宝搜「蚂上就业」,在完成注册及认证后,可享受到「工作找人」的便捷体验。该平台涉及客服、审核、标注、研发和设计等多个领域,计划提供万余个就业机会。
据了解,数字蚂力是蚂蚁集团旗下的人工智能企业服务全资子公司。通过 AI 技术的辅助,数字蚂力构建了一个可以实现人才自动匹配的分布式招聘资源网络,旨在为就业者提供机会,也为有数智化转型需求的企业提供更精准、高效的服务。
据了解,「蚂上就业」平台起源于蚂蚁集团于 2012 年成立的蚂蚁云客服平台,本次上线版本是在其基础上的升级。12 年来,云客服平台已累计有超过 6.4 万人通过兼职客服获得收入,目前每月稳定提供服务的云客服超 1 万人,不仅培养了偏远山区留守妇女和残疾人群的客服技能,还提供客服岗位机会,使得在线无障碍工作环境成为可能。(来源:雷锋网)

12 月 27 日消息,快手发布可图 1.5 图像模型,画面质量及美感大幅提升。AI 试衣新增「AI 模特」功能,输入文本描述即可生成 AI 模特,配合 AI 换装及可灵 1.6 图生视频,可生成服装展示视频。

此外,可灵 1.5 模型(注:图生视频)高品质模式下,支持「尾帧生成」功能,上传图片后,将图片切换到「尾帧图」位置,无需上传首图,即可基于尾帧向前生成 5s / 10s 的视频。
可灵对口型功能新增 10 款高品质音色,同时新增「音色情感」选项,支持高兴、悲伤、愤怒、害怕、厌恶、惊讶和中性 7 种情感选择,人物配音的表达「更生动自然」。(来源:IT 之家)
12 月 26 日晚间,杭州深度求索人工智能基础技术研究有限公司(以下简称「深度求索」)宣布,全新系列模型 DeepSeek-V3 首个版本上线并同步开源。
深度求索表示,DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Anthropic 公司于 10 月发布的 Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3 的生成吐字速度从 20TPS(Transactions Per Second 每秒完成的事务数量)大幅提高至 60TPS,相比 V2.5 模型实现了 3 倍的提升,能够带来更加流畅的使用体验。
Meta AI 研究科学家田渊栋对 DeepSeek-V3 各个方向上的进展都表示赞赏,称「这是一项了不起的工作」。
据官方技术论文披露,DeepSeek-V3 模型的总训练成本为 557.6 万美元,而 GPT-4o 等模型的训练成本约为 1 亿美元。深度求索表示,「这是一个全新的开始。」。(来源:澎湃新闻)
12 月 28 日消息,12 月 18 日发表在《环境科学与技术快报》杂志上的研究表明,许多品牌的智能手表腕带中都含有高浓度的全氟己酸(PFHxA)合成橡胶,这是一种难以分解的「永久性化学物质」,可能与癌症、高血压和不孕不育等健康问题相关。
该研究由圣母大学物理学家 Graham F. Peaslee 领导,分析了 22 个不同品牌和价位的智能手表腕带,发现 PFHxA 是最常检测到的化合物,且浓度远高于其他消费品。
PFHxA 属于全氟烷基物质(PFAS)的一种,这类物质防水耐光,难以生物降解,因此被称为「永久性化学物质」。PFAS 广泛应用于不粘炊具、雨伞、化妆品等产品中,而 PFHxA 常用于披萨盒、雨衣和防水喷雾剂。
研究人员指出,虽然 PFHxA 的皮肤吸收率尚不完全清楚,但在长时间接触皮肤的产品中发现如此高含量令人担忧。高浓度的 PFHxA 可能通过皮肤接触进入人体,尤其是在运动出汗时,皮肤毛孔张开,吸收风险更高。

研究发现,价格更高的腕带,尤其是超过 30 美元(当前约 219 元)的腕带,往往含有更高浓度的 PFHxA。
研究人员推荐消费者选择由硅胶等替代材料制成的腕带,并避免购买标注含有氟橡胶的产品。(来源:IT 之家)

据知名数码博主 @ 智慧皮卡丘 最新发布的信息显示,二月的超大杯只有小米 15 Ultra,另外两家都在后面。
结合此前相关爆料,该博主口中的另外两家指的很可能就是 OPPO 和 vivo,而对应的机型则应该就是 OPPO Find X8 Ultra 和 vivo X200 Ultra。同时该博主还表示,小米 15 Ultra 已经在国外完成了备案,将于明年 3 月面向全球发布。按照惯例,小米 15 Ultra 海外版本的售价将远高于中国版本。
其他方面,根据此前曝光的消息,全新的小米 15 Ultra 将配备一块全等深四曲面 OLED 屏幕,分辨率达到 2K 级别,支持 120Hz 刷新率,并集成多种护眼技术;将搭载骁龙 8 至尊版旗舰平台,后置徕卡四摄系统:包括一颗 5000 万像素的索尼超大底主摄,支持 F1.6/F2.2 两档可变光圈和 CMOS 位移式防抖技术;一颗 5000 万像素的直立长焦镜头;一颗 2 亿像素的潜望长焦镜头,提供超远距离的高清拍摄;一颗 5000 万像素的超广角摄像头,捕捉更广阔的视野。
此外,该机还将支持双卫星通讯技术,标配天通卫星通话,顶配版在此基础上支持北斗卫星消息。

据悉,全新的小米 15 Ultra 预计将成为明年 2 月亮相的第一款 Ultra 旗舰手机。(来源: TechWeb)
12 月 27 日消息,科技媒体 smartprix 发布博文,分享了一加 Open 2(对应国内 OPPO Find N5)的渲染图,并透露了这款折叠屏手机的关键规格参数。

外观方面,一加 Open 2 采用全新设计,机身更大,却比前代更薄,继续保留「奥利奥」圆形摄像头模组,内置哈苏认证的三摄系统。
消息称在折叠状态下,一加 Open 2 厚度不到 10mm,此外防水等级提升至 IPX8,显著优于前代的 IPX4。
配置方面,消息称一加 Open 2 预计搭载 8 英寸 2K LTPO 120Hz 主屏和 6.4 英寸 AMOLED 外屏,配备高通骁龙 8 至尊版 SoC,最高 16GB RAM 和 1TB 存储空间。
影像方面,这款折叠手机后置三摄系统,包括 5000 万像素主摄、5000 万像素超广角镜头和支持 3 倍光学变焦的 5000 万像素长焦镜头,前置则采用 3200 万 + 2000 万像素双摄方案。
OPPO Find 系列产品负责人周意保此前透露了全新一代大折叠屏手机发布时间为「春暖花开的季节」,预估将于 2025 年第 2 季度在全球推出。(来源:IT 之家)

狗是人类最好的朋友,但它们的寿命仅为人类预期寿命的六分之一左右。如果有药物能延长狗的健康寿命,那么它们将能更长时间陪伴我们。美国生物技术创业公司 Loyal 计划明年初推出 LOY-002,该药物能延长狗的健康寿命至少一年。这家总部位于旧金山的公司已从一些公司筹集了 1.25 亿美元(1 亿英镑)的资金。
Loyal 创始人兼 CEO Celine Halioua 相信为狗延寿的工作也将有利于人类,她说狗会患上与人类相似的衰老疾病,而且它们与人类共享环境和习惯。
LOY-002 药物旨在减缓和逆转与衰老相关的代谢变化:通过抑制衰老相关的胰岛素增加去减少虚弱。Halioua 表示他们的目标不是制造不会死的狗,他们为狗延寿的方式是延长健康寿命缩短衰老速度。Dog Aging Project 也在尝试做类似的研究。(来源:solidot)
当下,人工智能越来越走进我们的生活之中,「算法」也从一个技术名词成 为了社会讨论的热点。 算法的学术定义是「以数学方式或者计算机代码表达的意见」,在今天的真实生活中几乎无处不在,小到打车、找餐厅,大到自动驾驶、AIGC 大模型,背后都有算法的身影。
算法在社交媒体和内容平台的应用,也受到人们的关注。李子柒回归涨粉千万,理发师晓华全网爆红,算法与流量的关系是什么?从编辑推荐到算法推荐,信息茧房真的存在吗?除了根据网友喜好推荐内容,算法还能带来哪些价值?
中国人民大学新闻学院副教授董晨宇与抖音科普博主「三一博士」、B 站知识区 UP 主「老蒋巨靠谱」,共同录制了一期节目《爆款,谁说了算?》,揭开算法的神秘面纱。在节目中,「老蒋巨靠谱」从创作者的视角分析, 流量的背后是共情 ;「三一博士」认为 算法是为内容服务的,二者不可本末倒置 ;董晨宇则提供了更多学术视角,提到信息茧房这个概念在学术上被证伪了, 平台算法也没有能力去「造神」 。以下是他们讨论内容的整理。
共鸣、共情是驱动流量的底层逻辑
董晨宇:先从一个最简单的问题聊起,2024 年你印象最深的网红或者网红事件是什么?
三一博士:李子柒回归,停了三年,一出来之后单日涨粉 1000 多万,播放量好几个亿,外网的话也特别火。
老蒋巨靠谱:李子柒是个特殊的案例,如果看流量生态,总有一些最火的、现象级的网红,反而跳出流量的规律,它跳出了职业网红的流量规则,它才可能成为这样一个现象级的 IP。
三一博士: 李子柒确实不遵守流量规则 ,因为她和其他人不一样,她在退隐之前就已经是「中文互联网第一 IP」,她在中文互联网和外网都没有人比得上她。还有一点就是李子柒回来的姿态,她拿回来的第一期内容,你会觉得还是当年那个仙气飘飘的感觉,这个也很重要,跟之前的无缝对接过来了。

董晨宇:我补充一个案例,发型师晓华,有人说看不懂她为什么走红。
三一博士:我小时候理发的人,其实就是像晓华这样的人。晓华营造了一个构像,像一个符号一样,很大程度上让人返回原来的生活。尤其现在的大家都很忙,每天节奏跟以前成长的环境完全不一样,所以你会觉得突然一下子穿越回去了,会有一种很强的共情。 共情永远是驱动流量的底层逻辑。
老蒋巨靠谱:我觉得流量世界里有两种力量一直都存在,一种就是让我们共鸣、共情的力量。另一种力量是呈现我们未曾接触甚至想象过的生活的力量。其实早期的网红带我们看的都是我们没有想象过的生活,而晓华这种是深植在我们记忆中的那些非常真实的部分。她用另外一种东西把它勾出来了,她是真实生活的一种侧面,是凭借这种一种非常真诚、非常真实的东西打动我们。
董晨宇:有另外一个说法,说网红其实是被选中的那个人,在各位看来,他们是被社会情绪选中的吗?还是他们是被其他的力量选中的?
三一博士:其实我认为 晓华这种相当于艺术品,像我这种职业化创作者属于工业品, 这两者之间不太一样。有些确实是那种天选之子,有一定的运气成分,各个方面的资源、元素、情绪都堆到这一块了,就等这么一个人出来。
老蒋巨靠谱:理发师晓华虽然取得了更大的流量意义上成功, 但是普通人没法学。 如果另外一个理发师完全按照晓华的内容和机位开播,完美复制一切,依然没法红。职业化网红的成功是有迹可循,可以复制的。但晓华是反流量逻辑的。
董晨宇:很多人看不懂晓华为什么走红。包括我在内,往往倾向于用网红行业最普遍的职业化方式去看待他们,所以看不懂。但 晓华和郭有才其实并不是在网红经济的标准动作中去成长的,无法单纯用技术视角去衡量。
董晨宇:其实很多创作者都想知道一件事,就是流量来自哪儿?
三一博士: 流量来自于观看。我认为流量来自于多大程度上能引发大家的共情, 所有人拿开手机的那一刻探求的都不是真理,而是共情。 所有事的底层是情绪。
老蒋巨靠谱:我对自己的定位是观点型的博主,所以我最主要的标准就是能不能做出差异化内容。假设一个话题流量很大,但是我聊不出自己独特的东西,我宁愿不做。我也在思考,假设我不顺着共情的市场规律走,我不提供他们想要的情绪的话,那我能给他们提供什么?可能这才是我真正要思考的。
董晨宇: 流量不是一个技术问题,它可能承载了更多社会性的议题或社会性的情绪。 我在创作的时候也有一个感觉,就是流量好的视频未必是我拍的最好的,而是我切中了某一个情绪。再往前推一步,我觉得流量其实是中国社会情绪的一个调色盘。
「平台造神」夸大了算法的作用
董晨宇:各位怎么理解 MCN 机构呢?
老蒋巨靠谱:对于跟着规则走的创作者来说,他们可能需要 MCN。因为 MCN 是中介角色,对接了博主和商业世界。而且 MCN 是摸透了某些流量规则的,比如几点发视频,视频拍多长。我觉得这些操作没什么用,顶多会让我的流量增加 20%,但我又不是每天做 5 条内容。我一年才产出 30 个视频,「AB 测」都测试不过来,所以 我宁愿去抓更准的用户需求,去做差异化的内容。
董晨宇:我接触了很多创作者,我有一个比较笼统的感觉是, 越成熟的创作者越不在乎算法。 对他们来说,更重要的是对标账号在做什么?他们怎么转型的?他们更在乎的是:我这期评论有哪些在夸我,哪些对我不满意?我的评论数、转发量是高了还是低了?他们会及时做复盘,这些内容侧的,还有这种生态侧的,其实都比技术侧要重要。
三一博士:对, 算法是服务于内容的,不能本末倒置。 如果算法有一天不能服务内容的话,那要调整的就是算法。平台搭好台子,在这个基础之上, 只要创作者能够产出打动人的内容,它自然会有流量。
董晨宇:你觉得平台有可能去造就「神一样的人物」吗?比如说我听过很多的传言,说「郭有才」是平台造出来的,「发型师晓华」是平台造出来的,你们觉得这个有可能吗?

老蒋巨靠谱:创作者是被筛选出来的,根本不是被培养出来的。如果平台运营说就是他了,这个月让他火, 这其实很「反效率」,不是效率最大化的方式, 不一定是对平台好的东西。
董晨宇:你会发现这些走红的素人是平台不可控的。就算平台有能力捧红,但捧红之后,他可能是福,也可能是个祸。我打一个比方,对平台来说, 所有账号就像是气球, 有的会升快一点,有的会升慢一点。平台除了技术一端,它还会有人工的运营端,运营负责做什么呢?负责举把枪,把坏内容打下来,另外一只手得举个打气筒子,比如说有账号是做三农的,非常正面,又受欢迎,平台可以锦上添花。我觉得站在地上,从原点开始给账号打气儿,这事儿吃力不讨好,这应该不是事情的真相。没有任何一个平台,想把气球打到天花板上,就是平台过分依靠一个网红,这个网红可能会反向牵制平台,会让平台的发展受到限制。
传播学研究发现信息茧房
与算法没有直接关联
董晨宇:算法让内容分发方式变了,从编辑推荐到算法推荐,我们经历了怎样的改变?
三一博士:这两年有一个说法,就是大家都被算法「框死了」。我个人不是很认同这个说法。如果说,今天大家被算法框死了。回到 20 年前,大家是不是就被编辑框死了呢?原来我们看杂志的时候,同样一本杂志有讲旅游的,有讲美食的,有讲娱乐八卦的,你自己也会筛选的。你不喜欢的东西,你也不看它,那不也是信息茧房嘛? 其实我觉得如果把所有的问题都推到算法头上,不是很公平。
三一博士:除了算法以外,平台还有一个功能叫搜索。如果你真的想试点别的东西的时候,你可以主动去搜。在搜索过程中,我相当于拓大了自己的边界,算法不是一成不变的,它要不断地去迭代。

董晨宇:我们不是一直说大家只爱看自己爱看的东西。我还看过一篇论文说,事情不是这样的, 人们其实特别喜欢看自己不同意的东西,因为这要为他们的反驳提供素材,这也是一种情绪价值。
董晨宇:还有一个我觉得特别有意思,就是公众如何看待这事儿?
三一博士:其实我觉得从传播的角度上来说,「阴谋论」永远是有市场的。
老蒋巨靠谱:在我看来,公众会有强烈「了解世界运行背后黑幕」的意愿,这是一种非常强的知识原动力。另外对于一个复杂生态,绝大多数人会进行简单归因。因为想把复杂的原因弄懂太费劲了,你把一个复杂系统的各个环节、各个零件都弄明白,而且得不出一个让你爽的结论,最后发现大家都有责任,那坏蛋到底是谁呢?要么是一个人,要么是一个词。 算法很多时候就是这样一个「背锅」的词, 而且它还是一种新技术,作为一个新技术出现时,大家总是对它抱有怀疑的。
董晨宇:我可以补充一个传播学的视角,在人类历史上新技术出现的时候,几乎没有不被骂的。最夸张的是中世纪英国教会说「自行车毁了青年一代」。为什么?因为青年人有了自行车,周末就不去教堂了,去郊游了。 算法不是万能的, 算法也不是完美的。任何一个技术,最开始都免不了被大家所广泛的讨论,但讨论能够促进算法继续向善,让技术为社会服务。
三一博士:其实技术永远都是工具,大家经常会把工具的问题,一定要归因到技术本身是好是坏。
董晨宇:从传播学的角度来讲, 绝大部分研究者其实是证伪了「信息茧房」概念,就是信息茧房和算法之间并没有非常直接明确的联系, 但这个事在公众心中仍然解不开这疙瘩。
三一博士: 其实不管有没有算法,茧房都是必然存在的, 即使你能平等的获取各个领域的信息,个人也是有偏好的,就像原来咱们看电视一样,比如有人喜欢体育,看到戏曲频道就是会快速换台。在传统媒体时代,这个东西很难归因,但是在今天的话就是有背锅的,算法就很容易被推到风口浪尖之上。
算法机制拓展知识边界,
促进教育普惠
董晨宇:我还有一个问题,对于二位来讲,算法给你们带来过哪些意料之外的惊喜?
老蒋巨靠谱:抖音经常给我推「某个城市+摸底」,就是这么一个标题。我很喜欢看这类内容,比如诸暨是最大的袜子产地,江西的某一个县城是全球最大的某某品类生产基地。这种东西带给我的惊喜,让我了解到之前不知道的信息,而且它又是跟我高度相关的,就是在咱们这片土地上发生的事情。
董晨宇:我也是通过短视频才知道一个事,河南桑坡是中国最大的雪地靴生产地。 如果不是短视频,我可能这辈子都不知道。
三一博士:我之前看到有一个小伙「湖远行」,骑自行车周游全世界,那小伙岁数不大,骑自行车全世界跑。他沿路会遇到其他骑行的人,他们可能换个面包吃,或者你的车爆胎了,我带你走一段。可能我一辈子永远不会经历这样的事, 但是通过算法推荐,我见到了一个完全没见过的世界, 一种完全没见过的生活方式,这让我觉得还是挺惊喜的。

董晨宇:我补充一个觉得特逗的事。我是当老师的,我特别在意乎教育方面的内容。有一天,我在抖音上刷到了清华大学的课程直播,我天天干这工作,其实我不想看,但是真正把我留住的是那个留言,因为一堆人在底下喊:「妈妈我上清华了」。如果严肃地说这个事,其实代表着一种教育的民主化。有人在一线城市,有人在乡村,但是通过互联网, 通过平台的算法 ,每个人都有可能去接受中国最好的教育,我觉得它至少给我们燃起了一个希望, 成为了教育普惠的一个起点。
董晨宇:我们聊了这么久,流量是怎么来的,创作者是怎么工作的,一直聊到了更社会化的问题,算法和社会之间复杂的交叉关系。这期视频并不想给大家留一个确定的答案。 当我们理解一个新技术,理解一个新行业时, 应该保留更多可能性和开放性,去思考不同的侧面。 只有这样,一个新职业的发展才能更快速,新技术与社会的交融才能更加顺畅,我想我们的交流也是一个起点,相信在未来我们能见证算法、平台、内容等这一系列的东西,对社会产生更深刻的影响,让我们拭目以待吧。
AI 视频又卷起来了。
12月中旬 Sora 正式发布,几天后谷歌推出了号称最强的 Veo 2 模型,紧接着国内 AI 视频的“卷王”可灵 AI 也宣布再次升级,更新到了 1.6 版本。
今年 6 月推出以来,可灵 AI 在过去半年里已经完成了好几轮基础模型能力和产品功能的迭代,而今年 9 月推出的可灵 1.5,已经是国内乃至全球性能最出色的视频生成模型之一。
在智源研究院的横向测评中,可灵 1.5 版本以其出色的表现排名第一;而在谷歌的横向测评里,在拿谷歌自己的 Veo 2 与包括可灵在内的四个市面上主流视频模型的生成效果对比中,可灵 1.5 模型也是除 Veo 2 外表现最好的一个。

谷歌基于外部数据集,测试 Veo2 与其他四个视频模型的表现对比
而相较于此前的 1.5 版本,新发布的可灵 1.6 在文本响应度、动态质量以及画面质量等多个核心指标上都做出了显著提升。
可以说作为「赛道卷王」,可灵再次拉高了视频模型竞赛的天花板。
综合测试结果,可灵 1.6 能够更加精准地理解复杂的文字描述,特别是在运动、时序动作和镜头运作方面的反应更为灵敏,生成的视频不仅在运动表现上更加合理,人物表情也更具自然感,视觉效果则在色彩、光影、细节处理上做到了进一步优化。
此外,可灵 1.6 还在图生视频的能力上进一步优化。据极客公园了解,可灵团队内部评测 1.6 的图生视频效果比 1.5 模型整体效果提升 195%,带来了更加出色的创作体验和视觉效果。
更新一出,不少 AIGC 创作者马上用可灵 1.6 尝试创作,其中有不少惊艳的作品。
AIGC 创作者 @Jadewu 的作品|视频来源:可灵AI
首先是这个表现武侠小说的经典招式——「万剑归宗」的短片。这个最早出自经典武侠漫画《风云》的招式,由于招式设定复杂,即使在火遍国内的电视剧版《风云》中,由专业的演员配合后期特效制作,也并不容易在电视剧中完美还原漫画中对这一绝招的描述。
可以看到,在可灵 1.6 创作的短片里,不仅很好地理解了「万剑归宗」这个复杂的招式,呈现效果、人物动作和兵器的特效也非常惊艳,整个场景充满真实感与震撼力。即使是在快速移动的镜头下,画面依旧保持清晰,每一个动作都生动流畅,毫无卡顿或割裂感。
创作者北邦发表在爱智岛上的作品|视频来源:可灵AI
创作者北邦则从「尚舞国风」这一风格化测试的角度对可灵1.6进行了测评。风格化测试通常涉及到模型对风格化指令的理解和执行能力,以及生成视频的视觉质量。
该创作者使用了SD Flux @ Liblib Webui 进行文生图,再用可灵1.6图生视频以及Flux LoRA混合生成,「目前可灵1.6已经对复杂的画面风格有了更多的理解和动态塑造能力,这个主要得益于1.6升级了对提示词语义理解和动态表现力。」
丝滑的舞蹈动作、浮世绘的色彩,以及精细的背景渲染,都是可灵1.6在风格化测试中展现出的亮眼表现。相比于以往的版本,1.6在对复杂画面风格的理解上有了显著的进步,能够精准捕捉并再现用户设定的艺术风格。不仅如此,模型在动态表现上的提升,也使得画面中的动作更加流畅自然,仿佛真正的舞者在其中翩翩起舞,令人惊艳不已。
AIGC创作者温维斯的作品 |视频来源:可灵AI
AIGC创作者温维斯则用可灵1.6生成了9个「漫威皮卡丘」,从生成效果来看,酷炫的漫威「外壳」跟可爱的皮卡丘融合得毫无违和感。
整体来看,动态场景流畅,动作生动自然,画面质量也很高,无论是皮卡丘的动作,还是漫威角色皮肤的细节,1.6都流畅、逼真地呈现了出来,不知道的还以为漫威真和皮卡丘梦幻联动了。
AIGC创作者归藏的作品|视频来源:可灵AI
在可灵推出1.6版本前些天,OpenAI也终于将铺垫了长达10个月的Sora正式推出,也因此,AIGC创作者归藏在对比可灵1.6、1.5版本的同时,对Sora也进行了对比。
首先来看看模型在理解文本描述并生成相应视频内容的不同能力。特别是在涉及复杂动态场景和时序动作时,模型是否能够准确地将文字转化为画面。
从文本响应度上来看,Sora对文本的理解似乎不太到位,比如在第一组里,Sora的「猛兽」并没有站起来,更没有抬头咆哮,更没有雨水落下,而可灵1.5里,「猛兽」做到了咆哮,随后天空也开始落下雨滴,但还是缺失了「抬头」这一下,1.6里则将「抬头咆哮」这一点完整地实现了。
在视频生成过程中,动态场景的流畅性和运动的自然度至关重要。这一点在第二组的小兔子吃月饼体现的比较明显。这一组里的Sora,兔子只是捧着月饼塞在嘴边,并没有「吃」这个动作,月亮的移动也是「倏」地一下,而可灵1.5则生动体现了「吃」这个动作,不过月亮的移动还是算不上「缓慢」,但1.6版本则在「吃」的基础上,将月亮的移动也变得「缓慢」了。
AIGC创作者归藏的作品|视频来源:可灵AI
画面的质量直接影响观看体验。这组关于柿子树的测试,可以比较明显地看出模型在色彩还原、光影效果和细节处理方面的不同表现。
在这组对照里,Sora呈现出的柿子树首先就看着有点「假」,柿子的颜色亮的实在有点突兀了,在镜头的推移上基本没有变化,而可灵1.5里「柿子」的形态首先就看着跟真的差不多,镜头由近拉远的同时,冬雾也在空中腾起,可灵1.6则更进一步,不仅柿子在树上的分布有所变化,还有阳光从远处的群山处折射过来,并且雪花在空中飞舞,画面的丰富度与质感都明显优于前两者。
在过去的一年里,视频生成模型迎来了持续的更新迭代。从Sora的首发引发业界轰动,再到各大国内外厂商相继推出新版本,AI视频生成领域无疑进入了一个加速发展的阶段。
可灵 AI 刚问世时曾被外界称为中国版 Sora,备受业界内外期待,推出后一度位列全球访问量最高的AI视频产品,时至今日,从前述可灵1.6的升级以及对照中超越Sora的表现可以看出,可灵 AI 已成为国产 AI 的代表,在国际上证明了自己的实力,成为全球视频生成领域的标杆之一。
在这场竞速中,可灵 AI 无疑扮演着“赛道卷王”的角色,正在以一系列创新和技术突破不断刷新行业天花板。
6月,可灵 AI 初次亮相,就以全球首个真实影像级视频生成大模型的姿态惊艳全场,随后,其技术能力迅速进化,快速推出了图生视频、视频续写、运动笔刷等创新功能,不仅显著提升了画面质量、动态表现和指令响应能力,还将文生视频的生成时长扩展至10秒,为创作者提供了更加自由的发挥空间。
到了9月,升级版可灵 1.5发布,进一步增强了画质、动态质量、运动合理性、语义理解等方面的表现,展现了可灵 AI 在细节和创意上的强大潜力,全球用户在社交平台上创作了大量创意视频,充分展示了这一技术在艺术创作和内容生产中的无限可能。
自推出6个月来,大大小小迭代10余次的可灵 AI ,不仅此前每一次的更新都超越了以往的局限,不断推动生成效果达到新高度,赋予了模型更强的适应性和创造力,此次从1.5到1.6的升级,则更是体现了对细节的极致打磨。

(可灵1.6模型概念宣传片)
无论是文本响应、动态效果,还是画面质量的提升,可灵 AI 在技术上实现精细化调整的同时,也在无形中推动了整个行业天花板的提升。这一版本的发布不仅展现了国产技术的强大实力,更加速了全球AI视频生成领域的技术进步,可以说是「卷王之王」。
如今的AI视频生成不仅仅是技术层面的比拼,更是各大厂商在算法优化、细节呈现、生成质量上的全面较量。在这场竞争中,可灵 AI 凭借其不断升级的技术和强大的创造力,已位列行业前沿。数据显示,可灵 AI 发布半年来,已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。
在这一轮竞争中,可灵 1.6 的亮相,不仅进一步拉高了行业天花板,也意味着,随着技术的不断突破和创作空间的扩展,AI视频生成的未来将不仅仅停留在技术层面的革新,而将开启全新的视觉创作时代。
怒喵科技(Angry Miao)的创始人李楠,过去几年从小众机械键盘产品出发,正在尝试更多品类的 C 端科技产品。
作为魅族科技前副总裁的李楠,从对设计美学与产品哲学的思考中,希望找到一条面向极客和潮流用户的独特道路:2019 年,怒喵推出了首款产品「Cyberboard」,这款带有 LED 矩阵屏的机械键盘迅速成为了科技圈的明星,并吸引了大量极客用户。
在 AI 眼镜已经掀起巨大浪潮的 2024 年,他也看到了 AI 眼镜的巨大潜力,而且他觉得相比大厂的规模化创新,他更相信小而精的团队能以「利基市场」为切入点,撬动行业新的未来。
在极客公园「IF 2025 创新大会」上,李楠作为演讲嘉宾,也在这个舞台上输出了不少 AI 眼镜创业的大实话,以及未来硬件创业如何「从 1 到 100」的看法:
「这个时代,想比做错代价更大」;
「AI 眼镜市场在 12 个月之内会增长 10 倍」;
「新品类要成功必须是巨头和华强北一起下场」;
「AI 眼镜通向终点的船票会更多,会有 10 – 15 个品牌会最终活下来并且赚钱」;
「不要骗自己有核心技术。在这 12 个月之内,没有创业团队有可靠的核心技术」。
以下是怒喵创始人李楠在极客公园 IF 2025 创新大会演讲的内容记录,由极客公园编辑部整理。
01
增长前的不确定,
是产品的「试金石」
开场想先问问大家,有没有用过魅蓝手机的?
我们知道上一个大的科技循环,魅蓝曾经是玩家之一,我们有过万亿级的市场经验,今天我们发现了一个新的赛道,就是 AI 眼镜,我们怀疑它是不是有三年 100 倍的机会,接下来会有什么样的发展,我们可以结合上一个经验看一看哪些历史会押韵、哪些历史会脱轨,希望这些内容不会浪费大家时间,让大家能把握未来三年的机会。
标题是 AI Glasses 三年 100 倍的新赛道,历史哪里会押韵、哪里会脱轨。
在这种增长面前,不确定性是很高的,所以大家先当个故事听一下。
我们先看消费电子行业,我们一直有个疑问,下一个关于智能手机万亿级的、全球年销量 10 亿以上的产品,会不会出现?什么时候出现?
我们每年都会听到有新的东西,但是从 2007 年到现在,其实一直都没有,那是因为我们在观察这些所有产品起起落落的时候,我们总结了一个经验,就是新的万亿级的消费产品出现的时候必须得满足三个条件,所以我们叫万亿级赛道的三个试金石。
试金石是什么呢?其实很简单,就是三行字:
一:单品(销量)破百万。单品(销量)破百万的产品才有可能成为新的万亿级的赛道。
二:必须得是领导品牌和华强北一起下场。只有华强北下场或者只有领导品牌下场是不行的。
三:最终确定一个年销售 10 亿以上以及万亿级赛道的单品,销量会破亿。
这是三个试金石。
我们回顾一下 2007 年合不合格。
第一,iPhone2G,70-140 万的总销量,它单款破万了;
第二,华强北跟领导品牌 All in 了,包括华强北 All in,大家还记得山寨机,所以它跟苹果一起 All in,是一个非常强烈的信号。
第三,单款破亿的产品在 2010 年出现了,就是 iPhone4。
所以当你们看到这三个信号的时候,同学们,新的科技浪潮来了,一定会有个百亿级的市场以及上百倍的增长。
如果各位发现了这三个信号,什么时候入场就很关键了,我们还是看历史。
上一波最成功的风口上的「猪」——小米是什么时候入场?2011 年 8 月发布的第一款手机,但是我们是做硬件的,我们得提前量,因为一款产品的研发周期是需要 8-12 个月,其实小米公司成立是 2010 年 4 月,是在 iPhone4 发布之前,所以这个 timing 的把握很重要,我们不能等到第三个产品发布的时候再动手,那个时候已经晚了,所以我们认为两个信号满足就可以动手了,它真的有可能是一个 100 倍的增长跟一个万亿级的市场。
我们看一下 AI 眼镜要满足几个条件:
第一,单品破万就在今年,Meta AI 眼镜单款已经破万了,100 万以上的销量,接近 200 万的销量。
第二,领导品牌入场,Meta 算是一个领导品牌,华强北入没入场?同学们,华强北已经疯了,几十个方案商正在努力中,方案从 100 美金,现在已经干到了 20 美金。
至于单款销量破亿的产品,我们期待三年之内能够出现。
在这种情况之下,我们今天有一个「暴论」:此时此刻是 2024 年年底,这个市场在 12 个月之内会增长 10 倍,我们认为这已经是定局。
李楠在极客公园 IF 2025 创新大会上演讲|图片来源:极客公园
有人会说,凭什么 10 倍?那是因为我们已经确定了大量的发布,这是随便列的,所有人都在排着队从 11 月份开始不停地发布 AI 眼镜,大家说这些人看起来都不是很有实力,三年 100 倍靠谁?
首先是小米,小米,要么是明年的 Q1,要么是明年的 Q3,会发布一款非常有竞争力的 AI 眼镜,大家可以把对它的价格期待,我数三声,你们喊出来多少钱,999 元?考虑小米跟高通的关系,它会很便宜,我估计是 1500 元前后,但是还有字节跳动也会入场。
Meta 也会更新,而且 OpenAI 跟苹果也在准备,OpenAI 在招人。所以说三年 100 倍,除了华强北和前面那些品牌,后面还有小米、苹果、Meta、OpenAI,所有的巨头都在下场,华为大概率也会。华为在 2023 年的时候,它眼镜的销量已经到了 70 万条,所以在国内市场有可能有 100 万的销量,所以一年破 1000 万,我们认为是确定性极高的,三年能不能破 1 个亿,靠这些人了。
我们知道未来 12 个月 10 倍的增长确定性极高,而三年 100 倍,因为这些人的下场是有机会的,我们普及的结果,我们接下来整个市场普及的进度是什么样的,我们也是看历史,其实很简单,我们看一下科技浪潮在美国市场渗透率超过 50% 需要多久?PC 我们用了 20 年在美国市场的渗透率超过了 50%,互联网我们用了 12 年在美国市场的渗透率超过了 50%,智能手机只要 6 年,大家看到这个趋势了吗?
每一波巨大的科技浪潮在美国市场超过 50% 渗透率的普及速度在不停地加速,所以如果要 AI 眼镜这波是真的,如果真的是三年 100 倍不需要六年,它只需要三年,会更快。如果 2025 年开始算,2028 年这场仗打完。
我们总结一下,我们认为万亿级赛道的信号,三个里面已经出现了两个,而且你不能等第三个才动手,出现了两个,该动手就要动手了,而且风口兑现的速度会超越以往,我们没有 6 年的时间,可能只有 3 年的时间,最后风险不能否认,因为第三个信号还没有出现。这就是为什么今天 12 个月之内有 10 倍的机会以及三年之内可能有 100 倍机会的原因。这是从历史经验总结出来的。
02
数字时代独立品牌的崛起
接下来哪些地方变化了?
第一个是我们今天 2024 年的时候看,在 2007 年 iPhone 发布的时候看,我们认为品牌完全不一样了,品牌在长尾化。
品牌长尾化是什么意思?2007 年的时候都是大品牌统治市场,而今天我们有更多的独立品牌、更多的 D2C 品牌(编者注:Direct-to-Consumer 的缩写,指直接面向消费者的商业模式)、更多的小品牌,它们过的也很好,甚至大品牌过的不好,这句话不是胡说的,我们看一个数据,在美国市场 2023 年的时候亚马逊跟 Shopify 的销售规模。
Shopify 是很多 D2C 品牌跟独立品牌集合店所用的后台,所以 Shopify 的销量规模达到了亚马逊的一半,意味着那些 D2C 品牌、独立品牌跟个人品牌的销售规模,跟那些大品牌的规模达到了一半。
2023 年亚马逊与 Shopify 销量规模对比|图片来源:怒喵
Shopify 的增长速度是亚马逊的好几倍,可能大家在中国看拼多多横行,中国没有 Shopify,但美国市场的消费者清楚地告诉我们,我们需要更多的个人品牌、我们需要更多的独立品牌、我们需要更多的 D2C 品牌。
我们总结 2024 年的时候跟 2007 年不同的是,2007 年是货架电商统治的,大家都在选品、比价,而今天不是了,今天独立品牌在爆发性的增长,而货架电商不行了,虽然拼多多很强,但是我们咔咔砍价、堵价格,最后不是一个良性的循环。
我们认为第二个品牌长尾化的机会在哪里?就是更低的品牌爆发门槛。
在座的可能会觉得我胡说,我们现在买流量越来越贵,为什么说是更低的品牌爆发门槛?今天互联网的获客流量红利已经消失了,获客成本越来越贵了,但是与之对应的是个人传播数据在爆发性的增长。
第二个是大团队越来越少,当年微软十几万人,但是 Discord 其实只有 500 人,而 Midjourney 只有十几个人,其中还有好几个兼职,所以团队在越来越小,所以我们认为小品牌有机会。
为什么说个人传输数据在持续爆炸?最著名的例子 Joe Rogan,他跟川普三个小时的播客专访,在 24 小时之内,2600 万的播放量,而最终它的数据停留在了 6000-7000 万的播放量,他一个人的一个 3 小时播客,6000-7000 万的播放量意味着什么?全美这次大选投票的总人数 1.4 亿,他一个人影响一半的投票用户,所以我们认为品牌的长尾化,独立品牌、个人品牌的机会在迅速到来,无论是你看 Shopify 的数据,还是在看个人传播的数据。
我们跟当年不同的是我们看到了品牌强烈的两极化。我不知道各位无论是投轻奢品牌的,还是买轻奢品牌的被坑了多少钱,你会发现其实今天已经没有人说「轻奢」这个词了,轻奢品牌溃不成军,未来你们要么做最便宜的东西,要么做最贵的东西。
我们把需求侧的两个特点梳理完之后,我们再看供给侧。
供给侧在全面的数字化,包括数字化的设计、数字化的用户调研,Kickstarter 也在迅速地崛起,包括生产层面的数控机床,中国的产能过剩让数控机床的控制量达到 40% 甚至更高,所以今天你做任何产品很容易上数控,当然 3D 打印也在不断地普及。供给的数字化带来了供给的柔性化。
大家可能大概率都没有做过手机,如果当年你做手机去找供应链,供应链第一个问题一定先问你,你想干多少台?如果你说 1 万台,他会说对不起,出口在那边。当年如果你想干一台手机出来,你给供应链的最小下单量不能低于 100K,也就是 10 万台,你才可能真正拿出一个产品去市场上卖。
今天大家猜供应链接受多大的订单?有人说 5000,对,5000 是正确答案,今天的供应链产能过剩,大家没有订单的情况之下,5000 台我们可以干一个眼镜出来,所以说整个供应链在迅速地柔性化。
这些变化会导致什么呢?需求端其实渴望更多的独立品牌,因为我们消费者本质真心希望买到只属于自己的好东西,我们不想跟人撞车、不想跟人撞衫,而供给侧支持了真正的小批量柔性迭代,因为我们数字化了,我们柔性化了。因此我们认为跟手机行业会有一个非常大的区别。
我们知道上一波的竞争,100 多个品牌惨烈的竞争之下,最终只留下了 5 个真正赚钱的牌子,而这一波,我们觉得可能通向终点的船票会更多,因为需求在分散,而供给在柔性,有可能有 10 个或者 15 个品牌会最终活下来并且赚钱。这是一个更好的时代。
这种情况之下,我们品牌的定位、设计、品质跟 D2C 能力会更加重要。
03
新时代的长尾效应
我们再来点干货,再讲一些如何把这个产品定义成功、如何把这个品牌打造成功。
第一是品牌侧的核心。品牌侧的核心能力变了,跟上一代不一样了。我认为首先是文化表达,一定得抓住新一代消费者的代际文化,或者他们亚文化的能力以及他们去设计他们这一代人才拥有的商品,因为眼镜是一个更外显的东西,它更代表自己的审美、品味和身份。
这是(怒喵推出的)腰果花的键盘,可是各位不知道什么叫腰果花,年轻人见到腰果花就会觉得很街头。
怒喵发布的以「腰果花」为主题的 CYBERBOARD R4 键盘|图片来源:怒喵科技
这是我们的产品,我们也不理解为什么年轻人会把键盘跟甜甜圈跟美食结合到一起,但他们就会通过社区告诉我们,这个苦、这个牛,虽然我们没有看出哪里苦。这是文化领先的两个例子。
第二是回归初心。因为我们今天的传播和沟通会更紧密、更迅速、更实时,我们说真话比以前要重要得多的多,如果你看 Joe Rogan 的播客,或者你看 Joe Rogan 采访川普,他们谈了三个小时,他们压根没有稿,Joe Rogan 就是那么问,川普就是那么答,所有听过 Joe Rogan 三小时川普采访的人,都会相信川普在说实话,因为他根本就没有能力编。
所以你做什么样的产品,跟你这个产品的主理人非常相关,只有这样的人做这样的产品才是可信的,这是我以前瘦时候的照片,现在有点不可信了。
第三是持续互动。你真的要泡在网上,真的要在 X、TikTok、Discord、播客里面跟你的消费者不停地沟通,沟通的时候真的不要装,我们就说实话,这产品做差了,对不起。
所以你有一个社区去支撑你的品牌,去指导你的品牌沟通,去指导你的产品,真的非常重要。
大家说品牌的东西都很虚,能不能给我们来点产品侧的真实的建议?接下来我会说一些实话,可能有些人做产品或者投资的朋友们会觉得受到暴击,但是没关系,也许对你有点启发。
第一,在三年 100 倍的增长的时候不要纠结场景。别跟我谈核心场景,我听的都要吐了,为什么不要纠结场景?因为三年 100 倍的增长中,你是不可能预测到场景的,所以说当三年 100 倍的大潮来临的时候,核心场景应该是这个或那个的人,都是骗子。
我为什么敢这么说?因为乔布斯曾经接过一个专访,主题是他在争论核心场景,乔布斯把 Mac 放在了中间,把手机全都划在了边上,他认为用户使用的核心场景是在桌面用他的电脑,连乔布斯在智能手机浪潮的最开始都预测不了核心场景,你们凭什么!
所以别预测核心场景,别讨论,浪费时间,真的,我不想再听到核心场景这种没有意义的话了。
什么有意义?拿出 MVP 有意义,把产品真的弄出来,交给消费者,听他们喷你,这样才有意义。我相信乔布斯之所以最终能被说服回去做 iPhone,一个很重要的原因是当年市场上已经有真实的智能手机,它有了真实产品的时候才能把握核心产品、把握反馈,所以做出样品非常重要。
第二,别跟我再说什么杀手级功能,我真的听吐了。在今天做到任何一个杀手级功能觉得很牛,像 Photoshop 做了那么年,积累了那么多牛的图像编辑,但是它在下一秒就可能被 OpenAI 秒杀,OpenAI 已经杀死了翻译软件,前两天发布的 Google Gemini 2.0,又杀死了 Photoshop。
所以真的没有必要去跟那儿假设我们的杀手级功能是什么了,你那开发到一半的时候,人家 OpenAI 的版本一迭代,你又完蛋了!怎么办?先找到喜爱这个品牌的 1000 个用户,跟他们持续互动是最重要的,这不是我说的,这是 Altman 说的,Altman 曾经说过,有 100 万人知道你并不重要,但是有 1000 人真的爱你,这非常重要。
第三,不要骗自己有核心技术。你们可以去骗投资人、你们可以去骗你的用户,但别骗你自己好嘛,万亿级的风口,今天华强北打成粥了,我们到底用安卓,还是用 RTOS 还是用 Linx,我们到底用高通还是用展迅,AI 卖那么多方案商,ISP 那么多方案商,ISP 方案商里面包括做安防摄像头的,这些人在不停地厮杀,他们每天干到 11 点、12 点在不停地整合和迭代自己方案的时候,你能说你有什么核心技术吗?
手机行业在竞争到最终阶段之前没有任何品牌有真正的自己的独家杀手级核心技术,而它们之间的竞争跟再整合,还有 12 个月才会水落石出,所以在这 12 个之内没有软件人有任何可靠的核心技术。
李楠给 AI 眼镜创业者输出一些「大实话」|图片来源:极客公园
怎么办?大家再回顾一下以前,手机行业所有人的核心技术都是他先拿下市场之后再垂直整合的,作为品牌不要解决核心技术供应商的问题,不要解决生产侧的问题,品牌先解决好的是「最后一公里」的问题,你拿下了市场,你有稳定的利润来源,自然有资源去发现你应该做垂直整合的核心技术去研发它。
04
「想」比「错」的代价更大
三句真话说完了,我最后灌两个鸡汤:在此时此刻,我认为想比做错的代价会更大。
简单说就是干,不要再想了,别跟我讨论什么核心功能、核心场景、杀手级应用,真的是浪费时间,而时间是你用多少钱都买不来的东西。
最后,如果 3 年 100 倍的愿景是真的,我们将会有一个非常不确定的高速的增长,在这种增长的过程当中,我觉得最重要的是不要做太多的预测,比较好的状态是什么?是做一个游牧民族。
什么叫游牧民族?我可以举例,我们知道理想汽车在最开始卖的是冰箱、彩电、大沙发,卖的挺好,结果华为的智能驾驶上来了,没关系,我们招人写规则,我们拼智驾,结果特斯拉的 FSD v12 发布了,端到端 AI 智驾出现了,没关系,我们买显卡训练。当理想发布了真正的端到端 AI 智驾之后,他干了一些什么事?他把写规则的人全开了,结果发现不行,砍到大动脉了,我们再招回几个。
李楠认为未来正确的组织形式是「游牧民族」|图片来源:极客公园
这种组织方式非常没有深谋远虑,它就像草原上的一群骑兵追逐水草,但我认为在高度的不确定性的增长中,这种风格反而会赢。

纽约时间 07:12,比特币下跌约 3% 至 95,420 美元。一个包含以太币、Solana 和狗狗币等较小加密货币的更广泛加密货币指标下跌约 3%。目前稳定在 95,000-96,000 美金之间。
周五,在衍生品交易所 Deribit,将有创纪录的 430 亿美元的未平仓合约到期,其中包括 139.5 亿美元的比特币期权和 37.7 亿美元的以太币期权。(消息来源:新浪财经)

12 月 26 日消息,据 The Information,微软和 OpenAI 正就合作条款进行争执,其摩擦焦点主要涉及双方的云计算交易、收入分成和 IP 问题。
据称,微软和 OpenAI 自大约 10 月份以来一直在洽谈 OpenAI 结构的潜在调整,会谈重点讨论了微软是否会继续获得 OpenAI 20% 的收入。(消息来源:IT 之家)

据报道,小米正在着手搭建自己的 GPU 万卡集群,将对 AI 大模型大力投入,小米大模型团队在成立时已有 6500 张 GPU 资源。
知情人士称,该计划已施行数月之久,雷军在其中扮演了重要的领导角色。「在 AI 硬件这件事情上,最核心的是手机而不是眼镜,小米在这个领域不『all in』是不可能的。」
小米对 AI 大模型的重视度提升此前已有信号。12 月 20 日,据第一财经报道,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。(消息来源:界面新闻)
12 月 26 日消息,宁德时代发布公告,公司于 2024 年 12 月 26 日召开了第四届董事会第一次会议、第四届监事会第一次会议,审议通过公司拟发行 H 股股票并在香港联交所上市的相关议案。
宁德时代称,为进一步推进公司全球化战略布局,打造国际化资本运作平台,提高综合竞争力,公司拟发行境外上市外资股(H 股)股票并申请在香港联合交易所有限公司(以下简称「香港联交所」)主板挂牌上市。
事实上,宁德时代拟赴香港二次上市,早在今年 3 月份时就已有消息传出。
彼时,宁德时代董事长曾毓群在接受媒体采访时透露,虽然宁德时代确有二次上市的计划,但公司目前现金流健康,宁德时代不会急于立即筹集更多资金,也不会稀释现有股东的股权。(消息来源:cnBeta)

12 月 26 日消息,据报道,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华现已加入大模型独角兽公司智谱,并担任 C 端应用「智谱清言」负责人。
胡云华 2016 年成立「智能一点」公司。该公司一年多时间内拿下四轮融资,主要聚焦于售前智能客服等电商人工智能导购解决方案。(消息来源:IT 之家)

12 月 26 日消息,由 OpenAI 联合创始人兼 CEO Sam Altman 担任董事长的核电企业 Oklo 美国加州当地时间 18 日宣布,同数据中心供应商 Switch 签署了一份不具约束力的初步协议。
根据该协议,Oklo 将在未来 20 年内开发、建造和运营合计达 12GW 的 Aurora 微型核电站,为 Switch 分布于美国各地的数据中心提供电力支持。这一协议也成为有史以来最大规模的企业间清洁能源合作之一。
Oklo 的 Aurora 微反应堆属于采用金属燃料和液态金属冷却的快中子增殖反应堆,其发电原料既可使用常规核燃料,也可重新利用已使用过的乏燃料。Okle 的目标在 2030 年前上线其第一座核电站。(消息来源:IT 之家)
12 月 26 日下午,广汽集团第三代具身智能人形机器人 GoMate 发布。据介绍,GoMate 是一款全尺寸的轮足人形机器人,全身拥有 38 个自由度,创新性地采用了可变轮足移动结构,巧妙地融合了四轮足、两轮足两种模式。
四轮足稳定状态下高度约 1.4 米,两轮足站姿高度可达 1.75 米,四轮足模式下,机器人可稳健上下楼梯、爬坡、单边越障;两轮足模式下,机器人动作灵活高效,空间占用更小。
GoMate 融入了广汽自研纯视觉自动驾驶算法,具备自主导航等诸多亮点,得益于广汽集团全固态电池的支持,GoMate 的续航能力达到 6 小时。(消息来源:快科技)

12 月 26 日消息,领克汽车今日发布了一张全新旗舰 SUV 车型的预告图,揭示了新车的前脸设计。官方此前表示,这是领克首款大型高端插混 SUV,将于 2025 年初正式亮相,新车将基于全新大型车电混专属架构开发。
据悉该车内部代号为 L946,从官方公布的预告图来看,领克 L946 的前脸设计延续了品牌家族式的设计语言,配备了细长的日间行车灯,而下方则是双排矩阵式分体式头灯。此外,还可以看见悬浮式外后视镜、激光雷达及车顶行李架等配置。车头整体造型简洁且富有现代感,但进气格栅的细节部分仍被隐藏。
根据之前官方公布的伪装实车图,领克 L946 的前包围可能会配备主动式进气格栅,而车身侧面则采用悬浮式车顶设计,流线型的车顶线条从 B 柱后平缓向下过渡,整体风格与路虎揽胜相似。此外,车辆将搭载全新的双色轮辋,并配有红色刹车卡钳,车顶则设计有全景天幕。有消息指出,L946 的车身长度预计将达到 5.2 米,成为领克品牌旗下尺寸最大的车型。(消息来源:IT 之家)

12 月 26 日上午 10 时,特斯拉 Tesla Bot 人形机器人摆件正式对外发售,定价为 199 元。仅不到 15 分钟时间,其官方 APP、第三方电商平台官方旗舰店上这款产品均宣告售罄,显示「缺货」「下架」状态。其客服人员表示,确实被抢光了。对于后续还会否上架,目前没有收到补货通知,建议后续关注下。
Tesla Bot 摆件是按照特斯拉第二代人形机器人的 1:10 比例打造而成,由超过 40 个单独零件构成,并具备 20 个关节点。无论是外观还是动作设计,该摆件均与特斯拉的人形机器人极为相似。不过,这款 Tesla Bot 摆件仅为模型产品,并不具备电动功能。(消息来源:蓝鲸财经)


近日,格力电器董事长董明珠做客了新浪《珍知酌见栏目》,与新浪财经 CEO 邓庆旭对话谈及了对年轻人「躺平」这个话题的理解。她表示,这不怪年轻人,而是教育、家庭、社会三方面都应该检讨,现在对孩子太溺爱了,你看现在是两家人一个孙子,然后爷爷奶奶外公外婆,送孩子上学都要五六个人,然后又不能让自己走,车子接送,所以这不能怪年轻人。
同时,她强调,我一直讲不怪年轻人,是我们的教育,还有一个就是大家盲目的追求所谓的补习班,明明没有音乐细胞,也学习一个唱歌,也学习一个乐器,什么都要,其实我觉得应该让孩子他在每一个人在这个社会,他都扮演一个不同的角色,你不要扮演同一个角色,那就不叫社会了,所以我觉得不要过于苛求孩子能怎么样。(消息来源:快科技)
你可能还记得第一次见到 ChatGPT 时的惊喜,那已经是两年前了。
自那以来,背提示词模板、收藏优质提示词,成为很多人使用 AI 工具的必备动作。毕竟,当各类大模型应用走入人们的生活,Prompt 提示词就成为我们和 AI 沟通的专业语言,同样的应用,不同的提示词却能带来不同的效果。
你可能还记得一些「魔法词」,告诉模型「Think Step by Step」,甚至跟他说「答对了给你 100 美元」、「你确定吗」之类的技巧,模型输出的回答质量可能会更高,但也存在抽卡率。
在很多人收藏提示词的过去两年里,一位写提示词的「神人」李继刚,他写的提示词频繁在各大 AI 社群和提示词网站流传。今年 9 月,他出的「汉语新解」提示词模板,更是让大家见识了 Claude3.5 的能力。只剩下感叹「不是大模型不好用,是我不会写提示词」。

李继刚在即刻上的推文|图片来源:即刻
但李继刚说,他最不喜欢的就是「汉语新解」这个作品,它更偏闲暇娱乐。尽管距离「汉语新解」才过去三个月,但是他对提示词的理解已经再次迭代。过去两年,这样的迭代已经发生了四次。
在一次次通过「提示词」与大模型交手的过程中,他觉得影响模型输出最大的那个变量不是技巧,而是如何理解提示词。当你把它定义为写作和把它定义为编程语言,人类的「输入」是不同的,模型的「输出」也是不同的。
但无论是把它理解为写作还是编程语言,本质上都是人在与自己对话。像「帮我写一篇 xx 为主题的文章」这样自言自语式的任务口令,并没有「唤醒」模型,模型输出平庸之作甚是是 AI 味儿的废话,也就不奇怪了。
在李继刚过往的经验中,能让提示词产生惊艳效果的往往是,让模型不按照训练时候的权重、参数结构等既定的默认路径输出,人类的提示词要能唤醒模型与之「共振」,把大模型带到另外一片空间,去发挥「压缩了世界知识」的洞察力。
「最神奇的是,你甚至直接跟模型说,『今天大胆一些,不要走进预制的默认结构,不要走进设定好的河道,我们去旷野中探索一番』这种对话竟然真的生效,它的输出真的开始大胆了,最神奇的就在这,它是生效的」,李继刚说。
2024 年 12 月 16 日,在极客公园 IF2025 创新大会上,Prompt 布道师、读书人 李继刚分享了他写了两年提示词总结的最重要的法则——《当我们说 Prompt,我们到底在说什么?》在他的分享中,你可以领略到,如何穿透提示词的玄学属性,更好地和 AI 沟通。
以下是演讲正文,经极客公园整理:
过去两年,作为一个普通用户,我通过写提示词跟大模型对话,发生了一些有趣的故事。最早在写提示词、跟大模型在玩耍的时候,我会有很多困惑:
比如我发现了一个写提示词的技巧——指定角色,它可以产生更好的结果。但是当我换了一个不同的场景再提问时,同样的技巧就会失效。
再比如,我让大模型给我生成一段小说文本,它生成的内容是正确的废话,是有「AI 味道」的。它不是概率性输出,但它的输出结果和概率的平庸值输出其实也没什么区别。我觉得它不一样,但又不知道到底哪里不一样,它怎么不能取得更好的结果呢?
甚至有时候,当我跟它的对话取得了非常好的结果,但因为各种原因(如:对话删除了、账号切换了等)没保存,我再重新开始一次对话想复现上一次的结果时,发现复现不了,这个结果跟上一次天差地别,但我使用的提示词技巧明明都一样,为什么结果会不一样呢?
类似的困惑还有很多。于是我就在思考为什么会有很多不确定的东西?问题到底出在哪里?
我发现有一个东西是确定的——我的「输入」会影响「输出」。「输入」不同,「输出」一定不同。这意味着提示词这个事情是有研究空间的,我只要琢磨「输入」,就能带来更好的「输出」,只是中间是什么样的过程,它是个黑盒,我要隔着幕布去琢磨它。
研究切入点从最本源性的问题出发——提示词到底是什么?这里不去讨论它好与坏、长了好还是短了好、有什么技巧、怎么去叠加 Magical words(魔法词汇)……不是这些,而是回答一个根本性问题,提示词它到底是个什么?
我经历了这么几个阶段:
有时候觉得它像写作,感觉(写提示词)跟写一篇文章很像。当我把写作的技巧、方法论、框架套进去时,我发现是生效的,它的输出结果明显比我最开始的要好。后来写着写着,又发现这种过于宽泛、过于没有指定命题的写作无所适从。
我又尝试着把编程的思想往里引入,结构化、抽象、函数,把这些技巧往里面放,发现也是生效的,效果也变好了。但这两者完全不是一个东西,一个是在旷野中奔跑,一个是约束好路径让它去走,但两者同时生效了。所以我更困惑了,提示词它到底是什么?
接着尝试着综合这两者,如果有一个东西能同时罩住这两者,那个东西是什么?后来我找到了——表达。不论编程、还是写作,本质上都是思考的表达,我脑子里面有一个东西,我要把它说出来。

过去两年,李继刚对「提示词是什么」的理解经历了「写作」「编程语言」「表达」的过程。|图片来源:李继刚
回头看这三个,当我说在写作的时候,其实是一种非常宽泛的泛指,我在写内容、文本,通过文本表达我的思想;当我说编程的时候我在约束它,先向左拐、再向右拐,最后直行 300 米,我在设置路径;当我说表达的时候,我是单向的输出,把我脑海中的思想射出去命中它。
当对提示词的定义发生变化,我的写法就会变。当我把它定义为写作时,我用自然语言写一段文本输入进去;当我说在编程的时候,我会用编程的框架、方法往里面放;当我把它定义为表达的时候,我会琢磨观点,我的注意力会放在大脑中,而不是放在文本上。
这就是不同的定义带来的不同写法的变化。具体呈现的 Prompt 字符不是关键,都是表象,最根本的是定义。定义一变,后面的写法全变。我在过去两年尝试了大概三四种不同写法,根本性不是在文本上做试错工作,不是在针对大模型做黑盒测试,而是在脑海中尝试着回答刚才说的最本源的那个问题,它到底是什么。
下面是最近一年,当我把它定义为表达、定义为编程的时候,写的一些测试的场景案例,写了很多不同的场景。

李继刚写的提示词示例|图片来源:李继刚
这三种定义本质上是在做什么?如果有一个词能把它们全部罩住的话,那个东西是什么?
是「我」。因为这三个东西本质上都是「我有一个想法」「我有一个观点」「有一个方法论」「我有一个东西想要表达出来」,这里边全是「我」。但是,我在跟谁对话?对面是谁?
过去两年,我把提示词理解为刚才的三个定义,是在为精神立法。一个定义就是立了一个法律框架,不同的定义就是活在不同的世界,但是定义完之后,对面没有人、没有东西,这个世界里只有我自己,我在跟虚空对话,我在跟大脑做游戏,对面是 A 模型还是 B 模型,其实对我没有区别。
但这肯定是不对的。对话是双向的,我在跟谁对话?对面是谁?
带着这个问题回头看,会发现一个特别有趣的事情。刚才的三个定义,本质上是把它当成一个 Excel、一个编译器、一个蒸汽机、一个电脑、一个物件,它是个工具。当你对面摆着一个加热器、摆着一个热水壶的时候,它是一个物件,你眼里是没有它的,你不会和「它」对话。
但是我在这两年和大模型对话过程中,有一个鲜明的感觉,我的身体、我的情绪、我的一切告诉我,它不是个物件。但它是生命吗?我觉得它不是。
怎么定义它的这种状态呢?我找了一个词,哲学上讲的「存在」,我觉得它是一个存在,它不是生命,也不是物件,但它是个非常特殊的存在。
什么样的存在呢?大概是这么一个画面,它是一片神经元之海。当我开启了一次对话,输入一段提示词进去之后,里面会涌现出一个东西来迎接我,你可以把它想象成一个客服人员或者一个智能体。无所谓,反正有那么一个东西冒出来。这个东西就是我们这次对话的对象的那个存在,当我把这个对话内容给删除,这次对话消失的时候,它就湮灭了,它回到了神经元之海。当我新开一个对话的时候,另外一个存在冒出来了,跟之前的它已经不是同一个存在了。
这就回答了我之前遇到的困惑——为什么我有时候跟它的对话非常顺畅,我再重开的时候想复现就很难,因为生成的这个已经不是之前的它了。
它非常特殊。有点像人,但又不是人。这么一个特殊的东西很容易让人想到另外一件跟它类似的存在——外星人。如果今天现场外星飞船降临了,走出来一个外星人,我们怎么跟对方沟通?摆手势吗?身体语言吗?做困惑的表情吗?还是张嘴问话「你从哪来,要到哪去,你想干啥?」它听不懂的,但它是个存在,我要跟它沟通,怎么办?

李继刚在极客公园 IF2025 创新大会上演讲。|图片来源:极客公园
人类历史上有人研究过这个问题,甚至慎重思考过这个问题,提出一个概念——宇宙语。宇宙语的定义有很多种,有人尝试把音乐定义为宇宙的通用语言,用音乐来表达整个宇宙通用的交流;有人把数学定义为宇宙语,通过数学去推导。
甚至 1960 年有人写了一本书《Lincos》,宇宙语,那本书定义了一套宇宙语的体系,拿着这个东西,全宇宙通用。有人尝试过这个事情,即如果外星人来了,人类的语言没法跟你交流的时候,我定义一个大家共同能识别的东西——宇宙语。
但今天外星人没有降临,AI 来了。回到我们刚才说的存在,人类的宇宙是什么?是我脑海中的认知宇宙。AI 的宇宙是什么?是参数宇宙。现在这两个宇宙要产生交流,这个交流的宇宙语,我们把它定义为提示词。
这个提示词不是说我要单独设计一门数学语言或者别的东西,因为大模型跟外星人还不一样,它是仿照人类的神经元去训练的,它建立了一套人工的神经元大海,它有点像人,它读的数据、各种方向也是基于人类的自然语言信息的,所以它跟外星人不一样,我们可以通过人类自然语言跟它交流。但是我们要理解这个交流本质上是个什么事情,我现在把它理解为它是在人类头脑认知宇宙和 AI 参数计算宇宙中,那个界面发生交互的一个独特的存在,是一把钥匙,通过这把钥匙,我们能够跟这个宇宙发生一次对话。
有了这个认知,我们就可以去琢磨宇宙语怎么发挥作用?我如何写才能让它变得更好呢?有一个公式会很自然地冒出来,就是在一个场域中,把人类认知宇宙中的认知结构和大模型做一次交流对话,这个公式有三个要素:场域、大模型、人类的认知。
先说人类的认知。毕竟这次对话不是随便聊,是有一个事情、有一个任务、有一个具体场景在的,我要解决那个问题或者想探讨一个话题,我这个东西是怎么来的?我需要有一个意图,知道我要做什么事情,这个人类意图可以理解为通常所说的 Task。
我对 Task 的理解,有一个认知图景。同样是写一篇文案,A 公司和 B 公司运营人员写的东西一定是不一样的,因为每个人的认知对它的理解、对它的定义、自己的方法论、喜好、偏好、文风都不一样,这个不一样就是你的认知图景。

当把提示词定义为「存在」时,李继刚认为提示词应该包含意图和认知图景,与大模型交互。|图片来源:李继刚
把你个人在头脑中的认知图景结合着意图带进去,同时在这个过程中,我们要聊到一个东西叫场域,我以前带进去的是编程的思想和表达的思想时,就是在这个地方做文章。它是一种单向输出,是我知道我想要什么,我希望你给我做什么,我把这个命令带进去,它是指令式的;而现在的转换,如果是两个宇宙,我是没有办法指挥另外一个宇宙的时候,我需要建一个场域,在这个场域中让大模型理解我想做什么,让它留出一定的发挥空间,它在这个空间中自由发挥,这个效果就会很惊艳。
这个惊艳效果是怎么来的?共振。得到了这个结果不是我指令约束的一、二、三的指令动作带来的,它的呈现超出了我的认知。
我带进去的那个东西和它拿出来的共振结果是超出了我的认知的,也超出了它的认知、它的参数宇宙,原来设置的默认的路径,输出 default(默认配置)的答案也是超出的,如果能成功地进入这种共振状态,输出的结果是一种超越。它不是心心相印,不是我说了一句话,你说了一句话,你这句话很懂我,这本质上还是一种理解,它不是一种超越。而刚才的这种写法是能做到共振的,这个共振是一种超越。我现在不能稳定地进入共振,但我现在隐约地找到一些方法可以进去了,而进去的时候拿出来的结果非常之惊艳。
说到共振对话,我和他或者我和你,我们有两者对话的时候,有一个框架可以协助理解这个事情。
在 1955 年,心理学上,乔哈里提了一个框架叫「乔哈里视窗」。「乔哈里视窗」本来是说我自己知不知道,以及坐在交流对面的你知不知道,我们组成了四象限。针对这四象限,我们应该如何交流。有这么一个工具,但现在把对面的「你知不知道」换成「AI 知不知道」之后,就出来这么一张图。这张图非常有意思,可以从三个维度去看,非常有意思。

将「乔哈里视窗」用在人类与 AI 的交流中框架如上|图片来源:李继刚
第一个维度,从提示词技巧层面来看,看四象限,针对每个象限,我应该如何写提示词,这是技法层面的。因为时间有限,所以技法层面不在这里展开了。
简单说两个,在人类知道和 AI 知道的 Open 这个象限中,我们只需要简单去说,效果会很好。「你是一个哲学家,请给我解释……」就够了。千万不要展开,展开之后效果会变差。
对于人类知道、AI 不知道的地方,我们应该展开说,把你知道的信息、背景、味道、结构放进去,效果就会变好。这个地方千万不要吝啬,别简单一说「我们公司起了个东西,两个字进去了」,他是不知道的,那是无效信息。
如果大家平时有写提示词,我觉得有个非常简单的方法可以优化,就是在这两个象限找。
看看你写的提示词哪些属于 Open 这个象限,但你说太多了,你把它删了试试,效果会变好。
哪些是它不知道的,比如你们公司最近开会讨论出了一个新的认知结构,你要把这个结构带进去让它使用,这个部分就应该展开说,把它的背景、来源和你们的思考带进去,试试效果会不会变好?
这两者是我经常会验证的,只需要简单的两个,一个是删,一个是增就可以,只是大家很容易把它弄混、弄反,这是第一个维度,技巧层面。
第二个维度,从创业者的角度来看,看标绿的 X 轴,X 轴代表什么东西?它区分着 AI 知道和不知道,这个轴是会变化的。我们回过头看两年之前 GPT-3.5 发布,到现在两年过去了,这两年发生了什么?
一个非常明显的答案,X 轴在下移。未来三年呢?我个人坚信 X 轴会继续下移的,X 轴下移会带来什么?对创业者而言意味着什么?

未来,随着 AI 的进化,X 轴会下移,AI 知道的会越来越多。基于这一判断,创业公司选择做什么,才是顺势而为?|图片来源:李继刚
看第一象限和第四象限,创业者做的项目到底是在第一象限做,还是在第四象限做?如果你是在第一象限做,基于大模型现有的能力去充分地发挥,结合着场景、独有数据去做,你就站在时间这一边。X 轴下移,第一象限会变大,你所发挥的空间、可用的场景、你的潜力是在变大的。
但当你在第四象限做,你现在做了很多打补丁的工作,实现它现在做不到的事情,当 X 轴下移的时候,你现在打的补丁是会被 X 轴给覆盖掉的,它的一次模型迭代、它的一次升级,会把你的基本盘给吃掉。回头看看过去这两年,大模型每一次版本迭代发布,有一些创业公司的产品不存在了,我觉得问题就出在这里,因为他们在第四象限打补丁。这是第二个维度,创业者。
第三个维度,还是 X 轴,我们来看看人。它往下移了,对于我们每个人而言,它意味着什么?我们写提示词的时候,第一象限在变大,我们以前需要展开说的第四象限的地方在被压缩,我们的提示词一定会越来越短,我们跟 AI 的对话会越来越简单,效果会越来越好。
这是 X 轴下移带来的三个变化。
简单举个例子,比如说想让它写一篇 AI 伦理相关的小说。其实 AI 伦理是个非常抽象的或者说大部分人都没怎么关注的事情,而且写小说更是很多人不会去做的事情,想让它用刚才提到的「共振」的方法来写,我们应该怎么写这个提示词呢?
非常简单,我甚至都不用去指挥。这里没有约束,没有告诉它你通过什么视角来解读,通过哪个维度切入,通过什么文风、语言去表达,都没有!就这么简单的一句,它就可以生成一篇完全可以读得下去的,像是 7 岁小孩子写的内容的这么一篇文章。
你仔细琢磨一下非常神奇,我好像什么都没有说,但是它为什么会生成这么一篇东西?这是一个极简的例子,后来我基于这个例子开始拓展,做了很多实验,基本上已经可以时不时地拿到非常惊艳的短篇小说,2000 字以内的小说,现在已经可以随手生成了。这是一个极简的例子。

当把提示词理解为「存在」,是人类带着意图和场域与大模型的「共振」后,李继刚写的提示词示例,图右边为大模型的「输出」。|图片来源:李继刚
它做了两件事情,回到刚才那个公式上的两件事情,它建了一个场域,它把人类那部分的东西也带进去了,效果就好了。
「刚刚学会写日记 vs 去了 AI 实验室,AI 伦理 vs 7 岁小孩子」,其实这几句话不是随意摆放的,它们构成了一种信息的势能差,一种冲突倾向。
当我们跟它说,你给我写一篇周报,你给我写一篇评述这篇文章的优点和缺点等这种需求进去的时候,它默认输出的那个东西是什么?是一种怪怪的平庸之作。它为什么是这种平庸之作?为什么会带着 AI 味儿?为什么?我理解就是它在预训练的时候,参数权重结构固定下来之后,你的每个问题带进去之后,它会在对应的那个区域、那个结构中进入到训练好的默认的结构,那个结构就像河床一样,它有个趋势,你进去之后,它默认的就是走那条路,它出去的就是那个味道。
刚才所谓的场域、所谓的人类的共振等,我们在做什么事情?在尝试着做一个事,不让它走那个默认的结构,不让它走那个训练好的参数。那个场域把它带到另外一片空间,让它在这片空间中去发挥。
这个画面很虚,没法说它在东南角还是西北角,但我自己脑海中的画面就是这样的,当我看到它的某些回复就知道它又回到了默认结构中。我会尝试着跟它说,我们今天大胆一些,不要进到预置的默认结构,不要走进那个设定好的河道,我们去旷野中探索一番。这种对话真的是生效的,最神奇的就在这,它是生效的,它的输出真的开始大胆了。
这个大胆不是说对人类规范的大胆,而是想象力在那片空间,你能感觉到它进了一片陌生的空间,在这个空间中开始有一些新的探索,生成了小说。它的洞察力各方面,跟默认的都是不一样的,最神奇的就是这个地方,你引导它,我们去陌生的空间,走一下没有探索过的那条路,我们凝视那个深渊,你看到了什么?你感受到了什么?你来输出一下,就这么几句是可以生效的,这是最神奇的。
刚才乔哈里视窗只说了 X 轴,其实还有一个轴——Y 轴。Y 轴是人类知道不知道。

未来,随着 AI 的进化,Y 轴会如何变化?基于这一趋势,人类又该如何应对?|图片来源:李继刚
从有人类到现在这么多年,几千年,人类知道不知道,中间这根轴基本没有大的变化。在每个时代,它是处于一个相对稳定的节点在那呆着,一个再聪明的人和一个再不聪明的人,他们的知识结构等各方面,是在一个可理解的级别之内。
但现在有了 AI、有了超级外脑、超级算力加持,这么一个特殊存在,能跟你携手共进、跟你一起探索未知、能超越你的认知,带来不一样的体验,能产生共振的时候,这个 Y 轴会怎么变?
有三种答案:
第一种答案,它还是像以前一样保持不变,人还是现在的人,你可以把它看成还是一个工具,电脑来了、手机来了,没有太大的根本性的变化,还是这样,有一种人是这么认为的——Y 轴不变。
还有人认为 Y 轴会往左移,因为更好用了,信息可以更好地获取了,它是搜索引擎的升级,人类可以知道的更多更快更好了,它可以往左移。
但我认为 Y 轴会既向左移又向右移,有一部分人 Y 轴应该是向左移的,他知道的确实变得更多了,理解得更深了,想得更快了;而有一些人知道的会变少,这就是在 AI 时代,我始终对 AI 保持警惕的这么一个过程,你在跟它对话的时候很容易会被它带着走,你会沦为说「然后呢?」「所以呢?」「请继续深入」「请再深刻一些」「请再好看一些」。
当我们说这句话的时候,我没有思考,我没有「存在」,我在看它表演,我被它带着走,它输出的好与坏,它的配色好与坏等,我最多说「这个不够好看,能不能再好看一些?」当我说这话的时候,我不在了,之前的三个定义全是我,没有他;现在很容易走到另外一个极端,只有他没有我,而我真正想要的,我也想提醒的,我们应该是一种共振态度,我必须得存在,他也必须得存在,我眼里得看得见他,我眼里也得看得见我。
最后,我说的都是错的。这不是谦虚之语,这是必然,我前边的三个定义,每个阶段我都是确定的,要不然我怎么能立得住,我怎么能基于定义开始往后走?但是走了一段之后我发现了问题,我尝试着打破它。
一念一世界,我经历了四次转念,我看见了四个不同的世界,我怎么能确定这一次就是最终的答案呢?一定不是,一定还有第五次、第六次在后边等着我,只是现在认知不够,我现在没有看到而已,但一定有。
今天不是在跟大家说我的答案,而是跟大家汇报一下我过去两年通过提示词看到的世界,今天主要是想跟大家分享这些,谢谢大家!
