Skip to content
  • 51蛙吖蛙元宇宙电脑版入口
  • 51蛙吖蛙官网
51蛙吖蛙 – 3D社交空间

51蛙吖蛙 – 3D社交空间

投稿、社交、聊天就来51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

分类: 科技

WPeMatico Campaign中添加的类别

vivo X200 Pro :再见「高山」

在电影《一代宗师》中,叶问在与北派武林的盟主切磋技艺「搭手」前,被「世外高人」账房先生指点:过手如登山,一步一重天。

在主流的理解中,这句话的意思是在告诉观众:切磋本身就是一种进步,不断的进步的过程,就像是在攀登重重高峰一般。

而叶问的答复是:「我就是要见识一下高山」。

2023 年,彼时手机影像领域的竞争,伴随着数款影像旗舰的发布,进入了白热化的阶段,无论是相关的相机模组硬件还是软件技术都迎来了一次重大的迭代浪潮,同时也对「手机摄影」这件事提出了更多新问题:就好像大家同时在攀登一座高峰,但眼前的终点尚未到达,就又看到了另一重高山。

在这种时代背景下诞生的 X100 Ultra,作为 vivo 十年深耕移动影像领域的集大成之作,在发布后颇有「一招定胜负」的意味。即使站在今天回顾,vivo X100 Ultra 的存在,毫无疑问让 vivo 在「全能旗舰」之上的手机影像领域,奠定了「灭霸」的江湖地位,它至今仍然是综合长焦摄影能力最强的旗舰手机。

vivo X200 Pro | 图片来源:极客公园

作为一名旅拍摄影师,在长期使用过 X100 Ultra 后,我就会觉得它就是我在手机长焦摄影中一直追求的那个「高山」。在知道 X200 Pro 主要的是见识过其实力之后,对接下来的【下放】就不会有任何惊喜。

但实际上我在体验过 X200 Pro 后,见识到的是「另一重山」:如何在保留最原汁原味的「灭霸影像」的同时,最难的是如何也能兼顾好旗舰手机用户的日常需求,不「偏科」。

设计

不仅影像部分脱胎自「灭霸」,X200 Pro 在整体的设计概念上,也与它的前辈高度接近:我们这次拿到 X200 Pro 刚好还是 X100 Ultra 率先引入的同款钛色,无论是边框的拉丝还是相机模组的太阳纹工艺,都透露出 vivo 在高端旗舰系列手机上最终选择的「家族化设计」有着非常的自信。

 

vivo X200 Pro(左)与 vivo X100 Ultra(右)边框设计对比|图片来源:极客公园

虽然整体 ID 设计相同,但 X200 Pro 由于塞入了 6000mAh 半固态电池,以及保留了同款相机模组,与边框呼应的金属色背板。机身的握持感与观感都在进一步提升的同时突出了专业级产品的属性。同时辅以在相机模组的环状设计的细节处理加强整体调性,同样是 vivo 过去几年在旗舰手机系列上屡试不爽的技法。

 

vivo X200 Pro 镜头模组设计 | 图片来源:极客公园

在摄像头装饰圈上,vivo X200 Pro 采用抛光拉丝的工艺与镭雕字符搭配,在原本这套 Ultra 的 ID 设计概念上,展现出一种酷似机械腕表的精密感。同时通过这种代表严谨、高端的意象,向外界传达自己作为「旗舰产品线」的地位。

硬件

相比 Ultra 产品线,Pro 更强调「全能旗舰」的定位,这往往意味着用户需要的是一台「六边形战士」手机。无论是续航、屏幕显示效果,还是性能,都是组成旗舰手机日常使用体验的重要一环。

虽然一直强调下放,但还是需要注意到是 Pro 与 Ultra 两条产品线售价与目标人群上都存在着不小的差异,这些都直接决定了 X200 Pro 不是也不可能是 X100 Ultra 的迭代机型:这一客观事实反而让 X200 Pro 上更具挑战,「堆料」如何打动用户,也是考验手机研发能力「基本功」的重要场景。

X200 Pro 搭载的是联发科今年旗舰 SoC 天玑 9400,配合 6nm 制程工艺的蓝图影像芯片 V3+,同样是 2024 下半年影像旗舰手机中的顶级算力组合:

与过去数年的主流认知相反,手机 SoC 硬件算力如今在计算摄影中正在变得越来越重要,此次 X200 Pro 也因为图像大模型的加入,让充沛的专用算力在影像表现再提升中,更有着不可或缺的重要地位:尤其是在加入 4K60 帧夜景视频超分算法以及专用的舞台录影模式后,都是需要依赖高性能本地计算能力才有可能实现的场景。

 

vivo X200 Pro 硬件配置|图片来源:极客公园

另外,X200 系列首发的公里级无网通信也是功能上带来的新亮点:X200 系列的公里级无网通信作为基于 LoRa(Long Range)扩频技术诞生的产物,能够在完全无网无信号的环境下,可达公里级(对讲可达 2km/广播可达 4km)点对点、远距离的通信,无论是户外露营还是极端天气等情况下,都能派上用场。

「灭霸影像」

前面提到,作为长焦爱好者,我对 X100 Ultra 上搭载的那颗两亿像素蔡司 APO 潜望长焦仍然有难以忘怀的深刻印象:毫不夸张的说,那迄今为止仍然是手机品类中综合表现力最强的长焦镜头,没有之一。

在 X200 Pro 上,作为承载着「灭霸下放」概念的一款手机,相机模组中这张「王炸」被原汁原味的保留了下来;其中不少收获好评颇多的功能:例如 85mm 人像焦段、长焦微距等,以及抗眩光的蔡司 T*镀膜,都被直接继承了下来。

 

vivo X200 Pro 影像|图片来源:极客公园

在实际体验中,vivo X200 Pro 在长焦领域的表现与其说是「下放」,不如说是「强化」:同样的景色再用 X100 Pro 的同款长焦硬件上阵,画面中心的锐利度比起 X100 Ultra 甚至有所增强。vivo 还通过新增大模型画质增强技术,

20x 以上提升细节,来获取到更锐利的画面细节。

在超长焦样张等效 200mm 焦段的测试中,引入图像模型的超长焦表现会更加锐利。通过对画面细节边缘的自动计算处理,让观感进一步变得清晰和细腻。

 

vivo X200 Pro 主摄&等效 200mm 长焦对比|图片来源:极客公园

在长焦众多使用场景中,最能将这颗两亿像素 APO 蔡司长焦性能展现到淋漓尽致的场景,还是 vivo 独有的「舞台模式」:这一模式兴起于众多演唱会 live 爱好者吐槽现场无法带入专业影像器材与长焦镜头,但又希望能记录下舞台上的瞬间,这同样是一个强绑定手机影像超长焦性能的使用场景,因此在 X100 Ultra 首次发布这个模式之后,在小红书上就迅速收获了众多拥趸。

另外 X200 Pro 还引入了对 Live Photo 动态图片的支持:这同样是小红书用户不会陌生的一个功能,在 iOS 支持多年之后,Android 阵营也在这一领域投入了更多资源,未来 vivo X200 系列的动态照片功能,还将支持抖音等平台。

说到城市风光,这一代 X200 Pro 在相机 UI 中的一个显著变化,是在原本收纳众多功能的【更多】菜单迎来了大刀阔斧的改变:原本超过二十个的功能选项减少到了 8 个,取而代之的是名为「风光」的摄影模式。

 

vivo X200 Pro 相机中的「更多」菜单|图片来源:极客公园

在这个新整合的「风光」模式中,你其实很难直接找到传统影像旗舰手机常见的各种模式设置,将原本的夜景、月亮、星空、时光慢门等多个模式合并为「风光」模式,一键拍出风光大片。

 

全新的【风光】模式中新增的两种摄影风格|图片来源:极客公园

其中新增的两种风光摄影风格,尤其适合在城市风光摄影为主题的场景中使用。

 

vivo X200 Pro  长焦风光模式摄影| 图片来源:极客公园

在最强 85mm 超高清人像的基础上,这次还加入了为这颗长焦定制的 135mm 焦段优化:135mm 镜头在人像摄影中有着独特的地位,由于能同时兼顾压缩背景/突出主题,也更接近人眼自然视角,因此被许多摄影师视为经典的人像焦段。实际体验中,135mm 焦段有着不输给原生焦段的画面解析力与对人像细节最重要边缘处理能力。

 

vivo X200 Pro 85mm 与 135mm 人像对比| 图片来源:极客公园

OriginOS 5

这次 X200 系列在软件上的最大亮点,自然是全系首发 vivo 最新的 OriginOS 5 系统。

OriginOS 每一代都带有当时智能手机用户对手机操作系统迭代需求的影子:从最初的 OriginOS,到 2023 年发布的 OriginOS 4 预览版,其实都是对「下一个时代的手机操作系统应该是什么面貌」这一问题所做出的不同阐释。

OriginOS 4 曾是国内最早一批试水 AI 大模型的移动操作系统的选手,其中包括「端侧+云端混合大模型」、「相册 AI 能力整合」,如今都变成了各家的通用配置,这次 OriginOS5 最大的看点,自然也是在 AI 能力上的进一步深入与进化。

「原子岛」是这次新系统中,最大的亮点之一:虽然在形式上与苹果的「灵动岛」看起来很相似,但实际内核继承自 OriginOS「原子通知」的运行逻辑,能够精准智能地进行信息展示:包括传统的航班/高铁信息,验证码/导航,以及各种借助 AI 意图识别,「原子通知」预判到的你的需求。

例如,如果你在相册拖动图片「上岛」,原子岛就会自动展示出图片可能的分享平台,这样的交互也是打通应用生态的另一种实现方式,例如发朋友圈、小红书等很多原本需要在多个应用之间跳来跳去操作,全程再也无需离开你原本正在使用的 App,效率大幅提升。

 

原子岛的快捷分享入口功能 | 图片来源:极客公园

除了一步即达,vivo 还将原子岛做成了一个可以停泊各种信息的「码头」:例如此前包括 OriginOS 在内的主流手机操作系统,在数字健康这件事上都做了「应用使用时间限额」这件事,但都很难将实际的限制时间更进一步展示给用户,而 OriginOS 率先通过原子岛的方式,将时间限额以倒计时的方式直观的展示出来。

 

「原子岛」展示应用限额时间|图片来源:极客公园

结语

在 vivo X200 Pro 上,我看到的与其说是「下放」,不如说是沿着前行者已经画出的道路,更进一步。

不只是技术下放,同时也是对新高峰的探索。

 

vivo X100 Ultra 与 vivo X200 Pro | 图片来源:极客公园

X200 Pro 集专业级影像和顶级旗舰体验于一身,用 Ultra 级灭霸影像刷新移动影像新体验,具有「一超多能」的旗舰实力。

 

相见高山的 vivo X200 Pro,不知道自己,其实已经成为一座高山。

浏览量: 96

游戏科学跃居 Steam 发行商收入榜前列;Adobe 推出 AI 视频生成器,迎战 OpenAI 和 Meta;小鹏 P7+预售价 20.98 万元起,订单已超 3 万|极客早知道

英伟达 CEO 黄仁勋展望公司未来:坐拥 5 万名员工、部署 1 亿个 AI 助手

10 月 14 日,英伟达 CEO 黄仁勋(Jensen Huang)在「Bg 2」播客中表示,他希望英伟达有一天能够成为一家拥有 5 万名员工的公司,同时部署 1 亿个 AI 助手,从而「进一步提高公司的生产力」,他同时还强调,这并不会导致公司裁员。

黄仁勋还畅想了这样一个未来:英伟达将在公司的每个部门大规模部署 AI 助手,以提高产出。AI 助理能够帮助员工高速处理琐碎的事务,同时「AI 也会招募其他 AI 来解决问题、AI 之间也能够相互交流,并与人类沟通」,从而提升公司协同效率。

黄仁勋还同时强调,虽然 AI 将改变「每一份工作」,但在公司里部署 AI 反而可以「确保就业」,而非「伤害就业环境」,这是因为「应用 AI 可以提升公司生产力,促进公司收益获得增长,从而为员工提供更高的福利」。(来源:IT之家)

Adobe 推出 AI 视频生成器,迎战 OpenAI 和 Meta

10 月 14 日,在 Adobe MAX 年度大会上,Adobe 宣布,它已经开始对一种文生视频人工智能(AI)模型进行公开测试,加入了越来越多试图利用生成式人工智能颠覆影视制作的公司行列。这项技术被称为 Firefly 视频模型,Adobe 称其技术取得了新的突破,将与 OpenAI 于今年早些时候推出的文生视频大模型 Sora 展开竞争。美股盘中,Adobe 股价涨逾 3%。

Firefly 第一个测试版本发布时间为 2023 年 3 月,主要用于文本生成图像,自发布以来,已经生成了超过 130 亿张图片。在推出的一年内,Firefly 被带入了 Photoshop、Express、Illustrator、Substance 3D 等工具,它还支持 100 多种语言的文本提示。

此外,出于版权和安全方面的考量,Firefly 视频模型暂时不会制作涉及儿童或公众人物的视频,创作的视频内容也被会打上 AI 制作的标签。

Adobe 数字媒体首席技术官 Ely Greenfield 指出,Adobe 的视频工具旨在让视频创作者和编辑者能够在日常生活中使用,并特别注重让生成视频与传统素材融为一体。

Adobe 尚未对标准订阅费以外的 AI 功能使用收取费用。Greenfield 表示,每位用户都会获得一定数量的 AI 代用积分,但大多数计划并未强制执行这些限制。公司高管表示,未来,Adobe 可能会对使用专注于视频的 AI 收取比使用类似照片工具更高的费用。

Adobe 在大会上还宣布了其他软件的改进,例如让 Photoshop 中的 3D 内容查看变得更加简单。该公司还致力于开发能够生成 3D 图形的 AI 模型。(来源:新浪科技)

 

小红书 2024 年第一季度营收,首次突破 10 亿美元大关

10 月 14 日,据报道,小红书在今年第一季度的销售额实现了显著增长,略高于 10 亿美元,净利润更是达到了 2 亿美元,相比去年同期有了大幅提升。小红书去年实现了 37 亿美元的营收,净利润 5 亿美元。

小红书的运营公司在 2023 年达到了 3.12 亿的月活跃用户,较前一年增长了 20%。这一用户基数的稳固增长,为小红书的商业化进程提供了坚实的基础。有消息称,小红书正考虑在香港上市,进一步拓展其业务范围。(来源:ITBears)

游戏科学凭借《黑神话:悟空》跃居 Steam 发行商收入榜前列

10 月 14 日,根据 Steam 统计数据平台 Gamalytic 最新发布的数据,国内知名游戏开发商游戏科学在 Steam 平台上取得了显著成就,成功跻身顶尖发行商排行榜,并位居第 12 名。这一排名超越了包括 CD Projekt Red、FromSoftware 和 Larian Studios 在内的多家国际知名游戏公司。

据悉,该排名是基于 Steam 平台上的游戏收入进行计算的。数据显示,游戏科学的总收入已经突破 10 亿美元大关,折合人民币约 70.71 亿元。这一成绩的取得,主要得益于其旗下的热门游戏《黑神话:悟空》在 Steam 平台上的出色表现。

《黑神话:悟空》作为游戏科学的一款力作,自发布以来便受到了广大玩家的热烈追捧和高度评价。其独特的游戏玩法、精美的画面以及丰富的文化内涵,都为游戏科学在 Steam 平台上的成功奠定了坚实的基础。(来源:环球网)

 

优必选发布全新一代工业人形机器人 Walker S1,进入比亚迪等汽车工厂实训

10 月 14 日,优必选发布了全新一代工业人形机器人 Walker S1,并已进入汽车工厂实训。

优必选 Walker S1 已进入比亚迪工厂执行搬运任务实训,实现全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。

优必选表示,已经与东风柳汽、吉利汽车、一汽红旗、一汽-大众青岛分公司、奥迪一汽、富士康、顺丰在内的多家企业合作。截至目前,Walker S 系列已成为全球进入最多车厂实训的人形机器人。(来源:IT之家)

 

B 站「双 11」升级电商平台合作

10 月 14 日,「双 11」大促正式开启,B 站将投入三十亿流量定向扶持优质种草内容,联手天猫开启万名 UP 主直播及带货专场。同时为响应国家推出的大规模家电以旧换新补贴政策,B 站将对相关商品的种草带货加码流量扶持、推出专题活动。最新数据显示,B 站日均活跃用户达到 1.02 亿。(来源:36Kr)

小鹏 P7+巴黎车展开启预售,预售价 20.98 万元起,订单已超 3 万

10 月 14 日晚,2024 巴黎车展开幕首日,小鹏展台举办发布会,对外宣布小鹏汽车全球化战略 2.0,以及针对欧洲市场的全新承诺,并分享小鹏对于国际业务的全新目标。同时,小鹏汽车董事长、CEO 何小鹏对外宣布,小鹏 P7+正式开启预售,预售价格 20.98 万元起,预售权益 99 元意向金可抵 3000 元购车款。目前预售订单已超 3 万。

针对产品力,何小鹏在发布会上提出了三个+的概念,即技术+、空间+与舒适+。技术+方面,小鹏 P7+全系首发搭载小鹏全新一代 AI 鹰眼视觉方案。同时,新车将首发搭载 AI 天玑系统 5.4.0 版本,实现 XNGP 的 0 速激活,原地启动;空间+方面,小鹏 P7+轴距达到 3000mm,拥有 88% 空间利用率和 65% 的有效乘坐空间利用率;舒适+方面,配备全功能云感舒适座椅,前后排座椅均支持按摩、加热、通风功能,6 大智能场景式按摩。(来源:新浪科技)

 

vivo X200 / Pro 手机亮相:全球首发天玑 9400 处理器

10 月 14 日,vivo X200 系列手机正式发布,全球首发搭载天玑 9400 处理器,价格信息稍后带来。

发布会的开始,vivo 宣布 X200 系列行业首发第三代硅负极技术,能量密度提升 19.6%、循环寿命行业领先;高效能缓存架构,基于用户高清视频、导航等重载场景,改写 SoC 内部运作机制,带来高达两位数的功耗优化;全系搭载半固态电池,-20℃极限低温下 X200 支持视频录制 6 小时,正常通话 29.7 小时。

vivo 与索尼深度合作,联合定义了全新的蓝图 x 索尼 LYT-818,具体参数包括 1/1.28 英寸、22nm 先进制程、VCS 3.0、多焦段原生 HDR。在蓝心大模型的升级上,将大模型融入 Origin OS 的系统层,全面升级为系统级 AI。

vivo X200 系列提供全新配色宝石蓝、钛色、白月光、辰夜黑配色,全系列搭载全等深微四曲屏,X200 Pro 下巴和其余三边都压缩到了 1.63mm,采用蔡司大师色彩屏。标准版尺寸为 6.67 英寸,Pro 版尺寸为 6.78 英寸。

vivo X200 全系列首发蓝晶 × 天玑 9400,第二代全大核架构,安卓首发 3nm 制程。X200 在薄至 7.99mm 的机身装下了 5800mAh 蓝海电池,Pro 版为 6000mAh 蓝海电池。

此外,vivo X200 Pro 还搭载 X100 Ultra 同款的蔡司 2 亿 APO 超级长焦,内部结构全新设计,支持大模型画质增强技术,全新 135mm 长焦人像。vivo X200 系列支持全球首发公里级无网通信,包括最远 4km 的 SOS 文字广播以及最远 2km 的一对一语音对讲,支持跨品类、跨品牌。vivo X200 Pro 手机 16GB+1TB 卫星通信版本支持北斗卫星通信。(来源:IT之家)

Uber 报告:在提供自动驾驶服务的地区,约半数乘客选择拒绝

10 月 14 日,综合彭博社、electrek 报道,全球网约车巨头 Uber 的最新报告显示,在提供自动驾驶服务的地区,有一半的乘客选择拒绝该服务,表明公众对自动驾驶技术的信任存在问题。

目前,Uber 选择与 Waymo 等公司合作,在一些市场部署自动驾驶车辆。Uber CEO Dara Khosrowshahi 在接受彭博社采访时提到,只有约一半的乘客愿意尝试自动驾驶服务。

他表示:「最关键的问题在于,我们能否让这项技术足够安全,并赢得乘客的信任?例如,在提供自动驾驶服务的市场中,有一半的乘客直接拒绝了这一选项。」「安全始终是头等大事。在接下来的三到七年里,我们会逐渐关注经济方面。」

在未来几年,Uber 将采用自动驾驶与人工驾驶并存的模式,随着技术安全性的提升,消费者对自动驾驶的信任将「逐渐增强」。(来源:IT之家)

浏览量: 49

手机 AI 2.0 时代,OriginOS 5 找到了哪些「成功密码」?

手机 AI 浪潮的 2.0 时代来了。

自去年安卓厂商纷纷接入大模型,推出第一批主打 AI 功能的手机之后,手机与 AI 的融合进程就切换到了快车道。上个月,苹果甚至在 AI 功能还未正式推出时,就将它作为 iPhone 16 的主打功能进行宣传,足见竞争形势的激烈。而现在,安卓阵营这边的第二代手机 AI 产品也纷纷蓄势待发。

必须承认,要将 AI 大模型能力融入手机,厂商所面临的问题依然严峻。这里并不完全是模型性能的问题,而更在于产品设计。当下「AI + 手机」产品的自动化、便捷化的程度不足,相关功能渗透率依然不高,远没有「出圈」。

想要打造真正好用的「手机 AI」,不只是要做出好的 AI 功能,而是要从系统层出发,对系统内整体的交互逻辑进行重构,使它变得更智能。

2024 vivo 开发者大会上,vivo 推出焕新升级的 OriginOS 5。这代新系统不只是 AI 功能更强大、更智慧,系统全局的各项能力也都再次迭代。vivo 的目标,是让 OriginOS 成为 AI 时代最好用的手机系统。

01 以「便捷」为核心的设计

过去一年,大部分手机厂商做 AI 功能的思路,都是先围绕「聊天」式的交互展开。

以「聊天」为起点很合理,因为「智能语音助手」已经是手机上存在了十年以上的功能,AI 大模型的应用落地也是从 ChatGPT 等「聊天机器人」开始的。

问题也正出在这里。对普通用户来说,要完整地组织语言发出一条指令,编写一条 prompt,是一个成本很高的行为。智能手机相比 ChatGPT 这种没有任何数据基础的 AI 应用,最大的优势在于,很多数据其实已经在手机上了,不应该再让用户手动输入。

但在这个过程中,也有两个问题要解决。一是要将 App 内各种各样的数据转化为 AI 能够理解的格式,其次则是在授权的层面要做出清晰界定,防止隐私泄漏和数据污染的问题。

这就是 OriginOS 5 最核心的 AI 功能升级,Jovi 语音助手与「蓝心小 V」深度融合,蓝心小 V 不再是一个单纯的语音助手,而是拥有了更全面的功能。用户现在可以长按导航条唤醒蓝心小 V,唤醒之后,不只是可以语音、文字输入指令,而是可以直接框选当前屏幕上的内容,输入给蓝心小 V,进行搜索等后续处理。

这一设计非常巧妙,因为大部分时候我们想要搜索、处理,就是我们眼前正在看到的内容,通过「圈搜」的方式,最大程度降低了输入的负担,也避免了 App 适配和兼容的问题,可以覆盖手机内一切场景,还保证了隐私的边界。

小 V 圈搜的用法覆盖了各种场景。比如看到一篇小红书笔记,可以圈搜图片上人物的相关资料、相关商品;圈出一段聊天记录、机票火车票订单来创建日程;截取一段电子书、文章、工作材料进行翻译、生成一篇备忘笔记……

更重要的是,用户在框选内容之后,依然可以主动输入指令,进行各种不同的处理,而如果这个「视觉识别」的逻辑拓宽到摄像头,用户可以拍摄现实中的任何内容输入给 AI,进一步将蓝心小 V 的可能性拓宽到无限大。这个功能在目前已在 OriginOS 5 里落地,是以「vivo 看见」的形式存在,主要聚焦于视障人群,帮助他们理解周围的环境。借助 AI 大模型的理解、检索、生成能力,这个功能的外沿还有被进一步拓宽的空间。

基于同样的「读屏」逻辑,vivo 还对输入法进行了优化,推出了小 V 写作功能。在各种聊天界面、电商评价、朋友圈发布界面,都可以基于当前手机屏上显示的内容,自动生成内容,辅助用户进行文字编写。

这一切都并不是模型层面的革命,而是单纯的产品创新。但它带来的体验优化显而易见。想通过 AI 助手 App 实现类似的「智能回复聊天」功能,用户需要在聊天界面截图、裁切,在 AI App 里编写 prompt,得到回应,再将回应的内容复制到聊天框,而现在则只需要点击按钮就可以实现。

除了读屏之外,OriginOS 5 还加强了各种场景下,多模态数据的「自动处理转换」能力。新的小 V 电话助手、小 V 帮记可以将电话、线上会议的音频实时转成文字,显示字幕,并进一步实现「智能生成摘要」、「同声传译」等功能。这个功能的用法已经很成熟,我们今天大部分电话会议都会有录音,以及转写的文字版。但在手机系统内植入这一功能的最大优势在于,它可以将不同协作平台、不同场景下的电话、会议记录集合到一起,更易于管理。

大模型 AI 是一个覆盖面极为广泛,但也因此很抽象的技术,难以进行具体的功能定义。大部分厂商,都把这个问题化作一个开放的输入框,丢给用户去思考。最终导致了 AI 产品的逻辑并不复杂,就是一个聊天界面,但用户实际依然不知道它有什么用,要怎么用。

可以说,OriginOS 5 开启了一次「便捷化」革命,将手机上的数据,送到离 AI 大模型接口更近的地方,方便用户更容易触达。这是 AI 2.0 时代最重要的主题。

02 帮AI建立「长期记忆」

除便捷化之外,当下所有大模型 AI 产品,面临的另一大难题是「记忆」:几乎所有大模型产品,都无法对用户进行深入了解。在和用户对话的过程中,之前内容的权重会被迅速稀释。也就是说,AI 特别「健忘」,很多时候用户要重复输入同一指令,来保证 AI 还记得之前的要求。

对手机来说,问题也是类似的。我们进入移动互联网时代已经超过十年了,很多人手机上、云端储存的,是十年跨度的数据,这些数据淤积在手机里,检索起来变得非常困难。

这里最典型的场景是相册。很多人相册里都储存了上万张照片,要从中迅速找到一张特定的老照片,变得非常困难。所以过去几年每个手机厂商都在做相册的自然语言检索,依据位置、人物等等标签进行分类……

但在相册之外,如何让手机真正成为我们的「人生数据库、回忆录」,依然是一个更大的问题,而这又恰好是大模型 AI 能够发挥作用的一个场景。

vivo 在 OriginOS 5 的相册里加入了「时光剪影」功能,不只是帮用户迅速找到想要的照片,而是对照片进行二次组织、加工。它可以自动筛选出一段时间里的照片,通过大模型理解这段回忆,进行智能剪辑、配文、配乐,其中还新增了支持生成 AI 人声音乐的功能。

这是全行业的大趋势。过去我们在计算机上处理的数据都是「文件」,是以「数据库」的逻辑进行组织的。但在智能手机时代,这些数据是我们自己拍的照片、写的笔记、与他人聊天的记录,是非常具体的经历和回忆,完全可以用一种更贴合人脑思维的方式,以富文本、视频的形式,进行多模态的组织。

在 OriginOS 5 上,最能体现这一思路的功能是「小 V 记忆」。功能上,目前小 V 记忆很像一个「日记本」,能够把不同模态的数据整合在一起,以类似手帐的方式呈现出来,其中包括图片、视频、文本、网页……

而在「小 V 记忆」的「图谱」功能里,它把用户本机的文件数据全部进行了标签化处理,按照语言逻辑,生成了一张图谱,借此将不同的文件串联在一起。而这些数据,明显有成为 AI 知识库的潜力。就是说,未来用户可能可以利用 AI 助手,来快速挖掘自己手机上的所有文件信息,以及信息之间的关系。

而更重要的是,AI 也可以借助这一套私人知识库,建立起对用户的深入、长期理解,来满足个性化的需求。也就是说,未来我们在和 AI 交互的时候,很多具体的需求,不需要在指令里详细说明,AI 就能「心领神会」。

在实现输入的便利化,建立起长期记忆和私密知识库之后,手机与 AI 结合的未来,还有巨大的想象空间等待着探索。

这次 vivo 放出的新功能中的「订座助手」,就能让我们稍微一睹这样的未来。它基于大模型的理解和生成能力,在用户输入用餐需求后,会自动查找餐厅、获取商家联系方式,拨打过去并代替用户与商家进行订座沟通,最后返回结果,临近预约时间,用户会收到提醒,之后可以一键导航到餐厅。

听起来可能有点太超前,甚至像科幻小说的情节。但它的确展示出,当 AI 充分利用了手机的各项功能之后,能便捷地实现多么复杂的任务。

03 智能手机系统的下一步是做「减法」

尽管 AI 是 OriginOS 5 最重要的迭代更新方向,但我们应当意识到,AI 只是手段,它背后隐含的更重要的时代背景,是智能手机的「减法革命」。

过去十年,智能手机迭代的大方向是做「加法」。屏幕越来越大,储存越来越高,伴随着通信技术和带宽的提升,可以说,智能手机终结了信息匮乏。

但现在,越来越多用户面临的问题是信息过载。我们生活中的设备越来越多,App 越来越多,为抢夺用户注意力的过度设计也越来越多。买一张机票有 4 个 App 推送通知,很多内容看完就忘了在哪看过,各种菜单的层级、选项,多到眼花缭乱。即便用了这么多年的智能手机,也常常找不到自己想要的功能在哪。

所以,智能手机下一步的发展方向,特别是软件层面的迭代,就是要解决这个问题。

OriginOS 5 上,另一个很重要的功能更新是「原子岛」。表面上,它的产品逻辑和 iPhone 的「灵动岛」非常相似,后者是为了适应 iPhone 硬件变化推出的功能。但「原子岛」不太一样,它不只是利用屏幕的一块区域显示点什么,更重要的是,它还具备「预测、建议、信息流转」的能力。

比如,「原子岛」会基于日程事件、用户习惯,主动提供 AI 服务建议。比如用户复制了一行地址,拖到「原子岛」区域,就能快速跳转到地图;复制图片,就会优先出现「发送到微信」等分享选项。复制航班代码,原子岛就会自动弹出查询航班信息的按钮。

过去,智能手机的功能都被封装在 App 里,不同 App 之间缺乏协调机制,导致了信息的重复问题。而「原子岛」、「小 V 建议」的出现,就是要利用更少的 UI 元素,实现更多的功能服务。过程中通过 AI 能力来预判用户的需求,从庞杂的信息中浓缩、总结出重要的部分,帮助用户「消化信息」。这也是 AI 大模型与手机结合的重要意义。

智能手机系统上一次类似的革命,是 UI 设计从拟物走向扁平化,凸显出信息,降低用户的视觉负担。这一点上 OriginOS 5 依然在持续优化,统一了很多视觉动效,增强了界面之间的空间关系效果,并强调「数字化设计」,增强关键信息的呈现。

最后,OriginOS 5 也对最基础的流畅性、续航、网络信号等性能进行了升级优化。通过「Ledger 储存账本」对内存进行底层统一调度,减少了 App 长时间前台使用时,过度占用内存的问题,减轻了 App 负载带来的卡顿。还对动画流畅度、能效续航、抗老化能力分别进行了针对性优化。

实际上,无论是基础的流畅性能优化,界面交互上的创新,还是最前沿的大模型 AI 功能,它们最终都指向了同一个目标,即如何在提供最丰富功能的同时,最大程度减少用户的负担,保持操作系统的高效。这是未来智能手机操作系统「好用」的关键。OriginOS 5 通过一系列的便捷化设计,AI 功能创新,性能优化,已经成为 AI 时代最好用的国产手机 OS 之一。

找到正确的方向路径,通过与 AI 能力更深入地结合,OriginOS 的未来也因此变得更值得期待。

*头图来源:vivo

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

浏览量: 95

比飓风更让人害怕的,是一张 AI 生成的图片

作者|Moonshot
编辑|靖宇
 
9 月 26 日飓风「海伦妮」从佛罗里达州登陆美国,袭击美国南部多州多地,至今已造成超过 230 人死亡,「海伦妮」也已经成为 2005 年「卡特里娜」飓风以来,导致美国本土死亡人数最多的飓风。
与此同时,一张 AI 生成的照片,也在社交媒体上掀起轩然大波,甚至在下个月选举来临之前,引发了两党的「红蓝对决」。
到底是什么图片,能比飓风带来的影响更严重?
 

飓风营救 or 非洲秃鹫

共和党全国委员会的委员、Women for Trump 的联合创始人Amy Kremer 发在 X 上推文「这张照片深入脑海,令我心痛」,配图是一个楚楚可怜的小女孩,身着救生衣,在救生艇上眼中含泪抱着一只小狗。

这类聚焦在单一受害者,无辜的女童不得不躲避灾祸的照片,都非常容易调动起人们的同情心,就像那张《饥饿的苏丹》,瘦骨嶙峋的小女孩背后是一只紧盯着她的秃鹰,越战中躲避燃烧弹的《凝固汽油弹女孩》激起过无数年轻人的反战情绪,那张学习中的「大眼女孩」也让希望工程深入人心。因此这张「飓风中紧抱小狗的女孩」照片也在社交媒体上被大量转发。

 
但在情绪过后仔细再看,小女孩的手臂和腿部极度光滑且和肤色不符,头发也呈现非常奇怪的纹理,大拇指骨节也呈现怪状凸起。没错,这张照片是一张 AI 生成的图片。

这张 AI 痕迹更浓了,但不妨碍收获百万级观看量|图片来源:X

在被评论区的人指出「假图」之后,Kremer 直接发文开怼称「是啊,我是不知道这张照片是从哪来的,说老实话,哪儿来的无所谓。它已经永远烙印在我的脑海中了,有些人比这张照片所显示的经历还要糟糕得多。它象征着人们现在正在经历的创伤和痛苦。」换言之,她知道这张图片是假的,但她不在乎,因为她的目的不在于同情这位「AI 女孩」,而是攻击执政党应对「海伦妮」飓风的失责。
因为类似的 AI 照片也被极右翼政客Laura Loomer、共和党 KOL 及特朗普支持者Buzz Patterson和Juanita Broaddrick 转发,配文则是「我们的政府又让我们失望了」或「执政者抛弃了他们」。这些推文的传播量均已上百万。

传播只为甩锅|图片来源:X

 
AI 假图片已经成了党派之间相互掣肘的政治工具,伴随着这张照片一同传播的还有各种阴谋论和假新闻,诸如「联邦紧急事务管理局正在准备把灾民财产充公」「当局在控制共和党支持州(飓风受灾州多为支持共和党的(红州)天气」。
相应的,Facebook 上也流传着特朗普冒着洪水帮助居民的图片,当然也是 AI 合成的。该帖子在两天内被分享了超过 16 万次。

图片来源:PolitiFact

 
特朗普本人也在前不久泰勒·斯威夫特公开表态支持民主党总统候选人哈里斯后,在自己的 X 上发布了「Swifties for Trump」(支持特朗普的泰勒粉丝),附上的图片全是 AI 生成的假图。

图片来源:X

这并不是特朗普第一次发 AI 假图,作为马斯克支持的候选人,特朗普不可能没有分辨 AI 内容的能力,毕竟不久前他还发布了他和马斯克一起跳舞的 DeepFake AI 合成视频。
但在碎片化的社交媒体平台,政客们不在意信息真假,不管是实拍还是 AI 生成的照片,只要有传播效力即可,造势才是社交平台上政治宣传的首要目的,感性的印象取代客观事实,「造谣一张嘴,辟谣跑断腿」的传播学原理在 AI 时代更猛烈地回响着。
 

谁在制造 AI 垃圾

但追根溯源,这些 AI 假内容是谁生成的,又怎么在各种社交媒体上广泛传播,能骗一个是一个的呢?
这张图加配文「亲手制作,谢谢大家的喜欢」在 Facebook 上收获了 87 万点赞,3.5 万的评论,然而它是 AI 生成的一张假图片。
而喂给 AI 的原图,则是一个木雕艺术家 Michael Jones 和他创作真实存在的木雕狗,Jones 的原帖只获得了 1063 个赞,110 条评论,与 AI 假帖相去甚远。

同时,在 Facebook 上还流传着不同种族、性别、狗的品种的类似图片,它们的来源都是 Jones 的这张图,这意味着任何人都可以每小时用 AI 创造上百张以假乱真的图像,然后在社交平台上随即发布,总有几条能斩获不错的流量和曝光。其中,Facebook 是重灾区。

去年底,科技网站 404 Media 的记者就发现,Meta 旗下的 Facebook 上明显是 AI 生成内容的帖子数量激增,同时也扩散到Meta 旗下的 Threads。

Facebook 这种「一眼假」的图片数据都惊人的好|图片来源:Facebook

 
为什么 Facebook 是重灾区?原因很简单:平台算法化赶上了用户老龄化。
在最近的一次财报电话会议上,Meta CEO 扎克伯格告诉分析师,为了跟上 TikTok 等平台的变化,Facebook 向用户算法推荐的帖子数量翻了一倍,推荐帖子现在约占用户主页的 30%。
然而据 OBERLO 调查机构的数据显示,Facebook 25 岁以上用户占比达到 77.4%,其中 35 岁用户以上占比达到 46.6%。对于大量出生在前互联网时代,可能在中年才开始使用社交媒体和智能手机的中老年人来说,理解 AI 是什么都费劲,更别提鉴别 AI 内容了。

8 月由斯坦福互联网实验室发布的论文《垃圾内容和骗子如何在 Facebook 上利用人工智能生成的图像来增加受众》也在测试中发现,他们用 AI 生成的图像总共获得了数亿次曝光。AI 生成的图文帖通常是标题党配合夺人眼球的图片,比如一个断腿的小孩子举着牌子说「祝我生日快乐」就能收获 7 万点赞和 3000 条评论。用户的评论也能显示出他们并没有意识图片是由 AI 生成。

而且算法推荐就像一个上升的螺旋,研究者发现,在点进几个 AI 生成内容帖后,哪怕没有关注和点赞,后续自己的主页也会推送越来越多的 AI 帖。已经有一些活人用户在 Reddit 上辣评「Facebook 已经变成刷不完的 Midjourney AI 照片墙了。」

一眼 AI 但能收获大量流量|图片来源:404

 
骗流量之外,AI 假图片还想骗钱,比如就像上面显示的木雕狗,可能帖子里就会附赠「购买同款木制品」的链接,实际上并不存在这些产品,又或者会把观众引流到其他广告网站,像上面最火的木雕狗帖,点开评论区就发现置顶了一条宠物用品的销售链接。
更吊诡之处在于,许多照片可能正是用 Meta AI 所生成,Meta AI 的目的之一就是让照片以假乱真,然而这些照片骗过了自己的用户,矛盾至此转换成了流量的循环。
AI 生成垃圾内容影响的不仅是「老龄化」的 Facebook,就连曾经以高质量文本内容出名的「美版知乎」Quora,都不得不面对 AI 生成内容去稀释社区内容质量的现状。
更糟糕之处也在于,现在许多 AI 生成图片正在和现实牢牢捆绑在一起,就比如海伦妮飓风尚未平息,但在 AI 假图被识破后,每个用户都会质疑每一张照片的真实性,哪怕它是基于现实的实拍照片,在经过大量假内容稀释后,都要面临「真假美猴王」自证清白的窘境。
巴以冲突、美国大选、巴西洪水、海伦妮飓风……这些现实生活中真实发生的天灾人祸,在碎片化、简介信息、图文为主且注重高度时效性的内容社区来上,战地记者的实拍图收到的浏览量可能远比不过 AI 生成的假图片。
而这些内容往往都针对毫无戒心的老年人,他们基于同情心,贡献了自己的点赞和转发,不知不觉中却成了算法的帮凶。而这些 AI 的养料则是基于原创但不被看见的艺术家。
而作为具有重要责任的社交平台,例如 Meta,则陷入了 AI 的自我「矛盾之战」:用户使用 Meta 的 AI 工具生产出虚假信息和垃圾信息,将其发布到 Meta 平台,而 Meta 的 AI 团队则需要通过技术鉴别到底哪些是真实图片,哪些是 AI 生成的。
其中的讽刺耐人寻味——AI生成技术团队越进步,审核和鉴别团队就越难做。
在垃圾信息已经充斥互联网的当下,AI 生成工具的诞生,无疑再次为网络垃圾化的进行提供了加速度。如果无法解决这个挑战,被「困在系统中」的不仅仅是用户,后者平台,而是所有人。
浏览量: 74

Wondercraft新推出的“导演模式”让富于表现力的AI语音大放异彩

 

作为全球首个由AI驱动的创意音频平台,Wondercraft今日隆重推出“导演模式”。这一全新功能赋予了内容创作者前所未有的能力,让他们可以精准操控AI语音,实现创作愿景。随着此次更新,Wondercraft的音频编辑平台已进化为一个虚拟录音室,用户可以在其中细腻入微地指导AI语音角色,打造理想的音频作品。

继今年早些时候大获成功的“鹦鹉模式”之后,“导演模式”将AI语音技术推向了新的巅峰。鹦鹉模式曾让AI语音惟妙惟肖地模仿用户的语调和发音,而“导演模式”则更进一步,让用户通过聊天界面就能实时指导AI角色的表演,包括指定口音、情绪,甚至独特的语言模式。这一突破性的进步,使得利用AI语音的品牌能够更自如地传达复杂的情感故事和细腻差别,丰富音频的层次和表现力。

Wondercraft的平台汇聚了OpenAI、Google、Anthropic等顶尖AI企业的最新创新成果,包括一系列领先的语言模型和语音技术。随着“导演模式”的上线,Wondercraft更成为业内首个将OpenAI最新、最先进的语音模型融入其制作工作室的音频平台,为用户提供了更强大的创作工具。

“导演模式”的核心功能包括:自然语言界面,用户只需通过简单的聊天指令,就能驾驭AI语音的表演;全情感范围覆盖,AI角色能够结合多种情感、情绪、口音和语调,呈现全方位的语音演绎;以及无尽的创意空间,从特定的口音要求到复杂的情感表达,用户的想象力是唯一的界限。

Wondercraft联合创始人Oskar Serrander对此次更新充满期待:“现在,用户可以要求他们的Wondercraft语音角色以极高的真实度演绎脚本:无论是喘息、大笑、欢呼,还是表达不安全感、讽刺,甚至是用带着新泽西口音、满嘴食物的方式说话。在制作广告、旁白或其他内容时,‘导演模式’让用户坐镇导演椅,全盘掌控表演细节。”

Serrander继续表示:“‘导演模式’的推出,标志着Wondercraft在助力品牌和创意团队快速、经济、安全地创作专业品质音频(支持任何语言)的征程中迈出了重要一步。这一功能不仅提升了音频创作的效率和品质,更让Wondercraft成为现代营销人员技术栈中不可或缺的一环。”

“导演模式”与Wondercraft丰富的语音角色库以及专为Pro和企业用户打造的语音克隆功能相得益彰。这一完美组合为广告、视频旁白和内容创作带来了无限可能,助力创作者打造出别具一格、引人入胜的音频佳作。

目前,已有来自全球50多个国家的60,000多名创意人员正在利用Wondercraft的这些强大工具,其中不乏来自Amazon、Acast、DAX、Paytunes、Wondery、Audacia、Otonal等世界领先音频平台的团队。Wondercraft正以其卓越的技术实力和创新能力,引领着音频创作的新潮流。

 
6142321451
春天的狼
呱呱id:6142321451
浏览量: 61

比飓风更让美国人害怕的,是一张 AI 生成的图片

作者|Moonshot
编辑|靖宇
 
9 月 26 日飓风「海伦妮」从佛罗里达州登陆美国,袭击美国南部多州多地,至今已造成超过 230 人死亡,「海伦妮」也已经成为 2005 年「卡特里娜」飓风以来,导致美国本土死亡人数最多的飓风。
与此同时,一张 AI 生成的照片,也在社交媒体上掀起轩然大波,甚至在下个月选举来临之前,引发了两党的「红蓝对决」。
到底是什么图片,能比飓风带来的影响更严重?
 

飓风营救 or 非洲秃鹫

共和党全国委员会的委员、Women for Trump 的联合创始人Amy Kremer 发在 X 上推文「这张照片深入脑海,令我心痛」,配图是一个楚楚可怜的小女孩,身着救生衣,在救生艇上眼中含泪抱着一只小狗。

这类聚焦在单一受害者,无辜的女童不得不躲避灾祸的照片,都非常容易调动起人们的同情心,就像那张《饥饿的苏丹》,瘦骨嶙峋的小女孩背后是一只紧盯着她的秃鹰,越战中躲避燃烧弹的《凝固汽油弹女孩》激起过无数年轻人的反战情绪,那张学习中的「大眼女孩」也让希望工程深入人心。因此这张「飓风中紧抱小狗的女孩」照片也在社交媒体上被大量转发。

 
但在情绪过后仔细再看,小女孩的手臂和腿部极度光滑且和肤色不符,头发也呈现非常奇怪的纹理,大拇指骨节也呈现怪状凸起。没错,这张照片是一张 AI 生成的图片。

这张 AI 痕迹更浓了,但不妨碍收获百万级观看量|图片来源:X

在被评论区的人指出「假图」之后,Kremer 直接发文开怼称「是啊,我是不知道这张照片是从哪来的,说老实话,哪儿来的无所谓。它已经永远烙印在我的脑海中了,有些人比这张照片所显示的经历还要糟糕得多。它象征着人们现在正在经历的创伤和痛苦。」换言之,她知道这张图片是假的,但她不在乎,因为她的目的不在于同情这位「AI 女孩」,而是攻击执政党应对「海伦妮」飓风的失责。
因为类似的 AI 照片也被极右翼政客Laura Loomer、共和党 KOL 及特朗普支持者Buzz Patterson和Juanita Broaddrick 转发,配文则是「我们的政府又让我们失望了」或「执政者抛弃了他们」。这些推文的传播量均已上百万。

传播只为甩锅|图片来源:X

 
AI 假图片已经成了党派之间相互掣肘的政治工具,伴随着这张照片一同传播的还有各种阴谋论和假新闻,诸如「联邦紧急事务管理局正在准备把灾民财产充公」「当局在控制共和党支持州(飓风受灾州多为支持共和党的(红州)天气」。
相应的,Facebook 上也流传着特朗普冒着洪水帮助居民的图片,当然也是 AI 合成的。该帖子在两天内被分享了超过 16 万次。

图片来源:PolitiFact

 
特朗普本人也在前不久泰勒·斯威夫特公开表态支持民主党总统候选人哈里斯后,在自己的 X 上发布了「Swifties for Trump」(支持特朗普的泰勒粉丝),附上的图片全是 AI 生成的假图。

图片来源:X

这并不是特朗普第一次发 AI 假图,作为马斯克支持的候选人,特朗普不可能没有分辨 AI 内容的能力,毕竟不久前他还发布了他和马斯克一起跳舞的 DeepFake AI 合成视频。
但在碎片化的社交媒体平台,政客们不在意信息真假,不管是实拍还是 AI 生成的照片,只要有传播效力即可,造势才是社交平台上政治宣传的首要目的,感性的印象取代客观事实,「造谣一张嘴,辟谣跑断腿」的传播学原理在 AI 时代更猛烈地回响着。
 

谁在制造 AI 垃圾

但追根溯源,这些 AI 假内容是谁生成的,又怎么在各种社交媒体上广泛传播,能骗一个是一个的呢?
这张图加配文「亲手制作,谢谢大家的喜欢」在 Facebook 上收获了 87 万点赞,3.5 万的评论,然而它是 AI 生成的一张假图片。
而喂给 AI 的原图,则是一个木雕艺术家 Michael Jones 和他创作真实存在的木雕狗,Jones 的原帖只获得了 1063 个赞,110 条评论,与 AI 假帖相去甚远。

同时,在 Facebook 上还流传着不同种族、性别、狗的品种的类似图片,它们的来源都是 Jones 的这张图,这意味着任何人都可以每小时用 AI 创造上百张以假乱真的图像,然后在社交平台上随即发布,总有几条能斩获不错的流量和曝光。其中,Facebook 是重灾区。

去年底,科技网站 404 Media 的记者就发现,Meta 旗下的 Facebook 上明显是 AI 生成内容的帖子数量激增,同时也扩散到Meta 旗下的 Threads。

Facebook 这种「一眼假」的图片数据都惊人的好|图片来源:Facebook

 
为什么 Facebook 是重灾区?原因很简单:平台算法化赶上了用户老龄化。
在最近的一次财报电话会议上,Meta CEO 扎克伯格告诉分析师,为了跟上 TikTok 等平台的变化,Facebook 向用户算法推荐的帖子数量翻了一倍,推荐帖子现在约占用户主页的 30%。
然而据 OBERLO 调查机构的数据显示,Facebook 25 岁以上用户占比达到 77.4%,其中 35 岁用户以上占比达到 46.6%。对于大量出生在前互联网时代,可能在中年才开始使用社交媒体和智能手机的中老年人来说,理解 AI 是什么都费劲,更别提鉴别 AI 内容了。

8 月由斯坦福互联网实验室发布的论文《垃圾内容和骗子如何在 Facebook 上利用人工智能生成的图像来增加受众》也在测试中发现,他们用 AI 生成的图像总共获得了数亿次曝光。AI 生成的图文帖通常是标题党配合夺人眼球的图片,比如一个断腿的小孩子举着牌子说「祝我生日快乐」就能收获 7 万点赞和 3000 条评论。用户的评论也能显示出他们并没有意识图片是由 AI 生成。

而且算法推荐就像一个上升的螺旋,研究者发现,在点进几个 AI 生成内容帖后,哪怕没有关注和点赞,后续自己的主页也会推送越来越多的 AI 帖。已经有一些活人用户在 Reddit 上辣评「Facebook 已经变成刷不完的 Midjourney AI 照片墙了。」

一眼 AI 但能收获大量流量|图片来源:404

 
骗流量之外,AI 假图片还想骗钱,比如就像上面显示的木雕狗,可能帖子里就会附赠「购买同款木制品」的链接,实际上并不存在这些产品,又或者会把观众引流到其他广告网站,像上面最火的木雕狗帖,点开评论区就发现置顶了一条宠物用品的销售链接。
更吊诡之处在于,许多照片可能正是用 Meta AI 所生成,Meta AI 的目的之一就是让照片以假乱真,然而这些照片骗过了自己的用户,矛盾至此转换成了流量的循环。
AI 生成垃圾内容影响的不仅是「老龄化」的 Facebook,就连曾经以高质量文本内容出名的「美版知乎」Quora,都不得不面对 AI 生成内容去稀释社区内容质量的现状。
更糟糕之处也在于,现在许多 AI 生成图片正在和现实牢牢捆绑在一起,就比如海伦妮飓风尚未平息,但在 AI 假图被识破后,每个用户都会质疑每一张照片的真实性,哪怕它是基于现实的实拍照片,在经过大量假内容稀释后,都要面临「真假美猴王」自证清白的窘境。
巴以冲突、美国大选、巴西洪水、海伦妮飓风……这些现实生活中真实发生的天灾人祸,在碎片化、简介信息、图文为主且注重高度时效性的内容社区来上,战地记者的实拍图收到的浏览量可能远比不过 AI 生成的假图片。
而这些内容往往都针对毫无戒心的老年人,他们基于同情心,贡献了自己的点赞和转发,不知不觉中却成了算法的帮凶。而这些 AI 的养料则是基于原创但不被看见的艺术家。
而作为具有重要责任的社交平台,例如 Meta,则陷入了 AI 的自我「矛盾之战」:用户使用 Meta 的 AI 工具生产出虚假信息和垃圾信息,将其发布到 Meta 平台,而 Meta 的 AI 团队则需要通过技术鉴别到底哪些是真实图片,哪些是 AI 生成的。
其中的讽刺耐人寻味——AI生成技术团队越进步,审核和鉴别团队就越难做。
在垃圾信息已经充斥互联网的当下,AI 生成工具的诞生,无疑再次为网络垃圾化的进行提供了加速度。如果无法解决这个挑战,被「困在系统中」的不仅仅是用户,后者平台,而是所有人。
浏览量: 79

SpaceX 「星舰回收」操作成功;苹果曝光 30B 多模态 AI 模型;人类首次实现梦中「对话」

SpaceX「星舰」实现史上首次「筷子」夹火箭

北京时间 10 月 13 日消息,SpaceX「星舰」第五次试飞于北京时间 13 日 20:25 发射升空。画面显示,SpaceX「星舰」实现了史上首次使用「筷子」形状的发射塔臂,来接住超级重型助推器。

在星舰发射升空 2 分多钟后,一级超重型火箭与星舰分离,开始返回。距离星舰发射 6 分多钟后,第一级成功被发射塔架上的「筷子」机械臂夹住。这是 SpaceX 第一次尝试回收星舰的第一级。接下来,星舰第二级将继续飞行,准备在印度洋受控溅落。(来源:IT 之家)

工信部:中国生成式人工智能服务大模型的注册用户已超 6 亿

10 月 13 日消息,据央视新闻报道,工业和信息化部昨日表示,目前我国生成式人工智能服务大模型的注册用户数量已突破 6 亿。

据工业和信息化部总工程师赵志国介绍,我国人工智能核心产业的规模在不断提升,企业数量超过了 4500 家。完成备案并上线为公众提供服务的生成式人工智能服务大模型近 200 个,注册用户超过 6 亿。(来源:凤凰科技)

 

苹果推出 300 亿参数多模态 AI 大模型 MM1.5 

北京时间 10 月 13 日消息,苹果公司现已为旗下多模态大模型 MM 推出 1.5 版本,该版本模型基于前代 MM1 的架构,继续延续数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响,目前相关模型文档已发布于 Hugging Face 上。

 

 

该版本模型提供 10 亿 到 300 亿多种参数规模,拥有图像识别和自然语言推理能力。苹果公司研发人员在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的能力。(来源:搜狐科技)

 

小米 SU7 汽车单日交付首次破 1000 台,10 月生产交付目标冲刺 2 万台

10 月 13 日消息,据报道,小米 SU7 汽车单日交付量已首次破 1000 台。小米 SU7 今年 9 月交付量超 10000 台,10 月生产、交付量冲刺 20000 台;预计 11 月提前完成全年 10 万台交付目标。

另外,小米创办人、董事长兼 CEO 雷军于今年 10 月 7 日晚发文确认「十一假期,小米 SU7 锁单超过 6000 辆」的传闻属实。(来源:IT 之家)

三星电子遭遇寒冬,市值蒸发近 90 万亿韩元

北京时间 10 月 13 日消息,从上月 3 日至本月 11 日,外资连续 23 个交易日抛售三星电子,总共卖出 10.6593 万亿韩元(约合人民币 558 亿元)。期间三星电子股价从 7.44 万韩元暴跌至 5.93 万韩元,跌幅达 20.3%,市值从 444 万亿韩元降至 354 万亿韩元,蒸发近 90 万亿韩元。

经过本轮抛售行情,三星电子的外资持股比例从 8 月的 56.02% 降至 9 月的 53.75%,是自 2004 年以来的最大降幅。

这轮抛售最直接原因,在于三星电子的三季度业绩低于市场预期。本月 8 日,三星电子披露的财报显示,公司第三季度销售额为 79 万亿韩元,同比增长 17.2%;营业利润为 9.1 万亿韩元,同比增长 274.5%,但环比下降 12.8%,且低于市场预期的 10.3 万亿韩元。其原因在于 PC 和移动存储半导体需求疲软。(来源:界面)

 

特斯拉招聘暗示,公司计划内部生产磷酸铁锂电池

北京时间 10 月 13 日消息,特斯拉本周在官网发布了一则新的招聘启事,暗示该公司计划内部生产磷酸铁锂电池。

特斯拉在职业页面发布了一则高级电池材料工程师职位,负责磷酸铁锂(LFP)阴极项目,这表明该公司正寻求内部开发这种电池化学成分。该职位位于加州帕罗阿托,是特斯拉人工智能和工程总部所在地。

此前有传闻表示,特斯拉将与宁德时代合作,宁德时代的一位高管今年早些时候曾暗示计划为特斯拉的大批量电动汽车开发低成本电池。彭博社今年 1 月的一份报告称,特斯拉将从宁德时代购买机器,为其 Megapack 内部生产磷酸铁锂电池。(来源:IT 之家)

iPhone SE 4 保护壳曝光:6.1 寸屏,A18 芯片、Face ID

10 月 13 日消息,有博主曝光了一张号称是第四代 iPhone SE 保护壳的照片,这款新机有望于 2025 年初发布。

从曝光的照片来看,第四代 iPhone SE 的保护壳具有与当下 SE 类似的单摄像头和闪光灯开孔。然而,由于新一代 iPhone SE 将基于 iPhone 14 的机身设计,其尺寸将比现款机型更大。有传言称,新机将配备一块 6.1 英寸的 OLED 屏幕,而现款机型则为 4.7 英寸的 LED 屏幕。

除此之外,第四代 iPhone SE 预计还将从 Touch ID 切换到 Face ID,并从 Lightning 接口更换为 USB-C 接口。由于采用了 Face ID,新机将配备刘海屏,并支持部分或全部灵动岛功能。

此外,有报道称,第四代 iPhone SE 将支持 Apple Intelligence,这意味着其将搭载 A18 芯片并配备 8GB 的 RAM。(来源:搜狐科技)

 

岚图知音纯电 SUV 上市:800V 平台,17.99 万元起

10 月 13 日消息,岚图知音纯电 SUV 今晚迎来上市,官方售价 19.69 万元起,其中长续航智享版限量发售 3000 台 17.99 万元版本。

动力方面,该车搭载岚海动力 800V 电驱总成,提供 901 公里超长续航版本,互联互通 100 万充电桩,支持 5C 快充。搭载 10 个高清摄像头、5 个毫米波雷达,以及 12 个超声波雷达,NOA 点对点高速 / 高架领航辅助驾驶、高阶智能泊车等功能。(来源:IT 之家)

梦境交流成真:研究人员实现人类首次梦中「对话」

10 月 13 日消息,据 InterestingEngineering 报道,REMspace 研究人员成功实现了在梦境中进行意识交流,这一突破性进展标志着人类在意识交流领域迈出了重要一步。该研究证明,「清醒梦(lucid dream)」可以解锁新的沟通维度和人类的潜力。

清醒梦是一种特殊的梦境状态,做梦者在梦中能够意识到自己在做梦。研究人员利用专门设计的设备,诱导两个人进入清醒梦状态,并成功交换了一条简单信息。清醒梦是在快速眼动睡眠(REM sleep)期间出现的一种现象,具有广泛的潜在应用,从解决生理问题到学习新技能。REMspace 公司坚信,REM 睡眠将成为继人工智能之后的下一个重大突破。(来源:IT 之家)

浏览量: 54

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

10 月 2 日,OpenAI 发布了实时 API 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后,OpenAI 在实时语音交互能力上的最新进展。

 

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟,平均 320 毫秒的反应时间,让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟,也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间,OpenAI 发布的实时 API 公开测试版,则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体,这像是给所以 AI 应用开发者的一个信号,大模型发展近两年后,基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前几年曾经爆火的 ClubHouse,背后的技术提供方就是 Agora,其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场,声网则已经俨然是中国市场中 RTC(实时音视频,Real-time Communications)能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后,发展多年的 RTC 技术作为一项基础能力,已经逐渐靠近实时多模态大模型发展浪潮的核心。

 

01 RTC 是实时多模态大模型的必由之路

 

无可置疑的,大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前,实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音(STT-LLM-TTS)——方法来进行的。现在得益于大模型自身能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法相比,响应速度要提升很多,这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后,大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月,Character AI 推出新的语音功能,用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示,新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后,微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面,允许完全动态的交互。

而在国内的大模型领域,智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能,该功能让用户能够通过应用程序进行语音和视频互动,整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话,还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用,比如协助学习、辨识物品等。

而在智谱清言新功能上线同日,科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

电影《Her》中的场景,似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示,或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中,「实时」与「AI」一样重要,甚至作为一场与 AI 的对话体验中最决定性的变量,「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限,端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC(实时音视频,Real-Time Communications)技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径,大概就能辨析 RTC 技术在其中的重要意义:

 

首先,语音输入经过 RTC 传输到服务器,服务器端的多模态大模型接收到语音后开始预处理,这里的预处理主要包含了音频的 3A,例如语音的降噪、增益控制、回声消除等操作,使得后续的语音识别更加准确,让大模型更能听懂用户说的话;

 

随后,预处理的语音数据送入模型进行语音识别和理解,系统再通过模型生成回应,这其中还需要通过语音合成技术转换为语音信号;

 

最后,语音数据通过 RTC 传输到用户端,完成一次完整的语音交互。

声网在实践中发现,传统的 AI 语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从 4-5 秒降低到 1-2 秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。

在 GPT-4o 的发布会上,有一个细节引人注意:用于演示的手机连接了一根网线。工程师 Mark 解释说,这样做是为了确保网络的稳定性。这也揭示了一个事实,即 GPT-4o 的演示是在固定设备、固定网络和固定物理环境中进行的,以保证低延迟。

然而在实际应用中,用户的设备通常不能始终连接网线,最终无论多强的模型能力,都需要依靠 RTC 技术来真正落到实时对话的场景中。而这其中多模态大模型在与 RTC 技术结合时如何保障低延时、流畅的语音交互体验,变得尤为关键。

一句话来说,RTC 是将多模态大模型与实时互动场景连接起来最关键的技术桥梁。

而随着 RTC 从最初的一种前沿技术在近年逐渐变成一项基础设施级别的能力并迅速在各个场景中延伸,加入了场景视角的 RTE(实时互动,Real time engagement)概念开始取代 RTC,成为当下谈论实时互动能力新的技术名词。

以声网创始人兼 CEO 赵斌对 RTE 的概念表述:

 

「RTC(实时音视频)从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。」从 RTC 到 RTE,就是从基础能力向场景化能力的进化。

 

在这个端到端实时多模态模型产品化势头初现的时期,声网和 RTE 开发者社区联合发起了第十届 RTE 大会。实时互动与 AI 的结合在当下所能承载的所有想象力,都会在这场大会中现身。

 

02 AI 浓度拉满,第十届 RTE 大会亮点前瞻

 

首先,不用怀疑的是,这场 RTE 大会上会有非常多足够有分量的观点交锋。

国内大模型领域在 ToB 方向上走的最深的智谱 AI,以及国内大模型领域在 C 端产品化上最有心得的 MiniMax 将会出现在 RTE 大会上。作为这两年随大模型迅速成长的创业公司,智谱 AI 和 MiniMax 在 RTE 技术在大模型的 ToB 和 ToC 两条路线上发展颇有心得。

而随着大模型开源生态的迅速发展,大量个人开发者从去年开始加入了这一股大模型浪潮,实时对话式 AI 开始成为一个备受开发者关注的产品赛道,通义千问也会带着国内最大开发者生态的经验在 RTE 大会中加入讨论。

除此之外,此次 RTE 大会也不乏业内备受瞩目的创业者身影。全球最受瞩目的 AI 科学家之一,一年前从阿里巴巴离职躬身入局大模型的贾扬清也会出现在此次 RTE 大会的主论坛上,来分享他在 AI 基础设施领域创业 18 个月后的经验心得,以及他对 RTE 与 AI 结合的未来趋势的判断。

本次 RTE 大会也将通过七场行业分论坛的形式,展现一幅最具想象力的 AIGC+RTE 行业场景应用图景,包括 AI+IoT、教育、泛娱乐、出海、数字化转型等七大行业。50+行业大咖将会现身行业分论坛现场,带来一线的场景实战案例以及极具深度的行业洞察。

场景是技术迭代所结的果实,未来对于新场景的想象力也酝酿在当下技术的前沿趋势中。本次 RTE 大会也在行业场景应用的讨论之外,设置了五场技术专场,分别聚焦在音频技术和 Voice AI、视频技术和 AI 生成、RTC+大模型、空间计算和新硬件、云架构和 AI 时代的 Infra 这五个技术方向,30+的技术大咖和专家学者将会带来自己对所在领域最深入的技术见地。

当然,对于参与到 RTE 大会中的开发者们来说,这里提供的不仅仅是观点和见地。每年 RTE 大会都会为参会开发者设置专属活动,在今年的 Workshop 中提供了用 TEN 开源框架来现场动手搭建拥有音视频理解能力的 AI Agent 的机会,这将为开发者带来更多 AI 实时互动场景创新灵感。

2024 年,实时对话式 AI 火热,而 RTE 大会也迎来了十周年。

时间倒回到十年前,2015 年移动互联网那时在国内还未完全成熟,RTE 大会在十年里见证了直播、在线教育、远程办公这些新的技术场景景一次次以新物种的面目亮相并最终融入了大众生活。在这个过程中, 实时互动技术逐渐成为人们在社交和泛娱乐产品中的基础设施。而随着实时互动行业的发展,走过十年的 RTE 大会已经变得越来越重要,它已经是当下这个领域在全球范围内规模最大、议题最全, 最具影响力的行业大会。

现在,AI 与实时互动的碰撞正涌现出新的技术和产品浪潮。而无论从前沿技术的探讨深度,还是多场景创新应用的丰富性上,今年的第十届 RTE 大会都像极了这样一场「风口浪尖」上的实时互动领域盛会。

这场大会将会展现出这场变革至今为止最锐利最先锋的一面。已经身处这场变革中的开发者们,或者对实时互动即将出现的颠覆性变化感到兴奋的所有人来说,请及时到场。

 

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

浏览量: 82

微信鸿蒙原生版首批测试名额秒空;OpenAI 推出新提示词工具;京东物流预计双十一接入淘宝

微信鸿蒙原生版首批体验秒空,腾讯张军「求谅解」称还在不断 debug

腾讯公司公关总监张军昨日傍晚发文称,微信鸿蒙原生版正通过华为应用市场的「尝鲜专区」开启测试,目前在分批放量中。「实在对不住,第一批上架即秒空,请大家谅解,因为开发哥还在不断 debug,并加速将大家反馈的问题修复后继续上架。」

张军表示:「如果还没有获得测试名额,麻烦后续留意「尝鲜专区」动态。谢谢谢谢!」

微信鸿蒙原生版昨日下午正式上架鸿蒙原生应用市场,版本号 1.0.0.36。该版本支持聊天记录迁移,支持直接调用系统原相机、鸿蒙原生安全等功能。(来源:IT 之家)

阿里巴巴副总裁吴嘉:京东物流预计会在双 11 期间接入淘宝

10 月 13 日消息,阿里巴巴集团副总裁、淘天用户平台事业部总裁吴嘉昨日在今年天猫双 11 发布会后的群访上称,京东物流预计会在双 11 期间接入淘宝,为用户提供服务。

据悉,2024 年天猫双 11 将于 10 月 14 日 20:00 开启,今年天猫双 11 已支持支付宝、微信支付等多种支付方式。

淘宝官方客服回应称:「从今天(10 月 12 日)开始,淘宝商家发货订单和消费者退货订单都可以接入京东物流,且可以淘宝 App 内直接查询到订单的京东物流轨迹信息。天猫超市订单中,只要是卖家跟京东物流合作了,也可以接入京东物流。」

菜鸟 App 官方客服则回应称:「暂时没有收到任何相关通知,目前菜鸟 App 不支持查询京东物流包裹。」(来源:IT 之家)

 

SpaceX称如果法院暂停星际飞船发射,每天损失高达400万美元

SpaceX 公司在回应环保组织「拯救 RGV」的诉讼时称,停止在得克萨斯州的星际飞船测试将使该公司每天损失数百万美元,并危及其获得收入的能力以及与空军和其他机构签订的协议的里程碑付款。在昨天提交的诉状中,「拯救 RGV」组织要求法院阻止 SpaceX 使用排水系统,直到其诉求得到解决。

SpaceX 在对诉讼的回应中向法院表示,任何阻止其发射 Starship 的临时禁令都将使该公司每天损失 400 万美元,「几乎没有回报」,并危及其发射 Starshield 卫星、开发军用货运系统和发射第三代 Starlink 卫星的计划。(来源:cnBeta)

 

比亚迪副总裁李柯:竞争让中国车企强大,欧洲对手却在逃避

10 月 12 日,比亚迪执行副总裁李柯在接受德国媒体采访时称,市场的激烈竞争让中国汽车制造商变得「非常具有竞争力」。欧洲汽车制造商则反之,他们在回避竞争。

李柯表示,欧洲汽车制造商缺乏竞争力,因为他们缺乏明确且一致的电动汽车政策,并且在回避竞争。

相反,一个饱和且竞争激烈的市场让中国汽车制造商变得「非常具有竞争力」。「世界上所有汽车制造商都应该参与这场竞争,」李柯称,「那些犹豫不决和退缩的人将会失败。」(来源:IT之家)

 

英特尔11月1日凌晨发布三季度财报,营收环比有望增长但同比预计将下滑

英特尔官网的信息显示,他们将在10月31日美国股市收盘后,发布第三季度的财报。10月31日美国股市收盘,就已是北京时间11月1日凌晨4点。

就英特尔在第二季度的财报中给出的预期来看,他们第三季度的营收是同比将会下滑,但环比有望增长。

在去年第三季度,英特尔营收142亿美元。而在今年第二季度,他们是营收128亿美元。英特尔给出第三季度预期营收上限,也要低于去年第三季度的营收,但要高于今年第二季度的128亿美元,预期营收下限,较第二季度的128亿美元只低3亿美元,因而环比还是有增长的可能。(来源:TechWeb)

欧盟要求拼多多 Temu 提供有关打击非法产品销售所采取措施的信息

据路透社报道,欧盟委员会当地时间 11 日表示,已根据《数字服务法》(DSA)向购物平台 Temu 发出信息请求,要求提供其采取的阻止非法产品在其平台上销售的措施。

欧盟委员会在周五的声明中提到:「今天,委员会根据《数字服务法》向 Temu 发送了信息请求(RFI),要求该平台提供详细的资料和内部文件,说明他们为应对平台上非法商品的销售、此类卖家重新活跃所采取的措施。」

声明还指出:「Temu 必须在 2024 年 10 月 21 日前提交所需信息。委员会将在评估 Temu 的回复后,决定下一步措施。」(来源:IT 之家)

 

OpenAI 推出 meta-prompt 工具,AI 时代让你掌握提示词艺术

科技媒体 The Decoder 在 10 月 11 日发布博文,报道称 OpenAI 更新提示词优化功能 Playgound,新增引入「元提示」(meta-prompt)工具。

「元提示」(meta-prompt)工具主要帮助用户更高效地创建、改进针对大型语言模型(LLMs)的提示,节省开发高质量 AI 提示的时间。

OpenAI 表示,「元提示」结合了实际应用中的最佳实践和经验,旨在为用户提供快速的起点,避免从零开始撰写提示词的烦琐过程。

元提示采用结构化的方式进行提示生成。具体步骤包括:

简要描述任务:首先提供任务的简要描述。详细说明:接下来,提供额外的细节和可选部分,包括逐步说明、输出格式、示例和备注。(来源:IT 之家)

 

面向 GB300 服务器的 NVIDIA Blackwell Ultra「B300」AI GPU 可能采用插槽式设计

NVIDIA 的 Blackwell Ultra B300 GPU 可能会在 GB300 服务器上用插座式设计,这将使维护和升级变得更加容易。

NVIDIA目前的数据中心高性能芯片采用了OAM设计,即板载解决方案。 通过这种设计,GPU 芯片被永久焊接到服务器主板上,如 GB200,用户可以在一块主板上同时找到 Grace CPU 和 Blackwell GPU。

不过,这可能是最后一个采用板载设计的系列,因为一些报道称 NVIDIA 可能会在用于 GB300 服务器的 Blackwell B300「Ultra」GPU上采用不同的设计。(来源:cnBeta)

 

一加员工:骁龙 8 至尊版能效干翻苹果 A18 Pro,在能效曲线最左上角

10 月 12 日消息,一加员工 @ 蔡祖轩 在微博透露,内部终于跑完了全部能效数据,定制确实比公版好啊,直接干翻 A18 Pro,重回兵器谱排名第一位。

​在评论里该员工表示,「高通今年定制的全新大核,非常奇迹」,位于「能效曲线最左上角」。(来源:IT 之家)

2025 款吉利星瑞内饰官图公布:换装银河 E5 同款大屏

10 月 12 日消息,吉利汽车发布了 2025 款吉利星瑞・东方曜的内饰官图,新车已开启预售,预售价定在 10 万至 14 万元之间,将于 10 月 23 日正式上市。作为对比,现款吉利星瑞的官方指导价为 9.97 万至 14.57 万元。

2025 款吉利星瑞・东方曜将推出五个车型,分别为 1.5TD+7DCT 动力组合的惊鸿版、昆仑版、扶摇版,以及 2.0TD 高功 + 8AT 动力组合的望月版和揽星版。

内饰设计上,新款车型发生了显著变化。中控台采用了全新的布局设计,搭配更加平直的线条和隐藏式空调出风口,整体风格简洁现代。参考吉利银河 E5,该车型配有 15.4 英寸的 2.5K 中控显示屏。(来源:IT之家)

 

通用汽车推出 PowerBank 家用电池与特斯拉 Powerwall 竞争

通用汽车刚刚推出了其 PowerBank 家用电池,旨在与特斯拉 Powerwall 以及 Anker 等竞争家庭能源市场,每套定价显示为 12700 美元(当前约 89790 元人民币),包含充电器、逆变器、家庭中枢和 PowerBank 完整系统。

PowerBank 允许房主在非用电高峰时段直接从电网取电,或从太阳能电池板储存电能,然后在用电高峰或断电时为家庭供电。

通用提供了两种容量的 PowerBank 电池——10.6kWh 和 17.7kWh。通用汽车表示,如果采用两个 17.7kWh 电池,可以为普通美国家庭供电 20 小时。

GM Energy 现在在所有 50 个州运营。感兴趣的客户可以在 GM Energy Live 页面上与专家联系,以获得「沉浸式数字体验」并了解更多有关产品的信息。通用汽车不直接处理太阳能解决方案,但会将感兴趣的客户转介给其首选安装商 Qmerit 进行设置。(来源:IT 之家)

 

苹果首款 8K 3D 摄影机亮相:Super 35 传感器,把 Vision Pro 头显用户「拉入」剧情中

科技媒体 ymcinema 近日发布博文,报道称苹果公司为了给 Vision Pro 头显制作电影,推出了其首款 8K 3D Cinema 摄影机,希望改变电影制作的未来。

据悉,苹果公司面向 Vision Pro 头显发布了首部沉浸式短片《Submerged》,在幕后花絮视频中,展示了苹果设计的最新拍摄设备,配有 2 个大型传感器,能以 180 度视场录制最高 8K 分辨率视频。

消息源认为苹果该 8K 3D Cinema 摄影机基于 2021 年的专利打造,传感器大小预估为 M43 或者 Super 35,还配备麦克风阵列,录制多方向音频,实现空间音频,以增强视觉体验。(来源:IT 之家)

NASA热核推进系统有望将火星旅行时间缩短一半

NASA 和DARPA 正在开发核热推进(NTP)技术,以实现更快的载人飞往火星的任务,有可能利用核裂变将旅行时间缩短一半。

这项技术也适用于国防空间平台,其原型将于2027年进行太空演示,并有可能成为现实。 正在进行的研究重点是提高推进效率和安全性,这对于实现抵达火星的宏伟目标至关重要。

美国国家航空航天局(NASA)的目标是在 2027 年之前展示一种核热推进系统,利用核裂变实现更高效的太空旅行,从而将火星旅行时间缩短一半。(来源:cnBeta)

 

浏览量: 38

字节的第一款 AI 硬件,只是一次悄悄试水?

 
头图来源:Ola Friend
 
几个月前刚收购开放式耳机品牌Oladance的字节跳动,这就发布了首款生成式 AI 硬件设备。
 
10日上午,字节跳动豆包发布了一款硬件产品—— AI 智能体耳机 Ola Friend。该产品是一款开放式耳机,单耳6.6克同类最轻;可接入豆包大模型,并与豆包 APP 深度结合;已在各大电商平台开启预售,将于10月17日正式发货,售价1199元,一个价格对比是,苹果最新款AirPods 4主动降噪款售价1399元。
 
用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。
 
今年以来,随着大模型应用落地的加速,AI硬件也如雨后春笋般蓬勃发展,AI 手机、AI 耳机、AI 眼镜等新品纷纷涌现,就连苹果也忍不住下场,不仅在新iPhone和新版本iOS中加入AI功能,还传出要做AI眼镜。
 
谁能成为AI时代,用户与人工智能交互的第一个入口?今天看来智能眼镜和智能耳机,是最有可能的热门候选。很显然,收购了 Oladance 和 Pico 的字节两者都不会错过,而 Ola Friend 就是字节打出的第一张牌。
 

Ola Friend:字节版「Her」?

 
字节的这次发布很是低调,连发布会都没开,仅仅是在微信公众号、小红书等官方账号做了线上发布。
 
从发布页面信息来看, Ola Friend主打陪伴,「TA是一个随时陪伴在耳边的AI朋友,在你需要的时候,TA都在你耳边。」
 
图片来源:Ola Friend
 
Ola Friend是一款开放式耳机,单耳6.6克同类最轻,据称实现了几乎无感的佩戴感受。该款耳机接入豆包大模型,并与豆包 APP 深度结合。
 
用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。
 
目前,Ola Friend已经在各大电商平台开启预售,将于10月17日正式发货,售价1199元。
 
作为首款基于豆包大模型的 AI 硬件产品,Ola Friend的推出意味着字节跳动从硬件到内容的AI生态系统进一步完善。
 
Ola Friend耳机的硬件部分由字节跳动不久前收购的原Oladance团队完成。该团队以其创新的OWS专利技术闻名。尽管该并购案完成时并未掀起特别大的波澜,但业界人士都在讨论字节跳动的意图非常明确——要将 AI 跟耳机产品深度结合。
 
所谓OWS,即Open Wearable Stereo,开放式可穿戴立体声系统,是Oladance全球性提出的一种全新的全开放不入耳的声音解决方案。
 
相比传统的骨传导耳机要通过骨骼将振动传递到内耳,绕过耳膜,OWS耳机则采用气导技术,通过空气将声音传递到耳朵,更自然 ;同时,骨传导耳机需要紧密贴合头部,可能不适合长时间佩戴,OWS耳机不入耳、无需紧贴,更舒适,更适合长时间佩戴 。
 
Oladance此前被字节跳动收购,后者对该品牌100%控股。Oladance成立于2019年,由前BOSE高管李浩乾与多名BOSE工程师共同创立,核心产品线包括OWS全开放真无线蓝牙耳机系列,主打佩戴轻盈舒适、续航超长以及独特的开放不入耳设计。
 
通过这次收购,字节跳动不仅获得了 Oladance 的核心技术,还吸纳了一支由前 Bose 工程师组成的经验丰富的团队,打好了其在音频技术领域的「基本功」。
 
Oladance 的技术应该能够帮字节跳动提升其 VR/AR 设备的音频表现,开放式耳机的设计不仅为更大容量的电池提供了空间,还为集成多种传感器创造了可能性。结合字节跳动此前收购的头显厂商 Pico,这些技术的融合为其在视听体验和可穿戴设备领域的扩展带来了更多潜力。
 
过去一年里有不少AI耳机产品已经陆续发布。目前看起来Ola Friend并没有特别的形态创新,跟Oladance之前的耳机大差不差,就是一款「耳机」,也没有想象中的摄像头,只是接入了大模型,唤起调用模型不用打开手机——这样的「AI耳机」,似乎没有想象中有那么多黑科技。
 
不过,在前两天极客公园的「今夜科技谈」中,灵宇宙创始人顾嘉唯谈到,字节此次推出Ola Friend,意在探求类似「Her」的personal AI 场景,尽管它在外观设计上跟传统的OWS 耳机没有明显区别,也没有把个性化的很多能力和边界无限的提高预期,但这正是拿捏用户预期的一种管理方式,「本质上,他们是让你知道这首先是一个普通的耳机,然后当它的软件端的能力和体现出来的时候,就会有一些超预期的可能性」。
 
在他看来,字节推出这款耳机,很重要的目的之一,其实是为了让豆包有更多的更快能触达的便捷方式,降低访问豆包的门槛。
 
豆包已经是国内用户最多的原生 AI 应用。同时,在AI大模型与应用方面,字节已经全面布局,开发了多个文本和多模态大模型,包括豆包大模型家族,涵盖通用模型、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function Call模型和向量化模型。此外,字节也开发有多个基于豆包大模型的AI原生应用,除了豆包,还有AI应用开发平台“扣子”、互动娱乐应用“猫箱”等超10款 AI 产品。
 
而端到端的AI硬件,可能是字节补齐AI布局的最后一块拼图。
 

眼镜or耳机,大模型落地现实的第一个入口?

 
下半年以来,大模型软件的商业化似乎不及预期,大模型+硬件似乎成了新的出路,尤其是在Meta Ray-Ban智能眼镜大热之后。
 
早前国金证券发布研报称,估算Meta Ray-Ban在2024年Q2季度出货量或达50万台,年销量达200万台。
图片来源:雷朋官网
 
国外巨头里,苹果似乎同样有意加入战场。据彭博社报道,苹果旗下的Vision Products Group事业群正在研发的设备包括平价版Apple Vision、第二代Apple Vision Pro、以及一款类似于Ray Ban Meta的AI智能眼镜。
 
国内各家公司也纷纷推出产品。4月,小米米家智能音频眼镜悦享版正式发售;5月,华为推出了搭载盘古大模型的智能眼镜;8月,蜂巢科技推出了界环AI音频眼镜。
 
那为什么字节先推出的是耳机,而不是眼镜?
 
「字节肯定是有在做眼镜的」,在顾看嘉唯来,无论是头盔式 VR,还是其他轻量型设备,或者透过光机画幅技术实现透视效果的设备,字节都有在积极探索和做迭代。
 
对于像字节这样的互联网大厂来说,选择做硬件不仅是基于情怀,更是对构建入口的持续追求,探索和试错都是必经之路。
 
尽管目前还没看到字节发布类似 Ray-Ban Meta 这样的硬件产品,但可以预见,他们必然会沿着这条路径寻找机会并逐步推出相关设备。不要低估字节在布局硬件上的资金、动力以及决心。
 
当然AI耳机也不止字节在做,之前在7月,小米发布了新款耳机 Buds 5,虽然没有明确定位为 AI 硬件,但该产品支持语音快速转文字,并能一键生成会议摘要,展示了其越来越智能化的特性;5月,未来智能和科大讯飞就推出了讯飞 AI 会议耳机 Pro 2,具备录音速记、语音识别、同声传译等功能,还集成了 viaim AI 会议助理,能够智能分析会议内容,自动生成摘要和待办事项,并支持智能问答功能;3月,前魅族副总裁李楠创立的怒喵科技宣布正在与魅族合作研发一款AI耳机。
 
不过,如果从更长的时间周期来看,不论是AI+眼镜还是耳机,大模型要落地现实搭载硬件成为用户的个人助理,还有距离。这不仅涉及技术本身,还包括商业生态的打通。在新兴的技术入口之争中,首先入局的往往是手机厂商,紧随其后的是像微信这样的超级应用。也就是说,一旦AI助理技术发展到一个高度成熟的PMF阶段,手机厂商和这些超级应用巨头都会迅速涌入。
 
字节这时推出Ola Friend,只是率先行动,谋求占得先机。
 
浏览量: 94

文章分页

上一页 1 … 69 70 71 … 86 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间