为什么科技圈正流行使唤AI买咖啡?
科技圈内正流行起了使唤 AI 买咖啡。
今年 9 月初,支付宝在Inclusion·外滩大会宣布AI生活管家“支小宝”上线时,就用“支小宝”点了一杯星巴克咖啡;10 月 28 日,2024 CNCC 大会上,智谱科技也用其最新的智能体应用 AutoGLM 演示点了一杯咖啡。
不只软件厂商,越来越多的手机厂商演示 AI 功能时,也开始喜欢从点一杯咖啡切入。
10月上旬,vivo 推出的手机智能体——PhoneGPT,也可以听取用户指令执行买咖啡的操作;10 月下旬,荣耀 CEO 赵明在发布会现场也在使用智能助手 YOYO 一句话点咖啡。
从最开始仅支持对话输出内容的生成式 AI(Generative AI),到能帮人执行具体事务的代理式 AI(AI Agent),各家企业的产品演示方式具体落地到了“点一杯咖啡”这样的小事上。
AI 的想象当然并不止于此,除了点咖啡,大厂们无疑期望着让 AI 能跑腿干更多的活,一句话就能自动帮你点外卖、订酒店、买东西。只是相较于 Agent 这样广义而模糊的词汇而言,“办事型AI ”显然有着更低的理解和认同门槛。
随着办事型 AI 越来越琳琅满目之余,业内也在开始思考:软硬件都有各自不可替代的优势,各方如何打通生态的壁垒,真正为用户提供有用且便捷的服务。
01、办事 AI ,能干比会说更实在
过去一两年,主要占据行业视野的是生成式 AI ,但现在单纯的生成式 AI 已无法充分满足C端用户对AI落地的需求。
此前《新立场》的文章中就提到,生成式 AI 和代理式 AI 是人工智能领域中两个不同的方向,前者主要通过学习数据,生成输出新内容(文本、图像、音频等),最常见的应用就是聊天机器人;后者不仅能聊天,还更侧重于模拟智能行为,与环境进行交互,并根据收集的数据作出决策并执行任务。
代理式 AI 可以视为生成式 AI 的递进。显而易见,由于 OpenAI 的 ChatGPT 爆火,为AI点明了一个发展方向,所以过去一两年国内对于 AI To C 的探索,大多是围绕生成式 AI 来的。而在技术逐渐落地并面向广大 C 端用户时,光是会听会说的生成式 AI 已然不够,AI 需要帮人干更多的事情。
于是,各大厂商开始逐步关注代理式 AI 。
这不仅是因为行业感知到了用户需求的进化。生成式 AI 的壁垒在于模型的效果和数据的质量,而代理式 AI 的壁垒则在于生态的丰富性和联通性。经历了刚开始的百模大战,到现在的相对冷静期,厂商们逐渐清楚,在具体的AI应用落地侧,单纯的卷生成式 AI已经不够了,AI怎么真正服务生活变得更加重要,上一个移动互联网时代在各行各业积累的生态,对于 AI 来说,是一片几乎未曾开发的沃土。
近期,似乎越来越多的厂商也意识到了,发展代理式 AI 从一件具体小事切入的重要性。
就以 9 月支小宝的那场发布会为例,发布会结束后,让 AI 买咖啡在科技圈媒体圈都成为热议话题。此后的荣耀发布会,甚至出现了荣耀CEO赵明用 AI下单 2000 杯咖啡的演示。
毕竟买咖啡这样的行为,可以同时满足用户和厂商现阶段的核心需求:在用户看来,一句话一杯咖啡的成本就可以体现 AI 的办事效率是否有所进步;而在厂商看来,用 AI 买咖啡的行为,囊括了代理式 AI 所有的关键流程。
借由让 AI 买咖啡,一句话让AI办事有了更形象且落地的案例,也有了未来更多的想象。
02、能力测评,技术生态各有所长
当我们想要找一个词汇形容这类代理式 AI 时,也会自然而然发现,“办事 AI ”比 agent 本身更具体,也更有本土特色。
目前办事AI可以根据厂商性质分为三大类,平台、硬件、大模型类。以用户买咖啡这一场景为例,对比三个类型的办事 AI 具体异同点如下图。
互联网平台类如支付宝推出的“支小宝”,当用户下达指令,支小宝会调取出相应的服务,如买咖啡、订机票、打车等,在App内能完成从点单到支付的全流程。从目前测试结果来看,调取的服务和支持的城市仍在逐步开放中。
支小宝的优势是生态的丰富性。今年 4 月,支付宝开始灰度测试一款全新的智能助理,首页下拉就能体验,这就是现在的支小宝前身。直到 9 月,“支小宝”作为一款生活服务类的独立 App 正式推出,基于支付宝丰富的服务生态,用户只需要简单说句话,便可唤起海量的极致服务。
可以说,作为一款国民级应用,支付宝 400 多万的小程序,以及超 8000 项的数字生活服务,无疑是支小宝可以持续深耕的沃土。而支小宝未来的优势,则在于其可以横跨不同的硬件平台,让尽可能多的人用上AI服务。
硬件类如荣耀YOYO,当用户使用手机助手语音下达指令后,AI助手会模拟用户屏幕交互行为,自动点击屏幕来调取应用,找到应用中的商户并自动下单,最后需要用户确认支付。
不同于支小宝这样的独立 app,荣耀YOYO等此类手机的AI助手 ,可以从手机系统层面去调用手机内的其他 app 或服务,可以视为此前手机语音助手的升级版。当然,这类硬件厂商 AI 产品的优势就是占据用户入口,以及硬件对于 app 的调用权限。
但劣势在于持续优化迭代的门槛高,厂商可能要为此投入高性能芯片,研发配套的操作系统等,同时还要考虑用户更换新手机的情况。因此手机厂商需要不断地在产品、成本与性能之间寻求平衡,进一步探索AI Agent的应用潜力。
比如十月在荣耀 Magic7发布会之前,荣耀就已提前发布AI操作系统 MagicOS 9.0,并在发布会上跟升级成智能体的 YOYO 一起亮相。
更不用说苹果为了给 AI 铺路,除了发布适配 AI 的新手机、新系统,近期还推出了搭载全新 M4 芯片的 Mac 系列产品,被外界视为进一步向 AI PC 迈进。
由于付出的成本更大,现在硬件类的办事 AI,每一步走得更加谨慎。
而对于既不占据用户入口,又没有生活服务生态的大模型厂商来说,做办事 AI 仍具有一定的优势,就是既可以像硬件厂商一般模拟用户对屏幕的交互行为,但又不受硬件厂商的品牌限制,探索成为一个上下游都开放的平台。
如智谱科技的 AutoGLM ,用户下达指令后,应用也会模拟用户屏幕交互行为来调取其他应用,中间需要用户干预进行关键操作,最后需要用户确认支付。从定位来看,大模型类厂商的办事 AI 介于硬件类和平台类之间。
03、互联互通,入口要广应用要多
如果要对各类办事 AI 的未来做一个预测,可以从一些已经相对成熟的产品来对比。
比如智能家居或车机的语音控制系统,类似生活场景的智能 AI 产品逻辑已经很接近我们现在所说的办事 AI,但仍有局限性。其本质上还是在“家”或“车”这个封闭环境中执行任务的,提供服务相对有限,对AI下指令也相对更简单。
但是让AI“买咖啡”这类事情,显然发生在更开放的生活场景中,AI要面对的是更复杂而多元的真实世界。AI 的一端是用户个性化的生活,另一端是千行百业的商家或服务。
此时硬件厂和平台厂做办事 AI ,都会依托自身掌握的其中一端主动权来发散。手机、智能穿戴设备、全屋智能家电、智能汽车等硬件,都是用户触达 AI更直接的入口,这是硬件厂的源头优势。
而像支小宝这样的AI软件产品,背靠的支付宝不仅仅是支付平台,更是国内最大的数字生活服务平台,能用AI来调动更广大的商家机构,为用户提供更便捷丝滑的办事服务。这些复杂的地面基建工作正是平台在服务生态上的优势,毕竟在过去的移动支付时代,支付宝就是这么做的:下场铺二维码、建小程序,目前支付宝已拥有400万个小程序、连接超8000万商家。
到了 AI 时代,支小宝正用AI 的逻辑重构平台生态。此前支付宝推出智能体开发平台“百宝箱”,正是让商家机构可以 0 代码快速创建专属智能体,并一键发布到支付宝小程序、支付宝App、支小宝App。
目前我们打开支小宝就可以看到,许多第三方服务商家已经有了自己的智能体,比如与黄山景区推出的“黄小松”智能体、与杭州文旅推出的“杭小忆”智能体等。可以预见未来,其他行业也会经历从移动互联网服务到智能体服务的升级蜕变,而这个过程或许比小程序时代来得更快更猛。
然而,正如移动互联网的繁荣需要手机厂商与互联网平台的开放协作,进入AI时代,让AI真正长出手和脚,融入生活,帮你办事,也需要多方合力推动。
毕竟,无论是硬件商还是软件商,各自AI产品执行任务的能力都还需要加强,目前它们都还难以达到一次性拆解复杂指令并完整执行任务的效果。
比如当硬件在调用软件时,在多个关键步骤仍然需要用户介入,智谱的AutoGLM 就跳不过广告弹窗 ; 而支小宝这样的软件调用支付宝内的服务时,跟商家的协同也还需进一步建设。比如当用户需要订餐但选择困难,商家是否能根据用户的喜好作出智能推荐。
因此,尽管不同类型厂商的办事 AI 业务有所重合,但还远远不到争夺AI入口的阶段,在开放场景下的办事 AI ,无论是软件和硬件厂都需要对方的能力,来完成办事流程的闭环。
硬件厂商需要互联网平台的生态资源,才能真正深入数千万商家机构,深入生活的肌理,扩大服务的供给。互联网平台的AI产品,也需要与硬件结合,比如车机、手表、眼镜等,才能焕新服务的形式。
此前 ,字节跳动的豆包就推出了 AI 智能体耳机Ola Friend ,戴上耳机就能查信息、问攻略、学英语等;Rokid也传出要跟支小宝合作,佩戴AR眼镜就能让AI帮忙点咖啡、打车,实现各种一句话办事。可以看出,现在各类厂商都在积极探索软硬件结合,为办事AI的落地寻找最优的路径。
如果我们参考移动互联网此前十多年的发展,也会发现在各大平台互联互通程度不断的提升下,今天的生活办事更加便利。而AI要真的为人办事,绕不开的也是互联互通,这很大程度上决定着下一个阶段AI ToC的落地速度。
这条路很长,但我们至少知道方向在哪里。硬件厂商的原生智能体与互联网平台的智能体之间如何组合协同,应该遵循什么样的标准,如何进一步塑造上下游生态模式,都是业内需要思考的问题。