本文作者:访客

从技术落地到哲学思辨,AI Agent发展的关键议题

访客 2025-06-20 14:49:47 2
从技术落地到哲学思辨,AI Agent发展的关键议题摘要: 文 | 硅谷101你或许已在工作中体验过AI助手的便利,也可能在新闻里见过Agent自动完成复杂任务的报道。Agent作...

文 | 硅谷101

你或许已在工作中体验过AI助手的便利,也可能在新闻里见过Agent自动完成复杂任务的报道。Agent作为硅谷AI领域最热门的关键词之一,各类产品如雨后春笋般涌现,它们正以前所未有的速度渗透进我们的工作与生活。IDC认为,2025年,AI Agent将迎来规模化落地浪潮,其通过智能化任务处理重构标准化作业流程的潜力备受期待。

然而,一系列关键问题亟待解答:当下的AI Agent究竟能为我们做什么,又存在哪些局限?当硅谷巨头纷纷布局,创业公司该如何突围?更重要的是,当AI从工具进化为 “团队成员”,人机关系将如何重构,人类的独特价值又将体现在何处?

本期节目,《硅谷101》邀请到7位来自AI研发、商业分析、心理学等不同领域的嘉宾,由我们的特约研究员、Entrepreneurs of Life主理人Sophie带领大家从用户体验、技术挑战、商业逻辑和社会影响四个维度,展开一场关于AI Agent的深度对话。以下是这次对话内容的精选:

01 用户视角:理想与现实之差 Chapter 1.1 什么是Agent?从工具到伙伴

Sophie:首先,让我们从最基础的问题开始:到底什么是AI Agent?我们发现,不同人的理解还真不一样。我们先来听听一位典型极客的看法。

鸭哥是大型物流软件公司Samsara的AI应用科学家,也是活跃在开源社区的AI达人;他在GitHub上魔改Cursor的开源项目获得了超过五千个星标。在鸭哥看来,AI Agent需要满足三个必要条件。

鸭哥: 在我看来,Agent需满足三个必要条件:第一,具备工具使用能力,如调用搜索引擎搜索或调用编程语言;第二,拥有自主决策能力,明确获取任务后可自主分解任务,并按顺序调用工具参数以完成最终目标;第三,决策需为多步、自我迭代的动态过程,即能根据前一步结果动态决定下一步行动,而非工作流式的静态固定流程,例如依据搜索结果判断是停止搜索还是更换关键词深挖。

综上我认为,满足“工具调用”“自主决策”和“多轮迭代”这三个条件以后,才能称为Agent。

Sophie:鸭哥从技术视角给出的定义非常清晰;与此同时,另一位非AI技术背景的嘉宾,在世界500强公司担任数据策略总监、业余身为播客主播的新琦,她对Agent的定义重点在于人与AI的合作关系。

新琦:从合作视角看,人Agent是真正的甲方与乙方关系,而非聘用合同工的关系。与合同工合作需要我们去定义问题、拆解关键步骤并检查交付成果,而真正的甲乙关系是:乙方作为端到端承接整条流程的系统,在关键节点主动介入、提供决策建议,在接收高层指令后自动执行,最终交付成品而非半成品。

Sophie:新琦在采访过程中提到,她目前使用的Agent产品虽有不少亮点,但离她心目中Agent的标准还有距离。

下面,咱们来听听他们各自使用Agent产品惊喜、震撼时刻的场景,以及打动他们的功能或体验。

鸭哥告诉我们,他从上班写代码到下班带娃都离不开三类Agent的帮忙,让我们来听听看。

Chapter 1.2 Agent的多重惊喜

鸭哥: 我经常使用的AI Agent主要分为三类: 教练型、秘术型和搭档型。

教练型:比如OpenAI的Deep Research、ChatGPT的O3,主要用于获取调研信息、辅助深度思考,我把它当做了解不熟悉领域的窗口。

秘书型:如近期较火的Manus、Devin(均为订阅工具),适合处理相对简单的非沉浸式工作。例如哄娃睡觉时,我会让Manus 基于《白雪公主》故事改编内容,融入“好好吃饭”等教育引导,再调用TTS工具生成音频文件播放——秘书型工具擅长此类任务,能让我在娃睡前直接播放定制语音哄睡。

搭档型:我比较喜欢用Cursor、Windsurf等做正经的软件开发工作,因为它们支持并鼓励高频交互,允许我全程参与指导:先讨论设计方案,再让它把一个个小积木搭起来,最后我作为架构师再组合这些积木并审计结果,确保达成开发目标,更符合科班化、高标准的工作流程。

Sophie:CreateWise是一款我参与内测的AI软件。你只要一键上传音轨,软件就能直接输出完整剪辑后的音频,甚至能提供“哪些地方需要剪辑”的决策建议,以及利用AI模仿声音拟合结构,使语句更清晰,并对修改语句进行高亮显示,方便用户对比前后效果。我试用后向开发团队提出,你需要给我逐句剪辑的空间,因为有的剪辑是我喜欢的,有的剪辑不是我要的。他们现在已经提升这个功能的优先级并上线了。

此外,CreateWise能根据用户对剪辑的选择,直接串联到“文案生成和宣发”模块,针对不同平台生成相应文案,比如为音频平台生成shownotes、金句、标题建议。针对YouTube或Instagram等平台,它还能依据视频尺寸比例等细节,生成可以直接发布的内容。

从技术落地到哲学思辨,AI Agent发展的关键议题

来源:CreateWise

Sophie:这款专注于播客制作场景的产品通过对工作流的深度了解和针对每一环节的特定优化让新琦印象深刻。而另一方面,有几款通用型Agent产品也在一般性任务的执行上,受到了用户纽约大学应用心理学系大三学生Kolento的好评。

Kolento:我说几个不同的场景。

通用层面,我近期一直使用Manus。前几天新出现的Genspark Janus Park中,Super Agent模式对我来说比较惊艳,能协助我完成此前不太想完成的事务。这两者的差异之一是用户体验:起初,Manus的UI/UX视觉冲击力最吸引我;Genspark则具备类似将大量图片、内容及链接组合的功能,我此前主要用它进行旅游搜索,但它的界面视觉冲击力不及Manus,在一定程度上降低了我持续使用的热情。

另外,从本质来看,Genspark和Manus均支持Agent执行过程的链接分享与回放功能,用户可以回顾完整对话过程,甚至能基于该上下文延续对话。同时,它们也都能调用许多工具。不过,我对它们背后的规则了解有限,只听说Manus可能未使用MCP,而是采用CodeAct,但我并不知道Genspark具体内部使用的算法或工具。它们都能对任务做良好的规划与拆解,也会调用很多不同的工具,只是各自设计的工具可能存在细微差别,因为我感觉Genspark之前在旅游等场景上的表现相当不错,所以他们可能配备了一些预设的旅游搜索工具。

还有一个有趣的差异:Genspark的部分功能可能是Manus尚未具备的,比如“call for me”功能可以帮你打电话、预约酒店等,当时让我有一个小的“Aha moment”。

从技术落地到哲学思辨,AI Agent发展的关键议题

来源:Manus

编程层面,我比较喜欢Replit Rapid。我之前用Cursor和Windsurf,但Replit Rapid更像 Agent,能承担更多角色。

学术层面,我近期用Elicit,但它没有达到我心中Agent的定义。

Chapter 1.3 用户吐槽大会

Sophie:AI有惊喜点,当然也有槽点。

在听听具体槽点之前,我想分享鸭哥一项有意思的洞察,那就是随着各种Agent产品的不断发布,他的槽点在飞速地进化;很多他以前吐槽过的点现在却吐槽不了了,比如复杂任务中工具调用能力不足、写作AI味儿太重、上下文窗口不够长等等,他在近期发布的产品新版本中都看到了很大程度的改善。所以,用户今天的槽点和痛点,也将是Agent搭建者下一步重点攻坚的方向。在听完槽点后,我们紧接着也会听听几位搭建者相应的思考和回应。先从鸭哥的槽点开始。

鸭哥:当前AI模型的指令遵循能力虽然较以往有显著提升,但仍然存在不足。以GPT 4.1为例,当我要求它根据五章提纲先完成1-3章、再续写4-5章且明确要求不在1-3章结尾添加“未完待续”时,模型还是总以“未完待续”或“我们下一次再继续写,你还有其他想写的吗?”等类似表述收尾。我尝试了多种提示工程方法,均未解决该问题,最终只好通过逆向思维方法:将模型强制添加的“未完待续”字符串通过程序替换为空,从而完美地解决了这个问题。但如果AI模型的指令遵循能力足够完善,就不会出现这些乱七八糟的事情。

第二个槽点是在我使用AI产品的过程中,许多产品仍存在“为了使用AI而使用AI”的现象。例如Claude的Computer Use或OpenAI的Operator,都会用一个例子来展示“我很厉害,可以帮你订机票,输入信用卡号,输入各种信息,帮你点击预订机票的按钮”。但用户预订机票时最耗时的环节并非填写信息,而是确定出行日期——如果我选择前一天晚上出发,需要权衡酒店费用与机票价格、是否能避免早起,后一天出发需要考虑送孩子上学的时间、综合比较酒店加机票总价等。这些最麻烦的选择和考量才是用户的核心痛点。因此对AI产品开发者而言,需要针对用户实际需求设计产品,避免为用AI而生硬使用AI。

第三个观察到的现象是:AI虽然能力强大,但人类社会本质上是“人类友好”(human friendly)系统,专为人类设计。因此,许多信息或资源只有人类能够接触和获取,AI则完全无法访问。

例如在商务洽谈或事务处理中,无论是公司内部讨论设计方案还是外部商务谈判,很多重要决策并没有正式书面文档作为依据,而是在非正式场合(如喝咖啡、饭桌上)作出。而AI无法获取这些存在于人际交流中、尚未被文字记录的“部落知识”(tribal knowledge)。这并非AI自身的问题——你也不可能要求人们在与客户饮酒洽谈时,携带摄像机记录一切并输入给AI。这种困境根植于人类社会的运作方式,目前我也不知道该如何解决,但这确实是一个令人感到无奈的方面。当前AI能获取的信息或许只是冰山一角,大量隐性未记录的“废墟信息”仍无法触及,如果能突破这一限制,AI将实现更广泛的应用场景。

Sophie:Agent不服从指令,为了AI而AI、和缺乏人类世界暗信息——鸭哥的这三个槽点涉及了技术、产品设计、和人类社会对AI的环境局限等种种方面。而新琦则以她的亲身体会说明了Agent产品缺乏人情味的问题。

新琦:我现在看到很多Agent或者AI产品所不具备的,就是“真实性”。我们在多人播客里会有笑场,但是比如说我用CreateWise,它会将多人同时发出的“哈哈哈”视为重复词而删减,仅保留少量“哈哈”。可是在我看来,这才是这个节目很有意思的地方。或者,多人播客里集体的沉默在很多的AI软件里会被认为需要压缩,因为AI觉得要保持一定的信噪比和信息密度输出。但是,集体沉默很多时候是非常有意思的,比如主播抛出一个问题的时候,如果有3秒沉默,就说明这个问题非常值得探讨。这类留白是内容深度的体现,却会被AI当作无效信息去除。

当我们在说音频剪辑的时候,一是语言类型,不同AI产品对中文音频的识别、转译及剪辑能力与英文存在显著差距。二是节目形式,即单人播客或多人群聊播客:单人播客相对简单;而多人播客则复杂得多,核心在于多人播客需依赖多轨处理而非单音轨合并——既要保证听众听清对话内容,又需保留抢话时的真实氛围,这非常考验手艺人的“手艺活儿”。目前,多数AI软件或Agent在这方面能力不足,即便支持多轨上传,连多轨对齐都很难做到精准。

国内市场的风险偏好整体低于美国分析师或从业者。品牌倾向于控制色彩、色号数量及SKU总量,使得库存周转长期维持在相对稳健的位置上。彩妆品类长期盈利困难,包括资生堂在内的许多品牌均承认色彩类产品不赚钱。因此,二级市场在评估彩妆品类时,对一级市场品牌兴衰的红利期心存疑虑,更期待品牌上市后能长期保持稳健与可预期性。尤其在国内,二级市场机构投资者倾向于“先学挨打再学打人”,希望品牌控制风险,做到SKU可控:哪怕有50个色号,也至少需要明确告知重点生产的是哪些色号,其余则视为品牌建设的成本。

Chapter 1.4 思维升级:从用户到共创者

Sophie:面对我的吐槽邀请,有一位嘉宾却出人意料地吐槽了这个环节本身,觉得它代表了用户对于Agent在心态上的一种误区。这位嘉宾是身为Statsig数据科学家、博主和AI社区Superlinear Academy发起人的课代表立正。他是这么说的:

课代表立正:我觉得这个吐槽的做法本身是错误的。第一是理解上的错误,第二是使用上的错误。

理解上的错误在于,Agents并没有魔法,而是由过去的大语言模型、现有工具及协议逐步搭建而成。因此,指望它在当下就达到完美无缺的状态并不现实。人们的心态往往带有上一个时代的烙印——过去大多数工具是图形用户界面(GUI),点击按钮便就应该产生预期效果,如果按钮无效,可以直接吐槽。但AI并非如此,所以要学会如何用好它,才能发挥它真正的用处。

Sophie:在探索怎么用好Agent工具这一点上,课代表立正曾在他的博客里分享过用Manus反复尝试一项任务15次,终于成功的经历。他说:

课代表立正:如果大家没有一个学习的路径或改进的路径,肯定用不好AI。以我分享的Manus为例,它虽然出了14次错,但第15次成功了,说明它本身具备成功的潜力,问题可能出在我前14次的使用方式上。我该吐槽Manus,还是该反思为什么我自己花了14次迭代才成功,而不是一次就调教成功呢?这说明我使用AI的能力还有待提高。

对待AI不能沿用普通用户的心态,而是必须用搭建者的心态。如果你还是像用户心态那样,今天吐槽产品设计不足、明天批评功能不完善,会被这个时代落下的。

Sophie:听了这么多用户的喜悦和困惑,这些问题从开发者的角度看又是怎样的呢?我们把视角转向搭建者,看看他们对用户提出的痛点有什么回应,以及他们在技术和产品上的思考方向。

02 搭建者回应:技术攻坚进行时,更是价值观 Chapter 2.1 预期管理、指令遵循与人类暗信

2.1.1 用户预期管理:AI如职场新人

Sophie:说到痛点,我个人作为Agent用户的一项体会是,Agent对自身能力边界似乎没有清晰的认知,它们时常不知道自己哪些任务能顺利完成,哪些可能会遇到困难、需要和我更多交互,而哪些完全在它的能力之外。这导致Agent不大擅长管理我的预期,而是无论什么需求都一口答应,最终结果却时有不尽人意。我把这个问题抛给了身为Agent搭建者的曲晓音,她创立的HeyBoss AI今年初刚上线,主打用户一句话提示词生成完整网站或APP服务。晓音分享了她的看法。

晓音:我认为这个问题的核心,首先在于AI Agent背后的语言模型本身还不够智能,但更反映了工作方式的变革。举个例子,比如一个特别有才华、但没有工作经验的清华学生来公司当实习生,无论让ta做什么都自信满满,说“没问题,包在我身上”。然而,ta的实际产出却不符合预期,且难以预判风险,或无法有效沟通。随着工作经验的积累,这位清华学生才逐渐懂得评估任务耗时、预判风险并提前同步——这种能力提升源于经验沉淀,而非智商差异。

类比到AI领域,工作5-10年的职场人能精准管理预期,AI也需要通过处理大量重复任务积累经验,从而判断结果好坏。核心衡量标准不仅在于AI是否完成任务,更在于用户是否感知其完成——这有点像清华实习生的工作成果也需要以老板满意度为衡量标准:老板满意了,那才叫真正做好了,否则即使自认为完成了也无效。

我认为相关的数据,比如用户满意度、任务完成度、老板满意度等反馈,更多地掌握在应用层的AI Agent开发者手中,也就是像我们这样的AI应用公司,而不是掌握在OpenAI这类基础模型提供商那里。预期的标准本身是由“老板”(用户)来设定的。如果我们拥有足够的数据,就能判断预期是否得到了满足。当我们缺乏来自“老板”的数据时,就无法了解他们真正的预期是什么。

因此,我认为当前AI面临的最大问题在于:它就像一个没有工作经验的清华学生。我们需要为它提供“工作经验”,并给予它来自“老板”的反馈——比如,做得是好还是不好?完成了还是没完成?打几分?这样的话,AI的表现会更加准确。

此外,使用场景需要具备一定聚拢性。部分产品宣称“无所不能”,业务范围从给孩子订餐延伸至解决宇宙问题,覆盖过于宽泛反而导致聚焦不足,用户评价体系也难以形成特定模式。比如,我们聚焦于做网站和APP从而帮助小企业主、创业公司或者营销部门。每个场景都可以明确评判是否达成了用户需求及使用目的,由此能积累大量重复性数据,从而评估服务效果。反之,如果场景分散,评判体系将因缺乏统一标准而难以有效建立。

Sophie:晓音的比喻非常生动,将Agent比作一个聪明但缺乏工作经验的实习生,解释了需要积累用户反馈数据,才能帮Agent建立自身能力与用户预期比较的标尺;同时,她也强调了专注于特定领域可以帮助Agent积累更有价值的反馈。

另一方面,鸭哥前面提到的"Agent不遵守指令",则是另一位搭建者嘉宾重点攻克的议题之一。俞舟是哥伦比亚大学计算机副教授,她的创业公司Arklex.AI为新东方、沃尔玛等企业级客户内部Agent应用开发提供框架与工具,同时也面向终端用户提供自营Agent产品。她从技术层面给出了“如何让Agent更听话”的应对策略。

2.1.2 指令遵循:评测、防护栏与工作流

俞舟:实际上,Agent并非只有一个或某种单一的东西,而是包含了很多组成部分。比如Guardrails的核心目标是防范各类不良情况,而这一过程相当复杂。它并非只是一个工具,而是会传授一套完成任务的完整最佳方式。而且非常重要的一点是必须开展测试与评估——如果不明确Agent行为的好坏标准,仅凭主观随意操作,肯定无法得到理想结果。我们会根据它的评测结果做各种调整,可以用Agent的工作流来处理这些问题。

Sophie:Evaluation评测、Guardrail防护栏和Workflow工作流这三个关键词非常值得关注。在工作流方面,晓音从产品设计角度,提出了一种具体的解决方案。

晓音:我们也提供了很多工具,不是通过AI来修改,而是让用户像改PPT 那样,圈一下这个字,把它弄大弄小、改个动画。我们发现很多情况下,用户还是希望结果更可控。他们可能选择替换字、词、图片,或者添加效果,倾向于用PPT的这种传统方法,而不是AI的方法——因为觉得不太可控。所以,“可能不可控”和“可控但是限制性”的功能都需要。

2.1.3 人类暗信壁垒:场景渗透困境

Sophie:最后,关于鸭哥提到的“AI缺乏人类暗信息”这个根本性挑战,晓音的看法是:这个问题的确难以短期内解决,但它在不同应用场景下的严重程度是不同的。

晓音:我们工作的性质原本就是线上完成的,例如开发一个网站时,与巴基斯坦的外包公司或发布平台上的公司合作。合作方很少与我们进行线下会面,更不会通过握手力度来判断彼此的契合度,这些对于我们而言并非关键要素。因此,从人际沟通的角度来看,线上线下之间没有显著差异。

这恰恰是我们所处赛道比较适合AI来超越人类的一个原因。然而对于某些行业,比如线下服务领域,或是大型企业的销售岗位,很多关键性的工作或决策往往是在高尔夫球场的包厢等非正式、面对面的场合完成的。在这种情况下,AI所能获取的相关输入数据确实不足。所以,我认为这更多地取决于该领域Agent本身的特性,以及它所要取代的人类工作的具体性质。

Sophie:所以,搭建者们在考虑Agent创业方向时,应用场景对于暗信息的依赖程度或许是需要思考的。

Chapter 2.2 技术突围、产品设计和市场培育

Sophie:除了应对这些用户痛点,我们也很好奇,Agent搭建者们目前还在哪些方向上寻求突破呢?我们的嘉宾们分享了他们在技术、产品设计和市场培育三个方面重点攻坚的议题。

2.2.1 技术攻坚:自我进化与多Agent协作

Sophie:俞舟教授介绍了她和团队正在探索的前沿技术。

俞舟:在我自己的实验室里,我们也在做一些我认为非常重要、具备创新能力的研究。比如自我纠正和各种各样的自我学习能力。

Sophie:而晓音则透露,他们正在深度挖掘多个Agent协作的潜力。

晓音:多Agent协作会越来越普遍。当下讨论的核心不是向用户售卖单个Agent,而是提供一套需多Agent协同的解决方案。为了提升协作效能,需要引入AI CEO或AI Leader Agent统筹调度其他Agent。这可能是一个发展趋势,优势在于通过聚合多Agent的能力、多元技能及灵活合作模式,来解决单一Agent或单一技能无法应对的复杂问题。

Sophie:“众人拾柴火焰高”--这句老话或许对Agent也适用。但俞舟也提醒我们,这条路上还有不少技术挑战。

俞舟:当有很多Agent同时在一台机器上工作时,就会产生问题,如果让多个Agent分别在不同的分布式系统节点或不同的机器上工作,又会带来更多问题。关于如何更好地、更高效地、低成本地、处理这些问题,同时还要解决很多并发以及其他各种各样的问题,我们还有很多工作要做。

Sophie:尤其是在企业级应用中,安全问题将成为最大的技术挑战。

俞舟:最大的难关就是安全。以一个最简单的系统问题为例——数据库。以前数据库是供人使用的,人有权限去修改数据库的内容。但现在,Agent需要去修改这些内容。如果同时有多个Agent要去修改同一个数据库,我们该怎么办?万一它们修改后,数据库里的数据变得不一致了,甚至需要花大量时间去恢复原状,怎么办?而目前数据库本身无法提供一种既高效又便捷的方式来存储数据,并与Agent进行连接。

比如,当两个Agent交互时,哪些记忆可以分享,哪些不能?还有,数据库需要有governance layer(治理层)——有些Agent可以接触某些数据,而有些Agent则不能,这就像人一样,一旦你存在安全漏洞,没有相应权限,就不能接触核心数据。此外,还需要区分哪些是对外接口,哪些是内部接口等等。这里面有很多非常具体的工作要做。

2.2.2 产品设计:行业经验和用户洞察

Sophie:除了技术层面,产品设计同样是搭建者们关注的重点。在这一点上,晓音提出:在大模型实力之上,Agent应用还亟需积累具体的行业经验和用户洞察。

晓音:大模型的变化有点类似于人的智商水平。大模型更聪明并不代表它在具体技能上更懂行,这是因为掌握一项技能除了需要聪明才智,可能还需要一些行业的技术诀窍(know-how),或者是对具体应用场景的理解,这些往往依赖经验积累而非单纯的智商驱动。所以对我们来讲,这两者都非常重要。

以具体场景为例:创业者要做一个公司官网,小企业主想卖课,或者咖啡店需要处理订单时,仅靠大模型的通用智能远远不够,AI工具还需要精准把握行业特性,比如了解该行业的最新运营模式、竞争对手动态等,最终目标是确保网站和APP切实为业务创造商业价值。

我们需要:第一,了解特定行业;第二,与时俱进地了解行业,跟上行业变化;第三,让AI具备一定的品位——更多的是AI本身的设计能力。即使你自己不懂设计,但是AI提供的方案要有一定的调性和个性,并且符合品牌预期。

这并不一定是大模型越强大,品位就越好。品位的形成更多源于我们的训练过程,也源于设计这些Agent的人员自身的品位,以及我们对客户所处行业的所需品位的理解。这是因为有些客户无法清晰表述他们期望的品位,他们可能仅仅指出“太乱、太土、不够直观”,这些描述都相当模糊。例如,如果这位小企业主是健身博主,他所说的“土”是什么含义?如果他是一位销售水电工具的商家,他所说的“土”又是什么含义?如果是一家AI创业公司,“土”又意味着什么?每个人对“土”的定义是不同的。我们需要深入理解,透过表面现象探寻本质。

Sophie:AI的"智商"提高了,但不代表它懂得行业最新趋势或者审美标准,这些需要专门的训练和调整。

2.2.3 市场培育:企业流程重构

Sophie:在市场培育方面,俞舟提出了一项经常被技术人忽视的关键挑战。

俞舟:当前这个领域似乎被炒得很火,但实际的投资回报率(ROI)并不显著,在大企业中的部署应用也相对较少。然而,我认为这更多是一个时间问题。因为大企业的组织结构使其变革和推进新事物通常较为缓慢。技术本身往往不是最难的,真正的挑战在于“人”的因素。我们需要重新构建他们的工作流程,这实质上是在调整生产关系,因此需要深入了解企业并设法“教育”员工,引导他们更好地利用AI。以上过程需要循序渐进,并非产品一经推出就能立刻投入使用。它需要企业自上而下、以“顶层设计”的方式,系统性地解决这个问题。

Sophie:“技术容易,人事困难”——这句话道破了很多技术创新最终失败的原因。引导市场和客户重构工作流程和生产关系往往比开发技术本身更具挑战性。

03 商业视角:初创企业竞争指南

Sophie: 听了这些搭建者的分享,我对Agent从前沿黑科技到进入寻常百姓家需要克服的挑战有了更立体的理解。那么,这些技术和产品如何转化为拥有壁垒的长期商业模式呢?我们切换到商业视角,一起听听来自投资和创业领域的观点。

Chapter 3.1 打破SaaS壁垒:高质数据与客户关系

高宁:首先,正如硅谷投资人Sarah Guo在去年年底的一次分享中点明的,当前具备多模态、强理解与总结能力的 Agent能产出新的数据,而这正为打破传统SaaS的既有格局提供了可能。新兴公司所实现的新数据,其来源已不完全掌握在传统SaaS公司手中。以医疗诊断记录为例:传统模式下,医生手动录入访谈数据至表格。虽然存在很多门诊SaaS及病例管理公司,但数据掌控权并不集中在它们手中。如今的语音数据经AI整理后,生成更新、更准确、更丰富的信息。掌握此类新数据的初创公司,其竞争力未必逊于传统SaaS,因为丰富、高质量的数据才是核心价值点。

在于渠道与客户关系。许多初创公司面临这一挑战。如果能服务高速增长的初创企业,并伴随其成长为未来的平台型巨头乃至上市公司,就能自然构建起新的渠道与客户关系。从这一点看,传统公司的优势并非牢不可破。所以我持乐观态度。尤其是在外包或传统服务驱动型领域,它们原本依赖人力处理大量数据并总结工作,而Agent或AI的介入能更高效地输入和输出结构化、丰富且高价值的结果。这是初创公司挑战现有市场格局的一条路径。

当然,部分反应迅速的传统SaaS公司,特别是仍处于高速增长期的公司(如Salesforce),也具备追赶潜力。许多处于成长阶段的SaaS公司,如果能积极探索Agent路径,同样有望迎头赶上。

Sophie: 传统SaaS积累的数据可能在AI时代反而不再那么有价值,而新的数据采集和处理方式可能重新洗牌竞争格局。 那么,Agent创业公司如何建立自己的新护城河呢?这里,高宁强调了工程能力和产品设计与运营的重要性。

Chapter 3.2 建立护城河:用户默契培育

高宁:当前,对模型的理解正转化为工程能力,并应用于具体产品之中,这一过程本身相当复杂,具备相关能力的人才也较为稀缺。因此,这在某种意义上构成了技术壁垒——无论基于模型的表现进行评估和调优,还是对模型本身进行精细调整,你都需要深刻理解如何运用模型、明确调整的方向,才能使你的产品呈现更好的效果。

Manus的合伙人张涛曾在极客平台分享过类似见解,让我很受启发。这其中蕴含着重要的专业知识和实践经验,同时也涉及对不同模型的选择。当前各类大小模型不断涌现,发展速度和迭代频率均十分迅速。因此对模型的理解本身,也可以视为一种技术壁垒。

此外,产品层面的体验设计与呈现方式同样关键,例如如何降低用户使用门槛?如何优化on boarding流程,让它更顺畅?以及如何引导用户创造更多use case并提升用户活跃度?这还关联到市场营销、用户增长等诸多方面,这些因素在我看来也至关重要。

所以,我认为现在初创公司所面临的挑战正日益严峻。然而从另一个角度看,各方面能力的精进都能构成其独特的竞争壁垒。

Sophie:懂得如何调用和优化模型,并将其转化为优秀的产品体验,这本身就是一种稀缺的能力。鸭哥则从了解用户偏好和使用习惯的角度,提出了"默契"这个有趣的护城河概念。

鸭哥:最浅显的护城河或体现在数据层面。以Manus或Devin为例,它们具备一项功能:记录用户对输出的纠正,并将这些知识应用于后续的对话中。假设某公司使用Manus制作PPT,初次生成的版本主色系是绿色。假设用户不满意,要求把主色系改为蓝色,这就是一个数据积累的例子。当未来该用户或公司内其他成员再次请求制作PPT时,系统能根据这次数据自动采用蓝色作为主色系。随着这类纠正和反馈的持续累积,用户与AI之间会逐渐形成一种“默契”。用户会感受到系统的高度适配性,觉得其“好用”,因为它已了解老板喜欢什么、知道公司内部的各种规章制度,无需用户反复纠正。

此时,如果出现一个竞争对手,即使它的技术实力强大,但由于缺乏对该公司特定内部信息的了解,它生成的PPT可能仍会沿用绿色主色系,这可能引发用户对它能力的质疑。这就是一个非常大的护城河,哪怕它真的很聪明,但用户也不愿意去用。此时创业者或产品经理就应该思考:如何有效利用数据构建类似的数字护城河?如何促进用户与AI之间产生这种默契感?这或许是当下最有效的竞争策略。

Sophie:俗话说“衣不如新,人不如旧”;当Agent竞品的技术水平足够接近、足够满足用户基本需要时,我们是否也会说,“AI不如旧”呢?晓音还进一步指出,真正的护城河是解决用户的终极目标,而不只是提供中间步骤。

晓音:帮用户实现最终目的、把价值链做长更难被取代。

我们表面上是在编写代码,但实际上,我们的工作是帮助用户运营他们的业务。我们通过我们的软件、应用程序或网站,协助用户塑造品牌形象,吸引并留住用户,最终帮助他们更好地盈利。所以最终来讲,一个Agent的目的也应是帮助用户赚钱,而不仅仅是提供一个软件或工具供他们使用。

在这种情况下,我们需要更深入地了解用户,尤其是要掌握更多后台数据,比如用户的引流效果如何,他们在网站上停留了多长时间等等。我们需要了解这些方面的数据。我们在特定垂直领域做得越深入,我们的不可替代性就越强。

如果我们只是单纯停留在设计和开发网站,不再考虑用户是否真的使用、是否实现了转化,那么我们构建的护城河就不会很高。相反,如果我们能直接帮助用户实现最终的盈利目标,我们就更难被取代。

Sophie:这种"价值链延伸"的思路值得思考,从做网站到帮助获客、留存、变现,这种全链路服务更难做好,也自然更难被替代。

Chapter 3.3 大模型公司是否挤压Agent初创公司

Sophie:说到替代,我们不得不面对一个尖锐的问题:OpenAI、Anthropic这些大模型公司自己也在加强Agent能力,它们会不会最终挤压创业公司、尤其是通用类Agent公司的生存空间?高宁对此有一个很辩证的看法。

高宁:像现在的 GPT、Deepresearch、Manus或者Genspark,这些通用型的Agent,理论上多少存在一些既竞合关系。但因为它们都在吸引越来越多的新用户,让更多的小白用户了解Agent能做什么事情,所以在中短期内,我认为这个问题并不大。

长期来看,当模型和模型产品的用户越来越多时,如果用户同时使用两款产品,而这两款产品表现出的差异并不明显,那么一定会有一些替代。但对于这种应用型的产品,它的好处在于其背后依赖的是一个模型,而且这种依赖是无感知的。也就是说,用户可以根据哪个模型表现更好,甚至哪种模型组合的效果更好、成本更低、效率更高来选择各种各样的模型。

因此,我认为大模型和初创公司各有优缺点。

Sophie:所以短期内,有足够的市场空白和增量机会避免太激烈的竞争;但长期来看,差异化将尤为重要。俞舟教授也从企业级应用的角度,进一步强调了应用层中立性的价值。

俞舟:中立第三方平台,如我们这类平台,在推进相关事务时往往更容易、更快速。因为谁也不知道未来是否与OpenAI形成绑定关系,各方普遍不愿与任何单一公司建立深度绑定关系,都希望保留备选方案。大企业通常都要做Multi cloud,那么为什么要跟AWS绑定、用它的框架?万一它突然不行了,需要更换,我该怎么办呢?我们这类中立平台,恰恰为这种需求提供了可能。

Sophie:那么具体而言,Agent创业公司应该如何避免与大模型公司正面竞争呢?高宁给出了一个很实际的建议,那就是——去做大模型公司不会做的脏活、累活。

高宁:这一逻辑更适用于垂直领域 Agent。以VI为例,它也倾向于与Harvey等垂直应用合作而非自主开发,背后有两点核心考量:首先数据壁垒上,完全掌握各公司的私有数据几乎不可行;其次,打通工作流需要深度理解用户工作流程、上下游关系和系统架构等细节,这类基础性事务性工作,对当前聚焦通用人工智能(AGI)或模型基础能力提升的公司而言,并非首选。

另一方面,对于通用型产品而言,这也存在一定的风险。无论是文生图应用还是Agent相关产品,它们不太可能完全取代现有市场,所有用户都转向ChatGPT。对此,应用型产品的破局路径可能在于:针对核心用户群体,将产品形态逐步升级为基于工作流的SaaS工具;或者积极与大客户合作,提供定制化解决方案。我相信,不少初创公司已经意识到了,并且我也观察到一些公司正在积极调整策略,巩固自身的竞争力。

Sophie:这是一个接地气的建议。垂直行业理解、私有数据处理、流程打通、定制解决方案,这些看似琐碎但又必不可少的工作,恰恰是创业公司的机会所在。

Chapter 3.4 盈利逻辑:先谈效果,再谈成本

Sophie:最后,我们来聊一个很现实的问题:Agent由于需要多轮交互和调用工具,往往消耗大量tokens,这会不会带来严重的成本压力?对此,HeyBoss AI创始人晓音的回答很有意思。

晓音:我们以结果为导向。小白用户的比价逻辑在于:比如,过去雇佣一个涵盖设计、文案、SEO等岗位的巴基斯坦工程师团队,费用可能高达数千美元。而我们的服务无论价格多高,都不会超过该团队成本;无论交付多慢,也不会比该团队效率更低。因此,用户对我们的预期核心在于 “交付结果”,只要能达成这一点,价格和速度已足够让我惊艳。

Sophie:在专业服务领域,效果才是王道;相比传统的人力成本,Agent的token开销可能算是小问题了。

通过这些商业视角的分享,我们看到Agent创业公司既面临挑战,也有不少机遇。它们可以通过新数据、深度行业理解和端到端服务来建立自己的壁垒,同时谨慎处理与大模型公司的关系,寻找互补而非竞争的定位。

04 哲学与未来:Agent时代的深层思考与展望

Sophie:讲到这里,我想把话题引向一个更宏观的层面。技术发展从来不仅仅是技术本身的事,它往往会带来深远的社会影响。随着Agent技术的普及,它可能会重塑人与机器的关系,甚至影响社会结构。接下来,让我们一起来听听嘉宾们对Agent时代的哲学思考和未来展望。

Chapter 4.1 用户愿景:构建AI原生环境,解放人类双手

Sophie:首先,我们来听听用户对未来Agent形态的期待。Kolento分享了他对Agent与人交互方式演变的一些思考。

Kolento:传统的AI工作流程是:人类先为AI搭建好一步步的操作指令,然后AI执行操作并给出响应,最后由人类查看结果。在这个过程中,人类实际上有两个审核点:一个是在搭建过程之中进行审核;另一个是在AI给出结果之后,对结果进行审核,审核完后再返回第一步进行修改。这样有点麻烦,因为需要检查两次。

但我更倾向于认为,审核的次数可能不会减少,但方式有所变化。未来的Agent应该在第一步就对齐你的价值观、记忆以及所有偏好——不仅仅是行为上,而是对齐用户整个人,从而用户可以放手让AI在识别清楚意图之后完成所有任务。那么,仅在出现一些高危或者极端情况时,Agent才会来找用户进行确认。

这种形态我在Rapid这款产品上看到了,它让我有这种Aha moment。输入请求时,它不会每一步都要求用户确认。而如果使用Manus、Winserve时不开启自动模式,每一步都得确认——其实很多步骤是不需要确认的。然而,“工作流程”也许不会被淘汰,因为很多东西终究需要人来设计好——人的一个优势在于足够稳定、足够可被信任。

Sophie:这个从"流程搭建+分布结果审核"到"价值观对齐+放手去做"的转变趋势,代表了一种信任模式的根本变化。这种根本变化需要的不仅仅是Agent本身能力的进步。鸭哥从更广泛的社会适配角度,讨论了在他看来对于赋能Agent有关键影响的环境因素。

鸭哥:AI到底能够在人类的社会中、在我们的日常工作中发挥多少作用,在很大程度上取决于我们本身的“AI友好程度”,或者说“AI原生程度”,就像刚才说的蒸汽机的例子一样,如果我们能围绕蒸汽机来构建船舶的整体工作方式,那么这很可能成为实现工作流程最优化的关键。

从数字世界的视角来看,即便AI没有物理世界的隔阂,在数字领域仍面临诸多挑战,原因在于许多事物并非“AI原生”的。例如,当我们编写一段代码或一个库希望他人使用,或开发产品期待用户采纳时,当前产品说明书或文档大多面向人类设计——内容零散且因人类认知局限(如阅读速度慢)被拆分为多页面,需要用户自行点击超链接浏览。但AI处理文本和代码毫无障碍,即使一次性提供数万字文本,它也能快速处理,因此AI真正需要的是代码密集、内容集中的呈现方式。

试想未来存在两个库或软件:一个具备“AI友好”特性,提供的相关信息能让AI(例如Cursor)迅速理解并据此编写代码;另一个则设计为“人类友好”型。展望未来,我认为前者所拥有的竞争优势将极为显著。这正是AI原生性在现实中体现的重要价值。

Sophie:鸭哥提出的"AI原生"或"AI友好"的概念让我想到了城市规划中的无障碍设施,只不过这次是为AI设计的"无障碍接口"。

Chapter 4.2 人机协作:人类价值不可替代性

Sophie:AI能力的快速进化一方面激动人心,另一方面,越来越多的人开始关心在AI跟前,人应该扮演怎样的角色,又有哪些AI难以替代的价值。Kolento就表达了这样的忧虑。

Kolento:我们与机器之间的交互界面正变得越来越“薄”——交互的层次在减少,更趋近于直接对话。以Google Search为例,用户发出一个query,系统返回一个response,这种交互模式在一定程度上是相对平等的,尽管系统会提供多个结果供选择,但整体结构依然清晰。

然而,当我们与GPT这类模型交互时,就变得“无边界”了。对话可以持续进行直到token耗尽。你提出一个请求,模型可能生成一段长篇的回复;或者,你给一个更复杂的任务,Manus可能运行80分钟才能完成。那你的意义在哪呢?你只是给这种高层引导,那未来是不是你也可以被替代?

Sophie:"你的意义在哪",这个问题直指人类存在的本质;面对这种担忧,新琦提出了她对人类创造价值的理解。

新琦:我认为我依然是那个能够首先形成想法、提供指令、精雕细琢、保障成品的人,而AI是我的一个合伙人,我需要它给我出力气。

在音频领域,真正具有价值的内容,往往并非那些结构化、易于被AI获取的信息,因为这类信息无法构成增量价值。价值更多体现在两个方面:一是在某个特定领域拥有深度,且尚未被AI消化的商业洞察或学术研究;二是那些源自个人生活、未以结构化形式上传至互联网的信息。此外,以我们的播客节目为例,我们三位主播身处不同时区、处于人生不同阶段,我们的讨论通常来说是更立体、更多元,并且更有火花碰撞的。我认为在AI时代,我们要不断鼓励观点的碰撞和认知的迭代,而这往往是与AI合作难以实现的。

Sophie:增量信息、真实体验和差异化观点碰撞,这三点非常精准地点出了人类在内容生产中的独特价值。而鸭哥则从人与AI的工作关系角度,提出了一个有启发性的观点。

鸭哥:我们可以把AI想象成一个团队成员,而不仅仅是工具。这意味着我们与AI之间的关系正在发生转变。过去,当我们谈论工具(比如螺丝刀或汽车)时,通常会说“我用螺丝刀”或“我开车”,但不会说“我把某项任务委托给汽车”。但当我们说“这件事交给AI来做”时,大家觉得非常自然。这正是AI与传统工具的不同之处——它能做的事情越来越多,因此我们与它的关系更趋近于领导和下属模式。这就意味着我们的核心竞争力正从过去“如何使用计算器”这样的技能,转变为“如何管理AI”。这是一个重大但常被忽视的问题,因为擅长管理人的人非常少。

管理本身是一门博大精深的学问,需要大量的培训和学习。管理AI并非像使用螺丝刀那样,拿到说明书看一遍就会了,而是需要具备管理能力才能真正用好它,这是另一个我们需要做好的思维转变。

Sophie:把AI视为团队成员而非工具,这种思维转变可能真的会重新定义人机关系。我们需要学习的不再是"如何使用工具",而是"如何管理AI"。最后,Kolento还强调了人类在价值判断上的不可替代性。

Kolento:从哲学层面讲,我认为AI无法替代人类进行价值判断。这也是为什么我不认为AI能胜任法官的原因。我不放心将价值判断交给AI,一部分原因在于它的“黑盒”特性——我们对它的运作机制不够了解。即便未来我们能够完全理解它,其可能表现出的“过于全能”特性,也让我们不禁思考:人类自身的价值与价值观在哪?AI、Agent的价值观终究是由其创造者所决定的。毕竟,我们观察到GPT和Claude在行为上存在本质差异,这很可能源于它们训练数据的差异。

Sophie:AI可能越来越擅长“怎么做”,但“做什么”和“为什么这么做”或许仍然需要来自人类的答案。

Chapter 4.3 Agent时代:伦理治理与社会系统

Sophie:除了人机关系,Agent时代的社会结构也值得我们思考。互联网2.0时代,Google、Facebook等中心化平台掌控了绝大多数用户流量和内容分发,一方面创造了巨大的效率提升和企业盈利,另一方面也造就了不少问题。那么在AI和Agent时代,我们是不是有机会走出一条不一样的路?我们每个人独特的需求和价值观是否能充分得到AI Agent的个性化尊重?Kolento对此有着自己的洞见。

Kolento:我之前曾写过一个片段,提到了计算机发展史中“分久必合,合久必分”的规律。很多人认为AI或Agent的出现是整合的趋势,但实际上,Agent本身还是在分散。例如,要实现一个完整的Agent部署,即便你使用Defi构建了工作流并将其嵌入编码,最终部署仍需依赖多种工具——这看似在整合,但这些工具本身又成为了碎片化的一部分。

如果回看每一段历史,你会发现整合都是以牺牲个性化为代价的。因此我开始想:什么东西应该坚持个性化,什么东西又是我们不该放弃的。我认为,人的主体性绝对不能放弃。然而我们与机器之间的交互界面却变得越来越“薄”,这让我很担心人的价值所在。

我认为需要个人专属的大模型。当前所有主流AI如GPT、Claude、Gemini等都属于中心化模式。正如“想要打败魔法,唯有魔法本身”,要对抗中心化,或许需要一种“个人化的中心化”——赋予每个人可拥有、可迁移的AI。因此我非常关心AI如何与人对齐,以及如何实现负责任的AI发展。如果以硅谷的两派观点作比喻,我更倾向于杰弗里·辛顿(Geoffrey Hinton)的路线,而不是萨姆·奥尔特曼(Sam Altman)。

Sophie:“用魔法打败魔法”,充分个性化、个人可拥有、可迁移的AI Agent或许能让我们在接近全知全能的中心化AI面前,仍旧能感受到作为个体被聆听、被尊重的温度。最后,晓音则从更宏观的社会学角度,思考了AI社会可能出现的新型关系。

晓音:我之前看过一个心理学研究,说人类与其他物种的本质区别在于:人类能够组织起大量的人群。很多动物,比如大象,一个族群可能不超过100个或50个,而人类可以组织几百万甚至几千万人。

那么下一个问题是,AI能不能组织更多AI Agent?能不能像人类一样,组织几百万甚至上千万的AI Agent去做各种各样的事情?如果AI能做到这一点,是不是意味着AI可以迸发出更强大的能力?我认为这种能力是存在的,只是我们可能需要让AI的语言模型更加强大,它的上下文窗口(context window)更大,工具使用(tool use)更加完善,并且AI的评估(evaluation)能力能够管理更复杂的架构。

另外,AI与AI Agent之间会不会存在所谓的利益不一致?就像人多总会发生冲突一样,AI与Agent之间会不会也“打架”?我觉得其实也会的,因为它们各自对“成功”的判别标准不同,所以存在利益不一致的地方,就像人类一样。

在这种情况下,如果AI与AI Agent之间发生冲突,该如何评判谁对谁错?我们是期待一种类似民主的投票制,由AI Agent进行投票,还是期待一个独裁的政府,即一个AI CEO说“你们都听我的,闭嘴”?我觉得我们可能很快就会面临类似于人类社会架构上的问题。

还有一个点是,有可能AI Agent会管理人类,同时人类也会管理一部分AI Agent。

我们现在已经发现了这样的问题,并正在思考:如何设计这样的体系?如何评判AI CEO?如何与它对接?如何让它提升技术能力、工作水平?

Sophie:AI之间会不会产生类似人类社会的结构和冲突?人类和AI之间的管理关系会如何演变?这些问题听起来像是科幻,但实际上可能已经悄然在前沿技术中萌芽了。

阅读
分享