
对话 | 探索AI创业“无人区”的阶跃星辰

在启明创投第十六届人民币基金年会暨投资人高峰论坛上,启明创投主管合伙人周志峰与阶跃星辰创始人、首席执行官姜大昕以“探索AI创业‘无人区’的阶跃星辰”为主题进行对话。双方围绕AGI(通用人工智能)的定义、发展的路线图,当前大模型技术进展,为什么2025年AI Agent火爆出圈,及阶跃星辰在AI Agent领域的布局等话题展开深入探讨。
启明创投主管合伙人周志峰(左)与阶跃星辰创始人、首席执行官姜大昕(右)
姜大昕指出,AI模型的技术发展仍然处于非常陡峭的上升阶段,理解和生成一体化的多模态模型非常重要。在Agent的战略布局上,阶跃星辰聚焦于智能终端方向。他强调,Agent的关键能力在于通过多模态交互理解用户所处的环境与任务的上下文,并主动、自主地帮助用户完成任务。阶跃星辰的一大重要目标是打造一个智能终端的平台,让更多人调用其全方位模型矩阵。
对此,周志峰表示,如今AI领域的“模型即产品”理念与互联网时代的产品构建理念存在很大差异:在AI场景中,一个或一组优秀的模型或Agent直接决定产品70%-80%的表现;而互联网时代因技术底座成熟,企业专注于产品层面的创新。
以下系经精编整理的对话实录,有编辑与删节01/实现AGI的三个阶段
周志峰:下午好,您能够来我们峰会,我特别开心。1月份DeepSeek两个模型发布以后,我收到无数问询,是不是DeepSeek一出来,我们投资的阶跃星辰和智谱AI等都面临巨大的挑战?今天请您帮我回答这些挑战性的问题。
4月份,习近平总书记来到上海徐汇区的“模速空间”大模型创新生态社区调研,有四家企业是一对一做了汇报,阶跃星辰是其中唯一一家大模型企业。
姜大昕:当时机会也是非常难得,阶跃星辰作为上海人工智能基础大模型企业,第一个做了汇报,我们介绍了基础大模型技术和应用的最新进展,展示了多模态大模型与智能终端场景相结合,为每一个人的生活带来便利、创造价值。
周志峰:之前行业中经常提及中国大模型六小虎的概念,加上几家科技大厂,是中国研发基础大模型的主力军。近期又有媒体提出“新五强”争锋,其中三家是已有较大体量的公司:字节跳动、阿里巴巴、DeepSeek、智谱AI、和阶跃星辰,认为这五家企业将在冲向AGI(通用人工智能)的道路上继续努力。您怎么看?您的AGI定义是什么?阶跃星辰的愿景是什么?应该如何走向AGI?
姜大昕:AGI是什么?其实业界没有共识。如果十年之前,大家说我们讨论一下AGI什么时候能实现,感觉像是天方夜谭,甚至五年之前大模型没出现时,大家也觉得这件事情不在讨论范围之内。现在大模型越来越多之后,更多人会认为AGI会在未来五年到来,大家给出的时间表不一样,从2026年至2030年不等。
到底什么是测试AGI到来的准则?4月美国一所大学做了一个测试,用传统的图灵测试测了OpenAI GPT-4.5,发现30%的人分不清它究竟是AI还是人类,73%的情况下成功使人们相信其为人类。按照图灵测试原始的定义,这意味着GPT-4.5通过了图灵测试。我们觉得仅是这样的标准并不能认为AGI就到来了。所以我和硅谷的朋友交流时,他们给出一个新的AGI定义,对标的是人类智能,就是说模型能够完成现有的人类工作的百分比。这个百分比应该是有多少,不同人的看法不一样,如果我定的话,一个保守的数字,50%。
2030年的模型如果可以完成人类现有工作的50%,我认为AGI就到来了。阶跃星辰在创立之初给自己设立了目标,就是要实现AGI,我们几位创始人当时画了一张实现AGI的路线图,这张图划分了三个阶段:模拟世界、探索世界和归纳世界。
所谓模拟世界,这里的学习方法是模仿学习,我们把互联网所有的数据都灌入大模型,通过非常简单的任务让模型领会数据内在的结构和特征,这个阶段它最主要的是学习各种模态的表征,从语音,到声音,到图像,到视频,到4D物理时空,这里的核心问题是我们如何用深度神经网络实现从简单到复杂的各个模态的表征,这是第一阶段要完成的工作。
学会表征世界以后,第二阶段我们要让模型帮助我们解决问题,特别是一些很复杂的问题。比如写一段代码或做数学题,我们经常需要很强的思维链。人在解决这种复杂问题的时候,用到的一个能力叫做慢思考。举个例子,我们做一道数学题的时候,往往不是一口报答案的,而是把一道题拆解成不同的步骤,如果觉得开始的思路不对,我们会反思,想新的解决方法。所以这是不断试错探索的过程,如何让机器具备这样的慢思考的能力,背后用到的算法就是强化学习。强化学习这个概念并不是很新,今年也很巧合,图灵奖颁给了两位强化学习的专家,一位是Andrew G. Barto,另一位是Richard S. Sutton,后者写了一篇很著名的文章《苦涩的教训》,据说OpenAI的人每天把它当作《圣经》一样读一遍。
2016年击败人类围棋圣手李世石的AlphaGo是强化学习的典型代表,到了今年大家熟知的DeepSeek背后也是采用了强化学习的算法,使得模型推理能力得到了很大的提升。
但强化学习还不是智能的终点,再往下走的话,智能能够进化到自主学习,模型能够在生物、核能、量子计算这些最前沿领域和科学家一起发现新的规律,发现人类没有发现的物理规律,这个阶段我们把它叫做归纳世界。
去年8月份OpenAI公布了五个智能演进的层级(level),最早是Chatbot(聊天机器人),然后是Reasoner(逻辑推理),Agent(智能体),Innovator(创新者),Organization(组织),如果我们仔细去看它的定义,会发现这五个层级和我们三个阶段背后的逻辑是一致的,只是各自描述的方式不同。
我们看到OpenAI或国外的大公司发布的模型虽然很多,但如果沿着这条路线图看的话,会发现它的模型是不断覆盖这条路径上的关键节点。今天从模拟世界到探索世界,我们看到这个趋势变得越来越清晰了,所以我们的信心也是越来越足。
周志峰:说到大模型,回到开场的DeepSeek,都是做大模型的公司,到底阶跃星辰和DeepSeek等公司相比,我们的差异化特点是什么?
姜大昕:我介绍一下我们在过去两年做的工作,我们发布了一些大模型,虽然都叫基础大模型,但功能和方向是不太一样的,我们可以把它分成:语言模型和多模态模型。语言里面有基础模型和推理模型,在多模态领域可以按照不同模态进行分类,有语音模型、音乐模型、图像模型和视频模型。
如果按照功能分类,还可以分成理解模型和生成模型。我们的一大特色就是非常重视多模态能力,且不断增强(这个能力)。阶跃星辰坚持全模态覆盖及原生多模态理念,这在业界是一个非共识,但我们始终相信多模态是通向AGI的必经之路。
实际上AGI是类比人的智能来定义的,人除了语言的符号智能以外,天生还有视觉智能、空间智能和运动智能,这些智能光靠语言是无法实现的,必须通过多模态体现。除了AGI概念以外,一旦到了应用领域,不管是做C端,还是做垂类B端应用,我们都希望模型像人一样能够听、能够看、能够说,这样它才能更好地理解用户所处的物理环境,并且以很自然的方式和用户交流。从这两个角度来说,我们觉得缺乏了任何一个模态都会延缓实现AGI的进程。所以和别的公司比起来,能够做到坚持自研全面的基础大模型,并且构建完整模型矩阵,大厂尚属少数,更别说创业公司,这也是我们的特色和优势。
02/技术进展与发展趋势
周志峰:之前提到的六小虎也有一些已经公开宣布彻底放弃预训练,只做后训练等研发,感觉大家的选择越来越不一样。从您的角度来看,阶跃星辰觉得目前的技术有什么主要进展?我们接下来会怎么走?
姜大昕:一方面模型能力确实在不断提升。推理模型也好,多模态模型也好,正在不断提升,催生了应用落地,DeepSeek出来以后,大家觉得以前很多在应用场景做得不好的工作,现在通过很强的模型也可以实现了,模型能力解锁了很多应用场景,另外我们觉得模型发展并没有减速。
春节之后,可能受到了DeepSeek的影响,美国五家头部企业发布了很多模型,OpenAI先是发布了o3和GPT-4o解决方案,而且OpenAI的发布时间一般与谷歌的发布时间差不多,谷歌同时间发布了Gemini系列。其他还有Claude 3.7 Sonnet,短短两个月的时间,国外五家头部模型公司争先恐后地发布了模型,所以模型的进展并不慢,而且透过这些模型的发布,我们还是能够看出整个发展的趋势。
第一,现在的模型正在从原来的模拟世界、模仿学习的模型,走向强化学习的模型。
最早强化学习的模型是去年9月OpenAI发布的一款o1模型,到了12月发布了满血版,再到春节DeepSeek发布了R1模型,这基本宣告了推理模型从趋势变成了一个范式。现在再去看上述几家国外头部企业发布的模型,基本都是融合了推理能力。阶跃星辰在推理方面也做了一些工作,1月份我们发布了一个小的Step R-Mini模型,在当时已经超过了OpenAI o1 preview模型,未来我们也会发布满血版的推理模型。在推理模型方面,我们看到还有很多工作在推进。比如,如何进一步提升推理效率。大家现在认为思维链非常长,但有一些是无效思考。
第二,很关键的问题,强化学习如何在像数学、代码这样有明确对和错的领域,以及很多无法明确判定对错和价值观的领域,泛化奖励函数?以及思维链如何人工合成这些数据并放到预训练里面?这些是现在产业界和研究界非常热门的话题。
推理模型在未来一到两年里还是会继续往前发展。同时我们还看到一个趋势,推理模型不仅可以用在文字领域,现在多模态领域也实现了推理,以OpenAI o3模型为例,网友给它一张图让它猜这是什么地方,它真的像福尔摩斯一样,通过细节去推断图片中究竟是什么地方。这里我向大家演示,这是我们最近发布的图片推理模型,给它一张图片,让它判断这是哪个中超球队的主场和比赛。
如果大家以前玩过图像识别的话,会发现上一代视觉模型只是从训练数据里面找差不多的内容,还是一个快思考的过程,即看到这张图片之后判断自己在哪里见过,这并不是推理。
现在的模型能够从球场的比分牌上找到两个参赛队伍的队标。还会看看台上球迷的衣服颜色,判断是谁的主场,这时候它已经可以推断出是哪个体育场了。另外,通过体育场的建筑风格,比如体育场的顶部,确认究竟是哪个球场。
它已经不是一眼报,而是通过细节和感官识别与内部知识库结合做推理,所以推理的能力会变得越来越强大。
我们还看到一个有趣的趋势,多模态融合走向理解生成一体化。首先我解释一下,什么是理解生成一体化。
在语言模型中,比如DeepSeek,我们给它一篇文章,让它回答问题或生成总结,这是典型的理解类任务;反过来,如果给它一个标题让它进行创作,这是生成类任务。大家通常不会区分这两种任务,而是用同一个模型完成。但在多模态领域这两者是分开的,像刚才判断一张图的内容信息,得用GPT-4V或GPT-4o这样的模型,如果是生成,要用Sora这样的模型。所以,在视觉领域还没有实现理解和生成的一体化。
为什么这个问题非常重要?比如老师拿粉笔在黑板上写字,他手的运动,包括粉笔和黑板接触的痕迹,Sora是可以模拟的,如果老师写到一半停下来了,我们去问他后面会写什么,这是需要一个理解模型去预测,而生成模型Sora是没有这样的能力的,这就是我们说的理解和生成并没有一体化。
从生成的角度来看,目前的生成模型还不受理解控制。从理解的角度来看,什么才算是真正的理解?如果我不能创造,那就说明我并没有理解,只有我能真正自主创作,才说明我实现了真正的理解。就如同Richard Feynman说的——“What I cannot create, I do not understand”。
在文本领域,生成任务是Predict Next Token,同时模型也可以理解整个互联网上的知识,理解这个大千世界。如果平移到视觉领域,Predict Next Frame还无法做到,计算机视觉的研究已经进行了几十年,到目前还不能实现。这导致后面很多事情,比如要生成一个比较长的视频,让它符合物理规律、符合逻辑,目前还办不到。同样,如果要做一个通用的机器人,给它一条指令,它就能完成多样性的任务,这件事情目前做不到,也是因为视觉领域还不能做到真正的泛化。
所以理解生成一体化非常重要。目前我们看到一个很好的趋势,就是以GPT-4o为代表的模型,用户给出指令,它生成一张图,用户可以不断输入指令,让它不断编辑,这里面所需要的能力是理解生成一体化。首先它要理解指令,第二要实现根据指令进行编辑,模型在生成图片的时候必须要理解文字和图像,这件事情是非常难的。虽然OpenAI并没有公布细节,但我们可以看到它一定是在理解生成一体化方面前进了一大步,阶跃星辰在这方面也有一些进展,我们最近开源了一个模型,能够进行多轮图像编辑。
我们现在觉得模型技术发展还是处在非常陡峭的上升阶段,每六个月我们都会发现极具颠覆性的技术的涌现,我们一方面看到技术确实已经成熟到可以做应用的阶段,但同时不能忽视这个技术还是快速地往前发展。
03/打造智能终端平台让更多人调用阶跃星辰全方位模型矩阵
周志峰:大模型依然很热,今年有一个方向更热——AI Agent,阶跃星辰是如何布局这个方面的?
姜大昕:Agent确实很热,很多人说2025年是Agent的元年,我觉得其实Agent这个词在2023年就出来了,那时候有一张Agent的架构图。为什么一直没火,但到了2025年这个概念变得非常火?它能够成功和两个因素有极大的关系:
第一,AI Agent能够处理非常复杂的问题,这就需要模型有非常强大的推理能力。去年下半年推理模型出现,发展到今年年初的时候,Agent随之逐渐成熟了。
第二,它需要多模态的能力,因为Agent需要理解用户所处的环境,理解任务上下文,需要模型的多模态的能力。
这是AI Agent这么火爆的技术推动力。
至于什么是Agent?我觉得大家各有各的观点,有的写得非常长,各方面描述了什么是Agent。在我看来,非常浓缩的定义是能够自主地帮助人类完成复杂任务的体系就叫Agent。我们再进一步看什么是自主?它包括两层含义:自动、主动。所谓自动,就是它在完成一个复杂任务时,尽可能独立完成,减少或不需要人类的干预,交给它一个任务,它能够自己运行并在最后交付一个结果,这是自动化的过程。
主动是比较难实现的一点,大家习惯在做一件事情时,思考谁能帮我完成,我要操控界面来实现,任务的发起者通常是用户本人。我们设想一下,如果有一款会议软件,当开始会议时自动开启录音,会议结束后自动生成总结;在开会过程中,如果上级突然提了一个你没有准备的问题,它能自动帮你汇总相关资料并呈现出来,这是多么好的一个Agent。所以Agent必须是兼具自动性、主动性的
周志峰:阶跃星辰是如何布局这一领域的呢?
姜大昕:目前我们在发力智能终端Agent。
智能终端往往是人的感知和体验的延伸。现在有一款硬件非常火,叫Plaud,有几千万美元的营收。它是一款录音笔,做得非常巧妙,可以贴在iPhone背面,能够带着它到处跑。它随时可以录音,比如在通话的时候录音,这就是人类耳朵的延伸,可以随时随地让它帮助你收集整理你听到的信息,这就说明硬件作为一个Agent能够主动地理解用户的环境,明白任务的上下文,这个能力是非常关键的。所以很多智能设备存在这样的属性,是眼睛的延伸,是耳朵的延伸,比如启明创投投资的影石创新(688775.SH)就是眼睛的延伸,我们也希望它进一步变成一个Agent,拍照的时候不需要按下按键,只需要和它说拍照,或它理解什么时候该拍,什么时候不该拍。
另外智能设备往往是可以帮助人完成任务的,比如现在微波炉有上百种功能,如果不看说明书的话很难进行操作。假设在微波炉内植入一枚芯片之后,可以很人性化,用户说“帮我把鸡蛋蒸一下”,它自己就可以完成了。它的特点是能够通过自然语言和用户交互,理解用户所处的环境及意图,并且自动帮助用户完成任务,我们最终希望打造一个智能终端的平台,让更多人调用阶跃星辰的全方位模型矩阵。
周志峰:正如前面所介绍的,我觉得模型还在快速演进迭代,技术底座在快速变化,变得更智能。我所尊敬的一些经历过互联网时代的投资人,或许因各种缘由,认为不应该投资模型公司,而只宜投资有真金白银收入、具备商业化能力的应用公司。我觉得中国进入互联网时代是在后半场,那时候任何一家互联网创业公司几乎不用担心技术底座的任何问题,就专注于产品层面的创新。互联网的产业链很短,上方是流量,下方是广告等商业变现手段。而今天的AI时代,还是在上半场,模型层面或技术底座还有大量的优化空间,某种意义上,就像“模型即产品”所体现的,一个好的Agent或模型决定了产品的七八十分。在这个时代,超级应用公司是否将诞生于像阶跃星辰这样掌握底层模型能力的企业?
姜大昕:我非常同意你的说法,我也和很多产品经理聊过,他们觉得在互联网时代成功的产品经理,在AI时代可能要重新学习一遍。在互联网时代,技术是相对确定的,产品是不确定的;现在两个方向都不确定,例如究竟技术能够发展到什么程度,更难的是判断技术在未来六个月能够发展到什么智能水平;研发产品需要有一些超前思维,若基于现有技术做产品,可能下一代技术出来的时候会颠覆现有产品。
所以产品经理最大的苦恼是如何在高度不确定的技术平台上,构建一款新的产品,这可能是每个人都要思考的问题,也正因为如此,这个时代才是最好的时代。
周志峰:谢谢您的精彩分享。