800万下载的AI代码工具,为何能在企业级场景先落地?
AI代码正在革新软件开发范式。
文|徐鑫
编|任晓渔
今年上半年,趣丸科技内部研发人员中AI代码工具的使用率快速提升。“最开始不到10%技术研发人员使用灵码,经过一个Q(季度)使用占比超80%,下半年目标是把代码生成占比提升到35%”,趣丸科技的研发效能工具平台负责人黄金说。
灵码全名是阿里云研发的AI代码工具通义灵码。这款产品在去年云栖大会发布后受到了市场广泛关注,目前插件下载量超800万,累计为程序员生成超15亿行代码,并服务了一汽集团、中华财险、哈啰集团等上万家企业。
这种蓬勃应用落地的态势,与近期大模型市场的冷思考相比,颇有冰火两重天的架势。
过去几个月,行业内时常能听到大模型的Scaling Law失效的论调。特别是随着全球基础大模型市场洗牌,无法完成健康造血的玩家退出基模竞争,同时市场始终没有出现一款大模型超级应用。这些背景下,生成式AI被认为正从狂飙猛进落进理性的现实。
不过,这些可能并非市场的全貌。以通义灵码为代表的AI代码落地态势显示,大模型ToB落地正当时。“在这个领域,我们是绝对领先的。”阿里云智能集团资深副总裁、公共云事业部总裁刘伟光说,通义灵码是有真正社会价值的产品,阿里云做的就是To B,创造价值。
这些ToB落地趋势也意味着,大模型不是昙花一现,不是玩具,它已经在影响现实世界,并创造出切实的价值。
01
需求汹涌,从Copilot向Agent演进
AI代码助手,在当下大模型采购里已经占据了一席之地。
数智前线统计大模型市场招投标项目时看到,今年前三季度,不少央国企的需求都与智能代码助手相关。例如,邮储集团、联通、华泰证券、电信、上海金融期货等多家企业及机构都曾发布与大模型代码助手相关的采购需求,吸引了多家服务商竞标。
某国有大行此前告诉数智前线,他们看到,金融场景要求高,正非常谨慎地推进大模型在交易等核心业务环节的落地,会优先选择代码助手、客服等场景先行落地。
通义灵码已经感受到了这股蓬勃的需求。“灵码在大模型产品中非常受欢迎,有从前不是阿里云客户的企业,也因为通义灵码,开始与阿里云合作”,一位靠近阿里云的人士称。
日前,该企业已经将通义灵码接入内部开发平台中,有超70%的研发人员使用通义灵码,AI代码生成占比超过30%,将研发效率提升两位数。这相当于灵码撬开了一道大模型合作的门,大模型又可以为阿里云的云产品带来新的增量,该人士表示。
实际上,AI编程能力在这波大模型浪潮里一直备受瞩目。从OpenAI到百模大战各路玩家,大模型厂商们发布新模型时总把模型的AI编程能力作为保留项目重点展示。各类榜单和Benchmark也会专门考察模型的编程能力。
业界看到,这一领域呈现出模型厂商密切关注,应用落地也走在前列的态势,与AI代码领域的特性有关。
一方面,编程本身是人与机器沟通的语言,大语言模型训练时,编程语言作为一种重要的语言能力,关乎大模型的整体能力表现。
其次,用大模型来提升软件开发效率也是行业刚需。有统计显示,与大语言模型的对话互动里,29%的对话需求是希望大模型帮忙写代码。而JetBrains2023年的一个开发者生态报告显示,开发者最耗时的活动百分之七八十都与编写代码、理解代码及互联网搜索、调试、写注释、写测试等有关。
大模型到来,AI代码工具可以快速补齐初级工程师的能力短板,从团队层面可以极大提升协同效率。同时,AI直接能完成许多日常重复性劳动,将程序员从大量繁复的代码编写、调优、检查中解放出来,降低企业的运行成本,缩短开发周期,提高软件开发效率,在市场竞争中赢得先机。
市场蓬勃需求之下,正如大模型在许多领域的落地趋势一样,AI代码领域代码助手的形态也正从原来的辅助型Copilot工具为主,向Agent端到端模式演化。
一位AI编程行业人士称,今年年初Devin出现给行业里打了一个样。Copilot阶段,AI代码主要完成一些单点任务,而进入到Agent模式,它将逐渐具备自主完成任务的能力,比如能写代码、做测试。
之前,行业内并不特别确信当下AI能基于Agent模式,独立去完成端到端的代码任务。该人士提到,Devin之后,Cursor等Agent模式产品又持续受到市场关注,Agent方向出现加速发展迹象。
过去一年,通义灵码的产品演进也与这一趋势呼应。
去年10月云栖大会上,通义灵码首次亮相。作为一个辅助编码助手,它能辅助程序员完成不少代码开发工作。比如,能根据当前代码文件及跨文件的上下文,自动生成行级/函数级代码、单元测试、代码注释等,此外还具备代码解释、智能研发问答、异常报错排查等能力。
到今年9月的云栖大会上,通义灵码AI程序员登场。Agent模式下,全新的通义灵码AI程序员模拟了人类程序员的能力,能完成更复杂、更全面的编程任务。比如只需几句话指令,这名AI程序员就能完成需求理解、任务拆解、代码编写、修改BUG、测试等任务,最快几分钟可从0到1完成应用开发。
数智前线获悉,本月,通义灵码AI程序员还将迎来重大升级。
通义灵码团队认为,Agent产品接下来演进路径,将从单库的问答Agent向编码Agent、测试Agent发展,最终多Agents调度组合,将实现需求、代码、测试的全流程自动化。
这将带来软件行业开发范式的巨大革新,开发人才队伍也会出现转型,“人会聚焦于业务的创意和纠偏,重复性工作交由大模型完成,大模型和软件工具链的结合,软件研发正在步入一个全新的时代。”通义灵码产品技术负责人神秀说。
02
企业级场景,通义灵码如何率先实现落地?
AI代码将从Copilot最终演进到Multi-Agent模式已成为共识。但当下,AI代码工具还在落地初期,技术服务商们需要基于当下的发展阶段,找到技术的落地路径。
通义灵码这样的先锋产品正通过解决一系列落地问题,让产品在企业级场景里率先被用了起来。
基模的能力很重要,它决定了代码能力的强弱。业界看到,基模能力变强,代码生成效率的准确度和研发团队的代码采纳指标都会提升,还能减少应用层针对基础模型的SFT或其他调整。
近两年国内模型厂商在基础模型层面不断追赶,在努力缩短与OpenAI最强的模型的差距。目前国内一些AI代码产品在基座模型的代码能力上已经实现了赶超。
比如,通义灵码上个月的底层模型升级到Qwen-coder2.5,实现了智能问答和代码补全效果的全面提升。阿里云介绍,Qwen-coder2.5在EvalPlus、LiveCodeBench、BigCodeBench十余项基准评测中均取得开源最佳成绩,是全球最强开源代码模型。它在考察代码修复能力的Aider、多编程语言能力的McEval等9个基准上,也优于GPT-4o。
基模能力提升之外,工程侧也有大量问题有待技术服务商们解决。
一家AI代码应用企业提到,他们还非常看重产品的企业级能力。比如,AI代码工具能否和企业内的系统结合,企业内部知识库能否便捷导入,能不能提供团队级ID等功能都十分影响产品应用的效果。
这都是真实的研发要求。日常研发工作近八成要与企业内原有的几十万行沉淀代码资产互动,需要基于已有代码修复BUG、增加需求。在这类任务里,AI代码工具得从几十万行代码里,精准找到解决用户需求所需要的代码,并且塞到一个足够小的上下文窗口里。
它要求AI代码产品具备可扩展性,方便企业能够进行企业级RAG和SFT改进等控制动作。
通义灵码团队花了大量精力来建设这类企业级能力。以检索增强的探索为例,他们总结出了不少做法,比如,把大量的常用业务代码和逻辑写好注释,作为语料放到检索增强库。其他开发者注入注释时,AI代码工具通过注释就能找回上传的代码,直接进行生成。这时代码生成的效果更好,大概率能生成更符合企业鼓励规范的代码。
这些探索也在沉淀成为企业级RAG的落地方法论。具体来说,不能大而全,要从场景出发,把大模型解决得不是特别好的Bad Case总结出来,思考解决它所需要的语料或者代码库、样例库,再去收集相关的数据,上传到知识库做向量化,最后再评测问题是不是得到了改进。基于这种不断的实验,一些场景里消除Bad Case的效果已经非常明显。
代码采纳率等ROI指标能否被统计也非常影响企业采购决定,影响AI代码的落地。
这涉及到两点,一方面是产品功能层面,需要厂商对市场需求有洞察能力。
“如果没有代码采纳率统计,企业就很难评估工具给企业带来的价值。去做预算申报和落地结果呈现时,ROI无法计算。”黄金认为,GitHub Copilot基模能力很强,但在企业级能力上比较单薄。国内通义灵码企业级支撑度更强,对企业落地应用更加友好。
另一方面,AI代码产品还得真正创造价值,ROI要算得过来,才能被市场认可。IDC此前告诉数智前线,ROI是否可测算极大影响了大模型在场景里的落地进展。大模型赋能的数字人、智能客服等产品走在落地前列,与这些场景里产品能带来可测算的收益密切有关。
目前通义灵码在大量头部企业里应用,已经带来了非常立竿见影的效果。比如国内某头部全金融牌照公司通过整合通义灵码,在超3000人的试用阶段,就有极大的效能提升。团队开发效率整体提升10%以上,将继续推广到数万人开发人员,持续提升开发团队的生产效率和开发质量。
灵码还快速汲取市场反馈,来加速产品迭代。中华财险创新研发中心开发二部架构师吴杰对灵码的响应速度印象深刻。他们公司今年四月开始使用通义灵码,前后端研发团队500+人,近六成使用灵码,代码采纳率达到20%。吴杰提过一个需求,希望灵码能在组织里建更小组织,方便统计灵码使用情况。他观察到这个需求提出不久后就上线了,灵码的产品更新很快。
基于技术、产品和工程层面的工作,在海量用户的持续反馈-迭代下,通义灵码正在大量头部企业里落地应用,并形成一个正向的循环。
03
先锋企业,怎么用通义灵码?
亚信科技接触通义灵码时,提了一个很现实的需求,他们要在不同的场景来用这款产品。
比如自用型场景主要是在亚信内部研发环境用,希望能显著提升公司自有产品的研发效率。在协作型场景,AI代码工具主要是用来服务客户,在客户的现场内部环境来用,目标是提升一些日常项目的交付质量和运维效率。研发环境里涉及多个厂商,包含交付、运维、运营等多类工作,还要求严格控制数据安全及网络安全。
另外,他们还有一些面向客户的中短期需求,希望使用智能编程工具,提升这些中短期项目的交付效率及交付质量。
三类场景,需求各异,对AI代码产品的部署方式提出了不低的要求。通义灵码灵活的部署恰好能契合亚信科技的复杂使用场景。灵码提供了公共云、公共云vpc、私有部署三种模式,企业可以根据不同业务需求、安全性要求,选择不同的部署模式。
使用通义灵码后,亚信科技也看到了明显的效率提升。目前,无论是研发团队还是交付团队,都基于AI代码工具实现了更高的开发效率。目前,亚信科技的研发团队采纳率超过30%,交付团队采纳率稳定在20%~30%。
企业实际应用时,除了对部署模式有要求,还需要AI代码产品能广泛支持多种代码语言。
国内目前开发者群体非常青睐Java语言,灵码后台看到有四成开发者使用Java语言。为了服务好这个群体,灵码团队针对Java专门做了一些优化。此前,阿里云基于小模型开发的代码助手就针对Java语言做了大量的工作和调优。大模型时代,这些经验,如跨文件解析、幻觉消除等都被融入到通义灵码中。目前通义灵码Java语言的生成效果很不错,生成代码率达到四到五成。
Java之外,灵码还熟练掌握Python、Go、JavaScript、TypeScript、C/C++、C#等200多种编程语言,帮助开发者提升超10%的开发效率。
应用场景上,通义灵码七成的代码生成发生在代码补全场景。目前,通灵码具备多端支持能力,可支持VScode和JetBrains,这让不少开发者直观感受到了灵码的能力。
中华财险创新研发中心开发二部架构师吴杰提到,“灵码不仅能感知到当前编辑的页面,还能对整个项目进行跨文件感知,因此生成出来的代码比较符合我们的需求”。
灵码的智能研发问答功能,是开发者的第二刚需。开发者可以随时与通义灵码进行技术对话,灵码能给出高匹配的回复。之前许多开发者需要查搜索引擎的问题,现在可以直接问大模型。要做到这一点,需要在大模型上加上互联网知识的RAG框架,这种架构当下在行业内也是标配。
代码解释场景,解决了工程师最头疼的问题,读别人的代码。有了通义灵码后能大大节省这部分时间,目前这一功能也深受开发者青睐。
在代码生成和代码解释这类提升效率的需求外,广大用户还有一些更深层的提升代码质量的需求,比如单元测试和优化review等诊断类工作。业界认为,在这类能力上,行业内的AI代码服务商还需要持续优化升级。
目前,已经有企业将通义灵码的这部分能力用了起来。今年6月,接入通义灵码的哈啰集团自研copilot“海螺机器人”就体验了通义灵码的代码评审能力。每周有180个应用通过AI完成评审,平均每周发现140个Bug。
一些企业也反馈,在前端语言如VUE语言,灵码目前采纳率不超过20%,代码生成占比也比较低。其中一个很重要原因在于,很多企业有自己个性化的前端框架,它们不都是基于开源的前端框架来开发。大模型要能理解用户多样化、个性化框架的特点。
这也是灵码需要持续去优化的方向,要进一步降低产品与企业内个性化框架和企业知识库知结合的难度,构建更多工具链,通过检索增强,让AI代码产品能更加贴合企业的个性化场景。
相应的,这也会带来企业内知识传递方式的变化。过去靠口口相传、老带新,未来模型具备业务知识和领域经验,每一个开发者用好智能化工具,企业内知识就可以通过工具传导到研发过程中。比如开发场景里的代码规范、测试场景里的测试用例、运维场景里的运维知识,都能得到更好的沉淀。
从落地路径探索,到企业及个人开发者使用进展看,通义灵码已经走在了大模型赋能AI代码的落地前列。可以说,大模型应用,AI代码先行。而科技ToB,阿里云坚定投入,一直在路上。