豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

文 | 王强宇在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时,通用模型可能给出不准确甚至错误建议,这在严肃的医疗决策中不可接受。大家都知道监督微调(SFT)技术是解决上述难题性价比较比较高的方案之一,但S...

华为团队回应盘古开源AI模型抄袭争议:并非基于其他模型增量训练,已严格遵循开源许可

经历一天行业热议后,华为AI大模型研究团队如今终于回应盘古开源模型被质疑套壳抄袭争议。7月5日下午,华为旗下AI大语言模型盘古Pro MoE技术开发团队“诺亚方舟实验室”发布了一份声明,称盘古 Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商模型增量训练而来。“我们注...

协同办公赛道再生变,谁能率先挖出AI金矿?

文 | 明晰野望,作者丨落苏协同办公赛道的生死竞速,在大模型的助推下进入了决赛。玩家还是那老三位:借道DeepSeek卷起AI一体机的钉钉、带着全新AI知识库产品的飞书,以及拥有最强私域生态,将AI能力定制化嵌入千行百业的企业微信。数字化办公时代,小到几十KB的文档,大到公司组织架构、供应链降本,都...

“巢燧”大模型基准测试发布国内深度推理大模型评测报告

继DeepSeek-R1开源发布之后,国内多家企业陆续研发和上线了深度推理大模型。“巢燧”大模型基准测试密切追踪国内深度推理大模型最新进展,近期,红星新闻联合天津大学自然语言处理实验室,依托“燧观”大模型智能测试平台,开展“巢燧”大模型基准综合评测第三次评测,对国内几款主流深度推理大模型进行了系统评...

AI编程“真相”:硬核测试全部0分,AI写代码到底行不行?| 深度

图片来源@pixabayAI能力落地是当下最热门的话题,从走下技术神坛,到真正赋能场景和业务,拨开舆论的重重迷雾,真实情况如何?我们将以“真相”为主线,持续推出系列稿件,理性观察AI技术应用落地的现状和未来,也欢迎产业各方参与话题讨论。“AI替代程序员”的言论甚嚣,AI编程(AI Coding)也正...

AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察

AI编程已经成为生成式AI落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主组成的科研团队发表的论文却跟AI编程“泼了一盆冷水”。AI优势仍停留在“知识密集型”这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品(包括了GPT-4o、DeepSeek R1、Claud...

理想、元戎启行双强卡位VLA,破解智驾信任题

当前,辅助驾驶已实现“全国都能开”的基础覆盖,但用户从“能用”到“爱用”的鸿沟依然显著。核心痛点在于“安心感不足”——系统决策缺乏解释性、盲区预判能力薄弱、人机交互过于机械化等问题,导致用户对智驾系统缺乏信任。而理想与元戎启行同期押注VLA(视觉-语言-动作)模型,正是针对这一痛点,通过技术升维破解...

调研300个医疗大模型,谁能在同质化瓶颈下破局?

文 | vb动脉网6个月时间,逾千个医疗垂直模型喷涌而出后,市场步入冷静期。兜售算力的NVIDIA、分配算力的云服务商、专注B端的AI工具开发商是这波风口的最大赢家。尤其是前两者,当GPU摇身成为“零风险”的印钞机,他们做好基础服务便可通过紧缺的算力资源盈利。反观应用层面,医疗大模型开发者虽能研发出...