超声大模型评测基准亮相——海豚智能全球领跑
- +1 你赞过了
【天极网IT新闻频道】近日,海豚智能与牛津大学、剑桥大学与北京航空航天大学等合作伙伴共同发布大模型测评基准U2-Bench。这是全球*专为大模型超声图像理解能力设计的多任务测评基准。U2-Bench 收录了7,241例来自 15 个解剖部位的病例,覆盖疾病诊断、病灶定位、报告生成等 8 大任务、50 个临床场景,以此来全面、客观、准确的评估多模态大模型在复杂超声数据上的表现。
在*新测试中,海豚智能的*自研超声大模型Dolphin-V1在U2-Bench上综合得分(U2-Score)为0.4748,位居全球*,远超第二名Google Gemini-2.5-Pro-Preview(0.2968),以及DeepSeek-VL2(0.2630)、GPT-4o(0.2253)等模型。其中模型在超声标准切面识别任务上表现优异,对于心脏与胎儿的标准切面识别的准确率超过85%,远超在该任务上单项排名第二的谷歌医疗大模型MedGemma的56%与29%。
海豚智能U2-Bench的构建及后续工作获得了多位科学家的大力支持和高度评价,其中包括:
雅克·苏凯院士(指导模型临床场景设计):法国国家技术科学院院士,国家高性能医疗器械创新中心影像中心首席科学家,逸超医疗董事长,世界超声领域*次和第二次革命的推动者、引领者,飞利浦医疗前CTO。
Alison Noble院士(指导模型测评任务设计):英国皇家学会副主席,牛津大学终身教授,大英帝国司令勋章获得者,前MICCAI主席,当代超声AI界的全球领军人物。
李舟军教授(指导大模型相关思路设计):北京航空航天大学教授,全球前2%顶尖科学家。
“U2-Bench 的诞生离不开海豚智能这群富有创造力的年轻人们的努力,”,雅克·苏凯院士表示,“很高兴看到他们为超声领域带来的变革,这将成为超声AI研究的新篇章。”
Alison Noble 院士表示,“公开统一的测评基准对于超声大模型走向临床应用至关重要。”
海豚智能创始人,CEO勒安捷表示:“U2-Bench 不仅填补了医疗超声大模型领域评测的空白,更为大模型在超声领域的应用带来了更多的可能性。非常感谢雅克院士、 Alison院士和李舟军教授在这个过程中给予我们的无私帮助,以及团队伙伴们日以继夜的辛苦工作。
作为一家医学影像大模型公司,我们认为实现技术在医疗场景中的落地至关重要,这也是我们强调要将临床洞见融入到AI模型的研发流程中的关键原因。测评结果显示,我们即将在 7 月发布的Dolphin-V1.0大模型已在 U2-Bench 上超越了 Google与 DeepSeek。未来,我们将进一步推进模型的落地,继续与合作伙伴们共建临床上高效、可信的超声大模型。”
相关资料:
论文:“U2-Bench: Benchmarking Large Vision-Language Models on Ultrasound Understanding”
官方网站:https://dolphin-sound.github.io/u2-bench/
关于海豚智能: 海豚智能(海宁海豚之声医疗科技有限公司)由来自牛津大学、剑桥大学、爱丁堡大学、北京航空航天大学、香港中文大学等高校的95后团队创立,是一家致力于打造新一代智能医学影像引擎的企业。公司已经自研全球*通用超声多模态大模型,并与战略合作方逸超医疗合作,实现了模型在全球*GPU平面波超声设备e-Pascal的部署,构建了全球*超声智能体,预计将于2025年7月正式发布。
类型:广告最新资讯
热门视频
新品评测