智谱AI视觉大模型性能炸裂！CogVLM2的19B模型不惧挑战GPT-4V

2024-05-23 09:05:34 出处：搜狐网

用微信扫描二维码
+1 你赞过了

【天极网IT新闻频道】继去年发布并开源VisualGLM-6B和CogVLM之后，智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量，在性能上接近或超越了GPT-4V。

据悉，CogVLM2系列模型在多个关键指标上实现了显著提升，如在 OCRbench 基准上性能提升32%，在TextVQA基准上性能提升21.9%，且模型具备了较强的文档图像理解能力(DocVQA)等。此外，CogVLM2支持8K文本长度和高达1344*1344的图像分辨率，同时提供中英文双语的开源模型版本。

CogVLM2 继承并优化了上一代模型的经典架构，采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数设置，精细地建模了视觉与语言序列的交互，确保了在增强视觉理解能力的同时，不会削弱模型在语言处理上的原有优势。这种深度融合的策略，使得视觉模态与语言模态能够更加紧密地结合。

值得注意的是，尽管CogVLM2的总参数量为190亿，但实际激活的参数量仅约120亿，这得益于精心设计的多专家模块结构，显著提高了推理效率。此外，CogVLM2能够支持高达1344分辨率的图像输入，并引入了专门的降采样模块，以提高处理高分辨率图像的效率。

在多模态基准测试中，CogVLM2的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA性能;而在其他性能上，也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型，团队还透露，GLM新版本会内嵌CogVLM2能力，在智谱清言App和智谱AI大模型MaaS开放平台上线。

类型：广告

免责声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。

聚合标签：

相关产品

网友评论

发布

相关文章

本周热门

2023成都国际汽车展览会8月25日开幕

马帅
纳芯微参加2023深圳国际传感器与应用技术展发表演讲

谢钧炫
上海交大-平湖智能光电研究院助力光电企业成长

谢钧炫
国内首款，江苏集萃脑电所展出64导凝胶脑电帽

谢钧炫
汉希科特半导体：引进德国传感器技术，目标全产业链自主可控

谢钧炫
传感生态圈：绘制产业图谱，打通从材料到终端应用的链条

谢钧炫
2023深圳国际传感器与应用技术展览会Sensor Shenzhen开幕

谢钧炫
为构建元宇宙提供动力对话万兴科技副总裁谷成芳

谢钧炫
第一观点吴茂林：良知是自媒体人的创业底线

曾宪勇
捷径！快速找到Windows安全漏洞对应的修复补丁

曾宪勇

热门标签

最新资讯

: Windows安全漏洞的修复补丁

热门视频

: 爱畅K50解锁K歌全新体验

新品评测

: 努比亚Z70 Ultra深度评测

热门产品排行榜

编辑推荐排行榜

1 华为MateBook GT 14 (Ultra9/32GB/2TB) ￥10999

参数图片评测
2 华为MateBook GT 14 (Ultra7/32GB/1TB) ￥9199

参数图片评测
3 华为MateBook GT 14 (Ultra5/32GB/1TB) ￥8199

参数图片评测
4 华为MateBook GT 14 (Ultra5 125H/16GB/1TB) ￥7499

参数图片评测
5 惠普（HP）暗影精灵乐享版￥6798

参数图片评测
6 荣耀MagicBook Art 14 ￥8499

参数图片评测
7 联想拯救者 Y9000P AI元启(i9 14900HX/32GB/1TB/RTX4060) ￥10999

参数图片评测
8 联想开天N8(联想开天N80z G1d) 即将上市

参数图片评测
9 联想开天N6(联想开天N60z G1d) 即将上市

参数图片评测
10 华为MateBook E 2023(12代i5/16GB/1TB/集显/原野绿键盘) ￥6799

参数图片评测

关于我们|About us|天极服务|天极动态|加入我们|网站地图|网站律师|友情合作|RSS订阅|意见反馈
渝B2-20030003Copyright (C) 1999-2022 Yesky.com, All Rights Reserved 版权所有天极魅客

X

第三方账号登录

微博认证登录
QQ账号登录
微信账号登录

用微信扫描二维码
+1 你赞过了