光谷再添一家A I大模型

近日,华中科技大学软件学院白翔教授领衔的vlrlab团队联合金山办公,发布了多模态大模型——“monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。
多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的ai架构,近年来在众多场景中展现了惊人的能力。
monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的llava、谷歌的palm-e、阿里的mplug-owl等。此外,monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者——openai的多模态大模型gpt-4v。
monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有monkey和gpt-4v能将其准确地识别为作者名。
这样惊人的描述能力是怎么做到的?目前,几乎所有多模态大模型都需要运用网上爬取的图文对数据集,这些数据集只能进行简单的图文描述,无法大分辨率图片的需求。monkey巧妙利用现有的工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,打出一套威力十足的“组合拳”,大幅度提升描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”白翔教授说。
monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
目前,业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力,需投入十分高昂的算力成本。如何更低成本扩大输入分辨率?该团队骨干青年教师刘禹良向记者介绍,团队采用了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作,分别“放大”不同的图片块,就能提取更多局部特征。
“未来,我们希望monkey更强大,真正成为神通广大的‘孙悟空’!”对这“只”小猴子,白翔教授信心满满。
以光谷为核心承载,目前,武汉已成功推出并商业化落地“紫东太初”多模态大模型、东湖灵境soulgpt等大模型,已落地应用“星火”大模型、金山办公wps ai,并推出“武汉.luojia”遥感大模型,还有几款行业大模型正在开发。
近期,光谷还发布了“软件十条”,开源平台建设最高补贴3000万元,鼓励各类主体进行重大开源项目软件开发,孕育原创性、爆炸性、轰动性的具有全球影响力的大模型。

潮州到黑河物流专线_潮州发到黑河的物流专线公司
重庆到济宁物流专线返程车货运,重庆到济宁专线物流公司
苏州到禄丰货运专线返程配货_苏州到楚雄禄丰物流公司
池州到济南天桥区物流专线_池州到天桥区物流专线货运
启东到衢州货运公司物流包车,启东到衢州物流专线
光谷再添一家A I大模型
苏州相城区到西安xa长安区物流专线运输_优质苏州相城区到xa长安区物流公司
上海到营山县专线物流公司_上海到南充营山县专线货运公司
无锡到诸暨专线物流运输公司_无锡到诸暨物流专线
徐州到石家庄栾城区货运专线_专业徐州到栾城区专线物流公司
东莞到佛山货运公司,东莞到佛山物流专线直达货车
巢湖到深圳福田区专线物流_巢湖到福田区物流货运公司
宁波镇海区到无锡物流专线直达货运_宁波镇海区到无锡物流公司
上海嘉定区到平原物流专线_上海嘉定区到德州平原物流公司直达货运
宁德到枝江物流公司,宁德到枝江物流专线,宁德至枝江货运专线
苏州到长春物流专线_苏州发到长春的物流专线公司
开关按键荷重曲线仪的测试标准及选择!
优质苏州吴中区到新民物流公司,专业苏州吴中区到新民物流专线
合肥到马鞍山雨山区物流专线直达运输_合肥到雨山区物流公司
无锡到息烽县物流专线_无锡到贵阳息烽县物流专线货运