华科大发布AI小猴子 “看图说话”能力世界领先

多模态大模型，是一类可以同时处理文本、图像、音频等多种感知数据的AI架构。近日，华中科技大学团队发布了名为“Monkey”的多模态大模型，“看图说话”能力达到世界领先水平。

随机翻拍一张黄鹤楼的照片，短短四五秒，这只AI“小猴子”就对图片特征进行了精准形象的描述。

华中科技大学人工智能与自动化学院研究员、博士生导师刘禹良：“以前的这些多模态大模型，它支持的图片分辨率最高就只有448×448，这个模型能够支持最大的分辨率是896×1344，相当于是原来图片的分辨率的好几倍，能挖掘到里面微小的一些细腻度信息，比如说知道图片中有谁、穿着什么衣服等等，大概是一个什么氛围。”

超群的“看图说话”能力背后，是长达20年的研究。早在2003年，这支科研团队就开始从事图像识别研究，目前团队成员平均年龄只有22岁。Monkey是大家尝试了10多种方案后最终确定的，在某些样本上，它的图像描述能力甚至超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

华中科技大学人工智能与自动化学院学生李长：“我们在18个数据集上有16个数据集能比LLAVA这些模型，都能比它们高，我们在密集文本问答这个任务上，发现我们能完成一些GPT-4V所完成不了的任务。”

华中科技大学人工智能与自动化学院研究员、博士生导师刘禹良：“比如说在医疗领域，利用我们这个模型，事实上就能够辅助针对病患的一些图片给出一些精细化的描述，来去辅助医生给出更加精准的一些判断。”

（长江云新闻记者吴宝洪汪佳睿通讯员高翔）

责任编辑张智美子

推荐阅读

登录长江云账号