多模态大模型,是一类可以同时处理文本、图像、音频等多种感知数据的AI架构。近日,华中科技大学团队发布了名为“Monkey”的多模态大模型,“看图说话”能力达到世界领先水平。
随机翻拍一张黄鹤楼的照片,短短四五秒,这只AI“小猴子”就对图片特征进行了精准形象的描述。
华中科技大学人工智能与自动化学院研究员、博士生导师刘禹良:“以前的这些多模态大模型,它支持的图片分辨率最高就只有448×448,这个模型能够支持最大的分辨率是896×1344,相当于是原来图片的分辨率的好几倍,能挖掘到里面微小的一些细腻度信息,比如说知道图片中有谁、穿着什么衣服等等,大概是一个什么氛围。”
超群的“看图说话”能力背后,是长达20年的研究。早在2003年,这支科研团队就开始从事图像识别研究,目前团队成员平均年龄只有22岁。Monkey是大家尝试了10多种方案后最终确定的,在某些样本上,它的图像描述能力甚至超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。
华中科技大学人工智能与自动化学院学生李长:“我们在18个数据集上有16个数据集能比LLAVA这些模型,都能比它们高,我们在密集文本问答这个任务上,发现我们能完成一些GPT-4V所完成不了的任务。”
华中科技大学人工智能与自动化学院研究员、博士生导师刘禹良:“比如说在医疗领域,利用我们这个模型,事实上就能够辅助针对病患的一些图片给出一些精细化的描述,来去辅助医生给出更加精准的一些判断。”
(长江云新闻记者 吴宝洪 汪佳睿 通讯员 高翔)
责任编辑 张智美子
暂无评论,快来抢沙发~