近日,我院青年教师王泽宇在多源图像融合领域研究取得重要进展,在国际上首次提出基于视觉-语言大模型的多文本引导机制,解决了多模态图像融合领域中模态特征分解和标签图像缺失的核心难题。研究工作受到期刊评审专家高度评价,认为所提出范式能够有效推动多源图像融合领域的发展。
该研究工作利用视觉-语言大模型从不同视角对多源图像生成适用于共性特征和异性特征分解的多文本描述,并针对多源图像构建了文本性标签。工作以传统流形-等势域变换技术为基础,提出一种从图像域到文本域的特征变换方法,实现了对视觉特征图的多语义引导与图像-文本的高度对齐,成功应用在红外-可见光图像融合与医学图像融合任务并实现先进的性能,此外可提升目标检测、医学图像分割等多个下游任务的性能。
以该工作为基础撰写的“Multi-Text Guidance Is Important: Multi-Modality Image Fusion via Large Generative Vision-Language Model”论文被计算机视觉领域的顶级期刊International Journal of Computer Vision(IJCV)录用。IJCV是中国计算机学会(CCF)推荐的人工智能领域四大国际A类学术期刊之一。该研究工作受国家自然科学基金青年基金、辽宁省自然科学基金(博士启动基金)支持。
相关链接