在众多融合方式中,以注意力机制为主的骨干网络成为主流。这一技术路线的核心优势在于能够动态分配不同模态特征的权重,使模型聚焦关键信息,增强对多模态数据的理解与处理能力。Li等
[16]通过联合学习视频和文本数据,构建了基于Transformer的整体网络架构,实现了视频局部和全局信息的有效融合。该方法通过动态调整不同模态特征之间的权重,提升模型对多模态信息的理解和生成能力,为视频-文本多模态融合提供了高效的技术范式。张换香等
[17]在情感分析中,构建了多模态情感分析体系,将原文本内容中的一种模态拓展至声音信号和视频。针对不同模态数据特点,采用不同方式提取特征,通过多头注意力的方式,迭代优化不同模态数据的权值,以上策略在情感计算相关研究中具有典型性。才华等
[18]针对图像和文本的融合提出了三个模块,从特征提取、相似度度量到融合策略,构建了一套完整的图像-文本融合体系。其首先对文本和图像分别提取特征,特征提取时采用的是Transformer和残差架构;在表示文本和图像的相似度中间采用的是基于对比学习的推理方式;融合时,通过执行图像文本匹配(image-text matching,ITM)和掩蔽语言建模(masked language modeling,MLM)两个预训练任务,实现模态细粒度融合。