今日精选论文
今日论文
基于Transformer的视觉语言模型统一框架
作者:李华等,机构:清华大学人工智能实验室
计算机视觉
自然语言处理
多模态学习
本文提出了一种统一的Transformer架构,能够同时处理多种视觉语言任务,包括图像描述、视觉问答和跨模态检索等。通过引入自适应的多模态融合机制,在多个基准数据集上取得了最先进的性能。
2023年10月15日