-
Visual_QA_Attn:一款具备多个注意力焦点的视觉质量检测系统
资源介绍
视觉上的提问与回答,具有分层的共同关注
1.目的
我们项目的目标是建立一个深度学习模型,该模型根据给定的图像回答开放式问题。
2.方法论
我们已经为视觉问题解答的任务实现了两个模型。 我们将它们称为基础模型和分层协同注意模型。 一个典型的VQA系统由图像,问题(用文本表示)作为输入,以及对问题的答案作为输出组成。 系统在将图像和问题特征编码到公共向量空间中,然后对向量空间进行解码以获得答案方面有所不同。 通常,图像特征是通过卷积神经网络(CNN)计算的,而文本特征是使用递归神经网络(RNN)计算的,以在文本中保留时间信息。 基本模型考虑问题和图像的总体特征以确定答案。 而“分层共同注意”模型则通过出席的图像和问题特征来确定答案。 我们使用基本模型作为我们准确性和结果的基准。
3.基准模型
首先需要将图像和问题嵌入(编码)到公共向量空间中,然后解码器对向量空间进行解码以获得答案。
3.1编码