登录 注册
当前位置:主页 > 资源下载 > Visual_QA_Attn:一款具备多个注意力焦点的视觉质量检测系统

Visual_QA_Attn:一款具备多个注意力焦点的视觉质量检测系统

  • 更新:2024-07-30 08:41:02
  • 大小:59.85MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

视觉上的提问与回答,具有分层的共同关注 1.目的 我们项目的目标是建立一个深度学习模型,该模型根据给定的图像回答开放式问题。 2.方法论 我们已经为视觉问题解答的任务实现了两个模型。 我们将它们称为基础模型和分层协同注意模型。 一个典型的VQA系统由图像,问题(用文本表示)作为输入,以及对问题的答案作为输出组成。 系统在将图像和问题特征编码到公共向量空间中,然后对向量空间进行解码以获得答案方面有所不同。 通常,图像特征是通过卷积神经网络(CNN)计算的,而文本特征是使用递归神经网络(RNN)计算的,以在文本中保留时间信息。 基本模型考虑问题和图像的总体特征以确定答案。 而“分层共同注意”模型则通过出席的图像和问题特征来确定答案。 我们使用基本模型作为我们准确性和结果的基准。 3.基准模型 首先需要将图像和问题嵌入(编码)到公共向量空间中,然后解码器对向量空间进行解码以获得答案。 3.1编码