-
Deep-Image-Captioning下载
资源介绍
图像字幕生成器
这是图像字幕生成器的实现,该图像字幕生成器在给定图像的基础上生成字幕。 图像字幕是一项具有挑战性的任务,其中计算机视觉和自然语言处理都在产生字幕中发挥着作用。 该技术可用于许多新领域,例如帮助视力障碍者,医学图像分析,地理空间图像分析等。
它使用Xception模型进行转移学习,以利用模型的训练参数将图像编码为2048个特征向量,然后将其输入LSTM中,以根据Xception提取的特征来预测字幕。
项目流程
一个。 清除字幕数据
b。 使用VGG-16从图像中提取特征
C。 合并字幕和图像
d。 建立LSTM训练模型
e预测测试数据
模型架构
在此类模型中,编码器是什么?
改变其特征表示中的任何输入(即数字矢量)的神经网络是编码器。 例如,我们要使用图像来预测单词。 由于图像无法直接分辨出该单词应该是什么,因此我们想使用其功能来帮助我们确定下一个单词。 因此,用于更改图