当前位置:主页 > 资源下载 > 9 > 论文研究-基于结构一致和特征学习的网页信息标签提取.pdf下载

论文研究-基于结构一致和特征学习的网页信息标签提取.pdf下载

更新：2024-06-05 21:16:14
大小：603KB
推荐：★★★★★
来源：网友上传分享
类别：其它 - 开发技术
格式：PDF

反馈 / 投诉

资源介绍

网页信息指网页的正文、标题、发布时间、媒体等，每个信息都存在于HTML文档特定的标签中，自动获取这些标签可以实现在相同模板下的网页信息自动提取，对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致，网页信息有一定统计特征，提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤：网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试，实验结果表明，通过提取标签获取网页信息不仅速度快，而且抓取的内容更加准确。

上一篇: VC2010中文教学版
下一篇: 论文研究-基于频繁词义序列的检索结果聚类算法研究.pdf

相关推荐

论文研究-基于结构一致和特征学习的网页信息标签提取.pdf下载

资源介绍

热门标签

资源声明