-
MATLAB MYSQL爬虫脚本:zhgd.m
资源介绍
MATLABMYSQL爬虫-zhgd.m
本帖最后由 caicaibi 于 2018-7-20 11:48 编辑
一、引言
最近有朋友问我MATLAB怎么弄爬虫,下载的大量数据怎么实现归类,借此,我弄了一个MATLAB爬虫,然后将下载的数据存储到MYSQL数据库的例子,在这里分享给大家。希望想做这方面的朋友,能对基本内容有所了解。
二、环境配置
1.MATLAB R2012a
2.安装JDBC驱动
链接:https://pan.baidu.com/s/18GarT6io5LgQy1nfoRL-5g 密码:alpp
3.MYSQL(很多新手看到MYSQL的cmd框,头都要大了,不知道怎么开启,关闭等操作,建议新人不要直接安装MYSQL,去下载wampserver2.5,它里面包含了MYSQL,是一个集成化的包,安装非常方便,在运行时,只要看到它的标志变绿,就可以了。)
软件图标:
正常运行状况:
4.Navicat for mysql
链接:https://pan.baidu.com/s/1904BVG-OOXlnn2W5DdlIkA 密码:3xr0
软件图标:
软件界面:
见后面图片
三、爬虫抓取界面解析
1.抓取对象:
中航光电 -> 产品中心
2.抓取网址:
http://www.jonhon.cn/procuct/show-388.aspx
3.抓取内容:
见后面图片
4.对象特征:
i.类别: 见后面图片
分析:每个对象都是一个 href标签,里面有 /cplist1.aspx?category_id=2 类似的标志,作为正则表达式的筛选对象
ii.图片:见后面图片
分析:每张图片都为 bimg 图片,作为正则表达式的筛选对象。注意:每种产品不一定是一张图片,需要对多张图片进行考虑
iii.简介:见后面图片
分析: 简介末尾都有 <!--/商品属性--> ,作为正则表达式的筛选对象
四、MYSQL操作
1.开启mysql
运行wampserver.exe,绿色图标表示成功运行。
2.创建数据库,数据表
具体见教程: http://www.formysql.com/jiqiao/mysql-xinjianbiao.html
3.MATLAB连接MYSQL
conn = database;%连接数据库
cursorA = exec;%执行增删改查操作
cur = fetch;%返回结果,最后得到的数据以cell格式,存在cur.Data中复制代码
参数解析:
database;
第一个参数:数据库的名称,就是要操作的数据库的名称
第二个参数:用户名
第三个参数:密码
第四个参数:连接的驱动,这里就写这个,不用改
第五个参数:数据库的连接路径吧,jdbc:mysql://,前面这个是jdbc,用mysql数据库,后边是具体的路径,数据库的IP,端口,和数据库的名称,跟第一个参数一样
五、程序流程
1.开启数据库 -> 使用循环,凑齐网址 -> 采用urlread抓取页面
2.根据抓取的对象html特征,制定不同的正则表达式筛选出需要的内容
2.1类别:提前的关键字,用\连接,组成创建目录的格式,mkdir函数创建目录
2.2图片:提取图片地址,判断图片数量,去前缀,补充链接,使用urlwrite 将图片下载到目录中,保存。
2.3简介:提取标签,新建readme.txt,将简介写入文本中
3.文本写入数据库
将[编号,目录,图片数量,网址,摘要]写入数据库。 具体命令,学习sql语句
sql学习网址:http://www.w3school.com.cn/sql/index.asp
六、程序代码
见附件
七、结果
见后面图片
见后面图片
- 上一篇: 鱼眼图像畸变校正最终版
- 下一篇: opencv.zip