登录 注册
当前位置:主页 > 资源下载 > 9 > MATLAB MYSQL爬虫脚本:zhgd.m

MATLAB MYSQL爬虫脚本:zhgd.m

  • 更新:2024-12-18 19:52:56
  • 大小:3KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:Matlab - 大数据
  • 格式:M

资源介绍

MATLABMYSQL爬虫-zhgd.m 本帖最后由 caicaibi 于 2018-7-20 11:48 编辑 一、引言         最近有朋友问我MATLAB怎么弄爬虫,下载的大量数据怎么实现归类,借此,我弄了一个MATLAB爬虫,然后将下载的数据存储到MYSQL数据库的例子,在这里分享给大家。希望想做这方面的朋友,能对基本内容有所了解。 二、环境配置 1.MATLAB R2012a   2.安装JDBC驱动 链接:https://pan.baidu.com/s/18GarT6io5LgQy1nfoRL-5g 密码:alpp 3.MYSQL(很多新手看到MYSQL的cmd框,头都要大了,不知道怎么开启,关闭等操作,建议新人不要直接安装MYSQL,去下载wampserver2.5,它里面包含了MYSQL,是一个集成化的包,安装非常方便,在运行时,只要看到它的标志变绿,就可以了。) 软件图标:                                 正常运行状况:                                 4.Navicat for mysql 链接:https://pan.baidu.com/s/1904BVG-OOXlnn2W5DdlIkA 密码:3xr0 软件图标:                                 软件界面: 见后面图片 三、爬虫抓取界面解析 1.抓取对象:          中航光电 -> 产品中心 2.抓取网址: http://www.jonhon.cn/procuct/show-388.aspx 3.抓取内容: 见后面图片 4.对象特征: i.类别:   见后面图片 分析:每个对象都是一个  href标签,里面有  /cplist1.aspx?category_id=2 类似的标志,作为正则表达式的筛选对象 ii.图片:见后面图片 分析:每张图片都为   bimg 图片,作为正则表达式的筛选对象。注意:每种产品不一定是一张图片,需要对多张图片进行考虑 iii.简介:见后面图片 分析: 简介末尾都有    <!--/商品属性-->   ,作为正则表达式的筛选对象 四、MYSQL操作 1.开启mysql 运行wampserver.exe,绿色图标表示成功运行。 2.创建数据库,数据表 具体见教程: http://www.formysql.com/jiqiao/mysql-xinjianbiao.html 3.MATLAB连接MYSQL conn = database;%连接数据库 cursorA = exec;%执行增删改查操作 cur = fetch;%返回结果,最后得到的数据以cell格式,存在cur.Data中复制代码 参数解析: database; 第一个参数:数据库的名称,就是要操作的数据库的名称 第二个参数:用户名 第三个参数:密码 第四个参数:连接的驱动,这里就写这个,不用改 第五个参数:数据库的连接路径吧,jdbc:mysql://,前面这个是jdbc,用mysql数据库,后边是具体的路径,数据库的IP,端口,和数据库的名称,跟第一个参数一样 五、程序流程 1.开启数据库 -> 使用循环,凑齐网址 -> 采用urlread抓取页面 2.根据抓取的对象html特征,制定不同的正则表达式筛选出需要的内容     2.1类别:提前的关键字,用\连接,组成创建目录的格式,mkdir函数创建目录     2.2图片:提取图片地址,判断图片数量,去前缀,补充链接,使用urlwrite 将图片下载到目录中,保存。     2.3简介:提取标签,新建readme.txt,将简介写入文本中 3.文本写入数据库     将[编号,目录,图片数量,网址,摘要]写入数据库。 具体命令,学习sql语句 sql学习网址:http://www.w3school.com.cn/sql/index.asp 六、程序代码 见附件 七、结果 见后面图片 见后面图片