-
python爬虫课程要点.docx下载
资源介绍
python基本库的使用:
1)使用urllib
python内置的HTTP请求库,包含四个模块:request、error、parse、robotparser。request:最基本的HTTP请求模块,可以用来模拟发送请求。
2)Request
url:请求地址,必传参数。
data:附加参数(from表数据),bytes字节流格式,如果是字典型(dict),先用urllib.parse.urlencode()编码。
headers:请求头,字典类型,可以构造请求时直接通过headers参数构造,或通过add_header()
3)response:urlopen返回类型为HTTPResponse对象。
4)正则表达式:强大的字符串处理工具,有自己特定的语法结构,实现字符串的检索、替换、匹配、验证。
5)函数:end(),返回指定分组的结束位置,默认返回正则表达式所匹配到的最后一个字符的索引。
6)BeautifulSoup:解析器
BeautifulSoup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器
- 上一篇: python网络爬虫抓取教程
- 下一篇: 用python爬取网页并导出为word文档.docx