登录 注册
当前位置:主页 > 资源下载 > 32 > python爬虫课程要点.docx下载

python爬虫课程要点.docx下载

  • 更新:2024-08-08 21:41:20
  • 大小:54KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:Python - 后端
  • 格式:DOCX

资源介绍

python基本库的使用: 1)使用urllib python内置的HTTP请求库,包含四个模块:request、error、parse、robotparser。request:最基本的HTTP请求模块,可以用来模拟发送请求。 2)Request url:请求地址,必传参数。 data:附加参数(from表数据),bytes字节流格式,如果是字典型(dict),先用urllib.parse.urlencode()编码。 headers:请求头,字典类型,可以构造请求时直接通过headers参数构造,或通过add_header() 3)response:urlopen返回类型为HTTPResponse对象。 4)正则表达式:强大的字符串处理工具,有自己特定的语法结构,实现字符串的检索、替换、匹配、验证。 5)函数:end(),返回指定分组的结束位置,默认返回正则表达式所匹配到的最后一个字符的索引。 6)BeautifulSoup:解析器 BeautifulSoup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器