当前位置:主页 > 资源下载 > 50 > 应用HttpClient来获取页面内容

应用HttpClient来获取页面内容

更新：2024-06-07 19:31:38
大小：6.8MB
推荐：★★★★★
来源：网友上传分享
类别：Java - 后端
格式：RAR

反馈 / 投诉

资源介绍

压缩包中含有多个文档，从了解httpclient到应用。 httpClient 1httpClint 1.1简介 HttpClient是Apache Jakarta Common下的子项目，用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中，比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。下载地址： http://hc.apache.org/downloads.cgi 1.2特性 1. 基于标准、纯净的java语言。实现了Http1.0和Http1.1 2. 以可扩展的面向对象的结构实现了Http全部的方法（GET, POST, PUT, DELETE, HEAD, OPTIONS, and TRACE）。 3. 支持HTTPS协议。 4. 通过Http代理建立透明的连接。 5. 利用CONNECT方法通过Http代理建立隧道的https连接。 6. Basic, Digest, NTLMv1, NTLMv2, NTLM2 Session, SNPNEGO/Kerberos认证方案。 7. 插件式的自定义认证方案。 8. 便携可靠的套接字工厂使它更容易的使用第三方解决方案。 9. 连接管理器支持多线程应用。支持设置最大连接数，同时支持设置每个主机的最大连接数，发现并关闭过期的连接。 10. 自动处理Set-Cookie中的Cookie。 11. 插件式的自定义Cookie策略。 12. Request的输出流可以避免流中内容直接缓冲到socket服务器。 13. Response的输入流可以有效的从socket服务器直接读取相应内容。 14. 在http1.0和http1.1中利用KeepAlive保持持久连接。 15. 直接获取服务器发送的response code和 headers。 16. 设置连接超时的能力。 17. 实验性的支持http1.1 response caching。 18. 源代码基于Apache License 可免费获取。 1.3版本 org.apache.http.impl.client.HttpClients 与 org.apache.commons.httpclient.HttpClient目前后者已被废弃，apache已不再支持。一般而言，使用HttpClient均需导入httpclient.jar与httpclient-core.jar2个包。 1.4使用方法与步骤开发环境：需要使用HttpClient发送请求、接收响应很简单，一般需要如下几步即可。 1.创建HttpClient对象。 HttpClient client = new HttpClient(); 2.创建请求方法的实例，并指定请求URL。如果需要发送GET请求，创建HttpGet对象；如果需要发送POST请求，创建HttpPost对象。 //使用GET方法，如果服务器需要通过HTTPS连接，那只需要将下面URL中的 http换成https HttpMethod method = new GetMethod("http://www.baidu.com"); //使用POST方法 HttpMethod method = new PostMethod("http://java.sun.com";); 3. 如果需要发送请求参数，可调用HttpGet、HttpPost共同的setParams(HetpParams params)方法来添加请求参数；对于HttpPost对象而言，也可调用setEntity(HttpEntity entity)方法来设置请求参数。 3.调用HttpClient对象的execute(HttpUriRequest request)发送请求，该方法返回一个HttpResponse。 client.executeMethod(method); 5. 调用HttpResponse的getAllHeaders()、getHeaders(String name)等方法可获取服务器的响应头；调用HttpResponse的getEntity()方法可获取HttpEntity对象，该对象包装了服务器的响应内容。程序可通过该对象获取服务器的响应内容。 6. 释放连接。无论执行方法是否成功，都必须释放连接 //打印服务器返回的状态 System.out.println(method.getStatusLine()); //打印返回的信息 System.out.println(method.getResponseBodyAsString()); //释放连接 method.releaseConnection(); 1.5常用Api 类名称描述 1.5.1项目 1.5.2项尽早解决。 1.6应用 1.6.1发送get请求获取网页内容 HttpClient client = new HttpClient(); //设置代理服务器地址和端口 //client.getHostConfiguration().setProxy("proxy_host_addr",proxy_port); //使用GET方法，如果服务器需要通过HTTPS连接，那只需要将下面URL中的 http换成https HttpMethod method = new GetMethod("http://www.baidu.com"); //使用POST方法 //HttpMethod method = new PostMethod("http://java.sun.com";); client.executeMethod(method); //打印服务器返回的状态 System.out.println(method.getStatusLine()); //打印返回的信息 System.out.println(method.getResponseBodyAsString()); //释放连接 method.releaseConnection(); 1.6.2Post提交表单(模拟表单提交) /** * post方式提交表单（模拟用户登录请求） */ public void postForm() { // 创建默认的httpClient实例. CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httppost HttpPost httppost = new HttpPost("http://localhost:8080/myDemo/Ajax/serivceJ.action"); // 创建参数队列 List formparams = new ArrayList(); formparams.add(new BasicNameValuePair("username", "admin")); formparams.add(new BasicNameValuePair("password", "123456")); UrlEncodedFormEntity uefEntity; try { uefEntity = new UrlEncodedFormEntity(formparams, "UTF-8"); httppost.setEntity(uefEntity); System.out.println("executing request " + httppost.getURI()); CloseableHttpResponse response = httpclient.execute(httppost); try { HttpEntity entity = response.getEntity(); if (entity != null) { System.out.println("--------------------------------------"); System.out.println("Response content: " + EntityUtils.toString(entity, "UTF-8")); System.out.println("--------------------------------------"); } } finally { response.close(); } } catch (ClientProtocolException e) { e.printStackTrace(); } catch (UnsupportedEncodingException e1) { e1.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { // 关闭连接,释放资源 try { httpclient.close(); } catch (IOException e) { e.printStackTrace(); } } } 1.6.3使用HttpClent下载一网页 // 1、通过HttpGet获取到response对象 CloseableHttpClient httpClient = HttpClients.createDefault(); HttpGet httpGet = new HttpGet("http://www.baidu.com/"); CloseableHttpResponse response = httpClient.execute(httpGet); InputStream is = null; Scanner sc = null; Writer os = null; if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) { try { // 2、获取response的entity。 HttpEntity entity = response.getEntity(); // 3、获取到InputStream对象，并对内容进行处理 is = entity.getContent(); sc = new Scanner(is); // String filename = path.substring(path.lastIndexOf('/')+1); String filename = "2.txt"; os = new PrintWriter(filename); while (sc.hasNext()) { os.write(sc.nextLine()); } } catch (ClientProtocolException e) { e.printStackTrace(); } finally { if (sc != null) { sc.close(); } if (is != null) { is.close(); } if (os != null) { os.close(); } if (response != null) { response.close(); } } } 1.7常见问题 1.7.1传递参数的需要用户登陆尽早解决。 2Java使用Url获取网页内容 2.1简介项目的管理档t。 2.2应用 2.2.1获取网页内容 /** * 通过url获取网页内容， * 解决中文乱码问题 * @param httpUrl * @return */ public static String downloadPage(String httpUrl) { StringBuffer pageBuffer = new StringBuffer(); URL pageUrl = null; try { pageUrl = new URL(httpUrl);; // Open connection to URL for reading. BufferedReader reader = new BufferedReader(new InputStreamReader(pageUrl.openStream(), "utf-8")); // Read page into buffer. String line; while ((line = reader.readLine()) != null) { pageBuffer.append(line); } System.out.println(pageBuffer.toString()); //return pageBuffer.toString(); } catch (Exception e) { e.printStackTrace(); // return null; } return pageBuffer.toString(); } 2.3常见问题 2.3.1获取内容中文乱码 /** * 通过url获取网页内容， * 解决中文乱码问题 * @param httpUrl * @return */ public static String downloadPage(String httpUrl) { StringBuffer pageBuffer = new StringBuffer(); URL pageUrl = null; try { pageUrl = new URL(httpUrl);; // Open connection to URL for reading. BufferedReader reader = new BufferedReader(new InputStreamReader(pageUrl.openStream(), "utf-8")); // Read page into buffer. String line; while ((line = reader.readLine()) != null) { pageBuffer.append(line); } System.out.println(pageBuffer.toString()); //return pageBuffer.toString(); } catch (Exception e) { e.printStackTrace(); // return null; } return pageBuffer.toString(); } 3HtmlParser 3.1简介项目的管理档。 3.2使用HtmlPaser的开发步骤（1）通过Parser类创建一个解释器（2）创建Filter或者Visitor （3）使用parser根据filter或者visitor来取得所有符合条件的节点（4）对节点内容进行处理 3.3常用Api 3.3.1使用Parser的构造函数创建解释器 Parser() Zero argument constructor. Parser(Lexer lexer) Construct a parser using the provided lexer. Parser(Lexer lexer, ParserFeedback fb) Construct a parser using the provided lexer and feedback object. Parser(String resource) Creates a Parser object with the location of the resource (URL or file). Parser(String resource, ParserFeedback feedback) Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in. Parser(URLConnection connection) Construct a parser using the provided URLConnection. Parser(URLConnection connection, ParserFeedback fb) Constructor for custom HTTP access. 说明：通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。 ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer？？？？ 3.3.2HtmlPaser使用Node对象保存各节点信息（1）访问各个节点的方法 Node getParent ()：取得父节点 NodeList getChildren ()：取得子节点的列表 Node getFirstChild ()：取得第一个子节点 Node getLastChild ()：取得最后一个子节点 Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了） Node getNextSibling ()：取得下一个兄弟节点（2）取得Node内容的函数 String getText ()：取得文本 String toPlainTextString()：取得纯文本信息。 String toHtml () ：取得HTML信息（原始HTML） String toHtml (boolean verbatim)：取得HTML信息（原始HTML） String toString ()：取得字符串信息（原始HTML） Page getPage ()：取得这个Node对应的Page对象 int getStartPosition ()：取得这个Node在HTML页面中的起始位置 int getEndPosition ()：取得这个Node在HTML页面中的结束位置 3.3.3 使用Filter访问Node节点以及内容（1）Filter的种类对于结果进行过滤，取得需要的内容。实现了NodeFilter接口，此接口只有一个方法Boolean accept(Node node)，用于确定某个节点是否属于此Filter过滤的范围。 HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类判断类Filter：逻辑运算Filter：其他Filter： TagNameFilter AndFilter NodeClassFilter HasAttributeFilter NotFilter StringFilter HasChildFilter OrFilter LinkStringFilter HasParentFilter XorFilter LinkRegexFilter HasSiblingFilter RegexFilter IsEqualFilter CssSelectorNodeFilter 除此以外，可以自定义一些Filter，用于完成特殊需求的过滤。（2）Filter的使用示例说明：（1）通过Node#getText()取得节点的String。（2）node instanceof TagLink，即节点，其它还有很多的类似节点，如tableTag等，基本上每个常见的html标签均会对应一个tag。官方文档说明如下： 3.3.3.1判断Filter 3.3.3.1.1TagNameFilter TabNameFilter是最容易理解的一个Filter，根据Tag的名字进行过滤。测试html：白泽居-www.baizeju.com< /head>

白泽居-www.baizeju.com 白泽居-www.baizeju.com

白泽居-www.baizeju.com

测试代码： public static void main(String[] args) { try{ Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() ); // 这里是控制测试的部分，后面的例子修改的就是这个地方。 NodeFilter filter = new TagNameFilter ("DIV"); NodeList nodes = parser.extractAllNodesThatMatch(filter); if(nodes!=null) { for (int i = 0; i < nodes.size(); i++) { Node textnode = (Node) nodes.elementAt(i); message("getText:"+textnode.getText()); message("================================================="); } } } catch( Exception e ) { e.printStackTrace(); } } 输出结果： getText:div id="top_main" ================================================= getText:div id="logoindex" ================================================= 可以看出文件中两个Div节点都被取出了。下面可以针对这两个DIV节点进行操作 3.3.3.1.1TagNameFilter HasChildFilter是返回有符合条件的子节点的节点，需要另外一个Filter作为过滤子节点的参数。缺省的构造函数虽然可以初始化，但是由于子节点的Filter是null，所以使用的时候发生了Exception 修改代码： NodeFilter innerFilter = new TagNameFilter ("DIV"); NodeFilter filter = new HasChildFilter(innerFilter); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果： getText:body ================================================= getText:div id="top_main" ================================================= 可以看到，输出的是两个有DIV子Tag的Tag节点。（body有子节点DIV "top_main"，"top_main"有子节点"logoindex"。注意HasChildFilter还有一个构造函数： public HasChildFilter (NodeFilter filter, boolean recursive) 如果recursive是false，则只对第一级子节点进行过滤。比如前面的例子，body和top_main都是在第一级的子节点里就有DIV节点，所以匹配上了。如果我们用下面的方法调用： NodeFilter filter = new HasChildFilter( innerFilter, true ); 3.3.3.1.2HasAttributeFilter 这个Filter可以匹配出包含制定名字的属性，或者制定属性为指定值的节点。还是用例子说明比较容易。 HasAttributeFilter有3个构造函数： public HasAttributeFilter (); public HasAttributeFilter (String attribute); public HasAttributeFilter (String attribute, String value); 调用方法1: NodeFilter filter = new HasAttributeFilter(); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果：空调用方法2: NodeFilter filter = new HasAttributeFilter( "id" ); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果： getText:div id="top_main" ================================================= getText:div id="logoindex" ================================================= 调用方法3: NodeFilter filter = new HasAttributeFilter( "id", "logoindex" ); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果： getText:div id="logoindex" ================================================= 3.3.3.2其他Filter HasParentFilter和HasSiblingFilter的功能与HasChildFilter类似， IsEqualFilter的构造函数参数是一个Node： public IsEqualFilter (Node node) { mNode = node; } accept函数也很简单： public boolean accept (Node node) { return (mNode == node); } 3.3.3.3运算Filter 只能针对某种单一类型的条件进行过滤。HTMLParser支持对于简单类型的Filter进行组合，从而实现复杂的条件。 3.1AndFilter AndFilter可以把两种Filter进行组合，只有同时满足条件的Node才会被过滤。测试代码： NodeFilter filterID = new HasAttributeFilter( "id" ); NodeFilter filterChild = new HasChildFilter(filterA); NodeFilter filter = new AndFilter(filterID, filterChild); 输出结果： getText:div id="logoindex" ================================================= 3.2 OrFilter 把前面的AndFilter换成OrFilter 测试代码： NodeFilter filterID = new HasAttributeFilter( "id" ); NodeFilter filterChild = new HasChildFilter(filterA); NodeFilter filter = new OrFilter(filterID, filterChild); 输出结果： getText:div id="top_main" ================================================= getText:div id="logoindex" ================================================= 3.3 NotFilter 把前面的AndFilter换成NotFilter 测试代码： NodeFilter filterID = new HasAttributeFilter( "id" ); NodeFilter filterChild = new HasChildFilter(filterA); NodeFilter filter = new NotFilter(new OrFilter(filterID, filterChild)); 输出结果： 3.4 XorFilter 把前面的AndFilter换成NotFilter 测试代码： NodeFilter filterID = new HasAttributeFilter( "id" ); NodeFilter filterChild = new HasChildFilter(filterA); NodeFilter filter = new XorFilter(filterID, filterChild); 输出结果： getText:div id="top_main" ================================================= 3.3.3.4其他Filter 4.1 NodeClassFilter 测试代码： NodeFilter filter = new NodeClassFilter(RemarkNode.class); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果： getText:这是注释 ================================================= 可以看到只有RemarkNode（注释）被输出了。 4.2 StringFilter 这个Filter用于过滤显示字符串中包含制定内容的Tag。注意是可显示的字符串，不可显示的字符串中的内容（例如注释，链接等等）不会被显示。测试代码： NodeFilter filter = new StringFilter("www.baizeju.com"); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果：可以看到包含title，两个内容字符串和链接的文本字符串的Tag都被输出了，但是注释和链接Tag本身没有输出。 4.3 LinkStringFilter 这个Filter用于判断链接中是否包含某个特定的字符串，可以用来过滤出指向某个特定网站的链接。测试代码： NodeFilter filter = new LinkStringFilter("www.baizeju.com"); NodeList nodes = parser.extractAllNodesThatMatch(filter); 输出结果： getText:a href="http://www.baizeju.com" ================================================= HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。 Visitor 3.4应用 3.4.1Visitor访问内容 Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。 public static void main(String[] args) { try{ Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() ); NodeVisitor visitor = new NodeVisitor( false, false ) { public void visitTag(Tag tag) { message("This is Tag:"+tag.getText()); } public void visitStringNode (Text string) { message("This is Text:"+string); } public void visitRemarkNode (Remark remark) { message("This is Remark:"+remark.getText()); } public void beginParsing () { message("beginParsing"); } public void visitEndTag (Tag tag){ message("visitEndTag:"+tag.getText()); } public void finishedParsing () { message("finishedParsing"); } }; parser.visitAllNodesWith(visitor); } catch( Exception e ) { e.printStackTrace(); } } 可以看到，开始遍历所以的节点以前，beginParsing先被调用，然后处理的是中间的Node，最后在结束遍历以前，finishParsing被调用。设置的 recurseChildren和recurseSelf都是false，所以Visitor没有访问子节点也没有访问根节点的内容。设置NodeVisitor visitor = new NodeVisitor( true, false) { NodeVisitor visitor = new NodeVisitor( true, true) { 其他Visitor HtmlPage，NodeVisitor，ObjectFindingVisitor，StringFindingVisitor，TagFindingVisitor，TextExtractingVisitor，UrlModifyingVisitor 4正则解析Html网页内容 4.1简介项目的管理档。 4.2常用Api 4.2.1项目》模板。 4.2.2项尽早解决。 4.3应用 4.3.1项目》模板。 4.3.2项尽早解决。

上一篇: Python+NumPy-win7-32位安装包
下一篇: python2.7-install-scapy

相关推荐

应用HttpClient来获取页面内容

资源介绍

热门标签

资源声明