爬虫使用–httpclient

[toc]

原因

反正以后还是会使用到的,就先做一个技术积累吧,反正也是java + python 一起使用一下吧

httpclient

spring 5 中
添加依赖

<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.4</version>
</dependency>

post 请求及添加参数

    public void getTest(){
//创建httpclient
        CloseableHttpClient client = HttpClients.createDefault();

// 创建httppost
        HttpPost httpPost=new HttpPost("http://localhost:5030/gethttpclient");
// 给post请求添加参数 都是转化为HttpEntity。 但是只是生成方法不同
// 多参数生成 可以添加文件等
        MultipartEntityBuilder builder = MultipartEntityBuilder.create();
        builder.addTextBody("username", "John");
        builder.addTextBody("password", "pass");
        builder.addBinaryBody("file", new File("test.txt"),
                ContentType.APPLICATION_OCTET_STREAM, "file.ext");
        HttpEntity multipart = builder.build();
httpPost.setEntity(multipart);
// list生成
        List<NameValuePair> params = new ArrayList<NameValuePair>();
        params.add(new BasicNameValuePair("username", "John"));
        params.add(new BasicNameValuePair("password", "pass"));
        httpPost.setEntity(new UrlEncodedFormEntity(params));



        try {
            CloseableHttpResponse response = client.execute(httpPost);
            response.getClass();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

HttpResponse处理json数据

// 先获取HttpEntity 然后使用EntityUtils 转化成string 然后转化成json即可
 HttpResponse response=httpClient.execute(httpGet);
 HttpEntity httpEntity=response.getEntity();
 String content=EntityUtils.toString(httpEntity);
 JSONObject jsonObject=JSONObject.parseObject(content);
 System.out.println(jsonObject.toJSONString());

httpResponse 处理html页面

HttpResponse httpResponse=httpClient.execute(httpGet);
HttpEntity httpEntity=httpResponse.getEntity();
String content=EntityUtils.toString(httpEntity);
 Document document = Jsoup.parse(content);

jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.2</version>
</dependency>

和jQuery类似的操作,选择器类似的感觉
-Node(节点)
从上述继承关系上可以明确一点,文档中的所有内容都可以看做是一个节点。节点有很多种类型:属性节点(Attribute)、注释节点(Note)、文本节点(Text)、元素节点(Element)等,通常所说的节点是这些多种节点的统称。

  • Element(元素)
    相比节点而言,元素则是一个更小范围的定义。元素继承于节点,是节点的子集,所以一个元素也是一个节点,节点拥有的公有属性和方法在元素中也能使用。

  • Document(文档)
    文档继承于元素,指整个HTML文档的源码内容,通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容

Document document= Jsoup.connect("http://localhost:5030/gethtml").get();
Element element=document.getElementById("jia");
System.out.println(element.text());

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注