[toc]
原因
反正以后还是会使用到的,就先做一个技术积累吧,反正也是java + python 一起使用一下吧
httpclient
spring 5 中
添加依赖
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.4</version>
</dependency>
post 请求及添加参数
public void getTest(){
//创建httpclient
CloseableHttpClient client = HttpClients.createDefault();
// 创建httppost
HttpPost httpPost=new HttpPost("http://localhost:5030/gethttpclient");
// 给post请求添加参数 都是转化为HttpEntity。 但是只是生成方法不同
// 多参数生成 可以添加文件等
MultipartEntityBuilder builder = MultipartEntityBuilder.create();
builder.addTextBody("username", "John");
builder.addTextBody("password", "pass");
builder.addBinaryBody("file", new File("test.txt"),
ContentType.APPLICATION_OCTET_STREAM, "file.ext");
HttpEntity multipart = builder.build();
httpPost.setEntity(multipart);
// list生成
List<NameValuePair> params = new ArrayList<NameValuePair>();
params.add(new BasicNameValuePair("username", "John"));
params.add(new BasicNameValuePair("password", "pass"));
httpPost.setEntity(new UrlEncodedFormEntity(params));
try {
CloseableHttpResponse response = client.execute(httpPost);
response.getClass();
} catch (IOException e) {
e.printStackTrace();
}
}
HttpResponse处理json数据
// 先获取HttpEntity 然后使用EntityUtils 转化成string 然后转化成json即可
HttpResponse response=httpClient.execute(httpGet);
HttpEntity httpEntity=response.getEntity();
String content=EntityUtils.toString(httpEntity);
JSONObject jsonObject=JSONObject.parseObject(content);
System.out.println(jsonObject.toJSONString());
httpResponse 处理html页面
HttpResponse httpResponse=httpClient.execute(httpGet);
HttpEntity httpEntity=httpResponse.getEntity();
String content=EntityUtils.toString(httpEntity);
Document document = Jsoup.parse(content);
jsoup
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.2</version>
</dependency>
和jQuery类似的操作,选择器类似的感觉
-Node(节点)
从上述继承关系上可以明确一点,文档中的所有内容都可以看做是一个节点。节点有很多种类型:属性节点(Attribute)、注释节点(Note)、文本节点(Text)、元素节点(Element)等,通常所说的节点是这些多种节点的统称。
-
Element(元素)
相比节点而言,元素则是一个更小范围的定义。元素继承于节点,是节点的子集,所以一个元素也是一个节点,节点拥有的公有属性和方法在元素中也能使用。 -
Document(文档)
文档继承于元素,指整个HTML文档的源码内容,通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容
Document document= Jsoup.connect("http://localhost:5030/gethtml").get();
Element element=document.getElementById("jia");
System.out.println(element.text());
发表回复