公司要求我采集网页中的某些数据,以下是我采集的步骤和思路,比较基础。
一.首先我是通过抓取网页源代码的方式,根据源代码,获取各种标签中的数据
public class GetData {
//数据抓取核心类
// 获取网页数据
/*
* @param url:目标网址
*
* @param encoding:编码
*/
//url抓取数据(参数URL:就是你要抓数据的地址。如:http://www.cnev.cn/)
public static String urlClimb(String url) throws Exception{
URL getUrl =new URL(url); //创建URl连接
HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection(); //建立连接
connection.connect(); //打开连接
BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8")); //创建输入流并设置编码
StringBuffer sb = new StringBuffer();
String lines = null;
while ((lines = reader.readLine()) != null) {
lines = new String(lines.getBytes(), "utf-8"); //读取流的一行,设置编码