Java爬虫，数据采集经验分享_爬虫抓取大数据精准获客-CSDN博客

本文链接：https://blog.csdn.net/zhoupan1/article/details/125699144

公司要求我采集网页中的某些数据，以下是我采集的步骤和思路，比较基础。

一.首先我是通过抓取网页源代码的方式，根据源代码，获取各种标签中的数据

public class GetData {
    //数据抓取核心类

        // 获取网页数据
        /*
         * @param url:目标网址
         *
         * @param encoding：编码
         */
        //url抓取数据（参数URL：就是你要抓数据的地址。如：http://www.cnev.cn/）
        public static String urlClimb(String url) throws Exception{
            URL getUrl =new URL(url); //创建URl连接
            HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection(); //建立连接
            connection.connect(); //打开连接
            BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8")); //创建输入流并设置编码
            StringBuffer sb = new StringBuffer();
            String lines = null;
            while ((lines = reader.readLine()) != null) {
                lines = new String(lines.getBytes(), "utf-8"); //读取流的一行,设置编码