分析要爬取的网页源码:
1、打开要分析的网页,查看源代码,找到要爬取的内容:
(选择网页里的一部分右击审查元素也行)
2、导入jar包,这个就直接去网上下吧;
3、写爬虫:
package com.gb.pachong;
import java.sql.SQLException;
import com.gb.util.AddNum;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class BaikePaChong implements PageProcessor
{
private static String key;
public static String res=null;
// 抓取网站的相关配置,包括编码、重试次数、抓取间隔
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
public void run(String key)
{
this.key = key;
//Page对象就是当前获取的页面,getUrl()可以获得当前url,addTargetRequests()就是把链接放入等待爬取,getHtml()获得页面的html元素
//启动爬虫
Spider.create(new BaikePaChong