使用webmagic爬虫对百度百科进行简单的爬取

原创

于 2019-02-20 22:19:21 发布 · 319 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #webmagic

本文介绍如何利用WebMagic爬虫框架对百度百科进行简单爬取。首先分析网页源码，定位目标内容，然后导入WebMagic所需jar包，编写爬虫代码。文章还提及可以通过扩展实现更复杂的功能，并提供了XPath表达式方便复制使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分析要爬取的网页源码：
1、打开要分析的网页，查看源代码，找到要爬取的内容：
　　（选择网页里的一部分右击审查元素也行）
在这里插入图片描述
2、导入jar包，这个就直接去网上下吧；
3、写爬虫：

package com.gb.pachong;
import java.sql.SQLException;
import com.gb.util.AddNum;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class BaikePaChong implements PageProcessor 
{
	private static String key;
	public static String res=null;
	// 抓取网站的相关配置，包括编码、重试次数、抓取间隔 
	private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
	public void run(String key) 
	{
		this.key = key;
		//Page对象就是当前获取的页面，getUrl()可以获得当前url，addTargetRequests()就是把链接放入等待爬取，getHtml()获得页面的html元素
		//启动爬虫
		Spider.create(new BaikePaChong