JSoup + JDK1.8 + Sublime text3 搭建

原创于 2019-04-17 00:48:40 发布 · 463 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍如何使用JSoup库进行网页爬取，包括下载、配置JSoup库及使用Java代码抓取百度首页HTML源码的过程。适用于不使用IDE直接操作的开发者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.下载JSoup，https://jsoup.org/

2.得到如下图的jar文件

可以放到环境变量中的JAVA_Class路径中

这里尝试另一种方式，解压之后把org文件拿出来，放到所在java文件的目录中（因为必须知道包名，import又不能写成这样：import Jsoup所在文件夹/org.jsoup.jsoup）

该文件夹结构是这样的

3.测试如下

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Spider{

	public static void main(String[] args){
		try{
			Document doc = Jsoup.connect("http://www.baidu.com").get();
			System.out.println(doc.outerHtml());
		}catch(MalformedURLException ex){
			System.err.println(ex);
		}
	}

}

4.仅给不希望使用IDE的朋友提供一个参考（这样做太折腾了）