利用 Java 爬虫按关键字搜索 1688 商品详情：实战指南-CSDN博客

本文链接：https://blog.csdn.net/one6688/article/details/147482039

在电商领域，获取 1688 商品的详细信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688 作为国内领先的 B2B 电商平台，提供了丰富的商品资源。虽然 1688 开放平台提供了官方 API 来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用 Java 按关键字搜索 1688 商品，并提供详细的代码示例。

一、准备工作

（一）Java 开发环境

确保你的 Java 开发环境已经安装了以下必要的库：

Apache HttpClient：用于发送 HTTP 请求。
Jsoup：用于解析 HTML 页面。
Jackson：用于解析 JSON 数据。

可以通过 Maven 来管理这些依赖，在你的 pom.xml 文件中添加以下依赖：

xml

<dependencies>
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.13</version>
    </dependency>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.14.3</version>
    </dependency>
    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-databind</artifactId>
        <version>2.10.0</version>
    </dependency>
</dependencies>

（二）目标网站分析

在开始爬虫之前，需要对目标网站（1688 商品搜索结果页）进行分析，了解页面结构和数据存储方式。打开浏览器的开发者工具（F12），查看商品搜索结果页的 HTML 结构，确定需要提取的数据字段，如商品标题、价格、描述、销量等。

二、代码实现

以下是一个完整的 Java 爬虫代码示例，演示了如何按关键字搜索 1688 商品：

（一）发送 HTTP 请求

使用 Apache HttpClient 发送 GET 请求，获取商品页面的 HTML 内容。

java

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class AlibabaCrawler {
    public static void main(String[] args) {
        String baseUrl = "https://s.1688.com/selloffer/offer_search.htm";
        String keyword = "女装";
        String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3";
        List<String> products = new ArrayList<>();
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            for (int page = 1; page <= 5; page++) {
                HttpGet request = new HttpGet(baseUrl + "?keywords=" + keyword + "&pageno=" + page);
                request.setHeader("User-Agent", userAgent);
                try (CloseableHttpResponse response = httpClient.execute(request)) {
                    String html = EntityUtils.toString(response.getEntity());
                    Document doc = Jsoup.parse(html);
                    Elements items = doc.select("div.sm-offer-item");
                    for (Element item : items) {
                        String title = item.select("a.offer-title").text().trim();
                        String price = item.select("span.price").text().trim();
                        String description = item.select("div.desc").text().trim();
                        String sales = item.select("span.sales").text().trim();
                        products.add(title + "," + price + "," + description + "," + sales);
                    }
                }
            }
            try (FileWriter writer = new FileWriter("alibaba_search_results.csv")) {
                writer.append("标题,价格,描述,销量\n");
                for (String product : products) {
                    writer.append(product).append("\n");
                }
                System.out.println("数据已保存到 CSV 文件中。");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

（二）解析 HTML 内容

使用 Jsoup 解析 HTML 内容，提取商品详情。

java

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupUtil {
    public static void parseProductDetails(String html) {
        Document doc = Jsoup.parse(html);
        Elements productInfo = doc.select("div.product-info");
        for (Element info : productInfo) {
            System.out.println("商品名称：" + info.select("h1").text());
            System.out.println("商品价格：" + info.select("span.price").text());
        }
    }
}

（三）整合代码

将上述功能整合到主程序中，实现完整的爬虫程序。

java

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.FileWriter;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class AlibabaCrawler {
    public static void main(String[] args) {
        String baseUrl = "https://s.1688.com/selloffer/offer_search.htm";
        String keyword = "女装";
        String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3";
        List<String> products = new ArrayList<>();
        try (CloseableHttpClient httpClient = HttpClients.createDefault()) {
            for (int page = 1; page <= 5; page++) {
                HttpGet request = new HttpGet(baseUrl + "?keywords=" + keyword + "&pageno=" + page);
                request.setHeader("User-Agent", userAgent);
                try (CloseableHttpResponse response = httpClient.execute(request)) {
                    String html = EntityUtils.toString(response.getEntity());
                    Document doc = Jsoup.parse(html);
                    Elements items = doc.select("div.sm-offer-item");
                    for (Element item : items) {
                        String title = item.select("a.offer-title").text().trim();
                        String price = item.select("span.price").text().trim();
                        String description = item.select("div.desc").text().trim();
                        String sales = item.select("span.sales").text().trim();
                        products.add(title + "," + price + "," + description + "," + sales);
                    }
                }
            }
            try (FileWriter writer = new FileWriter("alibaba_search_results.csv")) {
                writer.append("标题,价格,描述,销量\n");
                for (String product : products) {
                    writer.append(product).append("\n");
                }
                System.out.println("数据已保存到 CSV 文件中。");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}