高效获取唯品会商品数据：API 接口开发与实时采集方案实现

最新推荐文章于 2025-06-15 16:27:08 发布

APItesterCris

最新推荐文章于 2025-06-15 16:27:08 发布

阅读量925

点赞数 5

分类专栏：分享数据挖掘 API接口文章标签： java 前端服务器数据库大数据

本文链接：https://blog.csdn.net/APItesterCris/article/details/148261980

版权

API接口同时被 3 个专栏收录

267 篇文章

订阅专栏

247 篇文章

订阅专栏

数据挖掘

239 篇文章

订阅专栏

在电商数据分析领域，高效获取商品数据是构建价格监控、竞品分析、智能选品等应用的基础。本文将详细介绍如何通过唯品会 API 接口实现商品数据的高效采集，并提供完整的技术方案和代码实现。

1. 唯品会 API 接入基础

1.1 账号注册

首先需要注册并创建应用，获取以下凭证：

ApiKey：应用唯一标识
ApiSecret：应用密钥，用于签名生成
AccessToken：访问令牌，用于 API 请求认证

1.2 API 认证机制

唯品会 API 采用 OAuth 2.0 认证模式，结合请求参数签名机制确保数据安全：

使用 ApiKey 和 ApiSecret 获取 AccessToken
所有 API 请求必须包含 AccessToken
请求参数需要按规则生成签名

2. 商品数据 API 接口分析

2.1 核心 API 接口

接口名称	功能描述	请求方式
`/item/search`	商品搜索接口	GET
`/item/detail`	商品详情接口	GET
`/item/list`	商品列表分页获取接口	GET
`/item/price`	商品价格实时查询接口	GET

2.2 请求参数规范

公共参数：所有请求必须包含的参数
- api_key：应用标识
- timestamp：请求时间戳（毫秒）
- sign：请求签名
- access_token：访问令牌
业务参数：根据具体接口而定，如item_id、keyword等

3. 高效采集方案实现

下面是基于 Python 实现的唯品会商品数据高效采集方案：

import requests
import hashlib
import time
import json
import logging
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor
from queue import Queue
import threading

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

class VipAPI:
    """唯品会API客户端"""
    
    def __init__(self, app_key, app_secret, max_workers=10):
        """初始化API客户端"""
        self.app_key = app_key
        self.app_secret = app_secret
        self.access_token = None
        self.token_expire_time = 0
        self.base_url = "https://api.vip.com"
        self.session = requests.Session()
        self.lock = threading.Lock()
        self.max_workers = max_workers
        
    def _generate_sign(self, params):
        """生成请求签名"""
        # 1. 对参数按字典序排序
        sorted_params = sorted(params.items(), key=lambda x: x[0])
        
        # 2. 拼接参数名和参数值
        sign_str = self.app_secret
        for k, v in sorted_params:
            sign_str += f"{k}{v}"
        sign_str += self.app_secret
        
        # 3. MD5加密
        return hashlib.md5(sign_str.encode()).hexdigest().upper()
    
    def _refresh_token(self):
        """刷新访问令牌"""
        with self.lock:
            # 检查令牌是否即将过期
            if self.token_expire_time > time.time() + 60:
                return
                
            logger.info("正在刷新访问令牌...")
            token_url = f"{self.base_url}/oauth2/token"
            params = {
                "grant_type": "client_credentials",
                "app_key": self.app_key,
                "app_secret": self.app_secret,
                "timestamp": int(time.time() * 1000)
            }
            params["sign"] = self._generate_sign(params)
            
            try:
                response = self.session.post(token_url, data=params)
                response.raise_for_status()
                result = response.json()
                
                if "access_token" in result:
                    self.access_token = result["access_token"]
                    self.token_expire_time = time.time() + result.get("expires_in", 0)
                    logger.info(f"访问令牌刷新成功，有效期至: {datetime.fromtimestamp(self.token_expire_time)}")
                else:
                    logger.error(f"获取访问令牌失败: {result}")
                    raise Exception("获取访问令牌失败")
            except Exception as e:
                logger.error(f"刷新令牌异常: {e}")
                raise
    
    def _make_api_request(self, endpoint, params=None):
        """发送API请求"""
        # 确保令牌有效
        self._refresh_token()
        
        # 构建公共参数
        common_params = {
            "app_key": self.app_key,
            "timestamp": int(time.time() * 1000),
            "access_token": self.access_token
        }
        
        # 合并参数
        if params:
            request_params = {**common_params, **params}
        else:
            request_params = common_params
            
        # 生成签名
        request_params["sign"] = self._generate_sign(request_params)
        
        # 发送请求
        url = f"{self.base_url}{endpoint}"
        try:
            response = self.session.get(url, params=request_params)
            response.raise_for_status()
            return response.json()
        except requests.exceptions.RequestException as e:
            logger.error(f"API请求异常: {e}, URL: {url}, 参数: {request_params}")
            return None
    
    def search_items(self, keyword, page=1, page_size=20):
        """搜索商品"""
        params = {
            "keyword": keyword,
            "page": page,
            "page_size": page_size
        }
        return self._make_api_request("/item/search", params)
    
    def get_item_detail(self, item_id):
        """获取商品详情"""
        params = {"item_id": item_id}
        return self._make_api_request("/item/detail", params)
    
    def batch_get_item_details(self, item_ids):
        """批量获取商品详情（并发请求）"""
        results = []
        
        def fetch_detail(item_id):
            detail = self.get_item_detail(item_id)
            if detail:
                results.append(detail)
            return detail
            
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            list(executor.map(fetch_detail, item_ids))
            
        return results

class DataProcessor:
    """数据处理类"""
    
    @staticmethod
    def parse_item_search_result(raw_data):
        """解析商品搜索结果"""
        if not raw_data or "data" not in raw_data or "items" not in raw_data["data"]:
            return []
            
        return [item["item_id"] for item in raw_data["data"]["items"]]
    
    @staticmethod
    def parse_item_detail(raw_data):
        """解析商品详情"""
        if not raw_data or "data" not in raw_data or "item" not in raw_data["data"]:
            return None
            
        item = raw_data["data"]["item"]
        return {
            "item_id": item.get("item_id"),
            "title": item.get("title"),
            "brand": item.get("brand_name"),
            "category": item.get("category_name"),
            "price": item.get("price"),
            "original_price": item.get("original_price"),
            "discount": item.get("discount"),
            "sales_volume": item.get("sales_volume"),
            "stock": item.get("stock"),
            "images": item.get("images", []),
            "specs": item.get("specs", []),
            "update_time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        }

class DataStorage:
    """数据存储类"""
    
    @staticmethod
    def save_to_database(items):
        """保存数据到数据库"""
        logger.info(f"保存 {len(items)} 条商品数据到数据库")
        # 这里实现实际的数据库存储逻辑
        # 示例使用print输出数据
        for item in items:
            print(f"商品ID: {item['item_id']}, 名称: {item['title']}, 价格: {item['price']}")

class ItemCollector:
    """商品数据采集器"""
    
    def __init__(self, api_client, max_workers=10):
        self.api_client = api_client
        self.processor = DataProcessor()
        self.storage = DataStorage()
        self.max_workers = max_workers
        
    def collect_items_by_keyword(self, keyword, max_pages=10):
        """根据关键词采集商品数据"""
        all_item_ids = []
        
        # 分页获取商品ID
        for page in range(1, max_pages + 1):
            logger.info(f"正在搜索第 {page} 页商品...")
            search_result = self.api_client.search_items(keyword, page=page)
            if not search_result:
                continue
                
            item_ids = self.processor.parse_item_search_result(search_result)
            all_item_ids.extend(item_ids)
            logger.info(f"第 {page} 页搜索完成，获取 {len(item_ids)} 个商品ID")
            
            # 如果没有下一页，提前退出
            if len(item_ids) < 20:
                break
                
        logger.info(f"关键词 '{keyword}' 搜索完成，共获取 {len(all_item_ids)} 个商品ID")
        
        # 批量获取商品详情
        all_items = []
        batch_size = 50  # 每批处理50个商品
        
        for i in range(0, len(all_item_ids), batch_size):
            batch_ids = all_item_ids[i:i+batch_size]
            logger.info(f"正在获取第 {i//batch_size+1}/{(len(all_item_ids)+batch_size-1)//batch_size} 批商品详情...")
            
            batch_details = self.api_client.batch_get_item_details(batch_ids)
            parsed_items = [self.processor.parse_item_detail(detail) for detail in batch_details if detail]
            parsed_items = [item for item in parsed_items if item]  # 过滤无效数据
            
            all_items.extend(parsed_items)
            logger.info(f"成功获取 {len(parsed_items)} 条商品详情")
            
            # 每批处理完后保存一次数据
            self.storage.save_to_database(parsed_items)
            
        return all_items

# 主程序
def main():
    # 配置信息（请替换为实际值）
    APP_KEY = "your_app_key"
    APP_SECRET = "your_app_secret"
    SEARCH_KEYWORD = "手机"  # 搜索关键词
    
    # 初始化API客户端
    api_client = VipAPI(APP_KEY, APP_SECRET, max_workers=10)
    
    # 初始化采集器
    collector = ItemCollector(api_client, max_workers=10)
    
    # 执行采集任务
    collector.collect_items_by_keyword(SEARCH_KEYWORD, max_pages=5)

if __name__ == "__main__":
    main()

4. 性能优化策略

并发请求处理：
- 使用线程池实现并发 API 调用
- 控制并发数量避免触发限流
- 示例代码中使用ThreadPoolExecutor实现并发获取商品详情
请求频率控制：
- 添加请求间隔控制
- 实现指数退避重试机制
- 监控 API 响应状态码，处理限流情况
数据缓存机制：
- 对短时间内重复请求的数据使用内存缓存
- 使用 Redis 等分布式缓存存储高频访问数据
- 缓存失效策略与更新机制