SRC目标搜集
文章类的平台
https://www.anquanke.com/src
百度搜索
首先得知道SRC厂商的关键字,利用脚本搜集一波。
比如【应急响应中心】就可以作为一个关键字。通过搜索引擎搜索一波,去重,入库。
# -*- coding:utf-8 -*-
'''
从百度把前10页的搜索到的url爬取保存
'''
import multiprocessing # 利用pool进程池实现多进程并行
# from threading import Thread 多线程
import time
from bs4 import BeautifulSoup # 处理抓到的页面
import sys
import requests
import importlib
importlib.reload(sys) # 编码转换,python3默认utf-8,一般不用加
from urllib import request
import urllib
'''
all = open('D:\\111\\test.txt', 'a')
all.seek(0) #文件标记到初始位置
all.truncate() #清空文件
'''
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, compress',
'Accept-Language': 'en-us;q=0.5,en;q=0.3',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (X11;