利用python+selenium爬取公众号和知乎文章代码资源-CSDN下载

共5个文件

xlsx：2个

py：2个

ds_store：1个

python

selenium

需积分: 50 82 浏览量 2024-03-25 22:27:17 上传评论收藏 42KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

爬取公众号&知乎代码.zip （5个子文件）

爬取公众号&知乎代码

.DS_Store 6KB

weixinfromsougo.py 18KB

AIGC_微信_20230807.xlsx 24KB

zhihufromsougo.py 3KB

AIGC_知乎20230807.xlsx 13KB

# import os # import datetime # import openpyxl # from selenium import webdriver # from selenium.webdriver.chrome.service import Service # from selenium.webdriver.chrome.options import Options # from selenium.webdriver.common.by import By # from selenium.webdriver.common.keys import Keys # # # 指定 Chrome WebDriver 的路径 # chromedriver_path = "/data/apps/chromedriver/chromedriver" # # # 创建 Chrome WebDriver 的 Service 对象 # service = Service(chromedriver_path) # # # 创建 Chrome WebDriver # options = Options() # options.headless = False # 设置为无头模式，即不显示浏览器窗口 # driver = webdriver.Chrome(service=service, options=options) # # # 访问搜狗微信搜索页面 # driver.get("https://weixin.sogou.com") # # # 定位搜索框并输入关键字 # search_box = driver.find_element(By.ID, "query") # search_box.send_keys("AIGC") # search_box.send_keys(Keys.RETURN) # # # 创建 Excel 文件 # excel_filename = f"AIGC_微信_{datetime.datetime.now().strftime('%Y%m%d')}.xlsx" # wb = openpyxl.Workbook() # ws = wb.active # ws.append(["标题", "链接", "来源"]) # # # 爬取前10页的内容 # for page in range(10): # articles = driver.find_elements(By.CSS_SELECTOR, ".news-box .txt-box") # for article in articles: # title = article.find_element(By.CSS_SELECTOR, "h3").text # link = article.find_element(By.CSS_SELECTOR, "h3 a").get_attribute("href") # source = article.find_element(By.CSS_SELECTOR, ".s-p").text # ws.append([title, link, source]) # # # 点击下一页 # next_page = driver.find_element(By.PARTIAL_LINK_TEXT, "下一页") # next_page.click() # # # 保存 Excel 文件 # wb.save(excel_filename) # # # 关闭 WebDriver # driver.quit() # # print(f"爬取完成，结果已保存到 {excel_filename}") # # import os # import datetime # import openpyxl # from selenium import webdriver # from selenium.webdriver.chrome.service import Service # from selenium.webdriver.chrome.options import Options # from selenium.webdriver.common.by import By # from selenium.webdriver.common.keys import Keys # # # 指定 Chrome WebDriver 的路径 # chromedriver_path = "/data/apps/chromedriver/chromedriver" # # # 创建 Chrome WebDriver 的 Service 对象 # service = Service(chromedriver_path) # # # 创建 Chrome WebDriver # options = Options() # options.headless = False # 设置为无头模式，即不显示浏览器窗口 # driver = webdriver.Chrome(service=service, options=options) # # # 访问搜狗微信搜索页面 # driver.get("https://weixin.sogou.com") # # # 定位搜索框并输入关键字 # search_box = driver.find_element(By.ID, "query") # search_box.send_keys("AIGC") # search_box.send_keys(Keys.RETURN) # # # 创建 Excel 文件 # excel_filename = f"AIGC_微信_{datetime.datetime.now().strftime('%Y%m%d')}.xlsx" # wb = openpyxl.Workbook() # ws = wb.active # ws.append(["标题", "链接", "来源"]) # # # 爬取前10页的内容 # for page in range(10): # articles = driver.find_elements(By.CSS_SELECTOR, ".news-box .txt-box") # for article in articles: # title = article.find_element(By.CSS_SELECTOR, "h3").text # link = article.find_element(By.CSS_SELECTOR, "h3 a").get_attribute("href") # source = article.find_element(By.CSS_SELECTOR, ".s-p").text # ws.append([title, link, source]) # # # 尝试定位下一页按钮 # next_page_button = driver.find_elements(By.CSS_SELECTOR, ".p-fy a")[-1] # if "下一页" in next_page_button.text: # next_page_button.click() # else: # break # # # 保存 Excel 文件 # wb.save(excel_filename) # # # 关闭 WebDriver # driver.quit() # # print(f"爬取完成，结果已保存到 {excel_filename}") # # import os # import datetime # import openpyxl # import re # from selenium import webdriver # from selenium.webdriver.chrome.service import Service # from selenium.webdriver.chrome.options import Options # from selenium.webdriver.common.by import By # from selenium.webdriver.common.keys import Keys # # # 指定 Chrome WebDriver 的路径 # chromedriver_path = "/data/apps/chromedriver/chromedriver" # # # 创建 Chrome WebDriver 的 Service 对象 # service = Service(chromedriver_path) # # # 创建 Chrome WebDriver # options = Options() # options.headless = False # 设置为无头模式，即不显示浏览器窗口 # driver = webdriver.Chrome(service=service, options=options) # # # 访问搜狗微信搜索页面 # driver.get("https://weixin.sogou.com") # # # 定位搜索框并输入关键字 # search_box = driver.find_element(By.ID, "query") # search_box.send_keys("AIGC") # search_box.send_keys(Keys.RETURN) # # # 创建 Excel 文件 # excel_filename = f"AIGC_微信_{datetime.datetime.now().strftime('%Y%m%d')}.xlsx" # wb = openpyxl.Workbook() # ws = wb.active # ws.append(["标题", "链接", "来源", "发布时间"]) # # # 爬取前10页的内容 # for page in range(10): # articles = driver.find_elements(By.CSS_SELECTOR, ".news-box .txt-box") # for article in articles: # title = article.find_element(By.CSS_SELECTOR, "h3").text # link = article.find_element(By.CSS_SELECTOR, "h3 a").get_attribute("href") # source = article.find_element(By.CSS_SELECTOR, ".s-p").text # # 使用正则表达式提取发布时间 # time_match = re.search(r"(\d{4}-\d{1,2}-\d{1,2})", source) # publish_time = time_match.group(1) if time_match else "" # ws.append([title, link, source, publish_time]) # # # 尝试定位下一页按钮 # next_page_button = driver.find_elements(By.CSS_SELECTOR, ".p-fy a")[-1] # if "下一页" in next_page_button.text: # next_page_button.click() # else: # break # # # 保存 Excel 文件 # wb.save(excel_filename) # # # 关闭 WebDriver # driver.quit() # # print(f"爬取完成，结果已保存到 {excel_filename}") # # import os # import datetime # import openpyxl # import re # from selenium import webdriver # from selenium.webdriver.chrome.service import Service # from selenium.webdriver.chrome.options import Options # from selenium.webdriver.common.by import By # from selenium.webdriver.common.keys import Keys # # # 指定 Chrome WebDriver 的路径 # chromedriver_path = "/data/apps/chromedriver/chromedriver" # # # 创建 Chrome WebDriver 的 Service 对象 # service = Service(chromedriver_path) # # # 创建 Chrome WebDriver # options = Options() # options.headless = False # 设置为无头模式，即不显示浏览器窗口 # driver = webdriver.Chrome(service=service, options=options) # # # 访问搜狗微信搜索页面 # driver.get("https://weixin.sogou.com") # # # 定位搜索框并输入关键字 # search_box = driver.find_element(By.ID, "query") # search_box.send_keys("AIGC") # search_box.send_keys(Keys.RETURN) # # # 创建 Excel 文件 # excel_filename = f"AIGC_微信_{datetime.datetime.now().strftime('%Y%m%d')}.xlsx" # wb = openpyxl.Workbook() # ws = wb.active # ws.append(["标题", "链接", "来源", "发布时间"]) # # # 爬取前10页的内容 # for page in range(10): # articles = driver.find_elements(By.CSS_SELECTOR, ".news-box .txt-box") # for article in articles: # title = article.find_element(By.CSS_SELECTOR, "h3").text # link = article.find_element(By.CSS_SELECTOR, "h3 a").get_attribute("href") # source = article.find_element(By.CSS_SELECTOR, ".s-p").text # time_element = article.find_element(By.CSS_SELECTOR, ".s2 span") # publish_time = time_element.get_attribute("t") # ws.append([title, link, source, publish_time]) # # # 尝试定位下一页按钮 # next_page_button = driver.find_elements(By.CSS_SELECTOR, ".p-fy a")[-1] # if "下一页" in next_page_button.text: # next_page_button.click() # else: # break # # # 保存 Excel 文件 # wb.save(excel_filename) # # # 关闭 WebDriver # driver.quit() # # print(f"爬取完成，结果已保存到 {excel_filename}") # # import os # import

评论收藏

内容反馈