1 没有使用 JavaScript 的网页抓取方法
例如如下的网页:
1.1 安装 BeautifulSoup 库
1.2 代码例子
app.py:
import requests
from pages.quotes_page import QuotesPage
page_content = requests.get("https://quotes.toscrape.com/").content
page = QuotesPage(page_content)
for quote in page.quotes:
print(quote)
BeautifulSoup 的使用:
from bs4 import BeautifulSoup
from locators.quotes_page_locators import QuotesPageLocators
from parsers.quote import QuoteParser
class QuotesPage:
def __init__(self, page):
self.soup = BeautifulSoup(page