首页python爬虫爬取网页数据

python爬虫爬取网页数据

时间: 2023-09-06 09:08:11 浏览: 51

Python爬虫可以用来爬取网页数据，主要分为以下步骤： 1. 导入相关的库，如requests、beautifulsoup4等。 2. 使用requests库向目标网站发送请求，获取网页内容。 3. 使用beautifulsoup4库解析网页内容，提取出需要的数据。 4. 对提取的数据进行处理和存储。下面是一个简单的Python爬虫示例，用于爬取豆瓣电影Top250的电影名称和评分： ``` import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} def get_movies(url): movie_list = [] html = requests.get(url, headers=headers).text soup = BeautifulSoup(html, 'html.parser') movies = soup.find('ol', class_='grid_view').find_all('li') for movie in movies: title = movie.find('span', class_='title').get_text() rating = movie.find('span', class_='rating_num').get_text() movie_list.append((title, rating)) return movie_list if __name__ == '__main__': movies = get_movies(url) for movie in movies: print(movie[0], movie[1]) ``` 在上面的代码中，我们首先定义了要爬取的网页URL和请求头部信息。然后使用requests库发送请求，并使用BeautifulSoup解析网页内容。最后，我们从网页中提取出电影名称和评分，并保存到一个列表中。最后，我们遍历列表并输出电影名称和评分。

阅读全文