python爬虫爬取网页数据
时间: 2023-09-06 09:08:11 浏览: 51
Python爬虫可以用来爬取网页数据,主要分为以下步骤:
1. 导入相关的库,如requests、beautifulsoup4等。
2. 使用requests库向目标网站发送请求,获取网页内容。
3. 使用beautifulsoup4库解析网页内容,提取出需要的数据。
4. 对提取的数据进行处理和存储。
下面是一个简单的Python爬虫示例,用于爬取豆瓣电影Top250的电影名称和评分:
```
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_movies(url):
movie_list = []
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'html.parser')
movies = soup.find('ol', class_='grid_view').find_all('li')
for movie in movies:
title = movie.find('span', class_='title').get_text()
rating = movie.find('span', class_='rating_num').get_text()
movie_list.append((title, rating))
return movie_list
if __name__ == '__main__':
movies = get_movies(url)
for movie in movies:
print(movie[0], movie[1])
```
在上面的代码中,我们首先定义了要爬取的网页URL和请求头部信息。然后使用requests库发送请求,并使用BeautifulSoup解析网页内容。最后,我们从网页中提取出电影名称和评分,并保存到一个列表中。最后,我们遍历列表并输出电影名称和评分。
阅读全文
相关推荐











