首页Python爬虫豆瓣电影海报

Python爬虫豆瓣电影海报

时间: 2024-12-31 14:34:15 浏览: 57

### 编写 Python 程序抓取豆瓣电影海报为了实现这一目标，可以采用 `requests` 和 `lxml` 库来获取网页内容并解析 HTML 文档。以下是具体的方法： #### 导入必要的库首先需要导入用于网络请求和HTML解析的库。 ```python import requests from lxml import etree ``` #### 获取页面内容通过向指定URL发送GET请求获得响应对象，再从中提取文本内容作为下一步处理的基础。 ```python url = "https://movie.douban.com/top250" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url=url, headers=headers) html_content = response.text ``` #### 解析HTML文档结构使用XPath表达式定位到包含每部影片信息的位置，并进一步筛选出所需的链接地址。 ```python tree = etree.HTML(html_content) # 定位所有条目节点下的img标签属性src即为图片的真实下载路径 poster_urls = tree.xpath('//div[@class="item"]//img/@src') ``` #### 下载图像文件遍历上述收集到的所有海报链接列表，依次发起HTTP GET 请求读取二进制流形式的数据；同时定义本地存储位置以及对应的文件名称规则以便后续保存操作。 ```python for index, poster_url in enumerate(poster_urls[:]): # 可根据需求调整索引范围限制数量 img_data = requests.get(poster_url).content with open(f"./posters/{index}.jpg", mode='wb') as f: f.write(img_data) ``` 以上过程展示了如何构建一个简单的Python脚本来完成从访问目标站点直至最终将所需资源落地至磁盘的过程[^2]。

阅读全文