# 练习：采集电影信息（电影名称、电影评分、电影播放地址），保存到文本中。 # 目标地址：https://vip.1905.com/list/t_1/p1o6.shtml # 扩展（分页采集） # 了解其他网页结构（熟悉网页结构）

### 使用Python爬虫采集电影信息为了实现从指定网址 `https://vip.1905.com/list/t_1/p1o6.shtml` 抓取电影信息（名称、评分、播放地址），并将这些数据保存到文本文件中，可以采用如下方法： #### 导入必要的库首先需要导入用于网络请求和HTML解析的相关库。 ```python import requests from bs4 import BeautifulSoup ``` #### 获取页面内容利用requests库发送HTTP GET请求获取网页源码。 ```python url = 'https://vip.1905.com/list/t_1/p{}.shtml' # 定义URL模式支持分页参数替换 headers = {'User-Agent': 'Mozilla/5.0'} # 设置头部信息防止被反爬机制阻止访问 response = requests.get(url.format(1), headers=headers) content = response.text # 提取出响应体中的文本部分作为待处理的内容 soup = BeautifulSoup(content, 'lxml') # 创建BeautifulSoup对象以便于后续解析DOM树结构 ``` #### 解析单页内的电影条目遍历每一页上的所有影片列表项提取所需字段。 ```python movies = [] for item in soup.select('.list-item'): title = item.find('a', class_='title').get_text(strip=True) or '' # 影片名 score = item.find('span', class_='score').get_text(strip=True) if item.find('span', class_='score') else '-' # 用户评价分数 play_url = item.find('a')['href'] # 播放链接 movies.append({ 'name': title, 'rating': score, 'play_link': play_url }) ``` #### 实现多页循环抓取逻辑考虑到存在多个子页面的情况，可以通过修改URL中的分页编号来迭代读取不同页面的数据。 ```python all_movies = [] def fetch_page(page_num): url_with_page = url.format(page_num) resp = requests.get(url_with_page, headers=headers) if resp.status_code != 200: print(f"Failed to load page {page_num}") return False html_doc = resp.content.decode() parser = BeautifulSoup(html_doc, features="lxml") for entry in parser.select(".list-item"): movie_info = { "name": (entry.find("a", {"class": "title"}).string.strip() if entry.find("a", {"class": "title"}) is not None else ""), "rating": ((entry.find("span", {"class": "score"}).text.strip()) if entry.find("span", {"class": "score"}) is not None else "-"), "play_link": entry.a['href'] } all_movies.append(movie_info) current_page = 1 while True: success = fetch_page(current_page) if not success: break current_page += 1 ``` #### 将收集的信息存储为TXT文档最后一步是把之前累积下来的所有记录导出成纯文本格式存盘。 ```python with open('movie_data.txt', mode='w+', encoding='utf-8') as f: for m in all_movies: line = "\t".join([m["name"], str(m["rating"]), m["play_link"]]) + '\n' f.write(line) print("Data has been successfully saved.") ``` 上述过程涵盖了完整的Web Scraping工作流，包括但不限于发起请求、解析HTML以及持久化结果等环节[^4]。

阅读全文

# 练习：采集电影信息（电影名称、电影评分、电影播放地址），保存到文本中。 # 目标地址：https://vip.1905.com/list/t_1/p1o6.shtml # 扩展（分页采集） # 了解其他网页结构（熟悉网页结构）

相关推荐

数据集-电影评分数据-movieles-可用于做毕设实验.zip

电影票购票管理系统：采用Java Swing与MySQL实现（含源码、数据库及运行指导视频）

电影购票小程序分为三部分：小程序端、商家（影院）后台与官方后台.zip

Java电影爬虫源代码解析

语音识别技术革新：发音练习的智能助手

文本复杂性度量进阶：传统与现代方法的融合之道

【评分者信度真相】：肯德尔和谐系数的正确使用与常见误区澄清

LabVIEW声音播放的性能测试与评估：确保音频播放质量的专业分析

人工智能辅助教学：HSK教程PPT中的智能问答系统

视频数据挖掘：大数据在教育决策中的创新应用与案例

【大数据洞察技巧】：教育分析从数据到见解的7步法

Python Excel读写教育与研究中的应用：数据分析与知识发现

ISD1820在教育领域的革新应用：从理论到实践的全面解析

【自然语言处理技术深度探讨】：从入门到精通的全面解析

大数据处理与分析：重庆专升本试题中的数据挖掘案例与分析技巧

智能语音在内容创作与分发中的影响：新媒体时代的传播革命

金融领域实体识别中的知识图谱构建与应用：解锁数据间复杂关系

【数据处理翘楚】：Python和DeepSeek在数据清洗中的应用技巧大公开

【Anaconda在教育领域的使用案例】：教育与研究中便捷工具的全面展示

【MATLAB中的MFCC魔法】：源码解析+应用案例，让声音识别不再神秘

大家在看

蒙特卡罗剂量模拟和可视化工具包：一组旨在帮助临床医生和研究人员使用 GEANT4 或 TOPAS 的 Matlab 函数-matlab开发

jinstall-ex-3300-15.1R1.8-domestic-signed.tgz

批量提取eml

IXYS公司SPICE模型库

基于SpringBoot+Vue开发的个人博客系统.zip

最新推荐

Web前端开发：CSS与HTML设计模式深入解析

Zotero 7数据同步：Attanger插件安装&设置，打造文献管理利器

卷积神经网络的基础理论200字

轻便实用的Java库类查询工具介绍

【Zotero 7终极指南】：新手必备！Attanger插件全攻略与数据同步神技

MATLAB整段注释快捷键

Eclipse Jad反编译插件：提升.class文件查看便捷性

【进阶Python绘图】：掌握matplotlib坐标轴刻度间隔的高级技巧，让你的图表脱颖而出

降帧是什么意思

深入理解J2EE中文版教程指南