爬取豆瓣电影评分数据导出csv和数据库

### 使用Python爬虫抓取豆瓣电影评分为了实现这一目标，可以分为几个部分来完成：首先是利用`requests`或`selenium`库获取网页内容；其次解析HTML页面提取所需信息；最后将数据保存到CSV文件以及不同的数据库中。 #### 抓取豆瓣电影评分对于动态加载的内容可能需要借助于浏览器自动化工具如Selenium模拟真实用户的浏览行为。这里假设目标网站允许简单HTTP请求访问，则可采用如下方式： ```python import requests from bs4 import BeautifulSoup url = "https://movie.douban.com/top250" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') movies = soup.find_all('div', class_='item') data_list = [] for movie in movies: title = movie.find('span', class_='title').get_text() rating_num = float(movie.find('span', class_='rating_num').get_text()) data_dict = {'Title': title, 'Rating': rating_num} data_list.append(data_dict) ``` 此段代码用于从指定URL下载页面源码，并从中抽取每部影片的名字及其对应的分数存入列表当中[^1]。 #### 将结果保存至CSV文件当已经获得了想要的信息之后就可以考虑如何将其记录下来了。下面展示的是怎样把之前收集好的字典形式的数据写入CSV文档内： ```python import csv with open("douban_movie_ratings.csv", mode='w', newline='', encoding="utf-8") as file_obj: fieldnames = ['Title', 'Rating'] writer = csv.DictWriter(file_obj, fieldnames=fieldnames) writer.writeheader() # 写表头 for row in data_list: writer.writerow(row) # 写数据行 ``` 这段脚本会创建一个新的名为"douban_movie_ratings.csv"的文件，在其中按照列名顺序依次写出标题和评价数值[^2]。 #### 存储到关系型数据库(MySQL / SQLite) 如果希望进一步处理这些数据或将它们与其他应用程序集成起来的话，那么可以选择将之导入关系型数据库里边去。以下是针对两种不同类型的RDBMS——MySQL与SQLite的具体做法说明： ##### MySQL 数据库存储方法先安装必要的驱动程序包 `mysql-connector-python` 或者其他兼容版本，接着建立连接对象并执行插入语句： ```python import mysql.connector db_config = {"host": "localhost", "user": "root", "password": "", "database": "test"} conn = mysql.connector.connect(**db_config) cursor = conn.cursor() create_table_query = """ CREATE TABLE IF NOT EXISTS douban_movies ( id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), rating FLOAT); """ insert_data_query = """INSERT INTO douban_movies(title,rating) VALUES (%s,%s);""" try: cursor.execute(create_table_query) cursor.executemany(insert_data_query, [(m['Title'], m['Rating']) for m in data_list]) finally: conn.commit() cursor.close() conn.close() ``` ##### SQLite 数据库存储方法 SQLite是一种轻量级的关系型数据库管理系统，适合小型项目和个人开发者使用。它不需要单独的服务进程就能工作，因此非常适合用来做本地测试环境下的开发练习： ```python import sqlite3 conn = sqlite3.connect(':memory:') # 创建内存中的临时数据库实例 cur = conn.cursor() cur.execute(""" CREATE TABLE IF NOT EXISTS douban_movies( id INTEGER PRIMARY KEY AUTOINCREMENT, title TEXT UNIQUE NOT NULL, rating REAL CHECK(rating >= 0 AND rating <= 10)); """) sql_insert_command = '''INSERT OR IGNORE INTO douban_movies(title ,rating )VALUES (?,?)''' cur.executemany(sql_insert_command, ((m['Title'], m['Rating']) for m in data_list)) conn.commit() cur.close() conn.close() ``` 以上两份代码片段分别展示了向MySQL服务器端发送批量插入命令的过程，还有就是直接操纵嵌入式SQLite引擎的方式。 #### 非关系型数据库(MongoDB)存储方案除了传统表格结构之外，NoSQL类别的MongoDB也提供了灵活多样的解决方案适用于各种应用场景。下面是关于如何设置客户端链接参数并通过PyMongo模块来进行基本CRUD操作的例子： ```python from pymongo import MongoClient client = MongoClient('mongodb://localhost:27017/') db = client.test_database collection = db.douban_movies documents = [{"title": item["Title"], "rating": item["Rating"]} for item in data_list] result = collection.insert_many(documents).acknowledged print(f'Inserted {len(documents)} documents into MongoDB.' if result else 'Failed to insert.') ``` 上述示例中包含了初始化MongoClient实例、选择特定集合名称作为容器空间、构建待加入的新文档数组以及调用API函数完成实际入库动作等一系列步骤。

阅读全文

爬取豆瓣电影评分数据导出csv和数据库

相关推荐

Python爬虫实战之豆瓣电影Top250数据抓取及存储

python爬取豆瓣电影Top250

python爬取豆瓣每个账户对电影的评分和影评，绘制评分饼图和影评词云图

爬虫爬取豆瓣电影500、

Scrapy框架爬虫爬取豆瓣电影

scrapy爬虫爬取豆瓣电影top250

豆瓣电影top250.zip

【数据可视化艺术大师】：豆瓣电影评分与评论情感分析全攻略

【数据挖掘：豆瓣电影背后的故事】：揭示隐藏趋势的高级技巧

爬取全部豆瓣电影短评

爬虫爬取电影top250

爬取豆瓣热门电影信息及评分

python爬取豆瓣top250电影

Java基础教程：从入门到实践

2018一建《项目管理》考点-施工过程的质量控制.doc

2017年网络最流行空间搞笑句子.docx

2013年肇庆市国家义务教育课程标准网络全员培训学习心得体会.doc

【 Vscode配置c / c++环境】VSCode 配置C/C++开发的步骤 入门教程

(完整版)网络教学的优缺点(最新整理).pdf

2019年大学生网络调查报告4篇参考.doc

大家在看

NBU备份一体机技术解决方案.docx

天津大学逻辑与形式化方法复习资料.rar

haproxy_http.zip

（分享）虚拟激光键盘设计制作原理+源代码-电路方案

power_svc_SVC仿真_svc_SVC仿真_matlabsimulink_

最新推荐

Kettle工具将数据查询导出csv文件格式方法

C#导出数据到CSV文件的通用类实例

详解 linux mysqldump 导出数据库、数据、表结构

Python之csv文件从MySQL数据库导入导出的方法

java实现CSV文件导入与导出功能

构建基于ajax, jsp, Hibernate的博客网站源码解析

【Unity Sunny Land关卡设计高级指南】：打造完美关卡的8大技巧

C++ 模版

C#随机数摇奖系统功能及隐藏开关揭秘

【数据驱动的力量】：管道缺陷判别方法论与实践经验

【 Vscode配置c / c++环境】VSCode 配置C/C++开发的步骤入门教程