python爬虫关于文件读写、requests、正则表达式、xpath、csv、beautifusoup的思维导图
时间: 2025-02-04 21:38:17 浏览: 46
### Python 爬虫技术思维导图
#### 一、文件读写操作
Python 提供了多种方式来处理不同类型的文件。对于文本文件,可以使用内置函数 `open()` 来打开并读取或写入数据;而对于二进制文件,则需指定模式参数为 'rb' 或 'wb'[^2]。
```python
with open('example.txt', mode='r') as file:
content = file.read()
print(content)
```
#### 二、网络请求库 Requests
`requests` 是一个非常流行的 HTTP 库,在发送 GET/POST 请求方面表现优异,并能轻松解析响应头和正文内容[^1]。
```python
import requests
response = requests.get('https://www.example.com')
print(response.status_code, response.text[:100])
```
#### 三、正则表达式模块 Re
通过 `re.compile()` 编译模式对象后可方便地执行匹配查找工作,这在网页抓取过程中用于提取特定格式的信息十分有用[^3]。
```python
import re
pattern = re.compile(r'\d{4}-\d{2}-\d{2}')
date_string = "Today's date is 2023-09-18."
match_result = pattern.search(date_string).group(0)
print(match_result)
```
#### 四、XML 路径语言 XPath
利用 lxml 库中的 etree 模块能够高效定位 HTML 文档节点,支持 CSS Selectors 和 XPath 表达式的混合运用。
```xml
from lxml import html
tree = html.fromstring('<html><body><h1>Hello</h1></body></html>')
title_element = tree.xpath('//h1/text()')[0]
print(title_element)
```
#### 五、结构化数据存储 CSV
借助 pandas 库可以直接加载 .csv 文件作为 DataFrame 对象进行分析处理,同时也提供了简单易用的方法保存修改后的表格至本地磁盘。
```python
import pandas as pd
dataframe = pd.DataFrame({'A': [1], 'B': ['b']})
dataframe.to_csv('output.csv', index=False)
read_back_df = pd.read_csv('output.csv')
print(read_back_df)
```
#### 六、HTML 解析器 BeautifulSoup
BeautifulSoup 结合 SoupStrainer 可加速页面片段筛选过程,尤其适合于那些需要频繁访问同一类标签属性的应用场景。
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup("<div id='content'>Some text here.</div>", features="lxml")
target_div = soup.find(id_='content').get_text(strip=True)
print(target_div)
```
阅读全文
相关推荐

















