python爬虫抓取文本
时间: 2025-02-07 07:50:24 浏览: 31
### 如何使用Python编写爬虫程序抓取网页文本数据
#### 选择合适的库
为了高效地完成网页文本抓取的任务,可以选择一些成熟的Python库。`requests` 是一个常用的HTTP库,能够方便地发送HTTP请求;而 `BeautifulSoup` 则是一个优秀的HTML/XML解析器,可以帮助处理和分析返回的内容[^2]。
```python
import requests
from bs4 import BeautifulSoup
```
#### 发送HTTP请求
通过构建目标URL并向其发起GET请求来获取页面源码。这里假设要访问的目标网站地址为 http://example.com/:
```python
url = 'http://example.com/'
response = requests.get(url)
html_content = response.text
```
#### 解析HTML文档结构
利用 `BeautifulSoup` 对象加载下载下来的HTML字符串,并指定解析方式(如'lxml')。接着可以根据标签名称、属性等条件筛选所需部分的数据节点。
```python
soup = BeautifulSoup(html_content, 'lxml')
text_data = soup.find_all('p') # 假设只关心<p>标签内的纯文字内容
for paragraph in text_data:
print(paragraph.get_text())
```
#### 存储抓取下来的文字资料
最后一步就是把收集好的信息保存起来以便后续查阅或者进一步加工处理。如果希望导出至Excel文件,则可借助 pandas 库实现表格化管理。
```python
import pandas as pd
df = pd.DataFrame([t.get_text() for t in text_data], columns=['Text'])
df.to_excel('./output.xlsx', index=False)
```
阅读全文
相关推荐

















