首页python爬虫抓取文本

python爬虫抓取文本

时间: 2025-02-07 07:50:24 浏览: 31

### 如何使用Python编写爬虫程序抓取网页文本数据 #### 选择合适的库为了高效地完成网页文本抓取的任务，可以选择一些成熟的Python库。`requests` 是一个常用的HTTP库，能够方便地发送HTTP请求；而 `BeautifulSoup` 则是一个优秀的HTML/XML解析器，可以帮助处理和分析返回的内容[^2]。 ```python import requests from bs4 import BeautifulSoup ``` #### 发送HTTP请求通过构建目标URL并向其发起GET请求来获取页面源码。这里假设要访问的目标网站地址为 http://example.com/： ```python url = 'http://example.com/' response = requests.get(url) html_content = response.text ``` #### 解析HTML文档结构利用 `BeautifulSoup` 对象加载下载下来的HTML字符串，并指定解析方式（如'lxml'）。接着可以根据标签名称、属性等条件筛选所需部分的数据节点。 ```python soup = BeautifulSoup(html_content, 'lxml') text_data = soup.find_all('p') # 假设只关心<p>标签内的纯文字内容 for paragraph in text_data: print(paragraph.get_text()) ``` #### 存储抓取下来的文字资料最后一步就是把收集好的信息保存起来以便后续查阅或者进一步加工处理。如果希望导出至Excel文件，则可借助 pandas 库实现表格化管理。 ```python import pandas as pd df = pd.DataFrame([t.get_text() for t in text_data], columns=['Text']) df.to_excel('./output.xlsx', index=False) ```

阅读全文