源码中有中文，进行正则提取时中文定位信息变成？？怎么回事obj3=re.compile(r'<p>.*??????(?P<movie_name>.*?)</p>.*?<a href="(?P<download>.*?)"',re.S)

在Python中使用正则表达式（re模块的`compile()`函数）处理包含中文的源码时，可能会遇到编码问题。当你试图匹配中文字符时，如果没有正确指定编码，`?` 和 `*` 可能会被解释为非贪婪模式或者其他特殊字符，导致中文部分被错误地匹配或丢失。在这个例子中，`.*??????` 部分可能无法正确识别汉字的编码，使得`movie_name` 和 `download` 正则表达式组出现问题，结果可能是它们捕获的内容缺失或乱码，显示为 `??`。要解决这个问题，你需要确保正则表达式的编译指定了正确的文本编码，通常对于UTF-8编码的文本，可以添加 `re.UNICODE` 标志： ```python obj3 = re.compile(r'<p>.*\b[\u4e00-\u9fa5]*?(?P<movie_name>.*?)</p>.*?<a href="(?P<download>.*?)"', re.S | re.UNICODE) ``` 这里 `\b[\u4e00-\u9fa5]*?` 尝试匹配中文字符，并使用了非贪婪模式。如果源码不是UTF-8，需要替换为相应的字符集范围。

''' ''' import re from urllib.request import urlopen def getPage(url): # 获取网页的字符串 response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = com.finditer(s) # 从s这个网页源码中，找到所有符合com正则表达式的内容，并且以迭代器的形式返回 for i in ret: yield{ 'id':i.group('id'), 'title':i.group('title'), 'rating_num':i.group('rating_num'), 'comment_num':i.group('comment_num') } def main(num): # 翻页，执行10次 url = 'https://movie.douban.com/top250?start=%s&filter='% num response_html = getPage(url) # response_html就是这个url对应的html代码，就是 str ret = parsePage(response_html) print(ret) f = open('move_info7','a',encoding='utf8') for obj in ret: print(obj) data = str(obj) f.write(data +'\n') f.close() com = re.compile( '<div class = "item">.?<div class="pic">.?<em.?>(?P<id>\d+).?<span class = "title">(?P<title>.?)</span>' '.?<span class="rating_num".?>(?P<rating_num>.?)</span>.?<span>(?P<comment_num>.?)评价</span>',re.S) count = 0 for i in range(10): main(count) count += 25 检查这段代码并且进行修改

这段代码是用来爬取豆瓣电影Top250的信息，并且将结果保存到文件中。但是，代码中存在一些错误和需要改进的地方，建议进行如下修改： 1. 将文件名由'move_info7'改为'movie_info.txt'，并且将文件打开操作放在for循环外面，避免重复打开和关闭文件。 2. 将函数名从'getPage'改为'get_page'，符合Python的命名规范。 3. 将参数名从's'改为'html'，更加直观。 4. 将正则表达式中的空格去掉，避免匹配不到结果。 5. 在文件写入操作之前，需要先检查文件是否存在，如果不存在，则需要创建文件。修改后的代码如下： ```python import re from urllib.request import urlopen def get_page(url): # 获取网页的字符串 response = urlopen(url) return response.read().decode('utf-8') def parse_page(html): com = re.compile( '<div class="item">.*?<div class="pic">.*?<em.*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>' '.*?<span class="rating_num".*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S) ret = com.finditer(html) # 从html这个网页源码中，找到所有符合com正则表达式的内容，并且以迭代器的形式返回 for i in ret: yield { 'id': i.group('id'), 'title': i.group('title'), 'rating_num': i.group('rating_num'), 'comment_num': i.group('comment_num') } def main(num): # 翻页，执行10次 url = 'https://movie.douban.com/top250?start=%s&filter=' % num html = get_page(url) # html就是这个url对应的html代码，就是 str ret = parse_page(html) print(ret) with open('movie_info.txt', 'a', encoding='utf8') as f: for obj in ret: print(obj) data = str(obj) f.write(data + '\n') if __name__ == '__main__': count = 0 for i in range(10): main(count) count += 25 ```

阅读全文

源码中有中文，进行正则提取时中文定位信息变成？？怎么回事obj3=re.compile(r'<p>.??????(?P<movie_name>.?)</p>.?<a href="(?P<download>.?)"',re.S)

相关推荐

源码中有中文，进行正则提取时中文定位信息变成？？怎么回事obj3=re.compile(r'<p>.*??????(?P<movie_name>.*?)</p>.*?<a href="(?P<download>.*?)"',re.S)

相关推荐

正则表达式

IP提取器源码解析与应用

Python爬虫正则表达式基础与实例解析

Java正则表达式工具类：解析与应用

【深度学习进阶】：3大策略彻底理解遥感图像中的水体

网络流量优化策略.pptx

网络时代中职院校图书馆用户需求及服务研究.docx

物联网电梯监控传输解决方案的研究.docx

软件设计服务行业技术趋势分析.pptx

vscode的vsix插件

网络环境下学校德育创新研究.docx

沃尔沃：梳理流程-项目管理应用于汽车研发.doc

Android LiveData 使用详解.docx

Python100-master (5).zip

金融云区块链技术应用.pptx

项目管理技能总结.doc

遗传算法在高中数学研究性学习中的应用.docx

生成模型在自动驾驶应用.pptx

工程项目管理复习题.doc

大家在看

蒙特卡罗剂量模拟和可视化工具包：一组旨在帮助临床医生和研究人员使用 GEANT4 或 TOPAS 的 Matlab 函数-matlab开发

中科大版苏淳概率论答案

公开公开公开公开-openprotocol_specification 2.7

xilinx.com_user_IIC_AXI_1.0.zip

extjs6.2加SenchaCmd-6.5.3.6-windows-64bit

最新推荐

网络流量优化策略.pptx

网络时代中职院校图书馆用户需求及服务研究.docx

物联网电梯监控传输解决方案的研究.docx

软件设计服务行业技术趋势分析.pptx

vscode的vsix插件

WEB精确打印技术：教你实现无差错打印输出

【性能测试基准】：为RK3588选择合适的NVMe性能测试工具指南

服务器无感部署

C++源代码实现：分段线性插值与高斯消去法

【固态硬盘寿命延长】：RK3588平台NVMe维护技巧大公开

源码中有中文，进行正则提取时中文定位信息变成？？怎么回事obj3=re.compile(r'<p>.??????(?P<movie_name>.?)</p>.?<a href="(?P<download>.?)"',re.S)