- 知识点:
1、如何读取docx文件,pip install python-docx包,导包用from docx import Document
2、将docx文件读取成字符串,进行正则匹配,即可统计
import re
from docx import Document
# 读取Word文档内容到一个字符串
def read_word_to_string(doc_path):
doc = Document(doc_path)
text = ''
for paragraph in doc.paragraphs:
text += paragraph.text + ' ' # 添加空格以确保连续段落间的内容也被正确匹配
return text
# 使用正则表达式计算 () 出现的次数
def