Textacy快速入门指南：高效文本分析与处理-CSDN博客

Textacy快速入门指南：高效文本分析与处理

Textacy是一个基于spaCy构建的高级文本处理库，它为自然语言处理任务提供了更便捷的接口和更丰富的功能。本文将带你快速了解如何使用Textacy进行文本分析。

环境准备

首先需要安装Textacy库和spaCy的语言模型：

pip install textacy
python -m spacy download en_core_web_sm

这里我们下载的是英文小模型(en_core_web_sm)，它包含了基础的词汇表、语法规则和命名实体识别能力。

基础文本处理

Textacy的核心数据结构是spaCy的Doc对象，我们可以轻松地从文本创建Doc：

import textacy

text = "许多年后，面对行刑队时，奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午..."
doc = textacy.make_spacy_doc(text, lang="zh_core_web_sm")  # 中文处理使用zh_core_web_sm

文本分析功能

Textacy提供了丰富的文本分析功能：

实体提取

from textacy import extract
entities = list(extract.entities(doc, include_types={"PERSON", "LOCATION"}))
# 输出: [奥雷里亚诺·布恩迪亚]

主谓宾三元组提取

svos = list(extract.subject_verb_object_triples(doc))
# 输出: [SVOTriple(subject=[父亲], verb=[带], object=[他])]

文本统计

from textacy import text_stats as ts
print(f"词数: {ts.n_words(doc)}")
print(f"独特词数: {ts.n_unique_words(doc)}")
print(f"词汇多样性(TTR): {ts.diversity.ttr(doc)}")
print(f"Flesch-Kincaid阅读等级: {ts.flesch_kincaid_grade_level(doc)}")

多文档处理

Textacy可以高效处理多个文档组成的语料库：

records = [
    ("文本内容1", {"title": "标题1", "year": 2000}),
    ("文本内容2", {"title": "标题2", "year": 2010}),
]
corpus = textacy.Corpus("zh_core_web_sm", records)

语料库分析

print(f"总句子数: {corpus.n_sents}")
print(f"年份中位数: {corpus.agg_metadata('year', statistics.median)}")

高级特征提取

Textacy提供了强大的特征提取工具：

文档-词项矩阵

from textacy.representations import Vectorizer
vectorizer = Vectorizer(tf_type="linear", idf_type="smooth")
doc_term_matrix = vectorizer.fit_transform(
    ((term.lemma_ for term in extract.terms(doc, ngs=1, ents=True)) 
    for doc in corpus
)

共现网络构建

from textacy.representations import build_cooccurrence_network
cooc_graph = build_cooccurrence_network(
    [[term.lemma_ for term in extract.terms(doc, ngs=1, ents=True)] 
    for doc in corpus],
    window_size=5,
)