欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~
目录
一.前言
英文短文自动分词(Automatic Word Segmentation)在自然语言处理和文本分析中有着广泛的应用。
二.代码
import string
f = open('./data/split.txt')
s=f.read()
str1=s.title()
print(str1)
print("".join([s for s in str1.splitlines(True) if s.strip()]))
list1 = str1.split() # 采用默认分隔符进行分割
#字符串列表去重
l1=list(set(list1))
l1.sort(key=list1.index)
for i in l1:
#去掉特殊符号
i1=i.translate(str.maketrans('', '', string.punctuation))
i2=i1.strip