对于文本数据进行机器学习算法分析之前我们需要对文本数据进行数值化,下面是一种比较常用的使用数值替换文本的方法。
import pandas as pd
from collections import defaultdict
train = pd.read_csv(r'E:\MathModel\MathModelingData\D\process\all_copy.csv')
d = defaultdict(LabelEncoder) # 数值化
X_trans = X.apply(lambda x: d[x.name].fit_transform(x.astype(str))) # 文本数值化处理符号
X_trans.to_csv(r'E:\MathModel\MathModelingData\D\process\all_copy_numeralization.csv', encoding='utf-8', index=False, index_label=None)