文章目录
(1)获取数据
(2)数据处理:处理缺失数据,可视化
(3)特征工程
(4)算法训练:模型
(5)模型评估
(6)应用
from numpy import nan as NA
1 读取数据
1.1 导入和导出数据
一、导入数据
pd.read_csv(filename):从CSV文件导入数据
df.to_csv("aa.txt",index=0) # 不保存行索引
pd.read_table(filename):从限定分隔符的文本文件导入数据
pd.read_excel(filename):从Excel文件导入数据
pd.read_sql(query, connection_object):从SQL表/库导入数据
pd.read_json(json_string):从JSON格式的字符串导入数据
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据
pd.DataFrame(list,columns = ):从列表对象导入数据,通过columns指定列