
kaggle
⼊
门
竞
赛
之
泰坦
尼
克
事
故
存
活
预
测
(
xgboost
⽅法
)
本文我们详细讲解如何利用xgboost方法来解决泰坦尼克沉船事故人员存活预测的问题。
实现语言以Python为例来进行讲解。
第三方库引入
⾸
先
,
我
们
来看
下
⽤
xgboost
解
决
这
个
问题
需
要引
⼊
哪
些
第
三
⽅
库
吧
:
1.
#Loadinourlibraries
2. importpandasaspd
3. importnumpyasnp
4. importre
5. importsklearn
6. importxgboostasxgb
7. importseabornassns
8. importmatplotlib.pyplotasplt
9. %matplotlibinline
10.
11. importplotly.offlineaspy
12. py.init_notebook_mode(connected=True)
13. importplotly.graph_objsasgo
14. importplotly.toolsastls
15.
16. importwarnings
17. warnings.filterwarnings('ignore')
18.
19.
#Goingtousethese5basemodelsforthestacking
20. fromsklearn.ensembleimportRandomForestClassifier,AdaBoostClassifier,GradientBoostingCla
ssifier,ExtraTreesClassifier
21. fromsklearn.svmimportSVC
22. fromsklearn.cross_validationimportKFold;
其
中
,
numpy
和
pandas
是
在
进
⾏
数
据
计
算
和
分
析
中
最
常
⽤
的第
三
⽅
库
。
re
是
正则
表
达
式
库
。
sklearn
是
专
门
⽤于
机
器
学习
的第
三
⽅
库
。
matplotlib
,
seaborn
和
plotly
是
Python
⽤于
绘
图
的第
三
⽅
库
。
xgboost
是
Python
基
于
xgboost
算
法
开
发
的第
三
⽅
库
。
特征的分析和提取
在
传
统
机
器
学习
算
法
中
,
我
们
⾸
先需
要
分
析
数
据
的
内
在
结
构
,
找
出
数
据
的
结
构
特
征
信息
。
1.
#Loadinthetrainandtestdatasets
2. train=pd.read_csv('../input/train.csv')
3. test=pd.read_csv('../input/test.csv')
4.
5.
#StoreourpassengerIDforeasyaccess
6. PassengerId=test['PassengerId']
7.
8. train.head(3)
我
们
利
⽤
pandas
库
的
⽅法
直
接
读
⼊
excel
⽅法
后
,
读
取
训
练
集
的
前三
⾏
数
据
如
下
: