kaggle的初步使用-CSDN博客

本文链接：https://blog.csdn.net/P5093/article/details/139300400

前沿、本人学习使用，如有侵权私信联系删除

一、kaggle介绍

Kaggle是一个数据科学和机器学习竞赛平台，旨在提供数据集、工具和社区支持，让数据科学家、机器学习工程师和其他相关领域的人员能够分享、合作和竞赛。它提供了各种竞赛任务，参与者可以通过解决这些任务来提升他们的数据分析和建模技能。

二、kaggle初步学习使用

Titanic Tutorial | Kaggle-泰坦尼克号教程

如果你是小白，对kaggle并未有所解，你可以选择根据该教程学习

该内容是在-Titanic Tutorial | Kaggle泰坦尼克号教程的解释说明

1、任务要求：

简单概括就是：谁活谁死

希望使用泰坦尼克号乘客数据（姓名、年龄、票价等）来尝试预测谁会活下来，谁会死。

2、查看比赛数据：

请单击比赛页面顶部的“数据”选项卡。然后，向下滚动以查找文件列表。
There are three files in the data: (1) train.csv, (2) test.csv, and (3) gender_submission.csv.
数据中有三个文件：（1） train.csv、（2） test.csv 和（3） gender_submission.csv。

train.csv包含机上乘客子集的详细信息（确切地说是 891 名乘客——每个乘客在表中都有不同的行）。要调查此数据，请单击屏幕左侧的文件名。完成此操作后，您可以在窗口中查看所有数据。

第二列中的值（“幸存”）可用于确定每位乘客是否幸存：

if it's a "1", the passenger survived.
如果是“1”，则乘客幸免于难。
if it's a "0", the passenger died.
如果是“0”，则乘客死亡。

例如，train.csv中列出的第一位乘客是欧文·哈里斯·布劳恩德先生。他在泰坦尼克号上去世时年仅 22 岁。

单击test.csv（在屏幕左侧）以检查其内容。请注意，test.csv没有“幸存”列 - 这些信息对您是隐藏的，您在预测这些隐藏值方面的表现将决定您在比赛中的得分！

3、gender_submission.csv

gender_submission.csv 文件作为示例提供，演示应如何构建预测。它预测所有女乘客都活了下来，所有男乘客都死了。您关于生存的假设可能会有所不同，这将导致不同的提交文件。但是，就像这个文件一样，你的提交应该有：

“PassengerId”列，其中包含test.csv每位乘客的 ID。
“幸存”列（您将创建！），其中“1”表示您认为乘客幸存下来的行，“0”表示您预测乘客死亡。

三、创建笔记本

1、编码环境

在本部分中，将训练自己的机器学习模型来改进预测。

2、创建The Notebook

首先要做的是创建一个 Kaggle Notebook，您将在其中存储所有代码。这部分不需要安装下载环境。

点击比赛页面上的“代码”选项卡。然后，单击“新建笔记本”。

1.步骤一

2.步骤二

3.步骤三

4.步骤四，在这个地方就可以根据自己的需求，一步步进行便携了

第一个代码单元格中已经包含了一些代码。若要运行此代码，请将光标放在代码单元格中。（如果您的光标位于正确的位置，您会注意到灰色框左侧有一条蓝色垂直线。然后，点击播放按钮（显示在蓝线左侧），或点击键盘上的 [Shift] + [Enter]。

如果代码成功运行，则返回三行输出。下面，您可以看到刚刚运行的相同代码，以及应在笔记本中看到的输出。

In [1]: 在 [1] 中：

# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

/kaggle/input/titanic/train.csv
/kaggle/input/titanic/test.csv
/kaggle/input/titanic/gender_submission.csv

这向我们显示了比赛数据的存储位置，以便我们可以将文件加载到笔记本中。接下来我们将这样做。

3、加载数据

笔记本中的第二个代码单元格现在显示在包含文件位置的三行输出下方。
将下面的两行代码键入到第二个代码单元格中。然后，完成后，单击蓝色播放按钮，或按[Shift] + [Enter]。

In [2]: 在[2]中：

train_data = pd.read_csv("/kaggle/input/titanic/train.csv")
train_data.head()

Out[2]: 出[2]：

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin