在机器学习训练算法模型之前,我们一般都需要对数据集进行划分为训练集和测试集。训练集用作机器学习训练得出算法模型,而测试集用来对训练出来的模型进行检验。
在sklearn中可以从sklearn.model selection中调用train_test_split函数方法实现数据集的划分。
1、train_test_split
今天我们来手搓一个函数实现train_test_split一样的数据集划分。
话不多说,我们直接先上代码!
from random import randrange
from random import seed
def train_test_split(data, proportion=0.7, random_seed=None):
train_data = []
seed(random_seed)
train_size = proportion*len(data)
data_copy = list(data)
while len(train_data) < train_size:
train_data_index = randrange(len(data_copy))
train_data.append(data_copy.pop(train_data_index))
return train_data, data_copy
data = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11]]
train, test = train_test_split(data, proportion=0.7)
print(train)
print(test)
data是我们要划分的数据集