天池-零基础入门推荐系统新闻推荐之数据分析01


数据来源:
天池-零基础入门推荐系统数据-数据需要在论坛里面找

赛题+数据理解

赛题背景

赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即预测用户的最后一次点击的新闻文章。

数据说明

train_click_log.csv:训练集用户点击日志
在这里插入图片描述
testA_click_log.csv:测试集用户点击日志

articles.csv:新闻文章信息数据表
在这里插入图片描述
articles_emb.csv:新闻文章embedding向量表示
emb_0 到emb_249
在这里插入图片描述
sample_submit.csv:提交样例文件

列名说明:

Field Description
user_id 用户id
click_article_id 点击文章id
click_timestamp 点击时间戳
click_environment 点击环境
click_deviceGroup 点击设备组
click_os 点击操作系统
click_country 点击城市
click_region 点击地区
click_referrer_type 点击来源类型
article_id 文章id,与click_article_id相对应
category_id 文章类型id
created_at_ts 文章创建时间戳
words_count 文章字数
emb_1,emb_2,…,emb_249 文章embedding向量表示

数据内容

articles= pd.read_csv("./articles.csv")
articles=articles.rename(columns={
   
   'article_id': 'click_article_id'})  #为后面数据合并
#columns = [
'click_article_id', 'category_id', 'created_at_ts', 'words_count'
]

articles.click_article_id.nunique() #364047个文章
articles.category_id.nunique() #461个文章类型
articles.words_count.describe() #平均值在190个词,中位数在186个词
'''
count    364047.000000
mean        190.897727
std          59.502766
min           0.000000
25%         159.000000
50%         186.000000
75%         218.000000
max        6690.000000
'''
test_click = pd.read_csv("./testA_click_log.csv") #因为内存小,所以只用了测试集。严格应该训练集与测试集都要考虑

'''
columns=[
'user_id', 'click_article_id', 'click_timestamp', 'click_environment',
'click_deviceGroup', 'click_os', 'click_country', 'click_region',
'click_referrer_type'
]
'''

test_click.user_id.nunique() #50000名用户
test_click.click_article_id.value_counts() #各个文章被点击的次数,最多11363次,最少一次
test_click.click_environment.unique() #[1,2,4]三种类型
#plt.hist(test_click.click_environment) #可以看出大部分是4类型
test_click.click_deviceGroup.unique() #[1, 3, 4, 5, 2]五组环境
#plt.hist(test_click.click_deviceGroup) #大部分为1,3类型</
心跳信号分类预测是一个基于数据挖掘的重要任务,本次回答将介绍在天池-零基础入门数据挖掘比赛中心跳信号分类预测项目中的EDA(探索性数据分析)分析过程和相应代码。 首先,我们需要导入所需的库和数据集,如下所示: ```python import pandas as pd import numpy as np # 导入训练集 train_df = pd.read_csv('train.csv') # 导入测试集 test_df = pd.read_csv('test.csv') ``` 接下来,我们可以进行一些基本的数据探索,如查看数据集的形状和前几行数据等: ```python # 查看训练集形状 train_df.shape # 查看训练集前几行数据 train_df.head() ``` 然后,我们可以对数据集进行一些统计性分析,如计算各个特征的缺失值数量、平均值、标准差等: ```python # 计算训练集特征的缺失值数量 train_df.isnull().sum() # 计算训练集特征的均值 train_df.mean() # 计算训练集特征的标准差 train_df.std() ``` 接下来,我们可以对数据集中的特征进行可视化分析,以便更好地理解数据: ```python import matplotlib.pyplot as plt # 绘制训练集中特征的直方图 train_df.hist(figsize=(10, 10), bins=50) plt.show() # 绘制训练集中特征之间的相关性热图 correlation = train_df.corr() plt.figure(figsize=(10, 10)) plt.imshow(correlation, cmap='hot', interpolation='nearest') plt.colorbar() plt.xticks(np.arange(len(correlation.columns)), correlation.columns, rotation=90) plt.yticks(np.arange(len(correlation.columns)), correlation.columns) plt.show() ``` 最后,我们可以对数据集中的特征进行预处理和特征工程,以提高模型的性能: ```python from sklearn.preprocessing import StandardScaler # 对训练集的特征进行标准化 scaler = StandardScaler() scaled_features = scaler.fit_transform(train_df.drop('target', axis=1)) # 构建新的训练集 new_train_df = pd.DataFrame(scaled_features, columns=train_df.columns[:-1]) new_train_df['target'] = train_df['target'] ``` 以上就是在天池-零基础入门数据挖掘比赛中心跳信号分类预测项目中的EDA分析过程和相应代码。通过探索性数据分析,我们可以更好地理解数据集,并为后续的特征工程和模型训练做好准备。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值