talle2021-CSDN博客

原创一文搞懂时间序列ARIMA模型

ARIMA模型的基本思想是：一个时间点上的标签值既受过去一段时间内的标签值影响，也受过去一段时间内的偶然事件的影响。即ARIMA模型假设为标签值是围绕着时间的大趋势而波动的，其中趋势是受历史标签影响构成的，波动是受一段时间内的偶然事件影响构成的，且大趋势本身不一定是稳定的。

2023-10-06 18:29:03 17721 1

原创 WSDM顶会 & 爱奇艺 - 基于时间序列和多模型融合的用户留存预测挑战赛

在for循环中不断增加user_pb_group中的date，(例如，在最开始循环时，user_pb_group中某一行数据的date是162，经过7次循环，这行数据的date就会变为169，但这行数据所对应的其他列依然是162那天的数据。爱奇艺手机端APP，通过深度学习等最新的AI技术，提升用户个性化的产品体验，更好地让用户享受定制化的娱乐服务。预测用户的留存分是个充满挑战的难题：不同用户本身的偏好、活跃度差异很大，另外用户可支配的娱乐时间、热门内容的流行趋势等其他因素，也有很强的周期性特征。

2023-09-27 18:34:28 1230

原创 2022第五届“泰迪杯”数据分析技能赛-B题-银行客户忠诚度分析（下）

2022第五届泰迪杯数据分析技能赛B题-银行客户忠诚度分析数据分析比赛

2022-11-19 20:01:40 7718 11

原创 2022第五届“泰迪杯”数据分析技能赛-B题-银行客户忠诚度分析（上）

目录任务1 数据探索与清洗任务1.1 数据探索与预处理任务1.2 特征编码任务2 产品营销数据可视化分析任务2.1 任务2.2任务2.3任务2.4 任务3 客户流失因素可视化分析任务3.1任务3.2任务3.3任务3.4 分别对短期客户产品购买数据“short-customer-data.csv”（简称短期数据）和长期客户资源信息数据的训练集“long-customer-train.csv”（简称长期数据）进行数据探索与清洗。 (1) 探索短期数据各指标数据的缺失值和“user_id”列重复值

2022-11-18 14:03:17 13498 11

原创 Kaggle-基于xgboost的销量预测

本文复现了Kaggle比赛"Predict Future Sales"的冠军方案。该比赛要求预测俄罗斯1C公司未来一个月各商店和商品的销售情况，评估指标为RMSE。通过数据清洗、特征工程和XGBoost模型构建完整解决方案。该方案在验证集上取得0.906的RMSE表现，展示了时间序列预测中特征工程的重要性。

2025-05-28 19:09:49 809

原创 Zeppelin在spark环境导出dataframe

如果zeppelin无法直接访问本地路径，可先将dataframe写到s3，在通过读取s3路径下载文件。

2025-04-25 19:53:37 248

原创 vscode切换Python环境

vscode切换python环境

2025-04-25 19:42:59 539

原创在CSDN的1095天（创作纪念日）

然而我却又一腔不甘平庸的热血，渴望踏上一条放荡不羁的险途。——《月亮与六便士》

2025-04-21 22:04:14 380

原创在CSDN的730天（创作纪念日）

CSDN两周年创作纪念日

2024-04-21 22:00:00 414

原创【牛客】SQL142 对试卷得分做min-max归一化

请你将用户作答高难度试卷的得分在每份试卷作答记录内执行min-max归一化后缩放到[0,100]区间，并输出用户ID、试卷ID、归一化后分数平均值；最后按照试卷ID升序、归一化分数降序输出。作答了9001的记录有3条，分数分别为68、89、90，按给定公式归一化后分数为：0、95、100，而后两个得分都是用户1001作答的，因此用户1001对试卷9001的新得分为(95+100)/2≈98（只保留整数部分），用户1003对于试卷9001的新得分为0。最后结果按照试卷ID升序、归一化分数降序输出。

2024-03-25 23:45:00 938

原创【牛客】SQL143 每份试卷每月作答数和截止当月的作答总数

解释：试卷9001在202001、202002、202003、202005共4个月有被作答记录，每个月被作答数分别为2、1、3、1，截止当月累积作答总数为2、3、6、7。请输出每份试卷每月作答数和截止当月的作答总数。

2024-03-25 23:45:00 730

原创【牛客】SQL145 统计有未完成状态的试卷的未完成数和未完成率

请统计有未完成状态的试卷的未完成数incomplete_cnt和未完成率incomplete_rate。解释：试卷9001有3次被作答的记录，其中两次完成，1次未完成，因此未完成数为1，未完成率为0.333（保留3位小数）

2024-03-25 23:45:00 390

原创【牛客】SQL146 0级用户高难度试卷的平均用时和平均得分

解释：0级用户有1001，高难度试卷有9001，1001作答9001的记录有3条，分别用时20分钟、未完成（试卷时长60分钟）、30分钟（未满31分钟），分别得分为80分、未完成（0分处理）、20分。因此他的平均用时为110/3=36.7（保留一位小数），平均得分为33分（取整）请输出每个0级用户所有的高难度试卷考试平均用时和平均得分，未完成的默认试卷最大考试时长和0分处理。

2024-03-25 23:45:00 783

原创【牛客】SQL147 筛选限定昵称成就值活跃日期的用户

1002最近一次试卷区活跃为2021年9月，最近一次题目区活跃为2021年9月；1004最近一次试卷区活跃为2021年8月，题目区未活跃。请找到昵称以『牛客』开头『号』结尾、成就值在1200~2500之间，且最近一次活跃（答题或作答试卷）在2021年9月的用户信息。解释：昵称以『牛客』开头『号』结尾且成就值在1200~2500之间的有1002、1004；因此最终满足条件的只有1002。

2024-03-25 23:45:00 1220

原创【牛客】SQL148 筛选昵称规则和试卷规则的作答记录

找到昵称以"牛客"+纯数字+"号"或者纯数字组成的用户对于字母c开头的试卷类别（如C,C++,c#等）的已完成的试卷ID和平均得分，按用户ID、平均分升序排序。满足上述条件的作答记录中，1002完成9001的得分有81、80，平均分为81（80.5取整四舍五入得81）；解释：昵称满足条件的用户有1002、1004、1005、1006；c开头的试卷有9001、9002；1002完成9002的得分有90、82、83，平均分为85；

2024-03-25 23:45:00 970

原创【牛客】SQL141 试卷完成数同比2020年的增长率及排名变化-窗口函数

解释：2020年上半年有3个tag有作答完成的记录，分别是C++、SQL、PYTHON，它们被做完的次数分别是3、3、2，做完次数排名为1、1（并列）、3；请计算2021年上半年各类试卷的做完次数相比2020年上半年同期的增长率（百分比格式，保留1位小数），以及做完次数排名变化，按增长率和21年排名降序输出。排名1=>2，后退1名。2021年上半年有2个tag有作答完成的记录，分别是算法、SQL，它们被做完的次数分别是3、2，做完次数排名为1、2；

2024-03-05 17:35:26 1201

原创【牛客】SQL140 未完成率较高的50%用户近三个月答卷情况-窗口函数

请统计SQL试卷上未完成率较高的50%用户中，6级和7级用户在有试卷作答记录的近三个月中，每个月的答卷数目和完成数目。按用户ID、月份升序排序。1001、1002、1003分别排在1.0、0.5、0.0的位置，因此较高的50%用户（排位

2024-03-05 17:30:37 1310

原创【牛客】SQL139 近三个月未完成试卷数为0的用户完成情况-窗口函数

解释：用户1006近三个有作答试卷的月份为202109、202108、202106，作答试卷数为3，全部完成；用户1001近三个有作答试卷的月份为202109、202108、202107，作答试卷数为5，完成试卷数为4，因为有未完成试卷，故过滤掉。找到每个人近三个有试卷作答记录的月份中没有试卷是未完成状态的用户的试卷作答完成数，按试卷完成数和用户ID降序排名。

2024-03-05 17:26:04 768

原创【牛客】SQL138 连续两次作答试卷的最大时间窗-窗口函数

解释：用户1006分别在20210901、20210906、20210907作答过3次试卷，连续两次作答最大时间窗为6天（1号到6号），他1号到7号这7天里共做了3张试卷，平均每天3/7=0.428571张，那么6天里平均会做0.428571*6=2.57张试卷（保留两位小数）；请计算在2021年至少有两天作答过试卷的人中，计算该年连续两次作答试卷的最大时间窗days_window，那么根据该年的历史规律他在days_window天里平均会做多少套试卷，按最大时间窗和平均做答试卷套数倒序排序。

2024-03-05 17:23:39 1017 1

原创【牛客】SQL137 第二快/慢用时之差大于试卷时长一半的试卷-窗口函数

解释：试卷9001被作答用时有50分钟、50分钟、30分1秒、11分钟、10分钟，第二快和第二慢用时之差为50分钟-11分钟=39分钟，试卷时长为60分钟，因此满足大于试卷时长一半的条件，输出试卷ID、时长、发布时间。找到第二快和第二慢用时之差大于试卷时长的一半的试卷信息，按试卷ID降序排序。

2024-03-05 17:18:43 692

原创【牛客】SQL136 每类试卷得分前3名-窗口函数

解释：有作答得分记录的试卷tag有SQL和算法，SQL试卷用户1001、1002、1003、1004有作答得分，最高得分分别为81、81、89、85，最低得分分别为78、81、86、40，因此先按最高得分排名再按最低得分排名取前三为1003、1004、1002。找到每类试卷得分的前3名，如果两人最大分数相同，选择最小分数大者，如果还相同，选择uid大者。

2024-03-05 17:13:23 733 1

原创【牛客】SQL135 每个6/7级用户活跃情况

解释：6/7级用户共有5个，其中1006在202109、202108、202008共3个月活跃过，2021年活跃的日期有20210907、20210804、20210803、20210802共4天，2021年在试卷作答区20210907活跃1天，在题目练习区活跃了3天。请统计每个6/7级用户总活跃月份数、2021年活跃天数、2021年试卷作答活跃天数、2021年答题活跃天数，按照总活跃月份数、2021年活跃天数降序排序。

2024-03-02 16:35:34 1484

原创【牛客】SQL134 满足条件的用户的试卷完成数和题目练习数

解释：用户1001、1003、1004、1006满足高难度SQL试卷得分平均值大于80，但只有1001、1003是7级红名大佬；1001完成了1次试卷1001，练习了2次题目；1003完成了2次试卷9001、9002，未练习题目（因此计数为0）请你找到高难度SQL试卷得分平均值大于80并且是7级的红名大佬，统计他们的2021年试卷总完成次数和题目总练习次数，只保留2021年有试卷完成记录的用户。结果按试卷完成数升序，按题目练习数降序。

2024-03-02 16:29:50 1516

原创【牛客】SQL133 分别满足两个活动的人

假使以前我们有两拨运营活动，分别给每次试卷得分都能到85分的人（activity1）、至少有一次用了一半时间就完成高难度试卷且分数大于80的人（activity2）发了福利券。解释：用户1001最小分数81不满足活动1，但29分59秒完成了60分钟长的试卷得分81，满足活动2；现在，需要你一次性将这两个活动满足的人筛选出来，交给运营同学。请写出一个SQL实现：输出2021年里，所有每次试卷得分都能到85分的人以及至少有一次用了一半时间就完成高难度试卷且分数大于80的人的id和活动号，按用户ID排序输出。

2024-03-02 16:26:50 621

原创【牛客】SQL132 每个题目和每份试卷被作答的人数和次数

解释：“试卷”有3人共练习3次试卷9001，1人作答3次9002；“刷题”有3人刷5次8001，有2人刷2次8002。

2024-03-02 16:23:16 725 1

原创【牛客】SQL131 作答试卷得分大于过80的人的用户等级分布

统计作答SQL类别的试卷得分大于过80的人的用户等级分布，按数量降序排序（保证数量都不同）。解释：9001为SQL类试卷，作答该试卷大于80分的人有1002、1003、1005共3人，6级两人，5级一人。

2024-03-02 16:21:14 865

原创【牛客】SQL130 试卷发布当天作答人数和平均分

解释：只有一张SQL类别的试卷，试卷ID为9001，发布当天（2021-09-01）有1001、1002、1003、1005作答过，但是1003是5级用户，其他3位为5级以上，他们三的得分有[70,80,85,90]，平均分为81.3（保留1位小数）。释义：用户1001昵称为牛客1号，成就值为3100，用户等级是7级，职业方向为算法，注册时间2020-01-01 10:00:00。

2024-03-02 16:18:49 1106

原创【牛客】SQL128 未完成试卷数大于1的有效用户

请统计2021年每个未完成试卷作答数大于1的有效用户的数据（有效用户指完成试卷作答数至少为1且未完成数小于5），输出用户ID、未完成试卷作答数、完成试卷作答数、作答过的试卷tag集合，按未完成试卷数量由多到少排序。解释：2021年的作答记录中，除了1004，其他用户均满足有效用户定义，但只有1002未完成试卷数大于1，因此只输出1002，detail中是1002作答过的试卷{日期:tag}集合，日期和tag间用:连接，多元素间用;

2024-02-27 16:48:59 1212 1

原创【牛客】SQL127 月总刷题数和日均刷题数

解释：2021年8月共有2次刷题记录，日均刷题数为2/31=0.065（保留3位小数）；2021年9月共有3次刷题记录，日均刷题数为3/30=0.100；2021年共有5次刷题记录（年度汇总平均无实际意义，这里我们按照31天来算5/31=0.161）

2024-02-27 15:50:47 808

原创【牛客】SQL126 平均活跃天数和月活人数

解释：2021年7月有2人活跃，共活跃了3天（1001活跃1天，1002活跃2天），平均活跃天数1.5；2021年9月有4人活跃，共活跃了5天，平均活跃天数1.25，结果保留2位小数。exam_record表（uid用户ID, exam_id试卷ID, start_time开始作答时间, submit_time交卷时间, score得分）注：此处活跃指有交卷行为。

2024-02-27 14:41:11 449

原创【牛客】SQL125 得分不小于平均分的最低分

examination_info表（exam_id试卷ID, tag试卷类别, difficulty试卷难度, duration考试时长, release_time发布时间）解释：试卷9001和9002为SQL类别，作答这两份试卷的得分有[80,89,87,90]，平均分为86.5，不小于平均分的最小分数为87。请从试卷作答记录表中找到SQL试卷得分不小于该类试卷平均得分的用户最低得分。

2024-02-27 13:57:48 767

原创【牛客】SQL123 SQL类别高难度试卷得分的截断平均值

从examination_info表可知，试卷9001为高难度SQL试卷，该试卷被作答的得分有[80,81,84,90,50]，去除最高分和最低分后为[80,81,84]，平均分为81.6666667，保留一位小数后为81.7。示例数据：examination_info（exam_id试卷ID, tag试卷类别, difficulty试卷难度, duration考试时长, release_time发布时间）牛客的运营同学想要查看大家在SQL类别中高难度试卷的得分情况。输入数据中至少有3个有效分数。

2024-02-27 11:26:21 637

空空如也

空空如也