
大数据
文章平均质量分 95
NewBee.Mu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Elasticsearch学习笔记
ElasticSearch是一个分布式,高性能、高可用、可伸缩、RESTful 风格的搜索和数据分析引擎。通常作为Elastic Stack的核心来使用,Elastic Stack大致是如下这样组成的:E:EalsticSearch 搜索和分析的功能L:Logstach 搜集数据的功能,类似于flume(使用方法几乎跟flume一模一样),是日志收集系统K:Kibana 数据可视化(分析),可以用图表的方式来去展示,文不如表,表不如图,是数据可视化平台。原创 2022-09-22 19:28:11 · 373 阅读 · 0 评论 -
给用户推荐电影,输出电影的名称和时间
# coding=utf-8 # @Time : 2019/12/6 10:21 # @Author : Z # @Email : S # @File : CosMoviesRecommend.py #给用户推荐电影 import math import sys from texttable import Texttable #pip install texttable...原创 2019-12-12 20:50:09 · 735 阅读 · 0 评论 -
CTR点击率预估
# coding=utf-8 # @Time : 2019/12/12 0:34 # @Author : Z # @Email : S # @File : 10.1CTR.py # 读入数据 import os data_path = os.path.join(".", "train_small.csv") import pandas as pd ctr_data1 = pd....原创 2019-12-12 20:44:37 · 300 阅读 · 0 评论 -
数据挖掘项目构建人才(用户)流失模型
# coding=utf-8 # @Time : 2019/12/3 14:48 # @Author : Z # @Email : S # @File : 2.6ML_SMOTO_talentFeatures.py #数据挖掘项目构建人才(用户)流失模型 import pandas as pd talent_data = pd.read_csv("./train.csv")...原创 2019-12-12 20:28:11 · 607 阅读 · 0 评论 -
预测泰坦尼克号获救人员的案例实战
步骤: 1、加载数据 2、查看数据的特征信息 3、特征选择-pclass船舱仓位-sex-age 4、对age列进行空值填充 5、对pclass处理和sex的处理 6、对数据集进行划分,划分为训练集和测试集 7、加载算法构建模型 8、预测 9、校验 # coding=utf-8 # @Time : 2019/12/1 20:49 # @Author : Z # @Email : S #...原创 2019-12-12 20:17:07 · 322 阅读 · 0 评论 -
MovieLens电影推荐系统
# coding=utf-8 # @Time : 2019/12/4 20:21 # @Author : Z # @Email : S # @File : UserBasedCF.py #MovieLens电影推荐系统 import math #定义基于用户得协同过滤算法类 class UserBasedCF: #初始化对象 def __init__(self...原创 2019-12-05 14:16:12 · 3910 阅读 · 0 评论 -
机器学习知识点三
原创 2019-11-30 20:18:41 · 182 阅读 · 0 评论 -
机器学习知识点二
原创 2019-11-30 20:17:20 · 125 阅读 · 0 评论 -
机器学习知识点一
原创 2019-11-24 18:35:26 · 165 阅读 · 0 评论 -
数据仓库的mapreduce
map段: LogClearMap.java package etl; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.io.LongWritable; imp...原创 2019-11-22 15:40:09 · 285 阅读 · 0 评论 -
利用sparksql进行报表分析
package report import config.ConfigHelper import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import utils.MakeATPKpi //利用sparksql进行报表分析 object TrainTimeSparkSQLAna...原创 2019-11-19 19:50:43 · 1005 阅读 · 0 评论 -
利用mysql存储数据进行报表分析
package report import config.ConfigHelper import org.apache.spark.sql.{Dataset, SparkSession} import scalikejdbc.{DB, SQL} import scalikejdbc.config.DBs import utils.MakeATPKpi //利用mysql存储traintime进...原创 2019-11-19 15:29:55 · 394 阅读 · 0 评论 -
利用redis存储中间字典表进行统计分析
package report import config.ConfigHelper import org.apache.commons.lang3.StringUtils import org.apache.spark.sql.SparkSession import utils.{GetJedisConn, MakeATPKpi} //利用redis存储中间字典表进行统计分析 object T...原创 2019-11-19 15:22:00 · 411 阅读 · 0 评论 -
将数据灌入mysql中
package tools import java.util.Properties import config.ConfigHelper import org.apache.spark.sql.{SaveMode, SparkSession} //将列车出厂时间数据灌入mysql object TrainTime2Mysql { def main(args: Array[String])...原创 2019-11-19 09:52:32 · 529 阅读 · 0 评论 -
将数据灌入redis中
package tools import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import utils.GetJedisConn //将列车出厂时间灌入redis中 object TrainTime2Redis { def main(args: Array[String...原创 2019-11-19 09:28:05 · 407 阅读 · 0 评论 -
利用广播变量来进行数据的传输
package report import config.ConfigHelper import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession import scalikejdbc.{DB, SQL} import scal...原创 2019-11-19 09:12:55 · 428 阅读 · 0 评论 -
离线报表实现
我们在对报表进行处理的时候,怎么以一个属性为维度,统计其他属性的指标。 以下的案例是我们对我们的报表以配属铁路局为维度统计他们的各个指标,而且要使用多种方法,并且要能输出到json和mysql中 package report import java.util.Properties import com.google.gson.Gson import config.ConfigHelper im...原创 2019-11-16 21:17:26 · 989 阅读 · 1 评论 -
数据清洗
在对数据进行处理的时候,很多时候需要我们进行数据清洗。 下面的案例就是对大量的数据进行处理: 每行代码完成的任务在备注中都有叙述 package etl import java.io.File import java.text.SimpleDateFormat import java.util.Date import bean.{Logs, logSchema} import config.C...原创 2019-11-15 01:10:00 · 482 阅读 · 0 评论