
Spark
文章平均质量分 75
Azoobie
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark简介
Spark集群由一个驱动程序和多个执行程序构成。任何spark程序的编写从SparkContext开始。SparkContext的初始化需要SparkConf对象,SparkConf包含spark集群配置的各种参数。初始化后可用SparkContext对象包含的方法创建操作分布式数据集和共享变量。Spark shell可自动完成上述初始化。从./bin运行spark-shell或p原创 2016-06-25 22:27:29 · 366 阅读 · 0 评论 -
Spark机器学习笔记2--设计机器学习系统
为智能分布式机器学习系统设计高层架构,该系统以Spark作为其核心计算引擎。现代的大数据场景包含如下需求:1) 必须与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用。2) 易于扩展且与其他组件相对独立。同时具备良好的水平和垂直可扩展性。3) 高效计算,支持机器学习和迭代式分析应用。4) 同时支持批处原创 2016-06-26 17:57:59 · 826 阅读 · 0 评论 -
Spark机器学习笔记1--Spark Python编程入门
1. 处理如下数据2. Python代码#创建两个线程的SparkContext对象,名为 First Spark Appsc = SparkContext("local[2]", "First Spark App")#读取原始数据并将CSV格式装换为(user, product, price)形式data = sc.textFile("data/Us原创 2016-06-25 22:31:08 · 728 阅读 · 0 评论 -
在linux环境下安装和配置Spark
1. 搭建java开发环境 (1) 安装JDK(下载,解压,配置环境变量)下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html解压>tar xfzvjdk-8u91-linux-i586.tar.gz设置路径和环境变量将解压后原创 2016-06-15 22:51:21 · 4058 阅读 · 0 评论 -
Spark机器学习笔记3--探索和可视化数据
常用机器学习数据库UCL机器学习知识库Amazon AWS公开数据集KaggleKDnuggets【数据准备】在http://files.grouplens.org/datasets/movielens/下载用户电影评级数据,用户信息和属性信息。unzip命令解压文件1) 安装IPython和matplotlib模块IPython是针对Python的高级交原创 2016-06-30 22:51:10 · 2521 阅读 · 0 评论