
bigdata
moxiaomomo
虚怀若谷,大爱无疆
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Hadoop】hadoop2.7.3-spark2.0.2集群部署总结
hadoop2.7.3-spark2.0.2集群部署(备忘)安装包准备Oracle JDK安装了elasticSearch的系统应该已经配置好了JDK环境; 推荐JDK7scala开发包br> spark依赖于scala运行, scala是开发spark统计程序的官方语言; 推荐安装scala-2.11版本hadoop开发包hadoop-yarn为spark运算提供资源管理及hdfs存储原创 2017-01-10 09:35:33 · 2200 阅读 · 0 评论 -
ubuntu18单机部署k8s(v1.14.1)
1.准备工作关闭防火墙sudo ufw disable关闭系统swapsudo swapoff -a安装docker建议版本: docker-ce-18.0x2.准备k8s安装环境下载并添加Kubernetes安装的密钥sudo apt update && sudo apt install -y apt-transport-https cur...原创 2019-05-06 13:38:56 · 4579 阅读 · 8 评论 -
Docker快速部署Ceph测试集群
本文记录了通过docker快速部署小规模Ceph集群的流程,可用于开发测试环境。# 1. 创建Ceph专用网络docker network create --driver bridge ceph-networkdocker network inspect ceph-network# 2. 删除旧的ceph相关容器docker rm -f $(docker ps -a | grep cep...原创 2018-11-20 23:31:49 · 2124 阅读 · 4 评论 -
Centos7安装Kubernetes1.11集群及Dashboard工具
1. 测试节点暂时一个Master节点,一个Node节点192.168.1.148 Master192.168.1.6 Node建议首先清空iptables路由规则:# (清理filter表的规则,不加 –t 就默认filter表)iptables -X && iptables -F && iptables -Z ipt原创 2018-08-21 11:53:47 · 3384 阅读 · 0 评论 -
PySpark NaiveBayes算法之中文文本分类测试
假设现在有N行文本,每行文本的第一列已经打好标签, Y 或 N, 用于标识该行文本是否包含敏感词汇;第二列之后的每一列是对某些句子或文本进行中文分词之后的词汇。比如N 朴素贝叶斯算法 是 生成模型 中 最经典 分类算法 之一Y 这是 一条 包含 色情 的 语句我们现在用pyspark结合NaiveBayes分类算法来进行训练和测试,这个过程大概包括:词条转换成特征向量统计词频...原创 2018-06-19 16:33:39 · 2761 阅读 · 0 评论 -
分布式转码初步方案(hadoop+ffmpeg)
分布式转码初步方案背景说明现有的转码方案是一个转码worker处理整个视频的不同清晰度的转码,如果一个视频很大,那这个视频转码将非常耗时。 因此需要改进方案,要求对大多数格式的视频可以进行切片后并行转码,以此提高一个视频的转码效率。技术预研目前搜到的参考资料,基本都是针对某几个特定格式的分布式转码方案。 当前视频转码基本都依赖于ffmpeg, 目前存在一个问题: 暂时没有找到一个合适的方法去无原创 2017-11-29 12:14:11 · 5006 阅读 · 2 评论 -
flume-kafka部署总结
部署准备配置日志收集系统(flume+kafka), 版本:apache-flume-1.8.0-bin.tar.gzkafka_2.11-0.10.2.0.tgz假设部署在三个工作节点的ubuntu系统环境中:192.168.0.2192.168.0.3192.168.0.4flume配置说明假设flume的工作目录在/usr/local/flume, 监测某日志文件(如/tmp/tes原创 2017-10-16 18:15:30 · 1209 阅读 · 0 评论 -
ElasticSearch数据备份与恢复
ElasticSearch数据备份与恢复最近线上业务ES日志量过于庞大, 达到500亿条(约30TB)记录,需要对旧的索引进行归档处理。用scan和scroll的方式导出备份基本是不可能的了, 本文主要是记录(Ubuntu环境)通过sshfs共享文件系统来进行快照方式备份数据。 假设ES集群有三个节点:192.168.1.10192.168.1.11192.168.1.121. 创建共享目录原创 2017-10-31 11:20:46 · 12529 阅读 · 1 评论 -
Spark Streaming从Flume读取数据流(pull模式)
1.jar包准备参考官方文档: http://spark.apache.org/docs/latest/streaming-flume-integration.html当前测试flume使用到的jar包版本如下:spark-streaming-flume-sink_2.11-2.2.0.jarscala-library-2.11.8.jarcommons-lang3-3.5.jar这几个jar包原创 2017-10-19 13:06:31 · 2349 阅读 · 0 评论 -
hbase常用操作
启动hbase集群#cd <HBASE_HOME>./bin/start-hbase.sh关闭hbase集群#cd <HBASE_HOME>./bin/stop-hbase.sh启动restAPI服务 (指定端口)#cd <HBASE_HOME>./bin/hbase-daemon.sh start rest -p 20550...原创 2019-05-28 14:45:33 · 238 阅读 · 0 评论