
大数据
文章平均质量分 83
大数据相关
潇锐killer
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Doris 1.2.4.1 Dockerfile制作
└── fe // FE 构建目录。├── init_fe.sh // 启动及注册脚本。└── apache-doris-x.x.x-bin-fe.tar.gz // 二进制程序包。下载 init_fe.sh。下载 init_be.sh。原创 2023-08-02 18:31:04 · 154 阅读 · 0 评论 -
ES 定时导入数据及更换别名操作
1、springboot 里配置定时任务。2、导入ES和修改别名。原创 2024-07-24 17:51:12 · 213 阅读 · 0 评论 -
ES 模板操作
【代码】ES 模板操作。原创 2024-09-18 09:20:46 · 240 阅读 · 0 评论 -
ES常见命令汇总
"query": {原创 2024-07-24 17:53:40 · 370 阅读 · 0 评论 -
Flink session集群运维
删除操作(删除flink集群时使用)1、集群job manager挂了。两个job manager都挂了。原创 2023-10-09 11:22:46 · 380 阅读 · 0 评论 -
ES索引模板
当你创建了一个索引模板,它会包含一系列的默认设置和映射规则,这些规则会在满足一定条件的新索引被创建时自动应用。总结来说,索引模板是一种策略,它允许你预设一组设置和映射,以便在创建符合特定命名模式的新索引时自动应用这些预设。但是,需要注意的是,如果在创建索引时显式指定了某些设置或映射,那么这些显式指定的值将优先于模板中的值。此外,一旦索引已经被创建,索引模板的更改将不会影响到已经存在的索引。的索引时,该模板将会被应用,从而自动配置索引的设置和映射。,那么当你尝试创建一个确切名称为。开头的索引都会应用该模板。原创 2024-07-10 13:49:48 · 562 阅读 · 0 评论 -
Elasticsearch 8 支持别名查询
接着,定义一个别名并将其关联到你的新索引上:Java深色版本3。原创 2024-07-09 17:46:48 · 778 阅读 · 0 评论 -
Elasticsearch docker 安装
Install Elasticsearch with Docker | Elasticsearch Guide [8.14] | Elastic原创 2024-06-12 08:48:19 · 777 阅读 · 0 评论 -
Minio搭建文件服务器的学习
如果你需要的是一个简单且成熟的解决方案,那么使用Nginx或FileBrowser会是比较好的选择。如果你只需要基本的文件服务,Nginx可能是更轻便的选择;它提供了文件浏览、上传、下载和分享的功能,并且内置了CORS支持,非常适合管理大量的媒体文件如视频和图片。使用Docker搭建一个支持跨域访问的文件服务器可以有多种方式,具体选择哪一种取决于你的需求、资源以及对不同技术栈的熟悉程度。使用像MinIO这样的S3兼容存储系统,它可以很容易地与Docker集成,提供高性能的对象存储,同时也支持CORS配置。原创 2024-07-11 10:45:36 · 879 阅读 · 0 评论 -
面向大模型的存储加速方案
这个方案最大的变化,就是对 checkpoint 文件的 close 操作变成了异步,训练程序不用等待数据上传完成,即可恢复训练,剩下的工作全部交给加速层透明完成。此外,加速层也会采用分块上传的办法,充分利用对象存储的后端并发能力。当两个任务都需要先加载数据然后才能开始训练,通过训练平台的流水线化调度,在一个任务做训练的同时发起下一个任务所需数据的提前加载,就能大大提高计算资源的利用率。另外,这里还有一个相关的优化,就是对于最新的一个 checkpoint 采用异步写的同时,让它驻留在加速层的缓存内。原创 2024-06-07 08:47:15 · 970 阅读 · 0 评论 -
CDCSOURCE 整库同步
目前已经支持 application ,需提前准备好相关 jar 包,或者和 add jar 语法并用。sql server 需要 flink-sql-connector-sqlserver-cdc-2.3.0.jar。上传到flink lib目录下。原创 2023-07-14 11:29:36 · 918 阅读 · 1 评论 -
SQL server + Dinky + doris 数据导入demo
2、实时增量导入 通过flink cdc方式。1、一次性导入整张表(全量历史数据)离线数仓 部分 希望可以。原创 2023-06-21 09:32:47 · 1150 阅读 · 0 评论 -
Apache PAIMON 学习
Paimon在最新的版本当中也会推出Paimon object Table,希望通过Object Table管理非简化的数据,包括在OOS或者HDFS上的图片,视频,文件,音频之类的文件。拿到这些原数据之后就可以通过包括pySpark ,Flink SQL ,Spark SQL 等,通过这种结构化的处理,读表知道有哪些文件,这些文件的文件大小可以做一些过滤,也可以把这些文件读出来做一些处理,所以通过这样的方式把非结构化和结构化的SQL的处理,或者结构化的计算引擎的处理结合到一起,让整个结构化的处理更简单。原创 2025-01-14 17:03:17 · 1595 阅读 · 0 评论 -
docker搭建ES 8.14 集群
1、之前已搭建一台单机版的dockerES集群 参见2、现在需要重新搭建为docker ES集群 准备新搭建3个点一、准备工作提前开放三台服务器的9200、9300端口,需要配置kibana的服务器额外开放5601端口。只需要配置一个kibana即可连接es集群。创建es网卡。原创 2024-07-22 10:09:58 · 1413 阅读 · 6 评论 -
Doris 2.0.1 DockerFile版 升级实战
1、Doris 2.0.1 DockerFile 的制作 参考2、之前的Doris 集群通过 Docker容器进行的部署,需提前准备好Doris2.0.1的镜像包Doris 升级请遵守的原则,若要跨多个关键节点版本升级,先升级到最近的关键节点版本,随后再依次往后升级,若是非关键节点版本,则可忽略跳过。任意版本 ->2.0.0-beta当前集群Doris apache-doris-dependencies-1.2.4.1-bin-x86_64升级目标Doris 2.0.1。原创 2023-10-07 15:36:08 · 1196 阅读 · 0 评论 -
数据仓库-拉链表
拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。我们先看一个示例,这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。原创 2023-10-31 09:26:32 · 1656 阅读 · 2 评论 -
DolphinScheduler的异常解决
参考:开源任务调度平台dolphinscheduler部署及使用指南(未完)_开源分布式任务调度平台_省略号的搬运工的博客-CSDN博客一、可能出现的报错(严重):工作流停止后无法删除,log重复刷屏直至磁盘存满[ERROR] 2023-08-16 10:14:21.387 +0800 org.apache.dolphinscheduler.server.master.event.WorkflowStartEventHandler:[72] - Failed to submit the workflow i原创 2023-08-16 11:18:17 · 1923 阅读 · 0 评论 -
ES 操作
1、删除索引的所有记录。原创 2024-06-13 08:49:08 · 3309 阅读 · 0 评论 -
ES 索引改名
API,可以更方便地进行索引的重命名和迁移,但具体的使用方法和注意事项需要参考官方文档。不过,截至我最后一次更新知识(2023年初),直接的索引重命名API并未在文档中提及,因此以上方法仍然适用。请注意,这些操作应该在低峰时段执行,以减少对生产环境的影响。同时,在删除旧索引之前,一定要确保新索引中的数据完整无误。:最后,确保你的应用程序或其他依赖于这个索引的服务指向新的索引名称。:首先,你需要创建一个新的索引,这个索引将是你原索引的新名字。:确认新索引创建成功并验证数据完整后,可以安全地删除旧索引。原创 2024-07-03 17:07:51 · 2544 阅读 · 0 评论 -
原子指标、衍生指标、派生指标的区别
不加任何修饰词的指标就是原子指标,也叫度量,一般存在于olap表中,涉及聚合操作,例如订单量,用户量的等等。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量),交易笔数、交易金额、交易用户数等。例如:近7天订单量,近7天北京市的订单量,近1个月北京市的新增用户数,近7天的订单成交率等等。具体的说,在原子指标上进行加减乘除或者修饰词的限定等等都可以认为是衍生指标,比如客户数量是一个原子指标,平均客户数据是衍生指标。简单讲衍生指标是利用公式二次计算出来的指标,即衍生指标=原子指标+时间周期+修饰词。原创 2024-08-02 09:07:41 · 3937 阅读 · 0 评论 -
Doris安全删除BE节点
【代码】Doris安全删除BE节点。原创 2023-08-17 13:22:59 · 2866 阅读 · 0 评论 -
Hadoop 重启流程
5. 到每一个子节点 hdfs --daemon stop datanode;因原有配置密钥目录有误,需要重启Hadoop集群 3个节点,Hadoop版本3.3.2。4.主节点 hdfs --daemon start journalnode。2、主节点删除所有的临时目录 log日志,包含在xml设定的还有默认的。7. 主节点 hdfs namenode -format。8. 主节点 start-all.sh。6 主节点 start-dfs.sh。2、主节点 stop-all.sh。原创 2023-07-12 14:54:13 · 3072 阅读 · 1 评论 -
Doris 2.0.1 升级实战
Doris 升级请遵守的原则,若要跨多个关键节点版本升级,先升级到最近的关键节点版本,随后再依次往后升级,若是非关键节点版本,则可忽略跳过。任意版本 ->2.0.0-beta当前集群Doris apache-doris-dependencies-1.2.4.1-bin-x86_64升级目标Doris 2.0.1。原创 2023-09-14 15:06:22 · 982 阅读 · 2 评论 -
Flink Docker file制作
1 Dockerfile,需要定义一个Dockerfile,Dockerfile定义了进程需要的一切东西。Dockerfile涉及的内容包括执行代码或者是文件、环境变量、依赖包、运行时环境、动态链接库、操作系统的发行版、服务进程和内核进程(当应用进程需要和系统服务和内核进程打交道,这时需要考虑如何设计namespace的权限控制)等等;2 Docker镜像,在用Dockerfile定义一个文件之后,docker build时会产生一个Docker镜像,当运行 Docker镜像时,会真正开始提供服务;原创 2023-07-26 11:40:54 · 1073 阅读 · 0 评论 -
Flink CDC 2.0 主要是借鉴 DBLog 算法
有 SourceEnumerator 的组件,这个组件主要用于 Chunk 的划分,划分好的 Chunk 会提供给下游的 SourceReader 去读取,通过把 chunk 分发给不同的 SourceReader 便实现了并发读取 Snapshot Chunk 的过程,同时基于 FLIP-27 我们能较为方便地做到 chunk 粒度的 checkpoint。左边是 Chunk 的切分算法描述,Chunk 的切分算法其实和很多数据库的分库分表原理类似,通过表的主键对表中的数据进行分片。原创 2023-10-27 10:30:13 · 1609 阅读 · 1 评论 -
flink sql checkpoint 调优配置
`execution.checkpointing.externalized-checkpoint-retention`: 外部化检查点的保留策略。- `execution.checkpointing.tolerable-failed-checkpoints`: 允许的连续失败检查点的最大数量。- `execution.checkpointing.max-concurrent-checkpoints`: 并发生成检查点的最大数量。如果设置为`true`,则检查点将在作业的所有任务完成之前生成。原创 2023-08-21 09:13:03 · 5158 阅读 · 0 评论 -
Linux下分布式实时数仓环境搭建
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。grant all privileges on *.* to 'root'@'%' identified by '你的密码';因为本容器被放置在云服务器上,在本地的电脑上连接需要设置mysql数据库的root用户允许远程连接。be.conf 中的一些配置 暂时未配置 可参考。原创 2023-06-26 16:38:03 · 240 阅读 · 1 评论 -
Flink on k8s 环境搭建(三) 待完善
Flink 需要考虑3个问题1、Flink需要添加部分依赖包到flink/lib下,所以需要通过dockfile的方式自定义制作flink image2、flink 日志持久化3、flink checkpoint 的存储 和 NFS的安装。原创 2023-07-25 16:05:15 · 334 阅读 · 0 评论 -
Flink on k8s 环境搭建(二)
helm安装好后,可以添加常用的helm源。下载建议下载cert-manager.yaml后修改它的镜像地址,可以按如下方式将cert-manager.yaml里的image进行替换修改下载并修改好cert-manager.yaml后,使用kubectl命令安装即可Flink Kubernetes Operator最简单直接的安装方式就是使用helm在线安装,命令如下:application 模式:kind: FlinkDeployment # Flink集群在K8s的资源类型。原创 2023-07-25 10:58:25 · 1642 阅读 · 0 评论 -
Flink on k8s 环境搭建(一)
Flink on Yarn的环境搭建过程中,需要进行配置较多,且需要搭建zookeeper Hadoop Yarn 等相关组件,安装流程比较复杂,集群出现问题重新安装的流程也比较复杂,且Yarn的3个节点中 只能起了 3个resourceManager和1个NodeManager,Flink 作业申请资源时只能 向NodeManager的节点申请资源,整体有资源瓶颈的隐患(后继flink作业会越来越多),现在尝试进行Flink on k8s 的环境搭建。原创 2023-07-19 19:19:41 · 2924 阅读 · 2 评论