自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 《增长黑客》指南

《增长黑客》实战指南:低成本引爆增长的6大关键策略。本文提炼病毒增长、团队搭建、产品优化等核心方法论,结合Dropbox、Airbnb等经典案例,揭示:1)如何通过"推荐得空间"实现0成本获客;2)搭建5-7人跨职能增长团队的3个要点;3)产品留存率健康标准(移动应用次日留存>40%);4)四步快节奏试验法;5)获客-激活-留存-变现全链路22个技巧,如LogMeIn提升200%转化案例;6)持续增长工具包(Optimizely等)。附赠思维导图、会议模板等实操资料。

2025-08-02 13:37:09 709

原创 AI增效指南

解释报错:IndexError: list index out of range”“用Python实现文件夹MD5校验+网盘备份”「用Python爬取网页图片并显示进度条」本地化Markdown+AI协作。「对比A/B文档的市场策略差异」输入「解释量子计算 → 简化」「从实验报告整理所有温度数据」API调试+模型训练可视化。「步骤:手机拍摄美食照片」“将需求拆解为技术要素”模块划分+技术选型对比表。“设计断网重试测试用例”人话解释+3种修复方案。树状结构+多模态嵌入。伪代码+边界条件用例。

2025-07-20 11:06:38 226

原创 模型训练优化

先有一个概念:很多学习器能输出一个实值或者概率预测,然后设定一个阈值,高于阈值为正类,反之负类。分类的过程就是设定阈值,并用阈值对预测值做截断的过程,当这个阈值发生变动时,预测结果和混淆矩阵就会发生变化,最终导致一些评价指标的值的变化简单说:AUC值越大的分类器,正确率越高。

2025-07-05 09:47:07 543

原创 Scala基础

Scala是一种基于JVM的多范式编程语言,融合面向对象和函数式编程特性。本文介绍了Scala的基础语法、数据类型、控制结构、函数与闭包、面向对象特性、模式匹配、集合操作等核心概念。同时提供了JSON解析的三种常见方法(fastjson、spray-json和Scala自带JSON库)以及日常开发中的两个典型问题:spark.implicits._的导入方法和MySQL死锁问题的处理。文章还包含Scala程序的运行要求、代码示例和异常处理等实用内容,适合作为Scala入门参考。

2025-07-01 21:11:58 972

原创 Django项目搭建

本文详细介绍了如何搭建和使用Django项目。主要内容包括:项目下载安装、SDK配置、基本命令操作(创建项目/应用、数据库迁移、启动服务器等)、URL路由配置、视图编写、模板使用、模型定义与数据库操作等核心功能。文章提供了从零开始创建Django应用的完整流程,包含多个实用示例(如实现加法功能),并重点说明了项目目录结构和配置要点。最后总结了Django开发的关键注意事项,特别强调了包名路径、数据调试和常见问题的解决方法。适合Django初学者作为入门指南参考。

2025-06-22 09:53:12 752

原创 Spring Boot 部署 Web 项目

本文详细介绍了SpringBoot+MyBatis Web项目的完整部署流程:从创建Maven项目、配置依赖(包括SpringBoot、MyBatis、MySQL等),到编写启动类、配置数据源;接着构建了完整的数据库访问层(实体类、Mapper、Service及Controller);最后提供了三种部署方案:直接运行JAR包(含后台运行方式)、使用systemd管理服务,以及打包为WAR部署到Tomcat。每个步骤都包含具体代码示例和操作命令,为开发者提供了SpringBoot项目从开发到部署的完整指南。

2025-06-22 09:35:15 923

原创 Spring Boot 部署 Web 项目

本文介绍了Spring Boot Web项目的完整创建和部署流程。首先通过Maven创建项目骨架并配置pom.xml,添加Spring Boot、MyBatis和MySQL等依赖。然后编写启动类,配置数据源并创建数据库访问层,包括实体类、Mapper接口、Service和Controller。最后详细说明了两种部署方式:使用nohup命令后台运行或通过systemd管理服务。整个过程涵盖了从项目初始化到最终部署的完整环节,为开发者提供了Spring Boot Web应用的标准化开发部署指南。

2025-06-22 09:31:43 346

原创 Git基本

通过git stash将工作区恢复到上次提交的内容,同时备份本地所做的修改,之后就可以正常git pull了,git pull完成后,执行git stash pop将之前本地做的修改应用到当前工作区。暂存区的目录树会被更新,同时工作区修改或新增的文件内容会被写入到版本库中的一个新的对象中,并且该对象的id被记录在暂存区的文件索引中。暂存区的目录树会写到版本库中,master分支会做相应的更新,即master最新指向的目录树就是提交时原暂存区的目录树。会用暂存区全部的文件或指定的文件替换工作区的文件。

2025-05-10 20:14:15 696

原创 Python基础

后台处理:长时间任务可以放到后台运行,不阻塞主线程;提高用户体验:界面响应(如进度条显示)不被耗时任务阻塞;任务并行:在 I/O 密集型任务(例如文件读写、网络通信)中,多线程有助于提高效率;资源共享:线程共享进程内存,但每个线程都有自己的上下文(如指令指针、堆栈指针等)。需要注意的是,线程之间共享数据时可能会出现同步问题(例如数据竞争),这时就需要使用锁(Lock)或队列(Queue)来协调线程操作。

2025-04-26 16:24:26 857

原创 Lua实例

在一个指定的目标字符串中搜索指定的内容(第三个参数为索引),返回其具体位置。不存在则返回 nil。在字符串s中匹配pattern,如果匹配失败返回nil。

2025-04-19 21:57:47 223

原创 Shell 基础

函数定义# 函数体# 或者# 函数体函数调用直接使用函数名调用,函数可以接受参数,通过$1$2等访问。

2025-04-12 16:11:41 736

原创 Java基础

语言特点:Java 是一种面向对象的编程语言,具有平台无关性(通过 JVM 实现“一次编写,到处运行”)、安全性、稳定性和丰富的类库支持。发展历程:自 1995 年发布以来,Java 经历了多个版本的迭代,目前主要用于企业级开发、移动应用(Android)以及大数据处理等领域。

2025-03-29 21:48:06 1073

原创 Spark3性能优化指南

传统 Shuffle 分区数固定(默认 200),导致小文件问题(HDFS 块利用率<30%)或数据倾斜(单分区数据超 10GB)。:某电商平台在 1TB 订单数据清洗作业中,通过将初始分区数设为 2000,AQE 自动合并至 420 个分区,Shuffle 耗时从 58 分钟降至 12 分钟。AQE 是 Spark 3.x 的核心动态优化引擎,通过运行时统计信息重构执行计划,在超大规模数据处理(PB 级)中可提升 40%-70% 性能。:识别倾斜分区(阈值:分区大小 > 中位数×5 且 >256MB)

2025-03-09 15:03:48 1161

原创 技术金字塔:你在哪一层?

唯有持续进化,方能在这场技术浪潮中站稳脚跟。中级岗位(占比30%-35%)需掌握分布式架构、云原生(K8s/微服务)等技能,但多数停留在“熟练工”阶段,高级/专家级(5%-10%、1%-3%):需主导百万级用户项目,兼具技术深度与业务洞察力,全球范围内供不应求。初级工程师(50%-60%):需独立完成模块开发,但培训班出身者多缺乏复杂问题解决能力。中级工程师(30%-35%):需主导模块设计,但仅40%掌握分布式系统调优。(初级70%、中级25%、高级5%),但中国受行业扩张速度影响,实际呈现。

2025-02-28 22:04:40 675

原创 涉及Spring 生态、分布式架构、安全框架,以及 Dubbo & ZooKeeper 的对比

Spring Cloud + Spring Security + ZooKeeper + Dubbo(或 gRPC)Spring Cloud 是基于 Spring Boot 的微服务架构解决方案,提供分布式系统的完整支持。Spring Boot 是基于 Spring 框架的微框架,旨在简化 Spring 应用的开发和部署。:Spring Boot + Spring Security(或 Shiro)+ Dubbo。:服务发现(Eureka)、负载均衡(Ribbon)、熔断(Hystrix)

2025-02-23 13:16:23 989

原创 标签类目体系

数据资产的商业化已成为企业数字化转型的关键。通过构建完善的标签类目体系与高效的ID‐Mapping技术,企业不仅可以打通跨平台、跨设备的数据孤岛,还能实现数据资产的高效复用和商业化应用。未来,我们期待看到越来越多的企业通过数据治理与中台建设,将数据真正转化为推动业务增长、提高盈利能力的重要资源,为整个行业的智能化升级注入源源不断的动力。

2025-02-16 21:31:05 973

原创 hive和presto的SQL对比

Presto使用的内存管理技术是基于内存池的,可以更好地管理内存的分配和释放。假如一个Query需要消耗100GB的内存,这就超过了整个集群的内存了,那么Presto的coordinator就直接卡掉这个查询,防止。查询优化:Presto使用了一系列的查询优化技术,如谓词下推、列裁剪、分区裁剪等,可以减少数据的传输和处理,从而提高查询性能。社区支持:Presto有一个活跃的社区,不断地更新和维护代码,修复bug和增加新功能,保证了Presto的稳定性和可靠性。Presto(或PrestoDB)

2024-08-06 14:52:56 274 1

原创 Redis

关系型结构太复杂,数据库,表,字段,类型,主键,外键,索引,表之间关系。Redis Sentinel(哨兵)是一个用于监控和管理 Redis 高可用性的系统,它能够自动检测主节点的故障并进行切换,以确保系统的持续可用性。Sentinel 定期监测 Redis 主节点和从节点的健康状态,如果发现主节点不可用,会自动将一个从节点升级为新的主节点。当主节点不可用时,Sentinel 会自动从可用的从节点中选举一个作为新的主节点,从而保证系统的可用性。当主节点故障时,哨兵会自动完成切换过程,无需人工介入。

2024-08-06 14:50:42 434

原创 Hbase Distcp

需要注意的是,distcp命令只会复制表的数据,不会复制表的结构。因此,在执行distcp之前,确保在目标HBase集群上创建了与源表结构相同的表。此外,如果源表包含任何的HBase过滤器或者复杂的结构,可能需要额外的处理来保证数据的完整性。但是,实际的map数可能会受到其他因素的影响,比如输入数据的大小、文件数量等。参数指定 HFile 文件的保存路径,但该参数似乎与指定的保存路径重复,可能需要进一步确认或调整。确保源和目标HBase集群的连接参数正确配置,并且目标集群上已经准备好了要导入的表的空间。

2024-08-06 14:48:39 594

原创 数据仓库建模

周期快照事实表一般是建立在事务事实表之上的聚集,维度比事务事实表少,粒度比事务事实表粗,但是由于对事实进行了多种形式的加工从而产生了新的事实,故一般事实会比事务事实表多。不管事实表对应一个还是多个业务过程,粒度必须是确定的,每个事实表都有且只能有唯一的粒度,粒度是事实表的每一行所表示的业务含义,是事实的细节级别。粒度的声明是事实表设计中不可忽视的重要一步,粒度用于确定事实表中一行所表示业务的细节层次,决定了维度模型的扩展性,在选择维度和事实之前必须先声明粒度,且每个维度和事实必须与所定义的粒度保持一致。

2024-08-06 14:27:41 1689

原创 数据湖调研

数据湖(Data Lake)是一种大数据存储架构,它允许存储大量不同类型和格式的数据,并支持用于数据分析和机器学习的高级查询和处理。数据湖是为了解决大数据场景下的遗留问题而产生的,为打破数据孤岛而诞生。数据湖的特点如下:灵活性。数据湖可以容纳不同类型和格式的数据,不需要先进行结构化处理,强调原始数据的存储和管理。分布式存储。通常使用分布式文件系统,如Hadoop或Amazon S3作为底层存储引擎,数据可以以原始格式存储,例如JSON、CSV或Parquet等。成本效益。

2024-08-06 14:25:53 1955

原创 数据挖掘与数据分析

1、数据挖掘(Data Mining)数据挖掘是指对大规模数据进行分析,以发现其中潜在的模式、规律或关联性的过程。其目的在于从数据中提取有价值的信息,以支持决策制定、预测未来趋势等。数据挖掘涉及多种技术和方法,包括机器学习、统计分析、数据库技术等。2、数据分析(Data Analysis)数据分析是指对数据进行收集、清洗、转换和建模等处理,以获得对问题的洞察和理解的过程。数据分析旨在揭示数据背后的意义,为决策提供支持和指导。它可以采用多种统计和计算方法,如描述性统计、推断统计、预测分析等。

2024-08-06 14:21:55 2969

原创 指标体系梳理

指标是说明总体数量特征的概念及其数值的综合。针对某一具体事物或行为进行量化描述的数值。维度是指标的属性或者特征,同时也是指标的必要定语。时间维度从低层到高层包括日、周、月、季度、年度等。地区维度从低层到高层包括区/县、市、省、国家等。当然还可以根据自己业务需要重新定义和划分。准确性 :一个指标最要的就是能否准确的进行统计,如果这点满足不了,其他一切免谈,否则只会搬起石头砸自己的脚。可比较性:是指有维度可比较,比如同期比较,不同地区比较,如果没有比较,指标也没有意义。

2024-08-06 14:20:40 869

原创 元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。技术元数据为开发和管理数据仓库的 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

2024-08-06 12:31:58 715

原创 实时数仓设计

Canal 是用java 开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal 主要支持了 MySQL 的 Binlog 解析,解析完成后才利用Canal Client 来处理获得的相关数据。(数据库同步需要阿里的Otter 中间件,基于Canal)。Canal 的工作原理,是把自己伪装成 Slave,假装从Master 复制数据MySQL 主从复制过程Master 主库将改变记录,写到二进制日志(Binary log)中。

2024-08-06 12:30:01 502

原创 Spark读取hive表元数据异常

在ETL接入数据时,需要对表新增字段,因为表的特殊性质,存在实时接入更新三个月历史数据的情况,故该表的小文件很多,在通过hive增加字段的时候,spark没有立即生效,导致用hive命令修改元数据后, hive表的元数据信息和spark-SQL的schema不一致。考虑到之前执行refresh的时候有进行小文件合并,中间有杀掉小文件合并进程,有可能是影响了refresh,故再进行了小文件合并后又重新执行了refresh,才成功了,且最后一个是通过spark shell执行的。命令用于刷新表的元数据。

2024-08-06 10:36:56 1081

原创 StarRocks

Spark load 是一种异步导入方式,需要通过 MySQL 协议创建导入作业,并通过SHOW LOAD 查看导入结果。明细表包含所有原始的导入数据,因此可对明细表进行任意维度分析,而物化视图正是为了解决明细表的任意维度分析的预先聚合而提出,同时物化视图的功能是RollUp表的超集,原有的RollUp功能都可通过物化视图来实现。为适配不同的数据导入需求,StarRocks 系统提供了5种不同的导入方式,以支持不同的数据源(如HDFS、Kafka、本地文件等),或者按不同的方式(异步或同步)导入数据。

2024-08-06 10:33:54 1574

原创 Clickhouse

在我们的业务场景中,商品维度是千万级别,用户维度是亿级别,经过测试,在实时点击流中,由于数据流量比较大,关联用户信息会出现查询超时导致关联不上的场景,因为我们砍掉了实时数据的用户维度,而选择在ClickHouse进行结果数据查询时再利用Local Join的优势来关联用户维度。在使用订单实时数据时,我们会在表名后增加final关键字,确保读取到最新的数据。我们有3个分片节点,有一张本地表t_data_local,共100W数据,那么节点1可能存储30W数据,节点2有20W数据,节点3有50W数据;

2024-08-06 10:27:30 1749

原创 Flink基础

Apache Flink是一个同时支持分布式数据流处理和数据批处理的大数据处理系统。Flink可以表达和执行许多类别的数据处理应用程序,包括实时数据分析,连续数据管道,历史数据处理(批处理)和迭代算法(机器学习,图表分析)以及容错的数据流。Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。

2024-08-06 10:22:20 566

原创 Hadoop使用

HDFS:HDFS是Hadoop的核心组件,HDFS上的文件被分成块进行存储,默认块的大小是64M,块是文件存储处理的逻辑单元。MapReduce:MapReduce的工作原理用一句话概括就是,分而治之,然后归约,即将一个大任务分解为多个小任务(map),并行执行后,合并结果(reduce)。Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。#统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径。

2024-08-06 10:16:08 735

原创 Hbase实践

HBase 中的行是按照 rowkey 的字典顺序排序的,这种设计优化了 scan 操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于 scan。比起传统的关系型数据库,可以存储半结构化非结构化的数据,可以存储和处理更大级别的数据,提供高效的查询,对于稀疏数据的处理更好,具有更好的横向扩展性,免费开源性价比很高。rowkey 是按照字典顺序排序存储的,因此,设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问 的数据放到一块。

2024-08-06 10:12:23 771

原创 BI工具介绍

由Airbnb开源的数据可视化工具,支持数据报表、临时查询、数据分析等功能。提供丰富的图表类型和自由度。开发者:Airbnb开源项目,使用Python开发版本迭代较快,有较高的颜值提供数据可视化功能,支持数据报表、查询和数据分析通过共享数据集和查询,以开放的方式共享数据,允许分叉和生成新的数据集支持图表、数据透视表、队列等可视化方式可能在颜值和交互性方面表现较好FineBI和Tableau在不同方面都有各自的优势和特点。选择适合的BI工具取决于企业的需求、用户的技术水平以及预算等多种因素。

2024-08-05 19:58:06 963

原创 即席查询对比

大的事实表采用天分区增量构建,为了不影响查询性能,可以定期做合并(Merge),周期可以根据实际情况确定。对于维表比较大的情况,或者查询Select部分存在复杂的逻辑判断,存在Apache Kylin不支持的函数或语句时,可以将事实表和维表的关联处理创建为Hive视图,之后根据视图创建Cube模型。每次查询必然带有的条件建议在字典设置步骤将其设置为Mandatory。这样会最终 Build出来Cube的大小会减少一半。Cube的维度如果超过10个,建议将常用的聚合字段做分组。

2024-08-05 19:56:52 736

原创 Flume

flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。是apache的一个顶级项目。

2024-08-05 19:53:13 318

原创 ElasticSearch部署

问题原因:因为Centos6不支持SecComp,而ES默认bootstrap.system_call_filter为true进行检测,所以导致检测失败,失败后直接导致ES不能启动。详见 :https://github.com/elastic/elasticsearch/issues/22899。修改kibana.yml配置,添加elasticsearch.ssl.verify: false。修改 /etc/security/limits.d/90-nproc.conf。创建elastic用户。

2024-08-05 19:51:15 344

原创 Linux常用命令

1:搜索某个文件里面是否包含字符串,使用grep "search content" filename1, 例如。格式: sed -i “s/查找字段/替换字段/g” grep 查找字段 -rl 路径。移动光标前请先按下ESC键,然后shift+$是移动到行尾,0是移动到行首。2.CTRL+v 进入“可视 块”模式,选取这一列操作多少行。2.CTRL+v 进入“可视 块”模式,选取这一列操作多少行。4.ESC 按两次,会在每行的选定的区域出现插入的内容。2、>> 是在文件内容后面追加新内容,即追加重定向。

2024-08-05 19:50:04 947

原创 Azkaban用户手册

这边的是传入参数,由于azkaban.flow.start.day这个参数是执行job前会自动加载的,在job文件中直接赋值给了day,就不用在这边添加了。可以查看job运行时间,依赖和日志,点击details可以查看各个job运行情况。老的版本只支持一个执行器,3.0.0以上版本支持多执行器,一个执行器挂掉,不影响任务执行,多台机器同时也分担了压力。Azkaban是一中调度任务,可以清晰的看到每天任务跑的状况和日志,分为web端和exe端。点击他的id可以查看到详细的流程。然后查看当前运行的任务。

2024-08-05 19:22:32 724

原创 Kafka基础

Apache Kafka是一种分布式的、基于发布/订阅的消息系统,由Scala语言编写而成。最初由LinkedIn开发,并于2011年初开源。是目前主流的分布式消息引擎及流处理平台,常用作消息总线,实时数据管道,存储系统Kafka 主要起到削峰填谷(缓冲)、系统解构以及冗余的作用。

2024-08-05 18:58:52 754

原创 常用BI工具对比

由Airbnb开源的数据可视化工具,支持数据报表、临时查询、数据分析等功能。提供丰富的图表类型和自由度。开发者:Airbnb开源项目,使用Python开发版本迭代较快,有较高的颜值提供数据可视化功能,支持数据报表、查询和数据分析通过共享数据集和查询,以开放的方式共享数据,允许分叉和生成新的数据集支持图表、数据透视表、队列等可视化方式可能在颜值和交互性方面表现较好FineBI和Tableau在不同方面都有各自的优势和特点。选择适合的BI工具取决于企业的需求、用户的技术水平以及预算等多种因素。

2024-08-05 17:52:12 701

原创 数据治理基础

数据脱敏方式中的重要一环是进行数据加密 ​ 数据加密方式是 在携程集团的神盾加密基础上加密 ​ 主要加密范围是在订单、流量、日志中的所有用户个人敏感数据 ​ 集团神盾加密的用户数据包括个人的证件号、手机号、电话、邮箱、地址 ​ 并支持根据用户要求进行个人信息数据删除操作 ​ 该项举措是为了遵守 GDPR 欧盟个人数据保护法要求。​ 建立数据字典,解释数据项的含义和用途。通过数据共享管理,组织可以更好地利用数据资源,提高数据的价值和应用范围,促进数据的创新和发展,有效地支持组织的业务决策和发展。

2024-08-05 17:49:35 719

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除