- 博客(341)
- 资源 (3)
- 收藏
- 关注
原创 人才的标准
上面几个因素有些都是矛盾体,同时集合到一个人身上,这个人就是一个圣体了。家庭没有底子的人,被生活所迫,只想着谋生了,折腾不起。行动能力强的人,又缺乏深度思考的思维,容易虎头蛇尾。认知想的多的人,一般缺乏立即行动,容易瞻前顾后。家庭有底子的人,容易养尊处优,没有奋斗折腾动力。4、家庭有点底子折腾的起;有了认知后,敢于快速行动。
2026-01-29 12:59:02
83
原创 召回后为什么要进行重排序??
一般相似度算法是KNN算法,但对于海量检索会使用近似近邻,在es8的相似度检索中,用的其实是基于HNSW(分层的最小世界导航算法),HNSW是有能力在。对图书馆中的图书进行预排序和索引,要找到与你昨天看过的新书相似的书,就是去正确的楼层,正确的区域,正确的通道找到相似的书。算法的逻辑是浏览书架上的每一本书,并将它们从最相似到最不相似的顺序排列,以确定最相似的书(最有可能是你昨天看过的那本)。不需要对前10本相似的书进行精确排名,比如100%、99%或95%的匹配度,而是通通先拿回来,这就是。
2026-01-11 12:18:36
433
原创 大数据工具梳理
Ad-hoc查询(即席查询)是一种允许用户根据临时需求灵活定义查询条件并实时获取结果的技术,无需预先开发固定功能模块。1 其核心特性包括查询条件的自定义、对多数据源(如结构化与非结构化数据)的接入支持,以及实时响应能力,以满足交互式分析需求。。
2025-12-31 09:37:25
661
原创 大模型配置
conda install pytorch torchvision torchaudio cpuonly -c pytorch 安装pythorch。conda env list 列出虚拟环境 正在使用的带有 *conda activate milvus4_env 激活虚拟环境。anaconda 虚拟环境设置。anaconda 命令使用。
2025-12-25 19:19:52
230
转载 深度学习避坑指南:一文搞懂梯度消失与梯度爆炸
假设有一个10层的网络,若每一层的 梯度贡献因子(后一层梯度 × 激活函数导数 × 权重)的绝对值小于1(比如 0.9),那么经过10层累积后,浅层的梯度会变成 0.9¹⁰≈0.35,若网络有50层,梯度会变成 0.9⁵⁰≈0.005,直接趋近于0(梯度消失);模型训练后期,loss值几乎不再下降,参数更新陷入停滞,浅层网络(靠近输入层)的参数几乎不更新,只有深层网络(靠近输出层)的参数在微调,对于分类任务,模型准确率始终卡在较低水平。同时,还能降低权重初始化的敏感性,间接减少梯度异常。
2025-10-24 17:43:38
328
原创 transformer学习总结
transformer生成采用自回归模型,初始输入和先生成的数据作为后继的输入,在进行编码或者解码时每次用到的之前词的K、V都是相同的,不需要再每次都经过矩阵计算。可以把先前词的K、V存储起来,每次新生成当前词的Q和先前词的已经缓存的K、V进行计算。MQA多个头每层共享缓存了同一套K、V,但是完美理想的模型多个头的K、V是不同的,共享缓存一套K、V会导致模型精度下降。收益是推理速度变快。5、每一次多头注意力训练的W_Q、W_k、W_V权重矩阵是不同的。4、模型的W_Q、W_k、W_V权重矩阵是怎么得到的?
2025-10-24 17:39:00
211
原创 transformer读后感
9、解码后通过最后的线性层接上一个softmax,其中线性层是一个简单的全连接神经网络,它将解码器产生的向量投影到一个更高维度的向量(logits)上,假设我们模型的词汇表是10000个词,那么logits就有10000个维度,每个维度对应一个惟一的词的得分。之前用RNN可以解决该问题,但是RNN是一个全局序列表示,每一个都需要前一个T-1的输入,且RNN的序列参数是相等的不能合理表示每个单词对不同前序单词的关注差异。因为要生产的序列不是端对端对等的,有N:1,N:M等,通过编码解码器能够更好的模拟。
2025-05-05 19:45:23
559
原创 Mac下Homebrew的安装与使用
Mac下Homebrew的安装与使用一蓑烟羽关注2017.10.19 11:59*字数 515阅读 7684评论 0喜欢 3Homebrew简介,安装与使用简介Homebrew 官方网站Homebrew是一个包管理器,用于安装Apple没有预装但你需要的UNIX工具。(比如著名的wget)。Homebrew会将软件包安装到独立目录(/usr/local/Cellar),并将其文件软链接至/usr/local。Homebrew不会将文件安装到它本身目录之外,所以您...
2025-04-07 11:01:20
1073
原创 Hbase总结
@[TOC]Hbase总结Hbase总结Hbase使用过程关键知识点。rowkey的设计基础知识HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、 可伸缩、实时读写 NoSQL 的数据库系统。NoSQL = NO SQLNoSQL = Not Only SQL把 NoSQL 数据的原生查询语句 封装成 SQLHBas...
2025-04-07 10:58:49
983
原创 mac命令操作
mac命令操作快速删除一行: control + u剪切文件:步骤1、先进行Command + c 进行选择复制文件,2、进行command+option+v进行移动文件,如果command+v是进行复制文件。command+control+D 三个键即可屏幕取词进行翻译mac中可以使用快捷方式command+shift+.来查看隐藏的文件,再次按下恢复隐藏快捷键 Command+Q 退出当前窗口。Alt+Command+D,打开或者关闭隐藏...
2025-04-07 10:57:02
3350
原创 IDEA快速入门
IDEA快速入门https://www.atatech.org/articles/51645IntelliJ IDEA像Eclipse一样打开多个项目。https://blog.csdn.net/zht666/article/details/47831893ntelliJ IDEA在Mac下格式化代码快捷键: Command + Option + LOption + shift + c 打开最近修改的文件command+Y 删除行⌘⌫删除当前行或选定的块的行command..
2025-04-07 10:56:13
1080
原创 MySQL分页查询优化
当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。下面简单说一下我知道的一些方法。准备工作为了对下面列举的一些优化进行测试,下面针对已有的一张表进行说明。表名:order_history 描述:某个业务的订单历史表 主要字段:unsigned int id,ti...
2025-04-07 10:55:32
614
原创 Flink对比Spark streaming、Storm
对比Spark streaming、Storm 产品 模型 语义 容错机制 状态管理 延时 吞吐量 Storm native at-least-once ack 无 low low Spark.
2025-04-07 10:46:48
300
原创 常用linux命令
cat filename | grep -C 5 '关键字'cat tms-route-network.log | grep -C 5 'computer find site FAILED' > newlog.log终端输入命令 export PATH=/usr/local/bin:$PATH安装nginxbrew install nginx# 启动nginxsudo nginx修改nginx配置项vim /usr/local/etc/nginx/ngin...
2025-04-07 10:32:38
646
原创 人工智能-推荐
比如小李对物品A、B、C给了十分好评,小王对物品A、C给了十分好评,从这些用户的喜好中分析出喜欢A的人都喜欢C,物品A、C是相似的,如果小张给了A好评,那么可以把C也推荐给小张,可简单理解为“物以群分”。:该算法的核心是分析用户的兴趣和行为,利用共同行为习惯的群体有相似喜好的原则,推荐用户感兴趣的信息。假如小李,小张对物品A、B都给了十分好评,那么可以认为小李、小张具有相似的兴趣爱好,如果小李给物品C十分好评,那么可以把C推荐给小张,可简单理解为“人以类聚”。但不同类型的原始特征应该如何变换?
2023-06-01 07:47:33
1091
原创 数据准备
数据清洗1.缺失值的处理3种情况:删掉有缺失值的数据;补充缺失值;不做处理。异常值的处理数据本身的错误,需要对数据进行修正,或者直接丢弃;数据偏差的处理数据偏差可能导致后面训练的模型过拟合或者欠拟合,所以处理数据偏差问题也是你在数据清洗阶段需要考虑的。数据标准化在处理完数据的问题之后,你就该对数据的标准进行整理了,这可以防止某个维度的数据因为数值的差异,而对结果产生较大的影响。在有些算法中,每一个维度的数据标准都需要进行统一;而在另外一些算法中,则需要统一数据的类型。比如在预测一个地区的房价
2020-12-15 16:24:05
1398
转载 图解HBase读取流程
1.介绍HBase的两种读取模式:Get与Scan 如何发起一次Get请求,Get有哪些关键参数 如何发起一次Scan请求,Scan有哪些关键参数2.Client如何发送请求到对应的RegionServer3.RegionServer侧如何处理一次读取请求 关于Scan的命题定义 如何处理Get请求 合理组织所有的"KeyValue数据源" 读取KeyV...
2020-01-15 19:31:49
1109
原创 mac 下golang 环境配置
1、export PATH=/usr/local/bin:$PATH2、brew install go3、vim .bash_profileexport GOPATH=/usr/local/Cellar/go/1.13.4export GOBIN=$GOPATH/binexport PATH=$PATH:$GOBIN输入source ~/.bash_pro...
2019-12-04 15:12:47
897
转载 快速的统计千万级别uv
转载:https://www.cnblogs.com/liliuguang/p/11112694.html菜菜,咱们网站现在有多少PV和UV了?Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的,直接接入一个不行吗?别人的不太放心,毕竟自己写的,自己拥有主动权。给你两天时间,系统性能不要太差呀好吧~~~...
2019-11-05 09:40:46
758
转载 理解zookeeper选举机制
原文转自:https://www.cnblogs.com/ASPNET2008/p/6421571.html https://blog.csdn.net/cnh294141800/article/details/52959028/ http://blog.itpub.net/30109892/viewspace-2089610...
2019-09-10 22:30:14
573
原创 Flink总结
1、有状态计算:处理和维护所有已处理记录的状态。2、无状态计算:每次转换一条输入记录,并且仅根据最新的输入记录输出结果。3、一致性:exactly-once 系统保证在发生故障后得到的计数结果与正确值一致。(Storm Trident 和 Spark Streaming)在性能和表现力这两个方面付出了很大的代价。为了保证exactly-once ,这些系统无法单独地对对每条记录进行运用逻...
2019-08-25 22:44:31
297
转载 Maven实战(三)——多模块项目的POM重构
在本专栏的上一篇文章POM重构之增还是删中,我们讨论了一些简单实用的POM重构技巧,包括重构的前提——持续集成,以及如何通过添加或者删除内容来提高POM的可读性和构建的稳定性。但在实际的项目中,这些技巧还是不够的,特别值得一提的是,实际的Maven项目基本都是多模块的,如果仅仅重构单个POM而不考虑模块之间的关系,那就会造成无谓的重复。本文就讨论一些基于多模块的POM重构技巧。重复,还是重复...
2018-11-05 10:24:28
1006
转载 百亿级微信红包的高并发资金交易系统设计方案
2017年1月28日,正月初一,微信公布了用户在除夕当天收发微信红包的数量——142亿个,而其收发峰值也已达到76万每秒。百亿级别的红包,如何保障并发性能与资金安全?这给微信带来了超级挑战。面对挑战,微信红包在分析了业界“秒杀”系统解决方案的基础上,采用了SET化、请求排队串行化、双维度分库表等设计,形成了独特的高并发、资金安全系统解决方案。实践证明,该方案表现稳定,且实现了除夕夜系统零故障运行。...
2018-10-07 23:37:32
492
原创 缓存比较好的博客
redis:http://carlosfu.iteye.com/category/345837https://blog.csdn.net/zeb_perfect/article/details/54135506https://blog.csdn.net/zzh920625/article/details/78173099?foxhandler=RssReadRenderProcessH...
2018-10-07 18:32:13
266
转载 缓存系列文章--3.缓存常用更新策略对比(一致性)。
转载请注明出处哈:http://carlosfu.iteye.com/blog/2269678 一、缓存的几种更新策略 从下面的表格看,缓存的更新策略大致分为三种,本文将从一致性和维护成本两个方面对于三种缓存更新策略进行简要说明,因为这些东西比较理论和抽象,如哪里说得不对,欢迎拍砖。 注: (1) 一致性:缓存和真实数据源(例如mysql, hbase, el...
2018-10-07 18:25:48
525
转载 缓存穿透,缓存击穿,缓存雪崩解决方案分析
转载:https://blog.csdn.net/zeb_perfect/article/details/54135506前言设计一个缓存系统,不得不要考虑的问题就是:缓存穿透、缓存击穿与失效时的雪崩效应。缓存穿透缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询...
2018-10-07 00:21:15
249
转载 【缓存】缓存中常见的4种问题分析以及解决方案
由于最近要准备换工作,同时最近在“Redis中国用户组”上关注了一系列Redis的活动,想要总结一下,Redis当做缓存使用过程中的一些常见问题。 一、前提 1.文中相关术语 (1)缓存命中: 终端用户访问加速节点时,如果该节点有缓存住了要被访问的数据时就叫做命中,如果没有的话需要回原服务器取,就是没有命中。(百科) (2)过期时间:...
2018-10-06 23:29:54
367
转载 布隆过滤器(Bloom Filter)详解
转载:https://www.cnblogs.com/liyulong1982/p/6013002.html直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中。和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一个标志,用来判断key是否在集合中。算法:1. 首先需要k个hash函数,每个函...
2018-10-06 22:53:52
941
1
原创 解决MyEclipse开启后总是不停的在Update index
最近MyEclipse开启之后总是不停的在 update index,很是耗时间,查找资料发现Update index...是Maven在不断更新,解决办法如下:Window --> Preferences --> Myeclipse --> Maven4Myeclipse --> 去除Download repository index updates on s...
2018-09-12 11:22:31
468
原创 %与mod的区别
%与mod的区别:%出来的数有正有负,符号取决于左操作数。。。而mod只能是正(因为a = b * q + r (q > 0 and 0 <= r < q), then we have a mod q = r 中r要大于等于0小于q)。。。。。 所以要用%来计算mod的话就要用这样的公式:a mod b = (a % b + b) % b括号里的目的是把左操作数转成正...
2018-09-11 10:33:46
3251
转载 五大常见的MySQL高可用方案
本文来自:https://zhuanlan.zhihu.com/p/25960208UCloud云计算 1. 概述我们在考虑MySQL数据库的高可用的架构时,主要要考虑如下几方面:如果数据库发生了宕机或者意外中断等故障,能尽快恢复数据库的可用性,尽可能的减少停机时间,保证业务不会因为数据库的故障而中断。 用作备份、只读副本等功能的非主节点的数据应该和主节点的数据实时或者最终保持一...
2018-09-10 10:27:24
326
转载 Java死锁排查和Java CPU 100% 排查的步骤整理
简介本篇整理两个排查问题的简单技巧,一个是java死锁排查,这个一般在面试的时会问到,如果没有写多线程的话,实际中遇到的机会不多;第二个是java cpu 100%排查,这个实际的开发中,线的应用出现这个问题可能性比较大,所以这里简单总结介绍一下,对自己学习知识的一个整理,提高自己的解决问题能力。一、Java死锁排查通过标题我们就要思考三个问题:什么是死锁? 为什么会出现死锁?...
2018-09-10 09:55:57
405
转载 mysql中间件研究( Atlas,cobar,TDDL,mycat,heisenberg,Oceanus,vitess,OneProxy )
mysql-proxy是官方提供的mysql中间件产品可以实现负载平衡,读写分离,failover等,但其不支持大数据量的分库分表且性能较差。下面介绍几款能代替其的mysql开源中间件产品,Atlas,cobar,tddl,让我们看看它们各自有些什么优点和新特性吧。AtlasAtlas是由 Qihoo 360, Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它是...
2018-09-10 08:36:08
1702
转载 MySQL数据库的高可用方案总结
这篇文章主要针对MySQL数据库的高可用方案进行详细总结,高可用架构对于互联网服务基本是标,本文是对各种方案的总结,感兴趣的小伙伴们可以参考一下 可用架构对于互联网服务基本是标配,无论是应用服务还是数据库服务都需要做到高可用。虽然互联网服务号称7*24小时不间断服务,但多多少少有一些时候服务不可用,比如某些时候网页打不开,百度不能搜索或者无法发微博,发微信等。一般而言,衡量高可用做到什么程...
2018-09-09 20:37:29
5681
转载 Oracle的三种高可用集群方案
主要有三种:1. RACRAC, Real Application Clusters多个Oracle服务器组成一个共享的Cache,而这些Oracle服务器共享一个基于网络的存储。这个系统可以容忍单机/或是多机失败。不过系统内部的多个节点需要高速网络互连,基本上也就是要全部东西放在在一个机房内,或者说一个数据中心内。如果机房出故障,比如网络不通,那就坏了。所以仅仅用RAC还是...
2018-09-07 10:52:21
332
转载 Oracle-RAC原理
转载:https://blog.csdn.net/qq_34556414/article/details/79001267单点数据库VS RAC单节点数据库,如果实例宕机了,如果一个业务链接在实例上面,那么这个业务就中断了。这个时候系统就不具有可用性了,那么这个时候单节点的可用性是很差的。对于RAC来说,和单实例一样,还是一份数据文件,都是相同的存储上面放着oracle的文件,...
2018-09-07 10:37:05
692
转载 Java session共享的问题
Java session共享的问题分为主子域名相互共享、多个tomcat或项目共享(也可以理解成分布式部署后的多台服务器间session共享) 为什么我们处理共享session?对于一个项目有主子域名的情况,往往我们需要让主域名网站登录后,也要在子域名显示登录信息,而默认tomcat生成session时,是区别域名的,对于不同域名会生成不同的sessionid,所以我们需要处理让主子域...
2018-09-06 17:13:46
544
转载 聊聊QPS/TPS/并发量/系统吞吐量的概念
我们在日常工作中经常会听到QPS/TPS这些名词,也会经常被别人问起说你的系统吞吐量有多大。这个问题从业务上来讲,可以理解为应用系统每秒钟最大能接受的用户访问量。或者每秒钟最大能处理的请求数; QPS: 每秒钟处理完请求的次数;注意这里是处理完。具体是指发出请求到服务器处理完成功返回结果。可以理解在server中有个counter,每处理一个请求加1,1秒后counter=QPS。 T...
2018-09-06 10:18:23
705
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅