- 博客(228)
- 资源 (1)
- 收藏
- 关注
原创 参考基因组中的大小写字母
在这 60 种重复区域家族中,Alu 和 MIR 家族属于 SINE 类型,L1 和 L2 家族属于 LINEs 类型,除 Simple repeats 和 Low complexity repeats 外的其它 54 种家族大部分属于 LTR 和 DNA 重复。经统计,人类基因组 60% 以上的重复属于散在重复序列,其中又以 Alu 和 L1 为主体,二者之和占散在重复序列的 80% 及全基因组重复区40%以上。
2025-04-25 11:09:38
234
原创 全基因组关联分析GWAS
WGBS常用来研究基因型(SNP)和表型的关系。用到的数据是基因组测序数据(WGS,WES,microarray)和临床信息,通过常规的或者新的统计方法去检验基因型和表型的相关性。
2024-12-13 11:01:55
493
原创 bsmap输出结果解释
516290和输出结果中的unique pairs: 257594对不上(257594*2=515188),相差的1102条是read 1和read 2完全反向互补的reads(bam格式中第7列是=,第9列是0)。对757427条记录进行拆解:516290(双端比对到同一染色体的reads数)+232457(单端比对上的reads数)+8680(双端比对到不同染色体的reads数)。r=0: 只输出唯一比对上的reads(包括单端和双端)S=1234:随机种子。
2024-12-04 00:21:09
464
原创 problem forward和solution backward有什么区别
Note: 在具体研究中,problem forward是先提出问题,然后围绕着科学问题设计出完美的解决方案;而solution backward是先盘算自己有哪些技术,有哪些解决方案,反过来去寻找和定义问题。
2024-11-17 19:18:54
205
原创 gzip不同压缩等级的区别
Gzip supports different compression levels, which range from 1 (fastest, least compression) to 9 (slowest, most compression). Here’s what each level generally means:Level 1 (Fastest): This is the fastest compression level, which results in the least amount
2024-11-02 10:29:50
408
原创 孟德尔随机化
IVW的应用前提是所有的SNP均为有效的工具变量且相互之间完全独立。②加权中位数估计(Weighted median,WM):WM为所有的个体SNP效应值按照权重排序后得到的分布函数的中位数。当至少50%的信息来自于有效的工具变量时,WM可得到稳健的估计值。该基因型与年龄、性别等混杂因素无关。②估计工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。①找工具变量,从其他研究中挑选特定基因作为工具变量,从基因库中挑选需要的和暴露相关的基因变量SNPs。
2024-10-07 16:42:54
834
原创 两个beta函数乘积积分的含义
这个积分实际上是在计算所有导致 ( X ) 取特定值 ( x ) 的 ( V ) 和 ( U ) 的组合的概率。由于 ( V ) 和 ( U ) 是独立的,我们可以分别对它们的概率密度函数进行积分。总之,两个Beta分布的卷积积分是一个强大的工具,它允许我们结合两个概率分布的信息,以预测它们的和或总和的分布。其中 ( B(\alpha, \beta) ) 是Beta函数,用于归一化概率密度函数,确保积分等于1。这个积分表示了所有可能的 ( V ) 和 ( U ) 的组合,它们的和等于 ( x ) 的概率。
2024-09-30 15:15:28
473
原创 sam格式总结
256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的。8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上。153 = 128+16+8+1(R2比对到负链接,R1没有匹配上)163 = 128+32+2+1(R2完全匹配,R1比对到负链)99 = 64+32+2+1 (R2比对到负链,R1完全匹配)32 :代表这个序列对应的另一端序列比对到参考序列的负链上。
2024-09-03 16:48:50
1051
原创 为什么白昼最长的地方不是在太阳的直射点
太阳直射:赤道地区接收到太阳的直接垂直照射。因为赤道几乎是地球的中心线,太阳光线在这里的入射角度最小,能量密度最大,导致该地区接收到的日射量最高,从而使地表温度升高。地球自转效应:地球自转会导致赤道地区在一天内更长时间地处于太阳直射下,这使得地表有更多时间吸收太阳能量,进一步增加温度。大气对流:赤道地区的高温促进了大气的上升运动,形成了强烈的对流。这种对流不仅加强了热量的传递和分布,也影响了该地区的气候模式。
2024-06-15 21:32:51
549
原创 TCGA masked cnv含义
Masked copy number segments are generated using the same method except that a filtering step is performed that removes the Y chromosome and probe sets that were previously indicated to be associated with frequent germline copy-number variation.
2024-06-04 14:24:59
143
原创 使用install.package()和从命令行R CMD INSTALL安装R包的区别
A major difference between installing R packages using the R package installer at the R command line and shell command line is that package dependencies must be resolved manually at the shell command line.从使用的角度讲没区别
2024-06-04 09:43:23
240
原创 R 设置错误信息的长度
最近运行代码报错,查看错误信息时发现错误信息只显示了一半,原因是错误信息太长了,默认的设置显示不完(默认设置有点傻),搜索了半天在解决了,解决方法是用下面的命令去设置输出错误信息的长度:options(warning.length = 5000)
2023-10-24 21:18:04
208
原创 PCA和LDA
PCA is an unsupervised method that tries to find the directions of maximum variance in the data. It projects the data onto a new set of orthogonal axes, called principal components, that capture as much of the variability as possible. The first principal c
2023-09-05 15:46:16
326
原创 MDS,PCoA和PCA
Non-metric的MDS就叫做Principal Coordinates Analysis(PCoA),它跟PCA的区别在于用距离矩阵代替了PCA中的观察值。MDS分为两种类型:1,metric MDS,它使用距离矩阵进行计算;2,Non-metric MDS,用距离的排序构造矩阵。MDS: A distance matrix.(这里的距离包含各种各样的距离,或者距离的rank)
2023-09-05 11:42:19
471
原创 平均值和方差的点估计、区间估计
0,预备知识0.1,中心极限定理0.2,均值的标准误差0.3,卡方分布1,总体均值的无偏估计量2.1,当总体方差已知时对样本均值的描述(Z统计量)2.2,当总体方差未知时对样本均值的描述(t统计量)3.1,当总体方差已知,或者大样本量(n>200,总体方差未知)时,总体均值的区间估计。(在实际操作过程中会对样本进行抽样,每次取n个数出来,算平均值,这些平均值的期望就是对总体方差的无偏估计)3.2,当总体方差未知,总体均值的区间估计。4.1,总体方差的点估计(对任何分布
2023-08-29 09:59:30
1578
2
原创 为什么样本方差(sample variance)的分母是 n-1?
https://www.zhihu.com/question/20099757
2023-08-28 20:24:26
128
转载 RR、OR和HR区别
1,在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就容易混绕。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:RR(Relative Risk) - 相对危险度RR(Relative Risk
2023-08-20 15:52:24
1143
原创 拟牛顿法quasi-Newton method
拟牛顿法Quasi-Newton methods是一种以牛顿法为基础设计的,求解非线性方程组或连续的最优化问题函数的零点或极大、极小值的算法。当牛顿法中所要求计算的雅可比矩阵或Hessian矩阵难以甚至无法计算时,拟牛顿法便可派上用场。
2023-08-08 16:04:32
168
原创 beta distribution (beta分布)
https://homepage.divms.uiowa.edu/~mbognar/applets/beta.html
2023-07-01 23:47:47
396
原创 GSEA p-value和FDR计算方法
Estimating Significance. We assess the significance of an observed ES by comparing it with the set of scores ESNULL computed with randomly assigned phenotypes.Multiple Hypothesis Testing.Create a histogram of all NES(S, π) over all S and π. Use this null d
2023-06-29 15:56:07
924
原创 最大似然估计(Maximum Likelihood Estimation)
如果我们拿到一组值,不知道这组值对应的分布的参数,甚至都不知道这组值服从何种分布,我们推测可能分布的参数,我们给这个参数取不同的值,计算这些点发生概率的乘积,这就是似然。我们要找到概率最大时(即最大似然)对应的参数值,此时的参数值最有可能是真实分布的参数值。在某个分布的参数已知的情况下,计算某个值(或一组值、一个区间)出现的概率,概率是用原因推测结果,给定某个分布,理论情况下事件发生的频率跟我们计算出来的概率是一样的。
2023-06-28 00:37:31
440
原创 batch normalization与layer normalization
batch normalization常用在CNN上,而用layer normalization用在RNN和transformer上更合适,因为序列数据的长度不一,导致有些特征在部分样本中没有,给基于特征的标准化带来了麻烦。
2023-05-05 20:37:36
371
原创 感知机介绍
Note:<>在数学中通常指求期望的意思。假设我们用感知机区分cat和dog,使用下面三个特征:x1: color of hair;cat 用+1表示,dog用-1表示(对应到σx\sigma(x)σx函数的话,当函数结果为1时,判定为cat,为0时,判定为dog)。三个特征对应有三个权重w1, w2, w3。
2023-05-02 12:43:45
681
原创 bismark和bsmap比对原理
任意取一条比对后的reads,经过PCR后得到BSW,BSWR,BSC,BSCR四种reads,因为BSW和BSWR完全互补,BSC和BSCR完全互补,我们只需要取BSW和BSCR去查看就好了(如果BSW能比对上,那么BSWR一定也可以比对上)。1,watson链和crick链都用来做参考基因组,这样只要容许有T比对到C或者T上,就可以实现所有的比对;2,只用watson链做参考基因组,既需要容许有T比对到C或者T上,又需要容许A比对到A或G上。
2023-04-26 11:08:33
1524
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人