- 博客(2605)
- 收藏
- 关注
原创 5篇2章9节:累积Meta分析在循证医学中的应用及R语言实操
累积Meta分析为临床研究和循证医学提供了重要工具,使研究者能够动态、分阶段地理解干预效果,识别早期研究的贡献及潜在偏倚。同时,它能指导科研资源分配,减少患者风险,提高研究效率。本文介绍了累积Meta分析的基本原理、操作流程及R语言实现方法。
2025-11-24 10:42:19
443
原创 《Python 编程全攻略》章节目录(持续更新中)
为彻底破解这些痛点,我们精心打造《Python 代码全攻略》专栏。专栏将以 “系统化 + 实战化 + 行业化” 为核心,持续更新优质内容。所以,无论你是零基础入门的编程新手,还是想提升技术深度、拓展行业应用的职场人,本专栏都将为你搭建从 “语法掌握” 到 “技术精通” 再到 “业务落地” 的完整学习路径,助力你全面掌握最新、最全的 Python 实用技术,真正解锁多行业应用场景,成为能解决实际问题的 Python 实战型人才。
2025-11-17 19:12:03
351
原创 《AIGC技术的应用指南》章节目录(持续更新中)
在数字化席卷全球的今天,人工智能早已走出科幻,深度融入我们生活的每个角落。从唤醒智能音箱到获取个性化推荐,从提升工作效率到改变各行各业的运行方式,AI正以前所未有的速度成为现代生活的“必需品”。它不是取代人类,而是赋能个体,让每个人都能拥有前所未有的创造力与效率。更重要的是,如今学习和使用AI的门槛比想象中低得多,不再是程序员的专属,而是每个普通人都可以掌握的基本技能。
2025-05-25 10:02:50
662
原创 【订阅后首读】专栏目录 + 核心要点(持续更新中,已超 200万字)
我们重磅推出《用 R 探索医药数据科学》专栏!本文作为专栏【订阅后首读】的核心内容,堪称开启学习之旅的 “入门钥匙”,也是整个专栏最关键的一篇指引文。文中不仅完整呈现了专栏 9 大核心篇章 + 问答板块的详细目录,更囊括了订阅后必知的核心要点 —— 从阅读设备、实操工具的使用建议,到学习路径、更新规则的清晰说明,再到问题反馈、感悟记录的实用方法,一站式帮你摸清专栏框架、找准学习方向。建议各位订阅者务必认真阅读、吃透内容,这能让你后续的学习更高效、少走弯!
2024-11-18 06:22:40
11190
49
原创 正则表达式的基础要点
R语言提供了一些内置函数来处理正则表达式,如grep()、sub()、gsub()、strsplit()和paste()。这些函数结合正则表达式的使用,使得字符串处理变得更加方便和高效。在本节中,我们将详细探讨这些函数的用法,并通过示例演示如何在R中进行字符串处理。
2025-12-16 15:00:16
486
原创 正则表达式的基础要点
正则表达式(Regular Expression,简称regex)广泛用于字符串操作中,它可以通过定义一个“规则字符串”来对文本进行模式匹配,从而实现字符串的查找、替换、分割等操作。正则表达式的语法虽然复杂,但它的强大之处在于能够灵活地处理非结构化文本,帮助数据分析者快速、高效地提取有用信息,解决实践中遇到的各种与文本相关的数据问题。
2025-12-15 10:18:11
476
原创 9篇4章3节:GEO数据库的数据下载
本文在前文介绍 GEO 数据结构的基础上,围绕“如何下载所需的数据”这一核心问题,系统演示了从 GEO 首页检索研究主题、筛选合适的 Series(GSE),到理解实验背景与样本构成的完整流程。重点比较了 GEO 提供的三类 family 下载格式(SOFT、MINiML 和 Series Matrix File)的数据范围、完整性与使用场景,同时介绍了该研究中额外提供的 raw count matrix、clean count matrix 以及 SRA 原始测序数据在分析流程中的不同定位。
2025-12-15 10:05:16
311
原创 9篇4章2节:GEO数据库的数据组织结构
本文系统介绍了 GEO 数据库的三大核心目标,即高效存储海量数据、支持规范便捷的数据提交以及提供友好的数据查询与分析机制,并重点解析了其层次化的数据组织结构,包括 Platform、Sample、Series、DataSet 和 Profile 等关键数据类型。在此基础上,结合具体实例 GSE288935,详细说明了 GEO 中不同数据层级之间的关系,以及其与 BioProject 和 SRA 数据库的关联方式。
2025-12-15 10:04:48
253
原创 字符串(String)是编程语言中一种非常基础且重要的数据类型
字符串(String)是编程语言中一种非常基础且重要的数据类型。在R语言中,字符串是一组字符的有序集合,这些字符可以包括字母、数字、符号或其他字符。字符串在数据分析和文本处理任务中非常常见,比如存储文本信息、标识符号、代码中的注释和日志信息等。
2025-12-14 19:49:32
697
原创 自定义缩放范围在数据分析中的应用也不少,尤其是在处理特定类型的数据时
这种处理方法不仅能够提高模型的性能,还能减少计算中的误差,从而提升分析结果的准确性和可靠性。
2025-12-14 19:48:44
774
原创 自定义缩放范围在数据分析中的应用也不少,尤其是在处理特定类型的数据时
MRI图像的像素值可能在-1000到1000之间,而CT图像的像素值范围可能在-2048到3071之间。直接将这些数据缩放到统一的[0,1]或[-1,1]范围内可能会丢失部分关键信息或降低图像的对比度。通过自定义缩放范围,可以根据数据的具体特点进行调整,从而更好地保留关键的医学信息。
2025-12-13 11:35:33
863
原创 特征缩放的主要方法包括数据的中心化(Centralization)和标准化(Normalization)。中心化是指将数据集中的每一个数据点减去该数据集的均值,目的在于使数据的分布中心移到原点附近,从
特征缩放的主要方法包括数据的中心化(Centralization)和标准化(Normalization)。中心化是指将数据集中的每一个数据点减去该数据集的均值,目的在于使数据的分布中心移到原点附近,从而消除数据中的偏移量。
2025-12-13 11:34:28
643
原创 DataEditR:交互式数据编辑
在编辑界面中,用户可以对数据进行各种操作,如筛选、排序、修改数据值等。DataEditR 的图形界面使得数据编辑变得更加直观和友好。
2025-12-12 10:55:12
811
原创 _at 变体函数:针对特定列的操作
_at 变体函数允许用户对数据框中的特定列进行操作。用户可以通过列名、列号或列的选择条件来指定目标列。这为用户提供了更大的灵活性,使其可以只对感兴趣的列进行操作,而不影响数据框中的其他列。
2025-12-12 10:54:20
594
原创 在dplyr中,_all、_at、_if这三组后缀变体函数用于扩展基础函数的功能
在dplyr中,_all、_at、_if这三组后缀变体函数用于扩展基础函数的功能,使得用户能够在不同场景下更加灵活地操作数据。_all变体用于对数据框中的所有列进行操作,适用于需要对每一列执行相同操作的情况
2025-12-11 11:58:38
724
原创 在数据处理的不同阶段,日期时间数据往往需要在不同的格式之间进行转换
通过 strptime() 函数解析一个日期时间字符串,并根据指定的格式字符串将其转换为 POSIXlt 类型的日期时间对象。以下是一个示例:
2025-12-11 11:57:41
771
原创 9篇4章1节:临床医生如何利用GEO数据库开展研究
Gene Expression Omnibus(GEO)数据库,收录微阵列、RNA-seq、ChIP-seq、甲基化及蛋白质组等数据,覆盖动物、植物和微生物样本。GEO提供原始数据、处理数据和完整元数据,支持在线分析、差异表达和通路富集,同时可通过网页、FTP、SRA和API访问。临床医生和转化医学研究者可利用GEO节约资源、增强统计功效、快速筛选候选基因及通路,并促进可重复性研究。结合NHANES数据,可整合流行病学与分子机制,实现疾病关联分析与潜在药物靶点发现,为精准医学和共病干预提供策略。
2025-12-10 19:04:37
459
原创 1篇2章12节:介绍 ROSES 提示词工程框架
ROSES 框架由五个关键要素组成:Role(角色)、Objective(目标)、Scenario(情境)、Expected Solution(期望结果)、Steps(执行步骤)。它不仅帮助创业者和团队清晰定义任务,也可用于指导 AI 在复杂任务中输出高质量、可落地的响应。通过这五个维度,ROSES 框架将复杂目标拆解为可执行的结构化任务,同时也能用于生成 AI 提示词,帮助 AI 理解任务意图、识别约束条件,并输出高质量结果。
2025-12-10 15:31:20
663
原创 1篇2章11节:介绍 TRACE 提示词工程框架
TRACE 框架通过覆盖任务定义、请求内容、行动步骤、情境信息和示例参考的五个关键维度,为提示词工程提供了全面指导。其优势在于能够确保 AI 在接收到指令时,充分理解研究或分析任务的目标、操作路径、环境条件及输出标准,从而生成条理清晰、结构完整的结果。在复杂任务中,如科研文献综述、市场趋势分析或医学研究文档编写,框架可以有效降低输出偏差,提高可操作性和可靠性。
2025-12-10 14:45:13
412
原创 日期时间数据的运算
R中日期时间对象的操作不仅限于创建和转换,还包括提取、修改、与操作时间组件等。在这部分,我们将探讨如何使用R操作日期时间对象的各个组成部分。
2025-12-10 11:23:55
324
原创 使用ifelse()函数创建条件变量
例如,假设我们正在分析iris数据集,并希望根据花瓣长度与宽度的比值(即Pe.Ratio = Petal.Length / Petal.Width)来创建一个新的分类变量Ratio.Category。这个分类变量将根据Pe.Ratio的值分为两个类别:“High”和“Low”。我们可以通过ifelse()函数轻松实现这一目标。
2025-12-10 11:23:08
844
原创 在处理因子(factor)类型的变量时,我们可以使用factor()函数直接对因子变量进行修改,另外提醒大家,我们专栏超200万字了!欢迎订阅!
市面上的 R 语言培训班和书籍(包括网络上的文章或视频),由于受限于培训时间或书籍篇幅,往往难以深入探讨 R 语言在数据科学或人工智能中的具体应用场景,内容泛泛而谈,最终无法真正解决实际工作中的问题。同时,它们也缺乏针对医药领域的深度结合与讨论。为了解决这些痛点,我们推出了《用 R 探索医药数据科学》专栏。该专栏将持续更新,不仅为您提供系统化的学习内容,更致力于成为您掌握最新、最全医药数据科学技术的得力助手。
2025-12-09 10:00:00
762
原创 除了使用mutate()函数来操作数据框中的变量,我们还可以通过直接赋值的方式修改变量
除了使用mutate()函数来操作数据框中的变量,我们还可以通过直接赋值的方式修改变量。这种方法尤其适合对向量或因子类型的变量进行特定值的替换和更新。
2025-12-09 09:56:44
411
原创 为什么399元的R语言已经接近200万字了,还要不断更新,性价比真的很高吗?
目前专栏已超190万字,包含超过300篇文章,每篇都达5000–9000字,内容覆盖试验统计、预测模型、科研绘图、数据库等热点领域,每周持续更新,追踪最新技术趋势、市面动态。与之相比,市面上医药数据相关书籍通常只有几十万字,视频课程受限于讲解时间,一次课程可能只有几小时,实际获得的干货和实际指导极为有限。
2025-12-08 15:47:18
1844
原创 9篇1章8节:多周期的NHANES权重计算实战(20251208)
本文以 1999–2018 年 10 个连续调查周期为例,详细介绍了多周期权重设置原则、数据导入与合并方法、复杂抽样设计对象构建及加权年龄分层分析的完整流程。
2025-12-08 15:16:15
341
原创 9篇1章7节:单周期的NHANES权重计算实战(更新20251208)
本文以单周期 NHANES(2021-2023)数据为例,详细演示了如何使用 R 的 svydesign() 函数构建复杂抽样设计对象,并结合权重变量进行加权分析,以获得全国代表性的统计结果。通过对种族/族裔变量进行重编码,并比较不加权和加权的统计结果,本文展示了加权分析对校正样本与总体人口差异的重要性,强调了在复杂抽样数据分析中权重计算的必要性和实践方法。
2025-12-08 12:11:18
323
原创 9篇1章4节:认识统计学的权重、抽样及其背后的设计逻辑(更新20251206)
本文以 NHANES 为例,介绍了权重的概念、计算原理以及超额抽样的应用,说明权重在估计全国健康指标、减少偏差和提高数据可靠性方面的关键作用。
2025-12-08 09:19:08
497
原创 使用mutate()函数创建新变量
有时我们可能需要对变量进行其它的修改。例如,假设我们希望将Pe.Ratio变量的值调整为原始值的50%,我们可以通过简单的数学运算来实现这一目标。使用mutate()函数结合管道操作符(%>%),我们可以在同一过程中链式地进行多个操作。
2025-12-07 10:58:05
933
原创 R中提供了一系列as.*函数,用于将数据从一种类型转换为另一种类型
其实在实际的R编程中,正确理解和应用类型转换是确保数据分析和处理成功的关键步骤。通过掌握as.*函数和is.*函数,你可以有效地在不同数据类型之间进行转换,并确保数据类型与预期的一致性。在进行数据分析之前,建议养成良好的数据类型检查习惯,以避免不必要的错误和问题。
2025-12-07 10:57:08
723
原创 R 语言中的所有数据类型转换,数据清洗不再犯难!
这里我们可以看到,因子型变量的水平(Levels)按照数值顺序自动排列。这意味着每个原始数值都被视为一个不同的分类水平,且这些水平按从小到大的顺序排列。这种自动排序功能在许多情况下非常有用,因为它可以确保类别有序性,尤其是在处理有序分类数据时。
2025-12-06 11:01:15
1036
原创 在R语言中, 使用 as.factor() 函数转换数值型变量
这里我们可以看到,因子型变量的水平(Levels)按照数值顺序自动排列。这意味着每个原始数值都被视为一个不同的分类水平,且这些水平按从小到大的顺序排列。这种自动排序功能在许多情况下非常有用,因为它可以确保类别有序性,尤其是在处理有序分类数据时。
2025-12-06 10:58:31
841
原创 在处理数据时,检查数据的类型是非常重要的一步
在R语言中,数据类型是处理数据分析和操作的基础。在编写和运行R脚本时,时常需要进行数据类型的检查和转换,以确保正确的运算和数据处理。在这一部分,我们将深入探讨如何在R语言中进行数据类型的转换,包括如何利用as.*和is.*函数来实现不同向量类型之间的转换与检测。
2025-12-05 09:12:02
990
原创 我们在《9篇3章8节:FAERS联合挖掘,认识和获取VigiBase数据库资料》更新了文章,欢迎订阅的伙伴们去阅读!
欢迎阅读《9篇3章8节:FAERS联合挖掘,认识和获取VigiBase数据库资料》!
2025-12-05 09:09:21
1288
原创 为什么399元的R语言专栏其实性价比真的很高?!
现在订阅,其实是在用一次投入锁定后续源源不断更新的医药数据科学学习资源,越早进入,能跟着完整体系一起成长,收获也就越大。
2025-12-04 23:16:57
2209
原创 在R语言中,数据类型是处理数据分析和操作的基础
在R语言中,数据类型是处理数据分析和操作的基础。在编写和运行R脚本时,时常需要进行数据类型的检查和转换,以确保正确的运算和数据处理。在这一部分,我们将深入探讨如何在R语言中进行数据类型的转换,包括如何利用as.*和is.*函数来实现不同向量类型之间的转换与检测。
2025-12-04 10:10:55
698
原创 矩阵是一种常见的二维数据结构,类似于一张表格
矩阵是一种常见的二维数据结构,类似于一张表格,其中行表示样本,列表示变量。在进行数据分析时,通常需要对矩阵的行和列进行命名,以便明确表示每一行和每一列的含义。R语言中提供了rownames()和colnames()函数来分别为矩阵的行和列进行命名。
2025-12-04 10:09:54
853
原创 反连接(Anti Join)
反连接用于从左表(df.1)中排除在右表(df.2)中有匹配项的记录。简单来说,反连接会返回左表中所有在右表中找不到匹配值的行。
2025-12-03 10:14:56
337
原创 数据重塑之数据去重匹配的内连接(Inner Join)和全连接(Full Join)
数据匹配操作在数据预处理和整合中非常常见,尤其在处理来自不同数据源的医学数据时更是如此。常见的匹配操作包括左连接(left join)、右连接(right join)、内连接(inner join)、全连接(full join)、半连接(semi join)和反连接(anti join)。我们将以构建两个示例数据框为基础,逐步演示这些操作的实现和实际应用场景。
2025-12-03 10:13:53
399
原创 数据匹配(Data Matching)是指基于某个或某些相同的变量(字段),将两个数据框合并在一起
数据匹配(Data Matching)是指基于某个或某些相同的变量(字段),将两个数据框合并在一起。数据匹配操作在数据预处理和整合中非常常见,尤其在处理来自不同数据源的医学数据时更是如此。常见的匹配操作包括左连接(left join)、右连接(right join)、内连接(inner join)、全连接(full join)、半连接(semi join)和反连接(anti join)。我们将以构建两个示例数据框为基础,逐步演示这些操作的实现和实际应用场景。
2025-12-02 13:00:03
928
从药品销售与疗效数据分析例子学会R语言中的ggplot2绘图技巧
2024-09-16
用R进行复杂用户行为数据分析:深入理解用户行为、转化率与交互模式
2024-09-15
使用R语言igraph和ggraph包绘制基因相互作用网络图
2024-09-07
使用Shiny构建带有蓝色背景的双人五子棋游戏
2024-09-06
R语言与Shiny的双人飞行棋小游戏代码:回合制胜负与实时状态显示
2024-09-06
使用R语言和recommenderlab包实现基于物品的协同过滤推荐系统及内容属性综合评分
2024-09-05
使用R语言和recommenderlab包构建基于用户协同过滤的自媒体内容推荐系统,结合多属性分析
2024-09-05
使用R语言和randomForest包构建血糖预测模型
2024-09-04
使用R语言和xgboost包构建血糖预测模型
2024-09-04
使用R语言和glmnet包构建血糖预测模型
2024-09-04
使用R语言实现CLARA算法对鸢尾花数据集进行大规模聚类分析
2024-09-03
使用R语言的SOM算法对鸢尾花数据集进行自组织映射分析
2024-09-03
使用R语言中的Fuzzy C-Means算法对iris数据集进行模糊聚类分析
2024-09-03
在R中用谱聚类算法,基于图论的高效数据分组与分析
2024-09-03
在R中使用PCA降维与K-means聚类结合的算法,高效的数据分类与可视化
2024-09-03
在R中使用高斯混合模型,多分布下的概率聚类与模型评估
2024-09-03
在R中使用层次聚类算法,探索数据层次关系的高级聚类方法
2024-09-03
在R中使用DBSCAN,一种密度驱动的高级聚类算法,识别噪声与复杂形状
2024-09-03
模拟家庭收入、区域、年龄、血压及多属性的大规模数据集生成的R代码和一份10000人数据集,可以用于学习机器学习
2024-09-01
理解K-means聚类算法:基于R语言对iris数据集的详细实现与分析,R代码
2024-09-01
trekcolors R 包为科幻迷和数据分析爱好者提供了独特的 Star Trek 和 LCARS 调色板
2024-11-17
R语言数据去重与匹配:20种常用函数详解及实战示例
2024-11-16
10个例子,学会使用管道操作符 %>% 进行数据处理与可视化
2024-11-11
在R语言中实现带有边缘直方图、箱线图和密度图的散点图,以及连续变量直方图的多图展示
2024-11-09
R语言数据重塑,20种高效函数操作数据格式与管理
2024-11-02
R语言字符串操作全攻略,30个技巧一览无余!
2024-10-28
一次性掌握7种强大的临床预测模型
2024-10-27
掌握20个R语言数据清洗技巧,让数据处理更加高效和简单!
2024-10-26
基于机器学习的高血压预测模型构建与评估
2024-10-25
如何通过R代码设置RStudio全局环境
2024-10-23
R语言版本检查与扩展包自动更新示例
2024-10-21
用R语言贪心算法解决旅行商问题的模拟演示
2024-10-17
用R演示药物对糖尿病患者血糖影响的方差分析及可视化
2024-10-17
基于卵巢癌数据的治疗和年龄组生存曲线分析
2024-10-14
使用R语言和ggplot2基于iris数据集绘制常见科研图表
2024-10-12
基于主成分分析的临床高血压患者数据分析与可视化
2024-10-05
用R语言创建基于逻辑回归的高血压预测模型(准确率达到82%)
2024-10-05
用Python的基于逻辑回归的高血压预测模型.py
2024-10-05
基于R语言的主成分分析:模拟数据生成与可视化
2024-10-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅