新生儿败血症检测的特征提取与监督学习方法
立即解锁
发布时间: 2025-09-11 00:32:52 阅读量: 5 订阅数: 7 AIGC 

# 新生儿败血症检测的特征提取与监督学习方法
## 1. 特征提取
在新生儿败血症检测中,我们使用了一些特征来描述生命体征信号,主要分为三个部分:统计矩、样本熵和样本不对称性。我们重点关注在所有可用的生命体征上计算的时域特征,包括心跳间隔(IBI)、血氧饱和度(SpO₂)和呼吸频率(RF)。
### 1.1 统计矩
在统计学中,矩用于描述随机变量 $X$ 的概率密度函数(pdf)围绕其均值的形状。
- **一阶矩**:对应期望值,定义为:
$m_1 = \mu = E [X] = \int_{-\infty}^{+\infty} xf_X(x)dx$
- **$k$ 阶矩($k \geq 2$)**:定义为:
$m_k = E[(X - E [X])^k] = \int_{-\infty}^{+\infty} (x - E [X])^k f_X(x)dx$
在实际应用中,真实的 $f_X$ 是未知的,只能获得有限数量 $N$ 的随机变量 $X$ 的实现 $\{x_n\}_{n=1}^{N}$,这些实现也称为随机抽取或随机样本。此时,需要使用样本对矩进行估计,经验估计量用 $\hat{}$ 表示,称为样本矩。
- **样本均值**:
$\hat{m}_1 = \hat{\mu} = \frac{1}{N} \sum_{i=1}^{N} x_i$
- **$k$ 阶样本矩($k \geq 2$)**:
$\hat{m}_k = \frac{1}{N} \sum_{i=1}^{N} (x_n - \hat{\mu})^k$
为了比较不同类型 pdf 的系数,通常会计算标准化矩。
- **偏度**:
$\hat{S} = \frac{\hat{m}_3}{\hat{m}_2^{3/2}}$
- **峰度**:
$\hat{\xi} = \frac{\hat{m}_4}{\hat{m}_2^2}$
### 1.2 样本熵
样本熵(SampEn)用于捕捉新生儿败血症早期出现的异常心率特征。它可以解释为长度为 $N$ 的样本中生成新信息的速率。较低的 SampEn 表示规律性增加,进而减少心肺相互作用,这通常是新生儿败血症的预测指标。SampEn 旨在改进之前建立的近似熵(ApEn),这些方法依赖于模式匹配来测量时间序列的规律性。
对于长度为 $N$ 的序列,SampEn 表示为:
$SampEn(N, m, r) = -\ln \frac{P_m}{P_{m+1}}$
其中,$P_m$ 表示序列中长度为 $m$ 的匹配模式的数量。
在实践中,参数 $r$ 通常选择为数据序列标准差的一个分数,大多数研究使用 $r = 0.2\sigma$,其中 $\sigma$ 表示数据序列中样本的标准差。参数 $m$ 根据数据的动态特性选择,对于新生儿 IBI 信号,通常 $m \geq 3$,大多数研究使用 $m = 3$。
### 1.3 样本不对称性
样本不对称性(SampAsy)用于描述新生儿 IBI 数据子序列分布的不对称性。它解决了偏度的局限性,偏度描述的是分布围绕期望值的不对称性,但在不对称分布中,期望值不是一个好的参考点。样本不对称性允许围绕任何参考点(特别是中位数)测量不对称性,中位数对数据中的异常值不太敏感,这对于 IBI 数据的研究很重要。
对于 $N$ 个数据样本 $\{x_i\}_{i=1}^{N}$,样本不对称性 $R$ 计算如下:
$R = \frac{\sum_{x_i > \alpha} (x_i - \alpha)^2}{\sum_{x_i \leq \alpha} (x_i - \alpha)^2}$
其中,$\alpha = median(\{x_i\})$。当数据围绕中位数对称分布时,$R = 1$。$R > 1$ 表示中位数右侧的值更多,$R < 1$ 表示中位数左侧的值更多。在新生儿中,$R > 1$ 与更频繁的心率加速相关,$R < 1$ 与更频繁的心率减速相关。
## 2. 监督学习的二元分类
###
0
0
复制全文
相关推荐









