用于手部姿势分类的半监督学习应用
立即解锁
发布时间: 2025-09-07 00:27:21 阅读量: 12 订阅数: 12 AIGC 


大数据技术与应用研究
# 用于手部姿势分类的半监督学习应用
## 1 引言
在过去几十年里,人机交互(HCI)数据分类吸引了众多计算机科学家和研究人员的关注。机器学习(ML)技术被广泛用于学习HCI数据模式并对数据集进行分类。然而,传统的ML方法在处理大规模HCI数据集时往往难以发挥优势,因为ML模型需要将大量数据存入有限且昂贵的工作内存中,这会导致模型和内存故障增加,以及数据处理成本上升。
大数据分析应用因其能够自动处理庞大而复杂的数据而日益流行。但基于ML的大数据解决方案通常面临缺乏标注数据的问题,手动标注数据不仅成本高昂,还需要复杂的数据领域知识分析,尤其是在处理大规模数据集时。因此,无监督学习和监督学习技术相结合形成了半监督学习(SSL)方法,用于数据分类和预测。SSL可以利用少量标注数据样本的知识为未标注数据点添加标签,但SSL技术的成本会根据数据集大小和标注数据与未标注样本的比例而大幅增加。
本文旨在提出一种基于SSL的大数据分析解决方案,用于手部姿势的分类和分析。具体而言,提出了一种数据预处理方法,用于清理和准备包含78095条记录的大规模运动捕捉手部姿势数据集。同时,使用两种先进的SSL技术(Co - forest和Tri - training)在Apache Spark框架上构建数据分类模型,并对这两种算法的结果进行评估和比较,以找出最适合手部姿势分类的方法。主要贡献如下:
- 部署数据预处理方法,用于清理和准备手部姿势大数据集。
- 训练和测试两种SSL机器学习方法进行手部姿势分类。
- 分析和评估SSL解决方案的性能,找到最适合的方法。
## 2 文献综述
SSL分类技术可分为直推式学习和归纳式学习两类。直推式学习使用训练集和测试集来训练分类模型,而归纳式学习仅使用训练集对未见数据样本进行分类。自训练是一种常见的SSL技术,它使用标注样本训练分类器,以预测未标注样本的标签值。然而,有限或低质量的标注数据会导致自训练预测不准确,进而出现错误标注和错误分类的问题。
SSL方法可应用于HCI数据分类/预测、计算机视觉和自然语言处理等领域。它们可以部署在大规模数据分析框架(如Apache Spark)上,构建并行分类模型,处理庞大而复杂的数据集,具有分布式处理、容错和可扩展性等优势。但SSL方法的成本仍然是该领域研究的一个问题,特别是在处理大规模复杂数据集时,例如基于图的半监督学习具有立方时间复杂度O(n³)。
有两种先进且广泛使用的SSL算法,即Tri - training和Co - forest。Tri - training旨在训练三个分类器对未标注样本进行标注,通过多数投票技术进行最终标签预测。Co - forest是基于随机森林技术的集成学习方法,它增强了集成建模的能力,通过增加分类器扩展了Tri - training技术,以获得更好的结果。Co - forest不需要具有丰富属性/特征的数据集,也不需要进行交叉验证分析来挑选高置信度的未标注样本,因此能够应用于实时分类场景,如金融异常检测或语音模式识别。
目前仍需要研究SSL技术在处理大规模复杂HCI数据集时的性能。为此,SSL方法需要适应大数据分析、并行数据处理和模型训练。本文旨在在Apache Spark上构建、调整和并行化两种SSL方法,并测试和评估它们在数据驱动的手部姿势分类应用中的性能。
## 3 方法与实现
### 3.1 数据集选择与预处理
本研究使用路易斯安那理工大学的运动捕捉手部姿势数据集来构建和评估SSL模型。该数据集包含5种静态手部姿势(共78095条记录),分别是:1) 拇指伸出的拳头;2) 手掌伸直的停止姿势;3) 用食指指向;4) 用食指和中指指向;5) 手指弯曲抓取。这些姿势通过Vicon运动捕捉相机系统捕捉,标记点附着在左手手套上。
| 属性 | 描述 | 数据类型 |
| --- | --- | --- |
| Class | 类别值(1到5) | 整数 |
| User | 用户ID | 整数 |
| Xi | 第i个标记点位置的x坐标 | 双精度浮点数 |
| Yi | 第i个标记点位置的y坐标 | 双精度浮点数 |
| Zi | 第i个标记点位置的z坐标 | 双精度浮点数 |
数据预处理通过Apache Spark DataFrame API(如select、filter、join和aggregate函数)和MLlib实现。Apache Spark提供了可扩展的机器学习库MLlib,允许大规模机器学习设置受益于模型和数据并行性,构建可扩展的机器学习基础设施。使用Spark - CSV包读取CSV文件并将其转换为Spark DataFrame,同时使用SparkSQL操作揭示数据特征。该数据集的类别标签分布均衡,这对于ML分析至关重要,因为不平衡的数据集容易导致错误分类,尤其是在处理大规模数据集时。
使用数据归一化和数据清理技术准备数据集。使用Spark上的StandardScaler库对数据特征进行归一化处理,对于缺失数据采用两种处理方法:1) 删除缺失值超过80%的列;2) 使用均值插补(MI)技术填充缺失数据。
### 3.2 Tri - training
Tri - training使用三个分类器,不仅便于处理标注置信度估计问题和预测未标注数据样本,还通过集成学习提高了泛化能力。根据原始的Tri - training算法,如果一个未标注样本使用两个分类器得到相同的分类结果,则认为该样本具有高标注置信度,此时第三个分类器会为其赋予标签值,并将该未标注数据样本添加到标注集中。最后,通过投票方法整合三个分类器的结果,实现更好、更快的分类。
Tri - training方法通过RandomForestClassifier()形成三个随机森林分类器。使用randomSplit()函数将训练数据集随机划分为标注样本(L train)和未标注样本(U train)。使用Spark的VectorAssembler转换器将数据特征存储为向量DataFrame(label: Double, features: Vector),并将各列组合成一个名为“features”的单一向量。
Tri - training算法使用自助法从L train数据集中抽取样本,形成三个子数据集hi、hj和hk,用于训练随机森林分类器。每个分类器在一轮Tri - training中使用measure error()函数计算假设的分类错误率e[i],该错误率由其他两个分类器的组合得出。
分类错误率用于确定哪些未标注样本最适合添加到标注集中。分
0
0
复制全文
相关推荐









