数据聚类在金融领域的应用与实践
立即解锁
发布时间: 2025-08-31 02:00:11 阅读量: 194 订阅数: 14 AIGC 

# 数据聚类在金融领域的应用与实践
## 1. 随机块模型的谱聚类
谱聚类分类模型可分为判别式模型和生成式模型。当邻接矩阵可直接观测时,谱聚类分类模型属于判别式模型,它基于现有数据创建关系图。而生成式模型中,邻接矩阵不可观测,而是通过单个网络元素之间的条件关系概率性地开发和推导得出。
随机块模型是最流行的生成式模型之一,由Holland、Laskey和Leinhardt于1983年首次提出。Rohe、Chatterjee和Yu概述了分类方法,Lei和Rinaldo推导了该过程的性能界限,包括误分类率。随机块模型谱聚类是当前活跃的研究领域,其最新研究方向包括探索该模型如何放宽K - 均值聚类中的凸性要求。
## 2. 金融数据聚类
自2003年Boginski、Butenko和Pardalos提出基于金融数据的相关结构进行聚类以来,金融数据聚类研究不断发展。他们认为相关性最高的金融工具应归为同一类。
在金融领域,从样本协方差或相关矩阵创建邻接矩阵的一种方法是阈值法。类似于Fan、Liao和Micheva提出的主正交补阈值法(POET),可以根据阈值创建邻接矩阵,将低于阈值的协方差或相关值设为0,其他值保持不变。此外,还可以使用Antoniadis和Fan提出的收缩函数,如Rothman等人和Cai与Liu所采用的方法。Bickel和Levina提出的硬阈值收缩函数为 \( s_{ij}(x) = x I(|x| \geq \tau_{ij}) \)。随机模型的谱聚类可能是金融应用建模的新前沿,如微观结构活动、期权定价等。
## 3. 非流动性工具聚类
以往金融领域的聚类研究大多通过排除交易不规律的非流动性工具来预处理数据。而在实际分析中纳入非流动性工具,能展示聚类在金融数据中的有效应用。
非流动性工具虽交易不频繁,但仍具有随市场环境变化的内在价值。这种内在价值在工具交易时才会公开显现。非流动性工具交易时会产生回报,不交易时回报记录为0,即使其内在价值可能仍在变化。
聚类有助于揭示投资组合中非流动性工具的真实内在价值。由于非流动性工具的回报数据稀疏,其相关性可能有意义也可能无意义。当非流动性工具与频繁交易的工具相关时,相关性可能反映工具回报的真实共同变动;当与另一个非流动性工具相关时,由于两者同时交易的时间有限,相关性可能接近零。
将流动性和非流动性工具聚类到共同篮子中,可以建立它们之间的相关性联系,使非流动性工具相互关联。得到的聚类内部高度相关,但彼此之间相关性较弱。这些聚类可以聚合为多元化投资组合,带来可观的投资收益。具体算法步骤如下:
1. 基于流动性和非流动性工具的相关性进行聚类,聚类过程会隐式地将非流动性工具与最接近的流动性工具匹配,形成因非流动性而无明显相关性的工具组。
2. 在每个聚类中,由高度相关的工具形成等权重的聚类内投资组合,计算公式为:
- \( R_{intra,C} = \frac{1}{N_C} \sum_{i} R_{i \in C} \)
3. 由步骤2中得到的弱相关聚类内投资组合形成等权重的聚类间投资组合,计算公式为:
- \( R_{inter} = \frac{1}{C} \sum_{C} R_{intra,C} \)
步骤2对每个投资组合中高度相关的回报进行平均,步骤3利用聚类算法得到的每两个聚类之间的弱相关性,对等权重的弱相关聚类内投资组合进行加权,形成符合Markowitz经典分配思想的多元化框架。
## 4. 实证结果 - 加密货币谱聚类投资组合
加密货币已成为许多投资者喜爱的投资工具,但很少有人考虑通过管理加密货币投资组合来提高回报和分散风险。在2017 - 2020年期间,加密货币市场波动巨大,2017年市值增长4500%,2018年前8个月却损失80%的价值。
在2017年1月 - 2020年5月期间,等权重的加密货币投资组合回报率为679.5%,平均年化回报率为139.6%,但波动性高,夏普比率为0.89。2017年后,由于新的加密货币不断涌现,整体表现有所放缓。
### 4.1 聚类内投资组合
为构建聚类内投资组合,首先创建相关矩阵。这里仅考虑2017年1月1日前交易且持续到2020年4
0
0
复制全文
相关推荐









