这是一个企业云内容平台如何使用 MinIO AIStor 和 Splunk SmartStore 构建生产中最大、最具弹性的 SmartStore 部署之一的故事。
传统 SmartStore 存储的问题
全球最大的内容平台之一面临着严重的扩展问题。他们每天要获取数 TB 的可观测性数据,而且 每季度数据量还在以数 PB 的速度增长。他们采用旧时代设计的基础设施难以跟上时代的步伐。性能落后,成本飙升,扩展也增加了复杂性。
根本问题是什么?一种将存储和计算功能同时扩展的架构,其背后依赖依赖外部元数据数据库和昂贵 SSD 的存储系统。他们需要在不中断运营或超出预算的情况下进行现代化升级。
转折点
随着数据量的激增,症状也愈发严重:
- 计算利用率下降至 3-4%,而存储已达到最大限度
- 存储增长意味着手动重新平衡和脆弱的扩展工作流程
- 大规模依赖 SSD 的成本过高
- 负载均衡器成为单点故障
- 元数据管理造成规模瓶颈
- 随着每个节点和机架的增加,停机风险也会增加
他们需要快速采取新方法。
解决方案:MinIO AIStor + Splunk SmartStore
该团队使用Splunk SmartStore背后的 MinIO 企业对象存储软件AIStor重新设计了他们的可观察性存储堆栈。
其结果是,SmartStore 成为世界上规模最大、最具弹性的部署之一。
部署快照
- 51.2PB 原始 HDD 存储
- 16个AIStor节点,每个节点配备16TB驱动器
- 目标可用容量为38.4PB (采用 12:4 擦除编码)
- 每个节点 2 个 25GbE 网络接口
- 没有外部元数据数据库
- 全面支持 Splunk 热温分层架构
为什么有效
分解式架构
通过将计算(SmartStore 索引器)与存储(AIStor)分离,每一层都可以独立扩展,从而消除资源浪费和过度配置。
内联元数据
AIStor将对象元数据与对象一起存储。由于没有外部数据库,该团队避免了集中式瓶颈,并扩展到数十亿个对象,而不会对性能产生任何影响。
商用磁盘的高吞吐量
AIStor使用 AVX-512 指令加速纠删码,在 HDD 上实现了 SSD 级吞吐量。这种优化节省了 CPU 资源,提高了应用程序的吞吐量,同时保持了较低的基础设施成本。
智能交通路线
AIStor 使用MinIO 防火墙基于 Sidecar 的负载均衡技术,在存储节点之间智能地路由流量,而不会引入性能瓶颈。每个客户端都运行一个轻量级 Sidecar,直接与存储服务器通信,而无需依赖集中式设备。这消除了额外的网络跃点,并允许流量根据需求平滑扩展。Sidecar 使用就绪 API 监控节点的健康状况,并自动绕过不可用节点重新路由流量。这种无共享设计可防止级联故障,并在无需更改应用程序的情况下添加断路器保护。
通过区域实现无缝扩展
AIStor 基于区域的架构允许团队通过引入新区域来增加容量,而无需强制重新平衡、数据迁移或停机。新数据会自动流向新区域。
企业韧性
- 12:4擦除编码,高耐用性,仅需 33% 的开销
- 具有存储桶级通知的主动-主动、多站点复制
- KES(密钥加密服务),用于高效的企业级加密密钥处理
成果:以正确的方式构建超大规模可观测性
通过重新思考使用 MinIO AIStor 和 Splunk SmartStore 的架构,该团队构建了一个与其可观察性数据的规模和速度相匹配的存储基础,而不会引入运营风险或失控成本。
- 使用性能与 SSD 相当的 HDD可节省成本
- 规模庞大,无外部元数据瓶颈
- 通过内置复制和智能负载平衡实现持续正常运行
- 通过消除基础设施拖累,更快地获得洞察
所有这些都是通过他们控制的软件交付的,在他们选择的硬件上运行,并具有进一步发展的灵活性。
SmartStore 团队的经验教训
软件优先,简单易扩展。 专有硬件则不然。
分解思考。 让存储和计算按照各自的时间线增长。
以生产就绪为目标。 AIStor和 SmartStore 已在 EB 级规模上得到验证。
准备好构建自己的了吗?
MinIO 社区版是开源的、云原生的,并且易于在您的环境中进行测试。AIStor 在相同的成熟引擎上集成了双活复制、KES 和 Sidekick 等企业级功能。