探索并行计算的新时代：MPI的进展与挑战

更新中

文章平均质量分 92

介绍并行计算的发展，探讨MPI在Exascale时代的角色，分享最新研究成果和应用案例。

文章数：42 文章阅读量：68 文章收藏量：0

作者: wasm7browser

这个作者很懒，什么都没留下…

展开

专栏收录文章

42、利用 MPI 编写并行库：实践、问题与扩展

本文探讨了在消息传递接口（MPI）背景下设计和开发并行库的原则与实践，分析了并行库的分类、常见示例及其共同要求。文中详细介绍了MPI支持并行库开发的核心概念，如通信上下文、虚拟拓扑、属性缓存和数据类型等，同时讨论了多线程、可重入性、非阻塞操作、复杂通信以及混合编程中的问题及其解决方法。文章旨在帮助开发者更好地理解和利用MPI特性，构建高效、可扩展的并行库。

原创 2025-07-24 08:37:46 · 4 阅读 · 0 评论
41、并行计算中MPI相关技术的创新与性能提升

本文探讨了并行计算中MPI相关技术的创新与性能提升，包括HC-MPI、AzequiaMPI、MPI-DB以及可扩展的MPI运行时算法。这些技术针对传统MPI在通信性能、可扩展性和数据处理方面的瓶颈进行了优化，适用于极端规模系统和科学计算领域，为未来的高性能计算提供了有力支持。

原创 2025-07-23 14:26:10 · 4 阅读 · 0 评论
40、MPI 通信与容错技术解析

本文详细解析了MPI通信与容错技术的关键内容。首先探讨了MPI-3单边通信的三种操作方式及其性能特点，强调基于请求操作的重叠版本在性能上的优势。接着介绍了支持MPI容错的可扩展分布式共识算法，分析其三阶段流程及性能评估结果。然后阐述了运行-穿透稳定（RTS）提案在进程容错模型、状态验证及语义修改方面的实现。最后进行了综合对比与应用场景分析，总结了技术实现的关键要点，并展望了未来发展趋势。这些技术为高性能计算环境下的高效通信和可靠容错提供了重要支持。

原创 2025-07-22 15:44:56 · 3 阅读 · 0 评论
39、高性能计算中MPI通信的优化与实现

本文探讨了高性能计算中MPI通信的三个优化方向：跨站点MPI通信带宽的改进、SCC-MPICH库的性能调优以及MPI-3单边通信语义在Infiniband上的实现。通过并行传输消息片段、灵活选择通信协议以及支持动态窗口和Flush操作等方法，显著提高了通信性能。这些研究在分布式计算、SCC处理器应用以及高端计算系统中具有广泛的实际应用价值，为未来MPI通信的发展提供了重要方向。

原创 2025-07-21 11:18:13 · 1 阅读 · 0 评论
38、利用C++元编程简化MPI编程模型及实现可移植可扩展的MPI共享文件指针

本文探讨了如何利用C++元编程简化MPI编程模型，提高代码可读性和性能，并介绍了实现可移植可扩展的MPI共享文件指针的方法。通过C++元编程技术，可以更直观地表达MPI中的消息传递操作，同时在编译时进行类型和大小检查，减少运行时开销。此外，文章提出了一种基于I/O转发层（如IOFSL）的共享文件指针实现方案，解决了传统MPI共享文件指针在性能和可移植性方面的不足。实验结果表明，在大规模矩阵计算中，基于元编程的MPMD版本显著优于UPC实现。未来，将继续优化元编程技术以减少生成的可执行文件数量，并探索其在更多

原创 2025-07-20 12:20:29 · 1 阅读 · 0 评论
37、开放 MPI 中解释型语言评估与 C++ 元编程简化消息传递编程模型

本文探讨了在高性能计算（HPC）领域中，消息传递接口（MPI）在不同编程语言中的表现，以及如何通过 C++ 元编程技术简化消息传递模型。对比了 Python、C 和 C# 在 MPI 实现中的开发效率与性能，评估了 Python 的 mpi4py 和 C# 的 mpi.net 等包装器的可用性。同时，介绍了一种基于 C++ 元编程的新方法，通过 mem_wrap 对象和编译时代码生成，提高分布式内存编程的抽象级别，从而简化编程过程并提升性能。文章还比较了该方法与 UPC 的实现，分析了其在不同应用场景下的适

原创 2025-07-19 13:44:19 · 1 阅读 · 0 评论
36、高性能计算中MPI通信器创建与解释型语言的评估

本文探讨了高性能计算（HPC）中消息传递接口（MPI）通信器创建的算法优化，并评估了Python和C#等解释型语言在MPI中的应用与性能表现。研究重点包括组集体通信器创建算法的时间复杂度分析，以及解释型语言与MPI集成的优势与挑战。通过乒乓基准测试和Conway's Game of Life模拟实验，比较了不同语言在性能上的差异，并提出了在实际开发中的选择建议。

原创 2025-07-18 16:31:39 · 1 阅读 · 0 评论
35、MPI中非集体式通信器创建的研究与实践

本文深入研究了MPI中非集体式通信器创建的需求与实现，提出了一种新的组集体式通信器创建算法。该算法仅在将成为新通信器成员的进程组上进行集体操作，具有可移植性，且绕过了现有MPI API的限制。通过实验评估，该方法在容错、全局数组和动态负载均衡等场景中展现了显著的性能提升和应用价值。特别是在马尔可夫链蒙特卡罗模拟中，异步组集体式负载均衡的执行时间比传统方法提高了30%以上。未来，将非集体式通信器创建功能纳入MPI标准有望进一步优化MPI应用程序的性能和灵活性。

原创 2025-07-17 13:43:33 · 1 阅读 · 0 评论
34、libhashckpt：基于哈希的GPU增量检查点技术

本文介绍了一种新的基于哈希的GPU加速增量检查点技术libhashckpt，旨在提高大规模高性能计算（HPC）应用中检查点的效率。通过结合页面保护机制、哈希计算和MPI拦截技术，libhashckpt能够更精确地识别内存中发生变化的数据块，并利用GPU加速哈希计算以减少开销。实验结果表明，该方法在某些HPC应用中显著减少了检查点文件的大小，并展示了与应用特定检查点机制相比的可行性。文章还探讨了该技术的适用性以及未来的研究方向。

原创 2025-07-16 16:29:19 · 1 阅读 · 0 评论
33、工业地震处理应用中的容错技术与增量检查点方案

本文探讨了在工业地震处理应用中使用的容错技术和增量检查点方案。重点介绍了逆时偏移（RTM）方法在大规模MPI应用中的容错需求，并分析了多种MPI容错实现方式。文章提出了一种基于监控进程和线程协作的故障检测机制，结合检查点和回滚恢复技术，实现应用的可靠执行。实验结果表明，该方法在无故障和单故障场景下均具有较低的性能开销和良好的可扩展性。此外，还介绍了基于GPU的libhashckpt增量检查点方案，利用页面保护和GPU哈希计算来减少检查点的大小和写入时间。最后，总结了当前技术的优势与挑战，并展望了未来的研究方

原创 2025-07-15 14:07:24 · 1 阅读 · 0 评论
32、容错MPI的对数缩放容错协议算法

本文探讨了容错MPI中的对数缩放容错协议算法，重点分析了其故障识别机制、两阶段提交算法流程以及基于树结构的对数缩放实现。文章详细描述了算法在不同故障场景下的处理策略，并展示了基于Open MPI原型的性能测试结果，表明该算法在大规模并行计算中具有良好的扩展性和效率。最后，总结了当前实现的优缺点，并展望了未来的改进方向。

原创 2025-07-14 09:25:05 · 2 阅读 · 0 评论
31、内核辅助MPI通信对科学应用的影响及容错协议研究

本文探讨了内核辅助MPI通信对科学应用的影响，并提出了一种用于容错MPI的对数缩放容错协议算法。通过实验分析，内核辅助通信（如KNEM）显著提升了CPMD和FFTW等科学应用的性能，减少了通信开销。同时，提出的对数缩放容错协议在大规模高性能计算系统中具备良好的可扩展性和容错能力，为未来百亿亿次系统的可靠性提供了有效解决方案。

原创 2025-07-13 14:55:35 · 1 阅读 · 0 评论
30、注入带宽性能对应用程序可扩展性及内核辅助 MPI 通信的影响

本文研究了网络注入带宽性能对应用程序可扩展性的影响以及内核辅助 MPI 通信对科学应用程序的作用。通过在不同注入带宽降级条件下进行网络带宽测量和应用程序测试，分析了带宽变化对通信密集型应用程序性能的影响。同时，探讨了内核辅助内存复制技术如何提升 MPI 通信效率。研究结果为未来百亿亿次超级计算机的设计和应用程序优化提供了参考依据。

原创 2025-07-12 14:34:52 · 1 阅读 · 0 评论
29、并行流体求解器与网络注入带宽对应用可扩展性的研究

本文探讨了如何使用Coarray Fortran对流体求解器进行并行化，并分析了网络注入带宽性能对应用可扩展性的影响。实验比较了MPI与共数组通信的性能差异，探讨了内存布局、数据结构和通信方案对流体求解器性能的作用。通过在Cray XT和XE系统上的测试，研究结果为未来超大规模系统的优化设计提供了重要参考。

原创 2025-07-11 13:25:35 · 1 阅读 · 0 评论
28、混合OpenMP - MPI湍流边界层代码及CAF与MPI在流求解器中的应用

本文探讨了在Blue Gene/P超级计算机上实现混合OpenMP-MPI湍流边界层代码的优化策略，以及协同数组Fortran（CAF）与MPI在流求解器中的应用比较。重点分析了节点映射对通信性能的影响、OpenMP与MPI的可扩展性表现、并行I/O的优化方法，并从性能、灵活性和编程难易程度等方面对比了CAF与MPI的优劣。研究结果显示，合理的映射策略和并行化方法可显著提升计算效率，同时提出了未来在并行计算领域的研究方向。

原创 2025-07-10 13:19:54 · 0 阅读 · 0 评论
27、高性能计算中的通信与并行编程优化

本文探讨了高性能计算中的通信与并行编程优化，重点分析了RCKMPI在英特尔单芯片云计算机上的轻量级MPI实现，以及混合OpenMP-MPI湍流边界层代码在32k核心上的高效应用。文章详细阐述了通信介质选择、集体操作性能优化、域分解策略、数据局部性优化等关键技术，并总结了这些优化策略对系统性能提升的重要作用。同时，文章还展望了未来高性能计算领域在架构优化、算法创新和自动化优化工具方面的发展方向。

原创 2025-07-09 13:19:18 · 3 阅读 · 0 评论
26、内存中 HDF5 文件的单边传输数据重分配及英特尔 SCC 的轻量级 MPI 实现

本文探讨了内存中 HDF5 文件的单边传输数据重分配策略以及英特尔 SCC 的轻量级 MPI 实现 RCKMPI。针对 HDF5 数据传输，分析了不同重分配方法在不同系统架构下的性能表现，指出合理选择块大小和策略可以显著提高写入效率。对于英特尔 SCC，RCKMPI 利用 MPB 和共享内存结合的方式，根据消息大小动态选择最优缓冲区类型，实现了高效的通信机制。文章还总结了影响传输性能的关键因素，并展望了未来可能的研究方向。

原创 2025-07-08 12:34:35 · 1 阅读 · 0 评论
25、全对全通信中的节能策略与内存HDF5文件的数据重分配

本文探讨了高性能计算中的两种关键技术策略：全对全通信中的节能方法与内存HDF5文件的数据重分配优化。通过在MVAPICH2中实现CPU节流和DVFS，可在不影响性能的前提下实现显著节能；同时，针对HDF5 IO性能，提出了掩码、块循环和随机块重分配策略，以提高分布式共享内存环境下的数据传输效率。文章还分析了不同策略的适用场景，并展望了未来发展方向。

原创 2025-07-07 14:34:54 · 1 阅读 · 0 评论
24、高性能计算中的跟踪分析与全对全通信节能策略

本文探讨了高性能计算中针对PFLOTRAN应用的跟踪分析与MPI通信器管理优化，以及全对全通信中的节能策略。重点介绍了Scalasca在通信器管理方面的改进，使得大规模进程的跟踪分析成为可能，并详细分析了不同算法（Bruck Index、Pairwise Exchange、STRF）在全对全通信中的节能方法。实验结果表明，提出的节能策略在显著降低功耗的同时，性能损失控制在可接受范围内，并已在实际应用和基准测试中验证了其有效性。

原创 2025-07-06 11:24:08 · 0 阅读 · 0 评论
23、可扩展性能工具：MPI通信器管理

本文介绍了Scalasca性能分析工具中MPI通信器管理的改进方案。针对大规模并行应用程序（如PFLOTRAN）在使用Scalasca进行性能分析时出现的可扩展性问题，提出了分布式通信器跟踪、通信器表示优化和排名转换优化等改进措施。新方案显著降低了存储和处理时间的开销，提高了大规模并行应用的性能分析效率。

原创 2025-07-05 10:12:31 · 1 阅读 · 0 评论
22、最小数据并行排序：MPI Comm split 的高效解决方案

本文探讨了在分布式内存超级计算机上实现高效 MPI Comm split 所需的最小数据并行排序问题。针对每个进程仅持有一个数据项的极端情况，提出了三种新颖的并行排序算法：一种线性资源复杂度的算法，一种内存复杂度为 O(1) 的环形算法，以及一种可扩展算法，其时间复杂度为 O(log² p) 且内存复杂度为 O(1)。实验结果显示，这些算法在大规模并行系统上具有优异的性能和可扩展性，尤其是在超过 100,000 个进程时，可扩展算法比现有实现快 92.2 倍，内存效率提高百万倍。

原创 2025-07-04 15:36:28 · 1 阅读 · 0 评论
21、高性能计算集群通信分析与并行排序算法研究

本文研究了高性能计算集群的通信特性，并探讨了并行排序算法的优化方法。通过网络测试2工具包，详细分析了集群通信的延迟与带宽，利用MPI标准进行数据传输测试，并提供了测试结果的可视化与聚类分析方法。此外，文章介绍了适用于极端情况的低内存消耗并行排序算法，为特定应用场景提供了高效的解决方案。研究结果对系统管理、程序开发及集群性能优化具有重要参考价值。

原创 2025-07-03 11:06:55 · 25 阅读 · 0 评论
20、MPI派生数据类型性能期望与集群互连分析

本文探讨了MPI派生数据类型的性能期望及其对不同MPI库的影响，分析了数据类型构造和归一化对通信性能的重要性，并通过一系列基准测试展示了不同MPI实现的性能差异。同时，介绍了一个用于集群互连分析的工具Network Tests2，该工具可揭示集群拓扑结构、定位延迟问题节点，并提供可视化分析功能。文章还提供了关于如何优化MPI派生数据类型使用和利用Network Tests2进行集群通信环境分析的操作建议，旨在帮助用户提升并行应用程序的性能与可靠性。

原创 2025-07-02 11:57:47 · 1 阅读 · 0 评论
19、可扩展MPI内存使用与派生数据类型性能指南

本博文围绕消息传递接口（MPI）的两个重要方面展开，分别是可扩展内存使用和派生数据类型的性能。首先，通过MPICH2案例研究探讨了如何优化MPI内存使用，包括改进虚拟通道管理、引入LPID映射和延迟实例化等方法，并通过实验验证了这些方法的有效性。其次，针对MPI派生数据类型的性能问题，提出了自洽性能指南，明确了构造函数的性能期望，并分析了当前实现中的不足和未来的研究方向。这些研究为提升MPI应用程序的性能和可移植性提供了指导。

原创 2025-07-01 13:58:11 · 2 阅读 · 0 评论
18、并行计算中MPI的内存使用与优化

本文探讨了MPI在大规模并行计算中的内存消耗问题，分析了MPICH2的内存使用情况，并提出了优化措施以提升其在百亿亿次级系统中的可扩展性。重点涉及虚拟连接、单边通信和MPI组的优化策略，并通过实验验证了优化效果，实现了显著的内存节省和性能稳定或提升。

原创 2025-06-30 11:19:42 · 1 阅读 · 0 评论
17、《pupyMPI - 纯Python实现的MPI》

本文介绍了pupyMPI，一个纯Python实现的MPI库，旨在提供可移植、易用且高效的并行计算解决方案。通过与传统MPI实现（如Open MPI和MPICH）的对比，展示了pupyMPI在可移植性和开发效率方面的优势，同时也讨论了其在性能方面的优化策略和潜在改进方向。文章还通过具体应用案例和流程图展示了pupyMPI的使用方式，并总结了其在并行计算领域的发展潜力。

原创 2025-06-29 09:22:47 · 0 阅读 · 0 评论
16、利用触发操作卸载会合消息

本文讨论了在基于MPI的应用中，利用Portals 4中的触发操作实现高效的会合协议，以优化大消息传输的性能。文章比较了几种主流的长消息传输协议，分析了它们在异步进度、带宽浪费和实现复杂度方面的优缺点，并重点介绍了触发会合协议的工作流程及其在网络接口上的实现方式。通过模拟和性能评估，触发会合协议在非阻塞接收与工作插入等场景下表现出显著优势，能够在不依赖主机级线程或急切发送长消息的情况下实现计算与通信的有效重叠，提高整体网络传输效率。

原创 2025-06-28 12:21:06 · 1 阅读 · 0 评论
15、基于uGNI的Cray XE MPICH2 Nemesis网络模块解析

本文深入解析了基于uGNI的Cray XE MPICH2 Nemesis网络模块，探讨了其底层架构、通信机制及性能优化策略。详细分析了GNI的分层设计、SMSG和MSGQ消息传递方法，以及Nemesis通道的实现特点。文章还介绍了uGNI Netmod的初始化流程、消息路径选择、内存管理和网络容错机制，并结合实际性能测试结果，总结了优化建议和适用场景。最后，与其他网络模块进行了对比，展望了uGNI Netmod的未来发展趋势。

原创 2025-06-27 15:32:27 · 1 阅读 · 0 评论
14、优化MPI单边通信：共享内存支持窗口与Cray XE网络模块的应用

本文探讨了两种优化MPI单边通信的方案。一是利用共享内存支持的窗口实现节点内单边通信，通过优化窗口创建、通信和同步机制，显著降低延迟并提高带宽；二是为Cray XE系统设计的MPICH2 uGNI网络模块，结合Gemini网络的先进特性，提升MPI通信性能。实验结果显示，这两种优化方案在多核集群和Cray XE系统上均表现出显著的性能优势，为并行计算应用提供了更高效的通信解决方案。

原创 2025-06-26 11:43:26 · 1 阅读 · 0 评论
13、非阻塞集体 I/O 操作与 MPI 单边通信优化

本文探讨了非阻塞集体I/O操作和MPI单边通信优化在并行计算中的应用与改进。通过实验和实际应用测试，分析了非阻塞I/O操作与计算重叠的潜力及其面临的挑战，并提出了相应的解决思路。同时，研究了基于共享内存支持的节点内MPI单边通信设计，展示了其在性能上的显著提升，并讨论了进一步优化的方向，如兼容性改进和性能稳定性增强。最后，总结了这些技术在减少I/O瓶颈和通信开销方面的意义，并展望了未来的研究方向。

原创 2025-06-25 14:50:26 · 2 阅读 · 0 评论
12、非阻塞集体 I/O 操作的设计与评估

本文探讨了在大规模并行应用中实现非阻塞集体I/O操作的设计与挑战。通过基于libNBC库的实现，并在PVFS2文件系统上进行性能评估，研究了动态分割算法与传统两阶段I/O算法的差异及其优势。同时分析了非阻塞操作在数据密集型计算中的重要性，以及其在调度缓存、临时缓冲区管理和多句柄处理中的挑战。最后，文章展望了非阻塞集体I/O操作的未来发展方向，包括算法优化、缓存功能增强和应用场景拓展等。

原创 2025-06-24 13:27:52 · 1 阅读 · 0 评论
11、OMPIO：用于MPI I/O的模块化软件架构

本文介绍了OMPIO，一种用于MPI I/O的模块化软件架构，旨在解决大规模并行应用中的I/O性能瓶颈。通过将并行I/O功能分解为多个子框架和模块，OMPIO能够根据不同的硬件配置、应用程序特性和文件系统动态选择最佳的I/O策略，从而显著提升I/O性能。文章详细阐述了OMPIO的框架设计、模块选择逻辑以及其相较于传统实现（如ROMIO）的优势，并通过实验验证了OMPIO在不同平台和应用场景下的性能提升。此外，还探讨了OMPIO与Open MPI组件的集成能力以及其未来的发展方向。

原创 2025-06-23 14:25:25 · 1 阅读 · 0 评论
10、提升集体 I/O 平均响应时间的策略与实践

本文探讨了在高性能计算环境中优化集体I/O操作的方法，重点介绍了三种调度算法：Most Degree First (MDF)、Locally Weighted MDF (LW-MDF) 和 Globally Weighted MDF (GW-MDF)。这些算法利用文件条带的访问程度和进程在I/O聚合器上的请求计数，以减少平均响应时间，从而提高计算资源的利用率。通过在不同工作负载和实际应用中的性能评估，结果显示这些算法在多种数据访问模式下均能显著提升性能。未来的研究方向包括将这些方法应用于读操作，并为不同的并

原创 2025-06-22 16:49:37 · 2 阅读 · 0 评论
9、可扩展节点分配与集体 I/O 响应时间优化

本文探讨了高性能计算领域中的两个关键问题：可扩展节点分配和集体I/O响应时间优化。在节点分配部分，重点分析了最优放置的挑战和权衡，并提出了一种基于基本构建块（BBB）的排序方法，通过实际应用测试验证了其有效性。在集体I/O优化部分，讨论了现有调度策略的问题，并提出了三种改进算法（MDF、LW-MDF、GW-MDF），实验表明这些算法显著降低了平均响应时间。未来研究方向包括奇数维度的块大小选择、节点排序与秩重排序结合等。

原创 2025-06-21 15:35:04 · 1 阅读 · 0 评论
8、提升规则和各向异性 3D 环形超级计算机性能的可扩展节点分配

本博文探讨了在多核节点和多级InfiniBand网络环境下，如何通过改进MPI拓扑函数和节点分配策略来提升大规模并行应用的性能。研究重点包括通信模式分析、拓扑感知映射、节点排序策略（如最小维度优先排序和增加二分带宽排序），以及针对大规模3D环形超级计算机设计的新排序方法。通过实际应用测试验证，新的节点分配策略显著提升了MPI应用的运行效率，并在不同规模的作业之间实现了性能平衡。

原创 2025-06-20 14:09:08 · 1 阅读 · 0 评论
7、多核与网络感知的 MPI 拓扑函数

本文提出了一种多核与网络感知的消息传递接口（MPI）拓扑函数设计与实现方法，旨在优化高性能计算（HPC）应用在层次化集群环境下的通信性能。通过引入加权图支持、集成节点架构和网络架构信息，并利用图嵌入工具将虚拟拓扑映射到物理拓扑上，实现了高效的进程重排序和通信优化。实验结果表明，该方法在不同规模的InfiniBand集群上均能显著提升通信性能和应用执行时间。未来的研究方向包括分布式拓扑函数、动态进程重映射以及更复杂的网络模型的优化。

原创 2025-06-19 13:05:44 · 1 阅读 · 0 评论
6、提升多核集群上 MPI 应用程序性能

本文介绍了一种通过优化进程排序和映射来提升多核集群上 MPI 应用程序性能的方法。该方法结合硬件拓扑信息和应用程序的通信模式，使用 TreeMatch 算法解决图嵌入问题，以最小化通信成本。通过多个实验验证，该方法在不同应用场景下均能有效减少通信开销，提升整体性能。同时，文章还分析了相关技术细节、性能提升原理及未来研究方向。

原创 2025-06-18 09:30:09 · 0 阅读 · 0 评论
5、使用 MPI 派生数据类型和进程排名重排序提升 MPI 应用性能

本文探讨了如何通过 MPI 派生数据类型和进程排名重排序技术提升 MPI 应用的性能。首先介绍了 MPI 派生数据类型在矩阵操作中的应用，包括矩阵转换方法和实验结果，展示了其相较于手动实现的优势。随后分析了多核集群环境下通信模式与硬件架构匹配的重要性，并详细介绍了核心绑定和排名重排序两种技术的优缺点。最后，通过 MPI Dist graph create 函数的具体实现和性能分析，总结了这两种技术在实际应用中的优化效果，并给出了实际应用建议。

原创 2025-06-17 13:43:16 · 1 阅读 · 0 评论
4、并行计算中的事件聚合与MPI派生数据类型应用

本博文探讨了并行计算中的两个重要主题：顺序保持事件聚合算法及其在Tree-Based Overlay Networks (TBONs)中的应用，以及MPI派生数据类型在分布式数值库中的高效使用。针对事件聚合问题，提出了一种基于通道ID的扩展算法，解决了原有方法的可扩展性限制，并通过性能测试验证了其在大规模系统上的有效性。同时，深入分析了MPI派生数据类型机制在分布式矩阵操作中的应用，包括列向矩阵的收集/散射、矩阵转置以及元素循环分布矩阵的处理，展示了其在性能和开发效率上的优势，并指出了当前MPI标准在集体接

原创 2025-06-16 13:43:56 · 1 阅读 · 0 评论
3、高性能计算中进程分组与事件聚合算法研究

本文探讨了高性能计算中两种关键算法：广义MPI Comm split的Exascale算法和TBON中的顺序保留事件聚合算法。Exascale算法通过Hash、Hash64和Bitonic排序实现高效的进程分组，显著降低了内存和时间复杂度；顺序保留事件聚合算法则解决了TBON中事件聚合时的顺序保留问题，提高了运行时工具的可扩展性和准确性。文章还分析了这些算法在科学计算模拟和大数据处理等实际场景中的应用，并展望了未来优化方向，如哈希函数改进、网络拓扑优化及与人工智能技术的结合。

原创 2025-06-15 10:42:14 · 0 阅读 · 0 评论

探索并行计算的新时代：MPI的进展与挑战

作者: wasm7browser

42、利用 MPI 编写并行库：实践、问题与扩展

41、并行计算中MPI相关技术的创新与性能提升

40、MPI 通信与容错技术解析

39、高性能计算中MPI通信的优化与实现

38、利用C++元编程简化MPI编程模型及实现可移植可扩展的MPI共享文件指针

37、开放 MPI 中解释型语言评估与 C++ 元编程简化消息传递编程模型

36、高性能计算中MPI通信器创建与解释型语言的评估

35、MPI中非集体式通信器创建的研究与实践

34、libhashckpt：基于哈希的GPU增量检查点技术

33、工业地震处理应用中的容错技术与增量检查点方案

32、容错MPI的对数缩放容错协议算法

31、内核辅助MPI通信对科学应用的影响及容错协议研究

30、注入带宽性能对应用程序可扩展性及内核辅助 MPI 通信的影响

29、并行流体求解器与网络注入带宽对应用可扩展性的研究

28、混合OpenMP - MPI湍流边界层代码及CAF与MPI在流求解器中的应用

27、高性能计算中的通信与并行编程优化

26、内存中 HDF5 文件的单边传输数据重分配及英特尔 SCC 的轻量级 MPI 实现

25、全对全通信中的节能策略与内存HDF5文件的数据重分配

24、高性能计算中的跟踪分析与全对全通信节能策略

23、可扩展性能工具：MPI通信器管理

22、最小数据并行排序：MPI Comm split 的高效解决方案

21、高性能计算集群通信分析与并行排序算法研究

20、MPI派生数据类型性能期望与集群互连分析

19、可扩展MPI内存使用与派生数据类型性能指南

18、并行计算中MPI的内存使用与优化

17、《pupyMPI - 纯Python实现的MPI》

16、利用触发操作卸载会合消息

15、基于uGNI的Cray XE MPICH2 Nemesis网络模块解析

14、优化MPI单边通信：共享内存支持窗口与Cray XE网络模块的应用

13、非阻塞集体 I/O 操作与 MPI 单边通信优化

12、非阻塞集体 I/O 操作的设计与评估

11、OMPIO：用于MPI I/O的模块化软件架构

10、提升集体 I/O 平均响应时间的策略与实践

9、可扩展节点分配与集体 I/O 响应时间优化

8、提升规则和各向异性 3D 环形超级计算机性能的可扩展节点分配

7、多核与网络感知的 MPI 拓扑函数

6、提升多核集群上 MPI 应用程序性能

5、使用 MPI 派生数据类型和进程排名重排序提升 MPI 应用性能

4、并行计算中的事件聚合与MPI派生数据类型应用

3、高性能计算中进程分组与事件聚合算法研究