- 博客(719)
- 资源 (28)
- 收藏
- 关注
原创 cutlass v2.0.0 简介 01 -- 编译,测试,简单分析源码
因为 cutlass 2.0.0 版本相对简单一些,这里先分析 这个版本。
2025-07-03 18:57:24
532
原创 快速傅里叶变换 FFT
这次使用化简友好的书写格式,DFT 的定义式为:其中:(旋转因子,Twiddle Factor)直接计算 DFT 需要次复数乘法和加法,计算量较大。FFT 步骤操作1. 分治分解 将 N-点 DFT 分解为 2 个 N/2-点 DFT(奇偶分离)2. 递归计算 对更小的 DFT 继续分解,直到 N = 13. 对称合并 利用减少计算量4. 最终结果 通过逐层合并,得到完整的 DFT 频谱FFT 的优势计算复杂度从降到,适用于实时信号处理。
2025-06-30 16:28:41
795
原创 DFT 离散傅立叶变换的分析
虽然上一篇写过了,为了方便阅读,这里再次给出 DFT 的定义:对于长度为 N 的离散序列,其DFT定义为:其中:是频域中的第 k 个频率分量。是正交基函数,表示离散频率的复指数。逆离散傅立叶变换(IDFT)为:这里的index k 和 n 沿用了信号处理中的符号传统。的角色:在DFT中通常隐含归一化(),但实际物理系统中需通过还原频率单位。频率覆盖范围:DFT 的频率范围是,但由于周期性,通常仅显示(避免混叠)。归一化角频率覆盖 0 到。
2025-06-30 15:16:24
383
原创 从傅立叶级数到傅里叶变换和离散傅里叶变换及其逆变换:FS FT DFT IDFT
通过数学分析的学习,我们都知道,宽至满足 Dirichlet 条件的周期函数,都可以分解展开成为傅里叶级数FS;通过欧拉公式和其推导,可以将 FS 扩展为 傅里叶变换 FT。但是,教材可能不会主动讲解可以FS的函数,与可以FT 的函数之间的区别。通过离散傅里叶变换(DFT)及其逆变换(IDFT)定义和实例,可以更好地体会其公式中各个参数的细节和意义。离散傅里叶变换(DFT)对于长度为 N 的离散序列(其中),其逆离散傅里叶变换(IDFT)对于 DFT 结果,其。
2025-06-28 21:36:19
917
1
原创 Ubuntu 下降 Linux Kernel 的版本备忘
此处以 ubuntu 22.04 为示例系统,来降低其 Linux kernel 的版本。
2025-06-26 18:13:28
486
原创 从 RSA 公钥体系原理 引出量子计算
RSA(Rivest-Shamir-Adleman)是一种非对称加密算法,使用公钥加密、私钥解密,或者私钥签名、公钥验签。预计算攻击(Precomputation Attack),即预先计算大量大整数的质因数分解并存储,然后在破解 RSA 时直接查询。2048-bit RSA:n 是 2048 位(约 617 位十进制数),p 和 q 各约 1024 位。4096-bit RSA:n 是 4096 位,p 和 q 各约 2048 位。2048-bit RSA(推荐),4096-bit(更高安全需求)。
2025-06-26 17:17:17
854
原创 量子隐形传态(Quantum Teleportation)协议中整个过程需要操作几遍?
在 Alice 和 Bob 的量子隐形传态过程中,2nd 和 3rd 粒子先量子纠缠,将 2nd 粒子发给 Alice,将 3rd 粒子发给 Bob。Alice 处,1st 和 2nd 粒子再发生量子纠缠,产生纠缠交换。然后 Alice 测量 1st 和 2nd 的纠缠态,并通过经典信道将测量结果传送给 Bob。最后,Bob 测量 3rd 粒子的量子态。结合 1st 和 2nd 粒子的纠缠态,可以推得 1st 粒子最初的量子态。
2025-06-25 17:59:11
316
原创 MPI 进程同步最佳实践
MPI 提供了多种同步方式,主要分为:显式同步(如 MPI_Barrier)隐式同步(如 MPI_Send/MPI_Recv 的阻塞通信)集合通信(如 MPI_Bcast, MPI_Reduce)
2025-06-24 15:57:11
433
原创 第八章 目录一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
目录协议的核心创新在于建立一个目录,用于维护每个块的一致性状态的全局视图。目录跟踪哪些缓存持有每个块以及块的状态。想要发出一致性请求(如 GetS)的缓存控制器会将请求直接发送到目录(即单播消息),目录查询块的状态以确定后续操作。例如,目录状态可能表明请求的块由核心 C2 的缓存拥有,因此请求应转发给 C2(如使用新的 Fwd-GetS 请求)以获取块的副本。当 C2 的缓存控制器收到转发请求时,会向请求缓存控制器单播响应。对比目录协议和窥探协议的基本操作具有启发性。
2025-06-22 20:45:37
666
原创 从内网其他机器复制 docker image
在内网中,将 docker 镜像从一个机器拷贝到另一个机器,需要三个步骤:先导出保存为tar文件,然后使用scp 传输,最后在目标机上导入,具体如下。
2025-06-19 10:26:21
179
原创 python 的 c 语言扩展 入门小示例
Python扩展模块可以看作是一个用C或C++编写的动态链接库(DLL)或共享对象(SO),它实现了一些Python对象和函数,这些对象和函数可以在Python程序中像其他Python对象和函数一样使用。如果精通 C 语言编程,那么向 Python 添加新的内置模块是相当容易的。,以及。本文给一个简单示例,调用了 libc 库函数中的两个数学函数:sin,cos。为了支持扩展,Python API(应用程序编程接口)定义了一组函数、宏和变量,这些接口提供了对 Python 运行时系统大部分功能的访问。
2025-06-17 12:47:39
891
原创 从源码安装 python 3.12 步骤
建议通过 update-alternatives 管理多版本,而非直接替换系统 Python。确保使用 sudo 或指定用户可写的 --prefix(如 $HOME/.local)。安装依赖时遗漏 libffi-dev,重新安装后重新编译。(或者将 3.12.0 替换为自己需要的版本号):生成共享库(.so 文件,供其他程序链接)。如果安装了多个 python,可以选择当前版本。=install:包含 pip 工具。:启用优化(会延长编译时间)。
2025-06-16 15:53:42
496
原创 apt 国内源 ubuntu 24.0x ,22.04,20.04 备忘
【代码】apt 国内源 ubuntu 24.0x ,22.04,20.04 备忘。
2025-06-13 12:42:07
171
原创 第七章 监听一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
监听协议基于一个核心思想:所有一致性控制器以相同顺序 “监听”(snoop)一致性请求,并协同 “执行正确操作” 以维护一致性。通过要求发往同一缓存块的请求按顺序到达,监听系统使分布式一致性控制器能够正确更新代表缓存块状态的有限状态机。传统监听协议将请求广播到所有一致性控制器(包括发起请求的控制器),请求通常通过有序广播网络(如总线)传输。有序广播确保所有控制器以相同顺序观察到一系列请求,即请求具有全局顺序。由于全局顺序涵盖了每个块的顺序,这保证了所有控制器能正确更新缓存块状态。
2025-06-07 18:58:10
968
原创 第六章 缓存一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
如 6.1 节所述,一致性协议设计者必须为系统中每种类型的一致性控制器选择状态、事务、事件和状态转移逻辑。稳定状态的选择在很大程度上与协议的其他部分无关。例如,存在监听(snooping)和目录(directory)两类不同的一致性协议,架构师可以使用相同的稳定状态集合设计监听协议或目录协议。我们将在 6.4.1 节独立于具体协议讨论稳定状态。类似地,事务的选择也基本独立于特定协议,相关内容在 6.4.2 节讨论。
2025-06-03 13:34:09
1073
原创 业界宽松内存模型的不统一而导致的软件问题, gcc, linux kernel, JVM
而且,验证工具需配置不同的内存模型参数。综上,内存模型的分裂导致开发者必须在性能、正确性和可移植性之间做出艰难权衡,而统一的标准化的内存模型(如 RISC-V 的 WMO 或 C++ 的内存模型)是减少这类问题的关键。难点2,内存屏障下降时的指令选择上,std::memory_order_seq_cst 在 x86 可能仅需 MFENCE,而在 ARM 上需要 DMB SY。具体来说,例如,在x86上可以安全删除冗余的LOAD指令(因TSO保证),但在ARM上做同样的删除就有可能导致读取到陈旧数据。
2025-05-31 17:53:34
1182
原创 第五章 宽松内存一致性模型 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
此处我们采用与前两章一致的符号和方法形式化定义 XC。仍用 L (a) 和 S (a) 分别表示对地址 a 的加载和存储操作,顺序 < p 和 < m 分别定义单处理器程序顺序和全局内存顺序。程序顺序 < p 是单处理器全序,描述每个核心逻辑上(顺序)执行内存操作的顺序;全局内存顺序 < m 是所有核心内存操作的全序。
2025-05-28 18:14:08
1030
原创 第四章 总存储序与 x86 内存模型 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
TSO 执行需满足以下条件:程序顺序约束所有核心必须按程序顺序<p将其加载和存储操作插入全局内存顺序<m中,无论操作是否针对同一地址(即 a==b 或 a≠b)。若 L (a) <p L (b),则 L (a) <m L (b) /* 加载→加载 */若 L (a) <p S (b),则 L (a) <m S (b) /* 加载→存储 */若 S (a) <p S (b),则 S (a) <m S (b) /* 存储→存储 */
2025-05-22 10:09:52
725
原创 gcc 源码目录文件夹功能简介
将 libstdc++.so 和头文件安装到系统目录(如 /usr/lib/ 和 /usr/include/c++/)。)的实现,它是 GCC 的一部分,负责提供 C++ 标准(如 C++11/14/17/20/23)的核心功能(如。bits/:标准库的核心实现(如 std::vector、std::string 的具体实现)。c++20/:C++20 新特性的实现(如 std::format, std::span)。c++17/:C++17 新特性的实现(如 std::filesystem)。
2025-05-17 15:08:28
1004
原创 scons user 3.1.2
SCons 是一款下一代软件构建工具,或者称为 make 工具,即一种用于构建软件(或其他文件)并在底层输入文件发生更改时使已构建的软件保持最新状态的软件实用程序。SCons 最显著的特点是其配置文件实际上是用 Python 编程语言编写的脚本。这与大多数其他构建工具形成鲜明对比,后者通常会发明一种新语言来配置构建过程。当然,学习 SCons 仍然需要一定的过程,因为您必须知道调用哪些函数才能正确设置构建过程,但对于任何看过 Python 脚本的人来说,所使用的底层语法应该是熟悉的。
2025-05-14 19:56:05
717
原创 MacOS 上构建 gem5
MacOS 中只存在 python3,但是scons 只认 python,不在 系统中创建 软连接,一个是因为比较难操作;另一个是尽量不要更改系统。
2025-05-12 14:00:10
415
原创 第三章:内存一致性的动机与顺序一致性 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
上一小节中的示例说明了共享内存行为很微妙,这凸显了精确定义以下两点的重要性:(a) 程序员可以期望的行为;(b) 系统实现者可以使用的优化。内存一致性模型消除了这些问题的歧义。内存一致性模型,或更简单地说,内存模型,是对使用共享内存执行的多线程程序的允许行为的规范。对于使用特定输入数据执行的多线程程序,它指定了动态加载操作可能返回的值。与单线程执行不同,多线程执行通常允许多种正确的行为。
2025-05-09 01:53:08
919
原创 全文 AMD GPGPU 通信问题 - Understanding Data Movement in AMD Multi-GPU Systems with Infinity Fabric
现代 GPU 系统在不断发展,以满足科学和机器学习领域中计算密集型应用的需求。然而,硬件性能与实际应用中可实现的性能之间通常存在差距。这项工作旨在更深入地了解 AMD GPU 和 CPU 上的 Infinity Fabric 互连技术。我们提出了一种测试和评估方法,用于描述多 GPU 系统上数据传输的性能,重点研究 AMD MI250X GPU 上的不同通信方式,包括点对点通信和集合通信,以及 GPU 之间和主机 CPU 的内存分配策略。
2025-05-05 01:47:31
1128
原创 学习方法讨论——正论科举精神的内核
世界不存在绝对的善,也不存在绝对的恶,可以尝试举例;再者,物极必反,当对一个事情的批判一面倒的否定之时,可能需要开始思考它正面的部分。
2025-05-04 18:33:11
886
3
原创 第二章:一致性基础 A Primer on Memory Consistency and Cache Coherence - 2nd Edition
我们偏好的一致性定义是从实现的角度来定义它的 —— 指定了关于不同核心对内存位置的访问权限以及核心之间传递的数据值的硬件强制不变量。还存在另一类从程序员的角度来定义一致性的定义,类似于内存一致性模型如何指定从体系结构上可见的加载和存储操作的顺序。一种类似一致性的指定一致性的方法与顺序一致性的定义相关。顺序一致性(SC)是我们将在第 3 章深入讨论的一种内存一致性模型,它规定系统必须以一种尊重每个线程的程序顺序的全序方式来执行所有线程对所有内存位置的加载和存储操作。
2025-05-03 20:33:05
1044
原创 第一章:A Primer on Memory Consistency and Cache Coherence - 2nd Edition
这本入门读物的第二版与近十年前(2011 年)出版的第一版有所不同,主要是新增了两章内容,并且做了一些小的改动。新增的第 10 章讨论了非 CPU 加速器方面的前沿研究成果,主要是通用图形处理器(GPU),这类加速器通常将一致性和缓存一致性结合起来实现。新增的第 11 章介绍了自这本入门读物第一版发行以来在一致性和缓存一致性方面取得重大进展的形式化研究工作和工具。其他改动相对较小,包括以下内容:第 2 章扩展了缓存一致性的定义,纳入了与第 10 章中类似 GPU 的解决方案;
2025-05-02 21:19:03
1036
原创 build gem5 gpu full system disk and linux kernel
【代码】build gem5 gpu full system disk and linux kernel。
2025-04-26 01:57:21
189
原创 apt 源证书验证不过 Certificate verification failed: The certificate is NOT trusted. The certificate issuer
ubuntu 22.04 apt 源切到国内时,执行 apt-get update 报错:Certificate verification failed: The certificate is NOT trusted. The certificate issuer is unknown. Could not handshake: Error in the certificate verification.先切回原先的 apt 源,更新证书:再切到国内的 apt 源
2025-04-25 11:59:56
392
原创 cmake 语法大纲
缓存变量,$CACHE{var} ${var}include 命令来引用 模块文件。环境变量,$ENV{var}cmake 预制模块;普通变量,${var}cmake 程序由命令调用构成;
2025-04-18 19:15:00
155
原创 第5章,将 Toy IR 程序部分地下降到更低层的 dialect 以便优化
转换目标 dialect转换的模式部分地降低部分下降的注意事项完成 Toy 示例利用 Affine dialect 的优化到了当前这个阶段,我们热切期待生成实际的代码,看到我们的 Toy 编程语言变得生动,我们将使用 LLVM 生成代码,但是,如果这里仅仅展示 LLVM builder interface并不会非常令人兴奋。取而代之的是,我们将会通过在同一个函数中共存混合的 dialect,以便展示怎么去逐步地让程序下降。
2025-04-11 16:01:00
795
NS基础与安装---NS2 是一款开放源代码的网络仿真软件
2008-11-05
bootia32.efi
2018-04-07
tbb2017_20170226oss_win.zip
2017-03-22
chisel官方教程20201010版本.7z
2020-10-11
带几何解释的线性代数讲义
2020-12-02
英中双语版_flex与bison_pdf.7z
2020-11-03
Digital Design With Chisel_20201010edition.7z
2020-10-11
llvm_cookb_LLVM_IR骨架语法领进门资料.7z
2021-04-25
python27_d.lib python27_d.dll python27_d.pdb
2017-09-13
FIRRTL_spec_2020Oct_EditionPDF.7z
2020-10-19
Downloads.zip
2020-07-21
ACPI spec 4.0 and 3.0
2024-08-24
bash-shell matrix-computations llvm-cook loader-linker sparse-ma
2024-01-23
Linux kernel 高并发开发
2024-01-14
mpi学习教程等-都志辉-配合下文https环境搭建
2023-12-29
代数多重网格理论资料 AMG AMGX原理
2023-09-28
opencl 学习资源pdf and source code
2023-05-22
常用数值算法集C语言与 Numerical Methods Using Matlab 4th Ed Mathews
2023-04-12
比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程,和他与合作者在 2002年 SIGGRAPH ppt
2022-09-17
LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi
2022-05-06
SSA_LLVMCookBook_DirectMethodSparseLinearSystem
2022-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人