自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mounter625的专栏

Linux kernel development, including RDMA, Linux memory management and network.

  • 博客(899)
  • 资源 (83)
  • 收藏
  • 关注

原创 【内核前沿】Linux IPC 迎来大变局?POSIX 消息队列增强、io_uring IPC 与 Bus1 十年回归

Linux内核IPC机制迎来重大革新:POSIX消息队列将支持MQ_PEEK查看功能,io_uring计划跨界IPC领域提供高性能解决方案,而沉寂十年的bus1项目以Rust形式重生。这三项提案各具特色:mq_timedreceive2系统调用为实时系统带来更灵活的消息处理能力;io_uring凭借环形缓冲区架构瞄准高带宽IPC场景;Rust重构的bus1则通过所有权模型解决了当年困扰开发者的内存安全问题。这些演进既体现了Linux对性能极致的追求,也展现了向现代化、安全性迈进的决心,为不同应用场景提供了多

2026-04-20 09:46:21 317

原创 深入理解 KASAN:Linux 内核内存卫士的前世今生与未来

Linux内核中的KASAN(Kernel Address Sanitizer)是一种高效的内存错误检测工具,源于用户态的ASan技术。它通过影子内存和编译插桩机制,能够快速发现越界访问、释放后使用等常见内存错误,极大降低了调试难度。KASAN自2015年随Linux 4.0合入主线后,已支持x86_64、ARM64等多种架构,并朝着硬件协同、采样检测等方向发展。作为内核安全的重要防线,KASAN显著提升了Linux内核的开发效率和质量保障水平。

2026-04-20 07:27:23 461

原创 深度解析:Linux 内核为何要移除“直接映射” (Direct Map)?

Linux内核正逐步移除直接映射(DirectMap)功能,这是内存安全管理的重要变革。直接映射虽提升了内核访问物理内存的效率,却成为安全漏洞的温床,特别是Meltdown/Spectre等侧信道攻击可借此获取敏感数据。内核社区通过KPTI隔离、memfd_secret隐私保护、guest_memfd虚拟机隔离等方案重构内存架构,在性能与安全间寻求平衡。这一变革标志着Linux内核从"万能钥匙"模式转向更精细的权限管控,是应对现代安全威胁的关键举措,相关进展将在LSFMM+BPF峰会上深

2026-04-17 13:54:13 220

原创 深度拦截:Linux 内核引入 Firmware LSM 挂钩,eBPF 再下一城!

Linux内核社区提出"FirmwareLSMhook"补丁,通过eBPF技术为固件命令提供安全验证。该方案在命令提交硬件前插入钩子,解决传统LSM无法获取具体命令内容的痛点。补丁支持多设备类型识别,利用eBPF灵活性适应不同固件格式。社区讨论聚焦架构设计,涉及是否应作为通用LSM接口等问题。这一创新将Linux安全防护延伸到硬件交互层,虽实现细节存在分歧,但提升固件命令安全性的方向获得广泛认同。

2026-04-17 13:20:32 343

原创 【开源风云】LLM 生成的代码能进内核吗?OpenBSD 拒绝 ext4 补丁引发的版权大讨论

摘要:OpenBSD社区近日因AI生成代码引发争议。开发者Thomas deGrivel提交了一份由ChatGPT和Claude-code生成的ext4文件系统驱动补丁,声称仅用20小时就完成了本需20年的工作。这引发了关于AI代码版权归属(GPL污染风险)、维护隐患(开发者是否理解代码)和法律风险的激烈讨论。OpenBSD创始人Theo de Raadt明确拒绝接受版权不明的AI代码。最终开发者撤回补丁,但暴露出AI时代开源项目面临的法律与技术挑战。事件凸显了在版权法规滞后于技术发展时,保守态度对保护开源

2026-04-15 13:14:12 324

原创 【深度解析】Device Memory TCP:开启高性能网络传输的“零拷贝”新时代

《DeviceMemoryTCP:实现零拷贝网络传输的内核革新》摘要:传统网络数据传输需经主机内存中转,造成带宽浪费和GPU/TPU利用率低下。MinaAlmasry提交的Linux内核补丁通过三大创新实现NIC与设备内存直连:1)硬件支持报头/载荷分离处理;2)设备内存伪装为struct page兼容网络栈;3)处理不可读数据分片。该方案已达96.6%线速性能,未来将通过Netlink接口优化、分布式训练支持和完善安全模型进一步突破。这标志着Linux内核为应对AI时代海量数据传输挑战的重要进化。

2026-04-15 13:00:08 641

原创 AI 审查补丁引发“内核级”拉锯战:Linux 内存管理社区为何吵翻了天?

摘要:Linux内核社区就AI审查工具Sashiko的应用爆发激烈争论。内存管理维护者Andrew Morton提议强制要求开发者回应Sashiko的审查意见,引发多位维护者反对。支持方认为AI能有效捕捉bug(22/35案例验证),反对方则指出其存在环境兼容性差、误报率高(单条评论误报率极高)和消耗开发者精力等问题。工具开发者Roman Gushchin承认20%误报率,正优化系统集成。争议核心在于开源社区如何平衡AI审查效率与人工维护成本,以及是否接受机器作为"数字看门人"。这场辩论

2026-04-13 08:29:49 314

原创 【内核前沿】从 veth 到 netkit:深度解析 TCP devmem 穿透容器屏障的“队列租赁”黑科技

Linux内核补丁打通容器网络与硬件零拷贝通道 摘要:Linux内核社区最新提交的补丁集通过"队列租赁"机制,成功实现netkit虚拟设备对TCP devmem(设备内存)发送路径的支持。该方案允许容器内的netkit设备"租赁"底层物理网卡的硬件队列,并通过代理机制将DMA操作重定向到物理设备,解决了虚拟网卡无法直接访问GPU显存等设备内存的问题。测试显示,该方案在100G网卡上性能无损,使容器内的AI/HPC应用能像宿主机一样享受零拷贝网络加速,标志着Linux网

2026-04-13 07:32:24 556

原创 【内核前沿】BPF 革命:跨越“睡眠”与“原子”的鸿沟,KF_FORBID_FAULT 补丁详解

Linux内核BPF程序长期以来存在"身份难题":普通BPF程序运行在原子上下文但无法睡眠,而可睡眠BPF程序又难以获取内核锁。开发者Puranjay Mohan提出创新方案,通过引入KF_FORBID_FAULT标志位,让验证器能动态追踪指令流,实现上下文灵活切换。虽然该方案在task_vma迭代器案例中展现出优势,但遭到维护者质疑,认为其命名不直观且破坏了验证器通用性。Mohan转而采取分步策略:短期使用per-VMA锁方案,长期计划对内核锁类型进行深度重构。这展现了BPF向通用编程

2026-04-09 13:36:36 373

原创 【硬核前沿】CXL 深度解析:重塑数据中心架构的“高速公路”,Linux 内核如何应对挑战?-- CXL 协议详解与 LSF/MM 最新动态

摘要: CXL(Compute Express Link)是基于PCIe的高效互连协议,旨在解决CPU内存带宽不足问题,支持内存扩展、池化和缓存一致性。2019年推出后迅速发展为行业标准,2026年CXL 4.0商用,实现TB级带宽。当前生态成熟,硬件、网络和软件全面支持。在LSF/MM峰会上,CXL引发内核内存管理革新,包括私有内存节点、动态热插拔、固件兼容性及错误处理等议题。CXL正推动Linux内核重构传统内存架构,成为系统开发的必备技术。

2026-04-09 13:02:31 543

原创 【内核前线】AI 评审、本地化工作流与 API 规范化:Linux 内核开发工具链迎来大爆发!

Linux内核社区正迎来工具链现代化变革。AI代码评审系统Sashiko基于Gemini3.1Pro,能发现53%被人类漏掉的漏洞;b4review工具将复杂补丁评审本地化,简化邮件交互流程;Sasha Levin推动API规范化框架,通过扩展kernel-doc实现形式化约束检查。这些创新工具在保持内核开发传统的同时,显著提升了代码质量、评审效率和接口稳定性,标志着这个全球最大协作项目正积极拥抱AI与自动化技术。

2026-04-06 12:58:11 359

原创 【高性能网络】Devmem TCP 深度拆解:打破 100G 网络的“CPU 搬运墙”与延迟瓶颈

文章摘要: DevmemTCP通过dmabuf机制实现零拷贝,解决传统TCP协议栈在高带宽下的内存拷贝瓶颈。核心原理是将TCP报头与数据载荷分离,报头由内核处理,载荷直接写入设备内存(如GPU显存)。实测显示,在100Gbps网络中,DevmemTCP平均延迟降低26%,P99延迟减少74%,CPU负载显著优化。相比RDMA,DevmemTCP延迟略高(30-50μs),但兼容标准以太网,适合非极致低延迟场景。当前挑战包括硬件依赖(需支持HeaderSplit)、开发复杂性和内核版本要求(Linux 6.1

2026-04-06 11:14:34 501

原创 深度解析 Linux 内核 devlink:从硬件控制到跨功能速率调度的演进

摘要: devlink作为Linux内核与硬件间的"中间人",自2016年引入后已成为高性能网络驱动(如mlx5)的核心工具,支持硬件资源管理、健康监控等功能。随着智能网卡发展,传统单实例模式面临跨功能调度瓶颈,如锁定冲突和模型错位。最新补丁提出共享实例与嵌套锁定方案,通过跨实例节点关联和简化锁定逻辑(如移除递归锁),解决了多租户场景下的流量整形难题。社区讨论优化了安全性设计,使devlink向全局硬件编排演进,为数据中心提供更精细的硬件控制能力。

2026-04-03 08:35:57 551 1

原创 io_uring 迎来重大变革:BPF 程序正式进驻内核事件循环

Linux内核io_uring接口迎来重大更新,通过Pavel Begunkov提交的补丁集实现了BPF程序集成。新功能允许开发者在内核态通过BPF控制I/O流程,解决了传统链式操作无法处理复杂逻辑的痛点。该方案引入kfuncs实现内核事件循环控制,但引发社区对内核代码复杂化的担忧。与MingLei方案形成互补,最终被维护者Jens Axboe采纳,标志着Linux异步I/O进入可编程时代,为高性能应用带来显著提升。

2026-04-03 07:49:11 281

原创 【重磅】Linus 亲自操刀!Linux 7.0 合并 20,000 行补丁,统治 34 年的 kmalloc 终于变了!

特性传统 kmalloc7.0 新型 kmalloc_obj 系列类型检查❌ 无(void *)✅ 强类型安全内存大小计算🙋 程序员手动sizeof🤖 宏自动推导默认参数❌ 必须传GFP_KERNEL✅ 可省略,代码更简洁柔性数组支持😭 极其痛苦且易错😎 专属支持虽然这次改动让很多维护者面临“合代码合到吐”的窘境,但从长远来看,Linux 内核的安全性又上了一个台阶。

2026-03-30 12:12:43 171

原创 【内核高手进阶】RDMA 静态 dmabuf 铁血进化史:从争议到标准,打破异构计算壁垒

摘要: Linux内核RDMA子系统曾因强制要求ODP(按需分页)支持而限制GPU与网卡的P2P数据传输,仅NVIDIA/Mellanox设备可用。Amazon开发者Gal Pressman提出分静态/动态设备的方案(RFCv1),但遭维护者质疑。RFCv2引入显式内存固定(Pinning)机制,但仍存在代码冗余问题。最终RFCv3通过重构接口与文档澄清,允许非ODP网卡安全访问静态内存,解决了灵活性与确定性的矛盾。此后,Intel、Broadcom和微软等厂商相继适配,推动异构计算性能提升。这一演进体现了

2026-03-30 09:44:45 515

原创 Linux 7.0 重磅更新:详解 nullfs 如何重塑根文件系统挂载与内核线程隔离

Linux 7.0内核将引入nullfs文件系统,这是一个绝对为空的文件系统。它的主要作用体现在两方面:一是优化启动流程,通过将临时根和永久根挂载在nullfs上,解决了pivot_root()无法操作rootfs的历史问题;二是增强安全性,使内核线程默认运行在nullfs实例中,采用"最小权限原则"隔离文件系统访问,只有必要线程才能通过scoped_with_init_fs()宏临时获得权限。这项改动虽然大胆,但标志着Linux向更现代、更安全的架构迈进。

2026-03-28 14:20:48 396

原创 【LSF/MM内核前沿】Linux 内存回收推倒重来?解析 MGLRU 与传统 LRU 的“统一之战”

Linux内核内存管理领域正经历一场重大变革。随着MGLRU算法的引入,vmscan.c文件膨胀至8000多行,包含40%重复代码,引发Google、Oracle等厂商开发者推动统一内存回收框架(reclaim_ext)的讨论。核心矛盾在于高性能但难维护的MGLRU与稳定但老旧的传统LRU之争。解决方案提出"机制与策略分离"理念,提取公共机制并定义策略接口。深度讨论聚焦可扩展性,提出通过eBPF实现定制化回收策略的可能性。这场重构不仅解决代码冗余,更标志Linux社区向模块化、透明化架构

2026-03-28 14:04:18 496

原创 64位地址空间也快不够用了?“ZettaLinux” 128位内核时代即将来临!

Linux内核专家警告64位寻址空间可能在2035年耗尽,呼吁提前规划128位系统"ZettaLinux"。128位不仅解决寻址需求,更能提升安全性(如ASLR和内存标记)。核心挑战在于重构内核架构,包括long类型定义、类型系统改革和ABI兼容性设计。社区建议分步实施或全新移植方案,以避免重蹈32位转64位时的技术债。专家强调必须提前布局,防止未来出现临时补丁方案。

2026-03-23 13:35:50 365

原创 深度:Linux 内核顶级大咖的博弈——性能、安全与 AI 时代的 P2P DMA 宪章

Linux内核2021年关于dma_buf_pin的争论展现了高性能计算与通用系统的碰撞。AMD/DRM维护者坚持内存安全优先,反对无限制pin操作;NVIDIA则强调性能需求;RDMA专家主张复用现有管理机制;Habanalabs代表则坚持AI芯片需要完全内存锁定。最终达成的方案实现了驱动自治:计算卡可原地锁定显存,通用GPU保持灵活性,同时通过ulimit和cgroups进行资源管理。这场讨论体现了Linux在性能、硬件限制与系统稳定性间的平衡艺术,为异构计算奠定了技术基础。

2026-03-23 13:16:12 470

原创 深度解析 RDMA 技术的里程碑:基于 DMA-BUF 的 P2P 直接访问(GPU Direct RDMA 新姿势)

摘要:Linux内核引入RDMA DMA-BUF支持,实现GPU显存与网卡间的直接数据传输。传统方法因GPU显存缺乏标准page结构而失效,新方案利用DMA-BUF机制,让RDMA驱动作为导入者,通过ODP技术动态获取DMA地址,避免强制钉住内存。该特性包含4个核心补丁,在mlx5驱动中实现,显著降低CPU开销和延迟,支持真正的零拷贝P2P传输,为异构计算架构和未来高速互联技术奠定基础。

2026-03-20 12:17:25 506

原创 Linux 内存管理巨变:MGLRU 是重回巅峰,还是走向被移除的终局?

摘要:Linux 6.1内核引入的多代LRU(MGLRU)曾被视为内存管理重大革新,但四年后陷入维护困境。该技术虽通过分代机制优化了内存回收效率,却面临四大挑战:匿名页与文件页回收失衡、预读机制冲突、页面标志资源紧张以及监控指标不一致。核心争议在于Google贡献代码后缺乏持续维护,导致内核社区考虑移除该功能。2026年LSFMM+BPF峰会前夕,开发者们正努力通过BPF钩子、状态重构等方案挽救MGLRU,其命运将取决于能否解决工程化落地问题。(149字)

2026-03-20 07:14:25 393

原创 解决数据库“撕裂”之痛,2026 LSFMM+BPF 剑指原子缓冲 I/O

摘要:Linux内核正推进"原子缓冲I/O"功能开发,以解决数据库等应用面临的"撕裂写"问题。目前直接I/O已支持原子写,但依赖页缓存的缓冲I/O仍是技术难点。开发者提出利用"写通"(Writethrough)语义,通过立即同步I/O、锁定内存页和稳定页机制实现原子性。该功能将显著提升PostgreSQL等数据库的数据安全性,避免双写缓冲的性能损耗。虽然技术实现仍需多次讨论完善,但已形成清晰开发路线,标志着Linux在高性能存储领域的重要进化。

2026-03-16 13:11:11 271

原创 解决 Soft-RoCE (RXE) 在网络命名空间 (Net Namespace) 中的限制:原理与实现

Linux Soft-RoCE(RXE)驱动在网络命名空间中存在通信问题,原因是其UDPSocket在初始命名空间中硬编码创建,导致容器内RDMA流量无法传输。朱彦军提交的补丁通过重构RXE资源管理,引入pernet_operations机制实现命名空间感知,改为动态创建UDPSocket,并重构数据包处理路径。改进后RXE支持容器与宿主机互联、容器间通过vethpair或网桥互联等场景。测试验证表明,修复后的RXE可在不同命名空间成功建立RDMA连接并传输数据,为云环境中的高性能计算提供了更好的虚拟化支持

2026-03-16 03:56:22 633

原创 基于MLX设备的Devlink 工具全指南与核心架构演进

摘要:随着智能网卡和DPU的兴起,传统网络管理工具已无法满足需求。Linux内核中的devlink工具应运而生,实现从"单设备管理"到"全芯片协同"的演进。其五大核心特性包括:无设备实例管理、端口级资源分配、跨设备速率控制、主机PF状态动态调整以及参数默认值重置功能。这些改进使devlink从简单的网卡配置工具升级为完整的芯片资源管理器,为云环境和数据中心提供了更精细化的硬件资源管理能力,显著提升了运维灵活性和配置容错性。

2026-03-15 11:15:33 569

原创 全面理解 AMD IOMMU 虚拟化技术

IOMMU(I/O内存管理单元)是现代虚拟化架构的核心组件,它解决了传统DMA的安全性和性能问题。通过设备表、嵌套页表和命令缓冲区等关键数据结构,IOMMU实现了外设地址转换和内存保护。AMD IOMMU支持ATS、PRI等进阶特性,显著提升I/O性能,并通过中断重定向优化虚拟化环境。随着SEV-SNP等安全技术的加入,IOMMU正演变为兼具性能与安全的关键组件,为云计算和机密计算提供底层支撑。

2026-03-15 06:48:09 618

原创 eBPF 安全性再起争议:引入硬件内存保护键(MPK)是锦上添花还是多此一举?

Linux内核开发者YeoreumYun提出利用内存保护键(MPK)技术增强eBPF安全性,通过硬件隔离机制为BPF程序构建内存保护墙。该方案可避免传统页表修改的性能损耗,但遭到内核社区强烈质疑。内存管理专家DaveHansen担忧其对分配器的性能影响,eBPF维护者Alexei Starovoitov则认为现有验证器已足够安全。尽管提案面临实现复杂度和必要性争议,但为内核安全加固提供了新思路,未来或需在更简单子系统中验证MPK价值后,再考虑引入eBPF核心。

2026-03-14 14:46:37 232

原创 Linux Workqueue API 十年一遇大重构:别再让你的 schedule_work 毁了 CPU 隔离

Linux内核社区重构Workqueue API,针对NOHZ_FULL隔离CPU场景优化调度机制。原system_unbound_wq被替换为system_dfl_wq,解决Per-CPU队列强制中断隔离核心的问题。新API体系明确区分system_percpu_wq(需本地执行)和system_dfl_wq(默认避开隔离核心)。以RXE驱动为例,这种改造使软件任务自动迁移到管家CPU,提升隔离效果。开发者应避免使用schedule_work(),改用system_dfl_wq以适应CPU隔离环境。该重构

2026-03-14 03:40:21 356

原创 进程管理的范式演进:pidfd 与“发后即焚”的新机制

Linux内核进程管理正经历重大变革,pidfd机制取代传统PID提供了更安全的进程句柄。开发者Christian Brauner提出两项新特性:CLONE_AUTOREAP实现子进程自动回收,而更具争议的CLONE_PIDFD_AUTOKILL则会在pidfd关闭时强制终止子进程。Linus Torvalds质疑后者可能破坏特权进程的安全性,引发社区激烈讨论。目前开发者已提出权限限制等折中方案,体现了系统控制力与安全边界间的微妙平衡。这些改进能否最终落地,取决于开发者对管理便利性与系统鲁棒性的权衡。

2026-03-13 12:44:34 341

原创 Linux 7.0 合并窗口总结:核心改进与重要变化

Linux 7.0合并窗口已关闭,共接收11,588个非合并提交。主要变化包括:RISC-V新增控制流安全扩展,LoongArch支持SMT热插拔;zram优化支持压缩数据直写磁盘;F2FS新增Large Folio支持;NFSD引入动态线程池;网络子系统启用AccECN和WiFi8早期支持;KVM增强AMD ERAPS等功能。内核内部改进包括kmalloc_obj()接口迁移和timerlat工具增强。预计Linux 7.0正式版将于4月中旬发布,目前进入RC修复阶段。

2026-03-13 03:21:05 283

原创 如何在tools/testing/selftests/ 目录下添加一个新的测试目录

本文详细介绍了在Linux内核selftests框架中添加RDMA测试目录的标准化流程:1)创建目录结构并添加测试脚本;2)编写符合规范的Makefile文件,包含TEST_PROGS变量和lib.mk引用;3)在全局Makefile中注册新测试目录;4)编写符合TAP规范的测试脚本;5)通过特定命令编译运行测试。文章还强调了处理依赖项和输出格式标准化等注意事项,为开发者在内核测试框架中添加新测试提供了完整指南。

2026-03-08 14:03:37 313

原创 内核“冷门”子系统的华丽转身:虚拟交换空间与性能变革

Linux内核交换子系统迎来重大革新。最新补丁系列提出"虚拟交换空间"架构,通过引入全局虚拟交换表取代传统物理设备映射,解决了设备热插拔和zswap资源浪费两大痛点。该设计允许页面在存储层级间灵活迁移,仅需修改元数据而无需扫描页表,但内存开销增加约3倍。与此同时,"交换分层"补丁为不同性能的交换设备提供分级管理能力。这两项改进相辅相成,共同推动Linux交换机制向更灵活、高效的存储分层管理发展,尽管目前仍需优化性能表现才能达到主线合并标准。

2026-03-08 13:43:50 264

原创 更精确的显式拥塞通知 (AccECN)

AccECN是一种改进的TCP拥塞控制机制,通过3位计数器提供更精细的拥塞反馈。Linux从7.0版本开始默认支持入站连接的AccECN,但出站连接仍保持谨慎。该机制源自20世纪80年代的拥塞控制需求,经历了从丢包检测到ECN再到AccECN的演进。相比传统ECN每RTT只能反馈一次拥塞事件,AccECN能在每个ACK包中传递更精确的拥塞信息,显著提升网络效率。虽然面临中间设备拦截等挑战,但AccECN已在数据中心环境展现价值,有望推动互联网整体性能提升。

2026-03-05 15:01:50 283

原创 [2026 LSF/MM/BPF TOPIC] Ways to mitigate limitations of percpu memory allocator 前瞻

摘要:本文探讨了percpu内存分配器在多核系统中的优化。传统percpu通过为每个CPU分配私有副本避免缓存行反弹,但面临全局锁竞争和高初始化开销问题。2026LSF提出创新方案:1)结合Slab缓存实现CPU本地化分配,规避全局锁;2)采用双模式计数器和按需初始化策略,降低大型系统初始化开销;3)探索结构化构造/析构机制提升内存重用效率。这些优化显著提升了percpu在超大规模多核系统中的性能表现。

2026-03-05 13:50:42 691

原创 Linux 7.0 内核深度拆解:从 Rust 准入到调度器重构的技术飞跃

Linux 7.0合并窗口开启,带来多项重大改进:调度器简化为两种抢占模式(延迟/完全抢占),io_uring优化缓存命中率并增强BPF安全控制;Rust正式成为内核第二语言,新增LLM生成代码规范;内存管理转向类型感知分配,引入nullfs简化启动流程;Arm64支持64字节原子操作,并率先引入后量子加密算法ML-DSA。该版本通过架构优化、安全加固和新兴技术整合,在保持稳定性的同时为未来十年奠定基础。

2026-03-04 13:55:14 628

原创 【LSF/MM/BPF 2026 前瞻】内核黑科技:HugeTLB 跨版本热更新与 arm64 每进程页大小模拟

灵活性与透明度的极致平衡。HugeTLB 的热更新让基础设施更稳,而每进程页大小则让性能优化不再需要“二选一”。

2026-03-04 13:28:55 441

原创 Linux 内核 7.0 撤回重磅补丁:一场关于 Rust 模式、C 语言限制与“瞬态设备”的社区大论战

【摘要】Linux内核7.0版本中,一项针对"瞬态设备"管理的"可撤销资源"补丁引发激烈争论。该补丁采用类似Rust的安全访问机制,利用SRCU保护设备数据结构,却在合并前夕因"无实际用户"和竞态漏洞被撤回。争论升级为C与Rust开发范式的碰撞:Rust支持者认为这是解决内存安全问题的创新方案,而C语言维护者则批评其破坏了C代码的确定性。最终补丁虽被撤回,但揭示了语言特性移植的复杂性,以及内核社区对代码质量的严格把控。这一事件为跨语言范式移植提供了

2026-03-03 12:29:16 533

原创 Linux 6.19 内核发布:开发者活跃度创纪录,谁在驱动这台全球最大的开源引擎?

Linux 6.19内核发布,创下多项纪录:共14,344个变更集,2,141位开发者参与(含333位新人)。Kuninori Morimoto和Miguel Ojeda分别领跑变更集和代码行数贡献。企业贡献方面,Intel、Google和Red Hat位居前列,Meta在代码审核方面表现突出。开发者留存调查显示,32%的新人持续贡献超过4个版本。随着6.19的发布,Linux即将迎来7.0版本,展现开源社区持续活力。

2026-03-03 11:50:47 549

原创 Kernel control-flow-integrity support comes to GCC

Linux内核控制流完整性(CFI)技术进展:GCC即将支持KCFI 摘要:Linux内核自2020年起支持前向边CFI技术,通过验证间接函数调用的类型签名来防范攻击。2022年引入的Clang实现(-fsanitize=kcfi)避免了早期方案的性能开销。Kees Cook近期提交了为GCC添加相同功能的补丁集,预计将合入GCC17版本。该实现采用与Clang相同的类型哈希算法,并处理了类型别名等复杂情况,支持x86_64、Arm和RISC-V架构。虽然该功能尚未正式进入GCC,内核6.18版本已提前将配

2026-03-02 11:25:31 491

原创 NVMe CMB 到 DMA-BUF 的内核接口之争

摘要:2016年Linux内核社区围绕NVMe CMB与RDMA直连技术展开激烈争论。Mellanox工程师提出通过DMA-BUF实现设备间内存共享,但遭到Intel和内核大牛的强烈反对。核心矛盾在于:CMB作为专用硬件内存缺乏struct page支持,直接暴露给用户态可能引发硬件故障。内核开发者坚持"先内后外"原则,拒绝妥协底层硬件特性暴露,最终推动形成更安全的P2P架构方案。这场讨论体现了Linux内核在性能优化与稳定性之间的权衡智慧。

2026-03-02 08:16:23 778

Kexec Handover Performance ImprovementsFrom Stateful Serialization to a Scalable, Stateless KHO Des

Kexec Handover Performance Improvements From Stateful Serialization to a Scalable, Stateless KHO Design

2025-12-28

CB-PCI-Express-Base-7.0-vs-6.4

CB-PCI-Express-Base-7.0-vs-6.4

2025-12-28

ECN-Dynamic-Shared-Flow-Control-Usage-Limits-2025-09-18

ECN-Dynamic-Shared-Flow-Control-Usage-Limits-2025-09-18

2025-12-28

25-26 Freshman Fall Classroom Presentation - Part One & Part Two

内容概要:本文档为面向高一新生的秋季课堂宣讲材料,分为两部分,涵盖学生升学指导、毕业要求、“A-G”大学入学课程要求以及四年学业规划的制定。内容包括介绍辅导团队、学生支持资源、职业集群导论、课外活动参与途径,并重点讲解如何通过Naviance系统进行大学与职业探索,以及如何规划高中四年的课程以满足毕业和大学录取的双重标准。同时介绍了体育、社团、职业发展路径及财务援助申请等相关信息。; 适合人群:即将进入或刚升入高中的新生及其家长,尤其是计划申请四年制大学的学生;也适用于教育工作者和学校辅导员作为指导参考。; 使用场景及目标:①帮助新生了解高中毕业与大学入学(特别是加州公立大学系统)的课程要求;②指导学生制定个性化的四年学习计划,合理选择荣誉/AP课程、选修课及职业发展方向;③促进学生利用Naviance等工具进行大学申请准备和职业探索。; 阅读建议:建议学生携带电脑参加第二部分讲解,在指导下实时填写四年计划表;务必确保个人信息(如手机号)准确以便接收重要通知;完成规划后切勿提交,保留修改权限供后续调整。

2025-12-28

【光通信网络】IEEE P802.3dj多速率以太网物理层标准:支持200G至1.6T高速数据传输系统设计

内容概要:本文档为IEEE P802.3dj任务组于2024年3月14日采纳的技术目标,旨在定义支持200 Gb/s、400 Gb/s、800 Gb/s以及1.6 Tb/s高速以太网的物理层规范。文档强调非速率特定性,仅支持全双工操作,保持现有IEEE 802.3标准中的以太网帧格式、最小和最大帧大小,并确保MAC/PLS服务接口处的误码率优于或等于10⁻¹³。同时支持通过OTN映射,满足多种传输介质的需求,包括电气背板、铜缆和单模光纤(SMF),覆盖从1米到40公里的不同传输距离。针对不同速率级别,分别规定了单通道至十六通道的接口支持,适用于芯片到模块和芯片到芯片的应用场景。; 适合人群:从事高速网络通信技术研发的工程师、标准化工作人员及光通信领域研究人员;具备一定以太网协议与物理层基础知识的专业技术人员;; 使用场景及目标:①为下一代高速以太网标准制定提供技术依据;②指导芯片、模块和系统厂商进行高带宽互连设计与产品开发;③支持数据中心、高性能计算和电信基础设施中的长距与短距高速连接需求;; 阅读建议:此文档为IEEE标准化进程中的关键技术目标文件,建议结合IEEE 802.3系列标准及其他相关草案配套阅读,重点关注各速率等级下的物理层实现方式与介质适配要求,便于深入理解未来高速以太网的发展方向。

2025-11-25

【高速以太网物理层】1.6TbE PCS通道形成与对齐标记插入机制:面向IEEE 802.3dj标准的多通道数据分布及FEC降级监测方案设计

内容概要:本文档提出了1.6TbE PCS(物理编码子层)中PCS通道形成与对齐标记(AM)插入的基线方案,作为IEEE P802.3dj任务组标准制定的一部分。文档详细描述了1.6TbE系统中如何将RS-FEC符号按轮询方式分配到16个PCS通道中,每个通道速率为100Gbps,并定义了AM标记在各通道中的分布结构与插入机制。通过对齐标记的映射规则、填充方式、状态字段传输以及伪代码实现,确保发送端与接收端的数据对齐、解交错与正确恢复。此外,还涵盖了FEC误码劣化信号生成和HI_SER监控机制,并讨论了PMA层在不同接口配置下的符号复用要求。该提案与先前采纳的基线共同构成完整的1.6TbE PCS规范。; 适合人群:从事高速以太网物理层设计、通信协议开发或标准制定的工程师和技术专家,具备数字通信与FEC编码基础知识的研发人员; 使用场景及目标:①为1.6TbE以太网PCS层的设计提供标准化参考;②指导硬件实现中的AM插入/删除、通道形成、误码监测等功能模块开发;③支持多厂商设备互操作性的统一规范制定; 阅读建议:此文档技术性强,涉及大量底层符号映射与伪代码逻辑,建议结合IEEE 802.3现有标准(如CL119、CL172)对照阅读,并关注后续对时钟内容与基线漂移的分析补充。

2025-11-25

RFC5415 中文翻译 中文RFC RFC文档 RFC翻译 RFC中文版.pdf

内容概要:本文档为RFC 5415的中文翻译,详细定义了无线接入点(CAPWAP)协议的控制与配置规范,旨在实现无线接入点(WTP)与接入控制器(AC)之间的标准化通信。协议支持两种操作模式:Split MAC和Local MAC,涵盖会话建立、传输机制、消息格式、状态机管理、安全认证(基于DTLS)、发现机制、配置管理、设备管理等功能。文档明确了CAPWAP在UDP和UDP-Lite上的传输规则,定义了控制与数据通道的消息结构,并详细描述了各类控制消息(如发现、加入、配置更新、事件上报等)的格式与交互流程。此外,还包括定时器、变量管理、安全机制及IANA协议参数分配等内容,确保协议的互操作性与安全性。; 适合人群:网络协议研究人员、无线网络系统开发人员、通信工程技术人员,以及从事WLAN架构设计与实现的专业人士;需具备一定的网络协议基础和系统架构理解能力。; 使用场景及目标:①用于理解和实现CAPWAP协议在集中式无线网络架构中的应用;②指导WTP与AC之间的通信机制设计,包括会话建立、状态管理、配置下发、固件升级等核心功能;③为无线网络设备厂商提供标准化协议依据,促进设备间的互操作性。; 阅读建议:本文档为标准技术规范,内容高度专业化,建议结合实际网络环境与协议抓包工具对照学习,重点关注状态机转换、消息元素定义及DTLS安全机制部分,以深入掌握CAPWAP协议的工作原理与实现细节。

2025-11-25

网络通信RoCE互操作性测试技术规范:800/400/200GbE高速以太网场景验证与性能评估系统设计

网络通信RoCE互操作性测试技术规范:800/400/200GbE高速以太网场景验证与性能评估系统设计

2025-11-06

PF42-IB-Integrators List-v1-2025-10-22.pdf

PF42-IB-Integrators List-v1-2025-10-22.pdf

2025-11-06

操作系统内核kexec机制下内存持久化技术KHO研究

内容概要:本文介绍了Linux内核中kexec机制的一项新扩展——Kexec HandOver(KHO),旨在实现内存内容在跨内核启动时的持久化,使新内核能够接续旧内核的状态运行。该技术主要面向大型云服务商,用于在不中断虚拟机服务的前提下更新主机内核。KHO通过保留特定内存区域(如非可移动内存)并提供临时“scratch”空间供新内核初始化使用,来支持状态迁移。同时需要子系统显式标记需保留的内存,并涉及序列化、反序列化与状态管理机制。当前挑战包括内存碎片导致的scratch区分配困难、可移动页面无法直接保留以及整体性能优化问题,尤其是降低交接延迟。尽管存在争议(如与休眠机制的重叠或对比于虚拟机热迁移),但KHO被视为应对紧急安全补丁快速部署等场景的有效路径。; 适合人群:从事操作系统内核开发、云计算平台架构设计或虚拟化技术研发的工程师,具备一定Linux内存管理和内核机制基础知识的研发人员。; 使用场景及目标:① 实现无感内核升级,减少因安全更新或维护导致的服务中断;② 探索替代传统热迁移的技术方案,特别是在GPU直通或本地NVMe存储等难以迁移的场景下保持服务连续性;③ 深入理解kexec、内存持久化与系统状态迁移的核心机制。; 阅读建议:此资源聚焦于前沿内核设计讨论,建议结合Linux内存管理、kexec流程与虚拟化相关背景知识进行研读,并关注后续社区对KHO与现有机制(如hibernation)整合可能性的探讨。

2025-11-03

本文介绍了Linux内核正在开发的一项重要功能:**kexec handover(KHO)和实时更新协调器(LUO)**,旨在实现系统重启时保留运行状态,特别是针对云环境中需要持续运行的工作负载

内容概要:本文介绍了Linux内核正在开发的一项新功能——“kexec handover”(KHO)与“live update orchestrator”(LUO),旨在实现系统重启时不中断运行的工作负载。KHO允许子系统在重启前后保存和恢复内存数据,通过合并内存区域并利用扁平化设备树传递保存的数据信息;而LUO则作为控制层,管理系统的四种状态转换(正常、准备、冻结、更新),协调各子系统在不同阶段执行相应的回调操作,从而完成无缝内核更新。该技术特别适用于云环境中虚拟化场景下的热更新需求。; 适合人群:熟悉Linux内核机制、具备一定系统编程经验的开发者或系统架构师,尤其是从事云计算、虚拟化平台维护与开发的技术人员。; 使用场景及目标:① 实现在不中断虚拟机运行的情况下更新宿主机内核;② 减少传统重启带来的服务中断时间,提升系统可用性;③ 探索跨重启状态保持机制在容器、持久化内存应用中的潜在用途。; 阅读建议:当前LUO已发展到第三版补丁系列,仍在持续完善中,建议结合KHO与LUO的设计文档及源码进行深入研究,并关注社区评审反馈以掌握最新进展。

2025-11-03

【虚拟化安全】基于pkernfs的跨kexec内存持久化机制:支持设备直通的KVM虚拟机热迁移系统设计

内容概要:本文探讨了在KVM虚拟化环境中实现带有设备直通(PCI设备分配)的Hypervisor热更新技术,重点解决跨kexec过程中安全持久化guest内存及内核与设备状态的问题。传统方法在执行kexec时无法保留设备状态,导致直通设备支持受限。为此,提出一种名为pkernfs的新型内存中持久化文件系统,用于存储guest内存、用户空间内存以及IOMMU页表等关键内核与设备状态,确保DMA操作在kexec期间持续稳定运行。此外,pkernfs还通过将guest内存移出内核直接映射区并置于保留内存区域,提升安全性与内存管理效率,减少struct page开销,并支持大页分配,类似DMEMFS的目标。会议还包括对QEMU侧补丁集的支持说明,并现场演示带PCI设备直通的热更新流程。; 适合人群:具备Linux内核、虚拟化技术和内存管理背景的开发人员或研究人员,尤其是从事KVM、Hypervisor开发或系统安全优化的技术人员;熟悉驱动、IOMMU和DMA机制的工程师更为适合; 使用场景及目标:①实现Hypervisor无感升级,保障虚拟机服务连续性;②支持设备直通场景下的安全内存与状态迁移;③优化guest内存隔离与性能管理;④推动pkernfs在生产环境中的落地应用; 阅读建议:建议结合发布的RFC补丁和演示材料深入理解技术细节,关注lkml上的讨论以获取最新反馈,同时可参考QEMU相关补丁集协同开发。

2025-11-03

【云计算内核更新】基于KHO/LUO的内核热升级与FDT状态保持机制:支持虚拟机无感重启与RDMA存储性能优化

内容概要:本文介绍了KHO(Kernel HandOver)和LUO(Live Update Orchestrator)技术,旨在实现内核更新过程中保持虚拟机运行不中断的目标。KHO通过kexec机制实现内核交接,利用预分配的物理连续内存区域(Scratch Regions)和CMA机制确保内存连续性与数据持久性,并借助FDT(扁平化设备树)保存和传递子系统状态信息,保障关键内存区域在内核切换时不被破坏。LUO作为上层控制框架,提供状态机管理与用户空间接口(如/dev/liveupdate和luoctl),协调各子系统完成准备、冻结、恢复等回调操作,实现无缝更新。此外,文章还提出基于IOVA与DMA分离的两阶段DMA映射方案,结合FDT机制动态扩展RDMA连接下的DMA内存容量,从而提升多存储会话场景下的性能表现。; 适合人群:具备操作系统内核、虚拟化技术和驱动开发经验的中高级研发人员,尤其是从事云平台、高性能存储或RDMA相关工作的工程师。; 使用场景及目标:① 实现大规模云环境中无感内核升级;② 在不中断服务的前提下维护虚拟机运行状态;③ 解决高并发存储会话下RDMA连接性能瓶颈问题;④ 探索持久内存管理与设备驱动状态迁移机制。; 阅读建议:本文涉及底层内核机制与硬件交互细节,建议结合Linux内核源码、kexec流程及IOMMU/DMA原理进行深入理解,并关注FDT在状态保存中的实际应用方式,同时可探索LUO状态机模型在其他热升级场景中的拓展可能性。

2025-11-03

【操作系统更新】基于kexec的内存与设备状态持久化机制研究:支持安全跨内核执行的内存保留方案设计

内容概要:本文探讨了在Linux系统中通过kexec实现安全持久化保留客户机内存和内核/设备状态的技术挑战与解决方案。当前kexec无法直接保留运行时状态,作者分析了现有技术如DAX文件系统、设备透传、IOMMU映射、SEV-SNP加密虚拟机等在跨kexec时的状态保持问题,并提出了三类可能的解决方案:内存池(如Microsoft的PRMEM和持久内存池)、基于保留或动态内存的文件系统(如AWS的pkernfs和Oracle的PKRAM),以及序列化/反序列化框架(类似Xen breadcrumbs),支持驱动程序在kexec前后保存和恢复关键状态。文章还讨论了不同方案在性能、正确性、内存管理碎片化和元数据格式方面的权衡。; 适合人群:熟悉Linux内核、虚拟化技术和系统底层开发的工程师,尤其是从事操作系统更新、安全启动、虚拟机监控器开发的相关技术人员;具备一定内核编程和系统架构理解能力的研发人员。; 使用场景及目标:①研究如何在不中断服务的情况下完成内核的热更新(live update)并保留运行时状态;②解决SEV-SNP等安全虚拟化环境中vCPU状态无法序列化的难题;③为IOMMU、PCI设备、KVM等子系统设计跨kexec的状态保持机制; 阅读建议:本文为技术探讨性质,包含多个RFC提案,建议结合Linux内核源码及相关文档深入理解各方案实现细节,并关注后续RFC补丁集的进展以跟踪社区共识形成过程。

2025-09-15

钛学术-专利-虚拟专用网通信设备及其数据包传输方法.pdf

钛学术-专利-虚拟专用网通信设备及其数据包传输方法.pdf

2025-09-17

IB Specification Vol 1-Release-2.0-Final-2025-07-31 watermarked-Rev8.pdf

IB Specification Vol 1-Release-2.0-Final-2025-07-31 watermarked-Rev8.pdf

2025-09-17

IB Specification Vol 1-Release-2.1-Draft-2025-09-04.pdf

IB Specification Vol 1-Release-2.1-Draft-2025-09-04.pdf

2025-09-11

Internal-training1.pptx

Internal-training1.pptx

2025-09-06

【系统内存管理】基于kpromoted的热点页迁移机制:CXL远程内存环境下页面热度检测与动态提升系统设计

内容概要:本文介绍了一个名为kpromoted的子系统,旨在作为页面热度判断的单一可信来源,整合来自AMD IBS、CXL HMU、kscand和LRU等多种内存访问信息源的数据,统一进行热点页面检测与迁移决策。kpromoted通过API接收热点页访问报告,采用哈希表快速查找并去重,记录页面热度,并将超过阈值的热点页加入最大堆以便高效提取最热页面,由独立的迁移线程执行页面迁移或提升操作。系统支持硬件加速的页面复制和远程CXL内存节点环境下的性能优化,实验结果显示其在不同驱动模式(如kscand和MultiGen LRU)下对远程内存访问延迟和页面迁移数量有显著影响。; 适合人群:具备操作系统、内存管理及硬件协同设计背景的系统软件工程师或研究人员;熟悉Linux内核机制并关注CXL、DMA等新兴技术的专业人员; 使用场景及目标:①用于优化远程内存访问性能,特别是在CXL架构下实现热点页面自动迁移;②为操作系统内核提供统一的页面热度感知机制,支持智能内存管理策略;③结合硬件访问提示(如IBS、HMU)提升系统整体响应速度; 阅读建议:理解kpromoted的设计需结合其实验环境与对比数据,重点关注其在不同驱动源下的表现差异,并注意其在高并发、原子上下文中处理大量页面记录时的实现挑战与优化方向。

2025-09-04

NVMe-RDMA-Transport-Specification-1.0a-2021.07.26-Ratified-1

NVMe-RDMA-Transport-Specification-1.0a-2021.07.26-Ratified-1

2025-09-03

定义传统BIOS与UEFI环境下PCI/PCIe设备配置空间访问、热插拔管理及SSD状态LED控制的技术框架【计算机硬件】基于PCI固件规范的技术文档:系统级外设互联总线固件接口设计与实现

内容概要:本文档是《PCI固件规范》第3.3版,定义了用于管理PCI、PCI-X和PCI Express系统的硬件无关固件接口。规范涵盖传统PCI BIOS服务、UEFI PCI服务以及在ACPI环境下的PCI服务,详细描述了BIOS32服务目录、PCI BIOS 32位服务、配置空间访问方法、UEFI驱动模型、ACPI中的_OSC和_DSM机制、PCI扩展ROM格式与执行流程,以及热插拔、电源管理、中断路由等关键功能的技术细节。修订3.3版集成了多项工程变更通知(ECN),增强了对D3cold时序、TPH支持、多段组基地址、运行时设备电源管理及SSD状态LED控制等功能的支持。; 适合人群:计算机体系结构、固件开发、操作系统底层开发及相关领域的工程师和技术研究人员。; 使用场景及目标:①为开发兼容PCI/PCIe标准的系统固件、主板BIOS/UEFI提供权威技术依据;②指导操作系统开发者正确实现对PCI设备的发现、配置、电源管理和错误处理;③为硬件制造商设计符合规范的PCIe设备固件和扩展ROM提供参考;④作为研究现代计算机启动、设备枚举和固件交互机制的重要资料。; 阅读建议:此文档技术性强,术语密集,建议读者结合PCI、ACPI和UEFI的相关基础知识进行研读,并配合实际的固件代码或系统日志来加深理解。重点章节包括BIOS32接口、配置空间访问规则、_OSC协商机制和_DSM方法,它们是现代操作系统与固件协同工作的核心。

2026-04-17

【计算机体系结构】基于AMD IOMMU的I/O虚拟化技术规范:硬件加速与安全嵌套分页系统设计

内容概要:本文档为AMD发布的I/O虚拟化技术规范(IOMMU)48882-Rev 3.07版本,详细定义了IOMMU的功能架构、数据结构、寄存器配置、地址转换机制及虚拟化支持。文档涵盖IOMMU的核心能力,如替代GART、设备排除机制、32位到64位设备映射、用户态设备访问、虚拟机设备直通与嵌套虚拟化等使用模型,并深入描述中断重映射、两层地址翻译(L1/L2)、SEV-SNP安全增强、vIOMMU硬件加速等可选特性。同时提供了ACPI表(IVRS)结构、命令缓冲区、事件日志、页请求日志等运行时管理机制的技术细节,以及固件与操作系统在初始化和控制IOMMU时的流程与接口。; 适合人群:从事底层系统开发的工程师,包括操作系统内核开发者、虚拟化平台研发人员、固件(BIOS/UEFI)工程师及对AMD平台I/O虚拟化有研究需求的技术专家;需具备计算机体系结构、内存管理单元(MMU)、PCIe协议和虚拟化基础知识。; 使用场景及目标:①用于开发或优化支持AMD IOMMU的操作系统驱动、Hypervisor(如KVM、Xen)中的设备虚拟化模块;②指导平台固件正确配置IOMMU以满足系统启动与安全策略;③实现高性能DMA地址转换、设备隔离、虚拟机安全防护(如SEV-SNP)等功能;④调试I/O异常、页错误、中断故障等问题。; 阅读建议:本规范技术性强,建议结合AMD处理器手册、PCIe规范及实际平台环境进行对照理解,重点关注数据结构布局、寄存器位定义与状态机流程图,适用于需要深度集成或调试IOMMU功能的专业场景。

2026-03-15

IB Specification 2.1

IB Specification

2026-02-03

【存储网络技术】基于Intel以太网RDMA的NVMe-oF配置指南:数据中心高性能块存储系统部署方案

内容概要:; 适合人群:从事存储系统架构、高性能计算或数据中心运维的工程师,以及具备Linux系统管理与网络存储配置经验的技术人员。; 使用场景及目标:①在企业级数据中心部署低延迟、高吞吐的远程NVMe存储解决方案;②利用RDMA技术优化存储网络性能,接近本地NVMe SSD的访问延迟;③进行NVMe over Fabrics的功能验证与性能基准测试。; 阅读建议:此文档为实操型配置手册,建议读者按章节顺序逐步执行操作,并结合实际硬件环境调整参数设置,特别注意内核模块加载、网络配置与安全策略关闭等关键步骤,以确保配置成功。

2026-02-03

存储网络基于SPDK与RDMA的NVMe-oF配置指南:Intel以太网产品高性能存储系统部署方案

内容概要:。 适合人群:从事高性能存储系统开发、网络存储架构设计或数据中心基础设施运维的工程师,需具备Linux系统管理、存储协议和网络配置相关经验的技术人员。 使用场景及目标:①构建基于RDMA的NVMe-oF存储目标设备,提升远程存储访问性能接近本地SSD水平;②实现SPDK用户态高效率存储服务部署;③通过fio进行性能基准测试,评估不同主机接入模式下的I/O表现。 阅读建议:建议按照文档顺序逐步操作,重点关注硬件NUMA分布、BIOS优化与RDMA连通性验证环节,在实际部署前充分理解SPDK的RPC配置机制与配置文件结构,并结合提供的样例调整适配自身环境。

2026-02-03

【网络存储性能】基于Intel E810网卡的NVMe over Fabrics协议对比:TCP与RDMA在4K随机读写场景下的IOPS及延迟测试分析

内容概要: 适合人群:从事数据中心网络架构、高性能存储系统设计的工程师,以及关注NVMe over Fabrics技术落地的技术研究人员;具备Linux系统、网络协议栈和存储基础知识的专业技术人员。; 使用场景及目标:①评估RDMA(如RoCEv2)与TCP在NVMe-oF部署中的性能差异;②为选择合适的网络传输协议提供实测数据支持;③优化Intel E810系列网卡在高并发存储场景下的调优参数配置。; 阅读建议:本报告属机密资料,需签署NDA方可获取完整内容,阅读时应重点关注测试环境配置细节与调优参数设置,结合自身硬件平台进行对照验证,并参考官网链接获取最新基准测试信息。

2026-02-03

PCIExpress-Rev5p0-6p0-CopprLink-External-Cable-Spec-v1p0-Approved-April18-2024

PCIExpress_Rev5p0-6p0_CopprLink-External-Cable-Spec_v1p0-Approved-April18-2024

2026-01-04

NCB-PCIExpress-Rev5p0-6p0-CopprLink-Internal-Cable-Spec-Ver1p0-final (1)

NCB_PCIExpress_Rev5p0-6p0_CopprLink-Internal-Cable-Spec_Ver1p0_final (1)

2026-01-04

ECN-REFCLK FLEXIO Assignment for PCIe5p0-6p0 CopprLink External-2025-09-04

ECN-REFCLK FLEXIO Assignment for PCIe5p0_6p0 CopprLink External-2025-09-04

2026-01-04

【计算机安全】基于PCIe 7.0的后量子密码算法支持:CMA-SPDM协议中ML-DSA与ML-KEM的强制实施方案设计

内容概要:本文档是PCI-SIG发布的工程变更通知(ECN),旨在为PCIe Base Specification 7.0中的组件测量与认证(CMA-SPDM)功能增加对后量子密码学(PQC)算法的支持。基于NIST发布的PQC标准(FIPS 203、204、205)以及NSA提出的CNSA 2.0安全套件要求,文档明确新设备必须强制支持ML-DSA-87(用于数字签名)和ML-KEM-1024(用于密钥封装)两种PQC算法,同时允许选择性支持传统算法(如RSA、ECC)或其他NIST批准的PQC参数集。变更不影响现有硬件或软件兼容性,但建议通过厂商特定配置机制灵活启用或禁用算法以应对未来安全演进。此外,文档指出PQC可能带来消息体积增大和性能延迟问题,并推荐使用CHUNK_CAP机制处理大数据传输及利用SPDM协议的“ResponseNotReady”机制缓解响应超时风险。; 适合人群:从事PCIe协议开发、安全芯片设计、固件开发及相关标准制定的技术人员,尤其是涉及国家安全或高安全性系统的产品开发者。; 使用场景及目标:①指导PCIe设备实现符合CNSA 2.0要求的后量子安全通信能力;②帮助开发人员理解如何在SPDM框架下集成PQC算法并处理性能与兼容性挑战;③为测试团队提供新增C&I测试需求的依据。; 阅读建议:此文档技术性强,需结合SPDM 1.4规范与NIST相关标准(FIPS 203/204/205)同步研读,重点关注第6.31.3至6.31.5节的具体算法要求与实现注释,便于在产品设计中提前规划密码模块升级路径。

2025-12-29

Managing serialization versions for LUO objects

Managing serialization versions for LUO objects

2025-12-28

memfd preservation using LUO

memfd preservation using LUO

2025-12-28

【云计算架构】基于VFIO-MLX5的现代网卡热迁移方案:支持Kexec的虚拟化网络设备状态保持与SDN高可用设计

内容概要:本文探讨了在现代网络设备环境下支持Hypervisor Kexec的技术方案,旨在实现主机软件更新时保持租户虚拟机状态的连续性。文章分析了传统Kexec方法在处理复杂设备驱动和多层软件栈时的局限性,提出了一种基于用户空间驱动(如vfio-mlx5)和SR-IOV虚拟化技术的状态保持机制。通过将物理功能(PF)交由用户态进程管理,并利用持久化内存保存设备状态,确保Kexec过程中PCI状态可恢复。同时,SDN控制平面运行在独立VM中,支持主备切换与热升级,保障网络流量管理不中断。该架构实现了管理堆栈原子化更新、租户无感知迁移以及跨设备共享资源的高效协调。; 适合人群:具备云计算、虚拟化及内核开发背景,从事系统架构或网络设备驱动开发的工程师;熟悉PCI、VFIO、RDMA等技术的专业人员;工作年限3年以上的研发人员; 使用场景及目标:①解决云环境中Hypervisor升级导致的服务中断问题;②实现现代高性能网卡(如支持RDMA、SR-IOV)在Kexec下的状态持久化与快速恢复;③构建高可用SDN管理系统,支持零停机切换;④为多租户环境下的设备资源共享与隔离提供参考设计方案; 阅读建议:此文档聚焦于实际系统架构设计与底层设备交互细节,建议结合Linux内核源码、VFIO框架及MLX5驱动代码进行深入理解,并关注所引用的技术链接以获取具体实现补丁和库支持。

2025-12-28

PCSC: Caching PCI Config Space Accesses for faster Live Updates

PCSC: Caching PCI Config Space Accesses for faster Live Updates

2025-12-28

lpc2025-pci subsystem

PCI Subsystem Live-Update Live Update MC

2025-12-28

Live Update OrchestratorThe Path to Seamless Kernel Updates

LPC'25 LIVE UPDATE

2025-12-28

KSTATE description

KSTATE description

2025-12-28

【网络设备驱动】基于IDPF的Live Update机制研究:云环境虚拟机无中断网络更新系统设计

内容概要:本文介绍了IDPF(Infrastructure Data-Plane Function)驱动在Linux系统中支持“Live Update”(动态更新)的技术实现与挑战。Live Update是一种特殊的重启机制,旨在更新系统或驱动时保持关键设备状态,减少服务中断,尤其适用于云环境中虚拟机网络连接的持续可用。文章重点分析了IDPF驱动在SR-IOV架构下对虚拟功能(VF)状态的保存与恢复机制,指出其核心在于保留virtchannel的硬件指针状态,而物理功能(PF)状态可重建。同时探讨了PCI子系统在Live Update中的角色,提出通过`dev_liveupdate_ops`接口实现更细粒度的状态保留,并讨论了`pci_enable_sriov`在不同启动场景下的行为差异及用户空间脚本的配合使用。; 适合人群:具备Linux内核、设备驱动开发经验的中高级研发人员,尤其是从事网络驱动、虚拟化或系统底层开发的工程师。; 使用场景及目标:①理解Live Update在高性能网卡驱动中的应用;②掌握IDPF驱动如何在不中断VM网络的前提下完成更新;③研究PCI子系统与驱动协同实现状态保留的机制;④为类似复杂设备实现动态更新提供参考方案。; 阅读建议:此文档技术深度较高,涉及内核、PCI、SR-IOV等多层面知识,建议结合Linux内核源码、IDPF驱动实现以及实际虚拟化环境进行对照学习,并重点关注状态保存的边界条件与错误处理机制。

2025-12-28

【虚拟化技术】基于VFIO的PCI设备热更新支持:实现虚拟机迁移期间设备状态持久化与DMA连续性保障

内容概要:本文探讨了在Linux内核Live Update(LU)过程中支持VFIO PCI设备无缝更新的技术方案与挑战。目标是在不重置设备、不停止DMA操作的前提下,实现虚拟机中直通PCI设备的持续运行,同时避免与客户机操作系统或驱动进行复杂协调。文章介绍了当前已实现的功能路线图,包括kexec交接、内存文件描述符保留、VFIO字符设备文件保留等,并深入讨论了中断处理、PCI总线号稳定性、设备状态标识、驱动绑定冲突及pci_saved_state ABI设计等关键技术问题及其可能解决方案。; 适合人群:熟悉Linux内核、虚拟化技术及设备直通机制的系统软件工程师或研究人员,具备一定内核开发和PCI/IO子系统背景;; 使用场景及目标:①为实现VFIO设备在Live Update期间保持运行状态提供架构设计参考;②解决设备状态持久化、中断管理、总线编号一致性等核心难题;③指导内核开发者参与相关补丁开发与优化; 阅读建议:此资源聚焦于内核级机制设计,涉及大量底层细节,建议结合Linux PCI子系统、VFIO框架和Live Update流程同步学习,并关注补丁系列进展及社区讨论反馈。

2025-12-28

LPC25【虚拟化与IOMMU】面向Live Update的IOMMU状态保留机制:VFIO设备上下文迁移与DMA映射持久化方案研究-LIVE UPDATE

内容概要:本文介绍了在Linux系统中实现“实时更新(Live Update)”时对IOMMU(输入输出内存管理单元)状态的保留机制。重点在于保持IOMMU域、DMA映射、页表、设备状态(如根表、DIDs、Pasid表)以及与VFIO字符设备(cdev)的关联。通过RFC补丁系列集成VFIO设备文件的跨内核保留,并在kexec启动后恢复IOMMU域并与新硬件页表(HWPT)重新绑定。提出在设备重绑定时触发HWPT替换以完成无缝迁移,同时探讨了如何安全地转移DMA所有权。; 适合人群:熟悉Linux内核、IOMMU架构及虚拟化技术,具备一定驱动开发经验的研发工程师或系统架构师;适用于从事热升级、虚拟机监控器(VMM)、设备直通等领域的技术人员。; 使用场景及目标:①支持在不中断I/O操作的前提下完成内核热更新;②确保IOMMU相关设备状态在kexec前后一致并可恢复;③实现Intel IOMMU和Arm sMMUv3的域无损替换与Pasid表的持久化。; 阅读建议:需结合VFIO、IOMMUFD、kexec等子系统的工作机制理解本文内容,重点关注补丁设计思路与替换流程的实现细节,建议配合代码实践与调试以深入掌握状态保留与恢复的完整链路。

2025-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除