自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 详解DCQCN和PFC的协同工作机制:从局部制动到全局调速

在现代RDMA数据中心网络中,PFC和DCQCN必须同时部署。PFC为RDMA提供了一个安全的、无损的链路层保障,而DCQCN则在更上层智能地管理流量,防止PFC的负面效应出现并优化全局网络效率。它们一快一慢,一局部一全局,共同构成了RoCE网络的拥塞管理基石。

2025-09-15 11:22:48 607

原创 OLT Stick:替代独立OLT设备,赋能开放云化园区网

PON 是一种基于光纤的网络接入技术。其传输路径中不依赖需要额外供电的设备,而是依靠无源光器件以点对多点的拓扑结构去分发和汇聚信号,即,将信号从单根光纤通过光分路器分配到多个用户端点,并利用WDM技术在单根光纤上实现双向通信。

2025-09-08 13:50:21 610

原创 跨越域冲突:多实例并发与PTP可配置性的融合之道

PTP之所以需要高度可配置的特性,并非出于复杂化的目的,而是为了应对多样化的现实应用场景和网络环境的必然要求。没有一种“一刀切”的配置能在所有网络中同时实现最佳精度、最高稳定性和最低资源消耗。 PTP的可配置性正是为了在这些因素之间取得最佳平衡的方式。

2025-09-05 16:32:56 669

原创 PTP高精度时间同步的核心:E2E与P2P延迟补偿机制

PTP的核心目标是让网络中的所有时钟与最精确的时钟(Grandmaster Clock)同步。为了实现纳秒级的同步精度,PTP必须计算并补偿报文在网络中传输所产生的链路延迟(Link Delay)。

2025-09-01 17:13:28 780

原创 一文看懂 PTP(精确时间协议)及SONiC上的最新优化实践

PTP 用于为时间同步敏感的系统和应用程序在局域网或广域网上创造高精度时间同步的环境,往往需要通过硬件辅助才能实现。PTP 在 IEEE 1588 标准中定义,目前已发展到的 IEEE 1588 v2 具有双向通道、纳秒级精度、广泛适应不同接入环境。

2025-08-26 10:17:24 1000

原创 自动化+可视化的智算中心多租户网络配置工具

多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。

2025-08-22 10:08:57 570

原创 SONiC开源社区生态背后的开放网络革命引擎

SONiC通过将SAI作为南北向互联的中间件,屏蔽不同ASIC之间的驱动差异,也正是由于SAI的存在,SONiC的网络功能应用才能够支持多个厂家的ASIC。网络软件建立在SAI(交换机抽象接口,SAI接口适配ASIC的工作由各个厂家实现)上,使其可以运行在各种硬件设备中,形成白盒交换机软件生态链。

2025-08-13 16:15:33 854

原创 分布式网关技术 + BGP EVPN,解锁真正的无缝漫游

运用标准化的802.11k/v/r协议实现快速链路层切换,并通过分布式网关架构结合BGP EVPN技术智能处理IP层连续性,最后依托本地化、最优化的流量转发路径——星融元完整的技术方案,成功实现了业界领先的超低漫游时延。

2025-08-05 17:48:38 830

原创 分布式存储性能跃迁指南:RoCE无损网络设计与优化

分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI训练、高性能计算)的关键挑战。

2025-08-04 10:59:02 588

原创 破解哈希极化:基于主动路径规划的智算网络负载均衡方案

智算集群对网络性能,特别是高吞吐、低延迟和无损特性有着严苛要求,RoCE因此被广泛应用。然而,在主流Clos组网架构下,传统的ECMP路由机制存在天然的局限性,容易引发哈希极化问题,成为制约集群整体性能的瓶颈。本文将探讨哈希极化的成因、影响,并介绍一种通过主动路径规划(PPD)来优化网络配置、提升性能的解决方案。

2025-07-21 16:01:09 902

原创 开放网络的容器化未来:SONiC在AI智算与园区的落地实践

传统封闭式网络设备在灵活性、成本控制和创新速度上的瓶颈日益凸显。全球云服务商率先推动网络软硬件解耦,SONiC应运而生——这一由微软开源、基于Linux的网络操作系统,正以“网络界的Linux”之势重构数据中心基础设施生态。

2025-07-14 16:36:52 897

原创 收藏备查!精要解读超以太网联盟(UEC)1.0 规范(2025Q2)

随着AI与高性能计算(HPC)集群对网络带宽、时延和拥塞管理的要求日益严苛,传统以太网在超大规模场景下面临瓶颈。为此,超以太网联盟(UEC) 在Linux联合开发基金会(JDF)下成立,致力于构建新一代高性能以太网标准。

2025-07-11 17:49:21 863

原创 边缘计算新底座:基于VPP+DPDK的开放智能网关

VPP 这一开源技术在通用 CPU 的基础上,实现了传统上需要专门的网络硬件设备(如路由器)和专业的网络操作系统才能达到的性能,以极高的性价比为广大用户带来了开放网络技术的红利。VPP 集成了DPDK项目,通过它直接访问硬件网卡资源。

2025-07-07 16:14:13 964

原创 基于路径质量的AI负载均衡异常路径检测与恢复策略

针对AI流量突发性和高带宽需求导致的网络拥塞问题,本文提出基于路径综合质量的动态WCMP负载均衡机制。该系统通过实时监控路径延迟、丢包率等关键指标,计算综合质量得分并设定阈值,自动剔除异常路径,同时根据健康路径质量动态分配流量权重。被剔除路径在质量恢复后重新加入负载均衡。这种机制有效解决了传统均衡策略在AI场景下的不足,通过智能调度优化网络性能,为AI计算提供稳定高效的基础设施支持。

2025-07-03 15:48:41 712

原创 当千卡集群遭遇RoCE丢包——你的网络规划工具够“智能”吗?

随着AI算力集群规模指数级增长,网络架构复杂度陡增。传统网络规划依赖人工计算与经验判断,存在效率低、易出错、可视化弱三大痛点。尤其在RoCE(RDMA over Converged Ethernet)网络场景中,需协同计算、存储、管理等多类网络,并确保无损传输特性——EasyRoCE-AID 正是为解决这一挑战而生。

2025-06-30 14:20:02 305

原创 从均分到优选:基于BGP扩展的动态智能选路技术实战

传统BGP协议虽能实现路由可达性,但缺乏对路径质量的动态感知能力,导致流量分配不均、高延迟链路未被规避等问题。为提升网络资源利用率,动态智能选路技术应运而生。该技术基于BGP扩展机制,通过实时收集路径质量指标,实现数据流的智能调度,显著优化高吞吐场景(如分布式存储、AI训练)的性能。

2025-06-24 11:46:15 822

原创 动态WCMP+Flowlet ALB:双引擎驱动智算网络负载均衡

人工智能(AI),特别是大规模模型训练和推理,正以前所未有的方式重塑数据中心网络。传统的“尽力而为”网络架构,在处理海量、突发的AI数据洪流时捉襟见肘。AI模型对网络性能的严苛要求——高带宽、低延迟、零丢包——迫使网络必须进行一场深刻的智能进化,从被动的基础设施转变为理解业务、感知状态、智能决策的“AI感知网络”。

2025-06-20 14:50:57 935

原创 多租户园区网络革命:云化架构+极简运维,破解千企接入难题

新一代云化园区网解决方案,创新性地将数据中心级的Spine/Leaf架构以及“全三层”、“云架构”、“超堆叠”、“云漫游”等设计理念应用于园区场景,显著提升网络服务质量和运维水平。面对多租户场景下更严苛的资源隔离、安全保障和自动化运维需求,本方案提供了系统性解决思路

2025-06-16 16:04:40 1126

原创 突破AI瓶颈:基于实时感知的智能选路实现智算负载均衡优化

为了从根本上优化AI流量的传输效率并最大化集群利用率,我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于,聚焦关键影响因子,摒弃单一指标,精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子…

2025-06-13 15:08:43 872

原创 一机多用,解耦未来!如何一站式搞定中小企业网络、路由、安全

基于开放架构的智能业务处理平台,通过算网融合芯片与模块化设计,实现软硬件解耦,将网络、路由、安全等功能集成于单一设备,为中小企业提供高性能、易维护的一体化解决方案。

2025-06-09 14:17:36 133

原创 破解空口资源困局!云园区网络如何实现无线性能倍增?

无线空口是无线通信系统中,用户设备与基站之间通过无线电波进行信息传输的接口规范的总称。你可以把它理解为移动设备(如手机、平板、物联网设备)和网络基站(如蜂窝基站、Wi-Fi路由器)之间“看不见的数据高速公路”。它定义了信号如何在空中“行走”的规则。

2025-06-03 13:35:19 592

原创 算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

本文将深度解析 AI 智算场景打造的800G AI RoCE交换机,从外部规格的硬件创新到内部架构的芯片级设计,从企业级操作系统的功能突破到实测数据的性能验证,全方位展现其如何通过领先的技术架构破解 AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置。

2025-05-27 18:24:31 851

原创 如何破解GPU集群集合通信路径的“黑盒”难题?

集合通信库(如NCCL、HCCL)的运行细节用户完全无感知,形成“黑盒”状态。EPS通过实时解析集合通信库的底层运行状态,将隐蔽的通信路径、GPU与网卡状态等信息可视化,并提供智能路由推荐,帮助用户快速优化集群性能。

2025-05-22 09:59:47 752

原创 从被动响应到主动防御:云化重构下园区网络运维的范式突围

随着企业数字化转型加速,传统园区网络架构在运维效率、成本控制等方面面临严峻挑战。星融元基于云原生理念打造的园区网络解决方案,通过前两阶段的技术架构革新,已成功实现中大型园区基础网络的云化重构。本文将重点阐述进入运维阶段的三大核心能力体系。

2025-05-19 17:19:59 934

原创 企业网络新选择:软件定义架构下的MPLS

随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

2025-05-14 18:21:45 787

原创 AI驱动网络范式革新:Smart Switch与智能路由的协同进化

在GPT-4o参数规模突破10万亿、千卡集群成为AI训练标配的今天,全球互联网正经历着前所未有的流量风暴。当单次模型训练可产生相当于YouTube全球三日流量的数据洪流,当分布式推理系统要求微秒级延迟保障,传统网络架构的流量调度机制正面临系统性崩塌。路由技术如何破局AI流量洪峰?

2025-05-12 16:33:56 882

原创 开放网络渗透率激增!从Gartner魔力象限看SONiC战略机遇

作为唯一获Gartner荣誉提名并专注SONiC的厂商,星融元(Asterfusion) 提供“开箱即用”的企业级SONiC解决方案。场景覆盖广,持从AI智算中心到企业园区的跨场景部署,并增强VXLAN、BGP EVPN等企业级功能。兼容多风格CLI,弥补社区版短板,助力企业平滑过渡至开放网络。技术前瞻性,通过软硬一体交付,将前沿工程经验产品化,为传统厂商的“白盒化挑战”提供解题思路。

2025-05-07 15:30:14 898

原创 6GHz频段受限:WiFi 7部署的“最后一公里”难题如何破局

随着万物互联时代的加速到来,无线网络面临前所未有的挑战!高密度设备接入、低时延交互需求(如元宇宙、8K流媒体)、复杂电磁环境下的稳定性要求等,驱动着WiFi技术的持续革新。作为IEEE 802.11be标准的最新成果,WiFi 7(第七代WiFi)在WiFi 6的基础上实现了多维度的技术跃迁,旨在突破现有网络性能瓶颈,为未来智能场景提供更高效的无线连接方案。

2025-05-06 15:01:57 1259

原创 万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践

近年来,随着AI大模型训练(如GPT-4、Gemini)的爆发式增长,数据中心网络的流量压力急剧上升。单次训练任务可能涉及数千张GPU卡协同工作,生成集合通信流量(All-Reduce、All-to-All等),网络面临高并发、低延迟、无损传输的严苛需求。然而,传统以太网的网络利用率长期徘徊在35%~40%,成为制约AI算力释放的关键瓶颈。

2025-04-28 13:49:05 814

原创 中大型园区网络业务开通「极简流程」:从规划到上线30分钟全攻略

“30分钟内,为中大型园区开通有线无线双网并实现统一管理”——这一目标绝非纸上谈兵。依托新一代云化园区网络解决方案,企业可轻松实现“即插即用”的极简组网体验。

2025-04-24 10:45:09 634

原创 开箱即见真章:RoCE交换机的硬件架构到底藏着哪些颠覆性设计?

560ns 超低转发时延、64×800G OSFP 高密度接口、TL10单芯片架构、超大片上缓存、板间无缆互联、定制级 PTP和AI 模块。

2025-04-21 17:41:14 1303

原创 智算网络新标杆:全栈AI方案如何实现无损带宽与多租户隔离?

在云数据中心与智算中心场景中,多租户网络需实现物理基础设施的共享与租户间逻辑隔离的平衡。其技术实现通常依赖虚拟化技术(如VLAN、VXLAN),但随规模扩展,配置复杂度陡增。若隔离策略或地址规划不当,可能导致租户间业务冲突,甚至引发数据泄露风险。

2025-04-14 18:33:14 977

原创 体验为王:云化园区网络如何重塑用户业务零卡顿时代

从企业的多分支组网,到智能园区的物联网融合,云园区控制器展现的不仅是技术迭代,更是网络建设范式的根本转变。通过将TIP开放标准与云原生架构结合,我们正在重新定义园区网络的"现代化"内涵,这不再局限于带宽升级,而是通过架构解耦让网络像云计算一样弹性伸缩,通过开源生态打破传统设备厂商的绑定困局,最终让智能园区的数字化转型驶入快车道。

2025-04-07 17:51:40 1028

原创 多网卡场景智能路由新思路:批量自动配置?

当传统路由设置方法在智算环境下失效,一个可行的应对方式是提前规划GPU服务器内的路由,借助Linux的多路由表和策略机制实现更加灵活、精细的流量控制和路由管理功能,但也伴随着一定的复杂性和潜在风险。主要表现为流量路径选择错误、默认路由冲突、策略路由配置复杂等问题。

2025-03-31 14:46:42 485

原创 DeepSeek组网的演进与效率提升

近年来,千亿至万亿参数规模的大语言模型(LLM)训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长, 并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。在,全局梯度同步(All-Reduce)对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展,但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起,通过自适应路由减少跨节点跳数。与此同时,中的张量切分与流水线编排,则依赖于NVLink域内直连或Torus环形网络的低延迟特性,减少通信开销。

2025-03-24 18:27:58 1185

原创 PTP协议赋能高精度时间同步网络

PTP(精确时间协议,Precision Time Protocol)是一种基于IEEE 1588标准的网络时间同步协议,旨在为分布式系统中的设备提供亚微秒级(甚至纳秒级)的高精度时钟同步。其核心目标是通过消除网络传输延迟的不确定性,确保跨设备的动作、数据采集或控制指令在严格统一的时间基准下执行。

2025-03-14 14:50:15 1452

原创 从30%丢包到零延迟:DeepSeek大规模集群通信优化的关键技术解析

近年来,生成式人工智能(Generative AI)的突破性发展,将大语言模型(LLM)和深度学习系统的算力需求推向了前所未有的量级。

2025-03-10 12:03:32 1178

原创 尝试私有化部署DeepSeek?至少九成工程师会忽略这一点

近期,DeepSeek 已成为各行业关注的焦点。其卓越的语言理解和生成能力使其能够精准处理各种复杂的自然语言任务,无论是文本生成、语义理解还是智能对话,都能轻松应对。随着 DeepSeek 的迅速走红,众多厂商纷纷加入这一技术浪潮,积极接入这一强大的语言模型。从互联网科技巨头到传统制造业企业,从金融行业到教育领域,DeepSeek 的应用范围不断扩大,成为推动企业数字化转型和智能化升级的重要力量。在此趋势下,越来越多的企业开始选择私有化部署 DeepSeek,以更好地满足自身业务需求。

2025-03-05 17:57:59 801

原创 RDMA网络监控攻略!共享开放技术成果

RDMA技术对网络丢包非常敏感,因此,为了充分发挥RDMA的性能,需要构建一个无丢包的网络环境,即无损网络,通过PFC(优先级流量控制)和ECN(显式拥塞通知)等技术,确保网络在高负载情况下仍能保持低延迟和高吞吐量。这种技术显著降低了延迟和CPU开销,提高了数据传输的效率。SNMP监控的应用场景其实相对广泛,比如监控路由器、交换机、防火墙等网络设备的接口流量、CPU利用率、内存使用情况、服务器硬件的硬盘空间、电源状态等,但SNMP监控也存在轮询机制导致的数据收集实时性较弱、可扩展性弱、配置管理繁琐等问题。

2025-03-03 11:29:24 1306

原创 园区网破局(一):看云化路由设计如何引领网络升级

在数字化转型的浪潮中,传统园区网络面临着诸多挑战,逐渐难以满足企业日益增长的业务需求。在架构层面,传统园区网络多采用 “接入 - 汇聚 - 核心” 的三层架构,容易产生二层网络广播风暴、网络环路等问题,可靠性、易拓展性也有待提高......在运维方面,网络部署需要网络管理员手工通过命令行或 Web 管理等方式,逐台配置设备。对于规模较大的园区,手工重复工作量大,配置繁琐,新业务上线周期长。一旦网络出现故障,定位和解决问题往往依赖专业人员的运维经验,故障排查时间长,影响业务正常运行......

2025-02-21 14:08:12 1118

星融元国产高性能DPU智能网卡,即将开源!

星融元HeliumDPU智能网卡,卸载原本跑在服务器CPU上的业务,帮助分担业务负载。秉承开源开放的理念,现已将Helium DPU智能网卡的产品资料和相关代码开放给生态内广大客户和合作伙伴,Helium DPU 智能网卡上已经完成了多种场景的功能验证,包括OVS、NVMe-oF(TCP)、LVS、5G UPF、SSL卸载等

2023-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除