- 博客(18)
- 收藏
- 关注
原创 [每日一学] 集群双向免密SSH-v2
那么如果我们有100台服务器,ip地址从2~101,在第一次scp authorized_keys输入密码很麻烦。集群中所有的服务器都是ubuntu系统,没有设置root用户,需要实现root之间互相免密。那么我们之间使用 ssh 172.20.0.100,那就找不到root用户。#有了authorized_keys是公钥,谁有公钥谁能打开我的id。附:如果集群包含多种ip(不连续),那么我们直接使用列表的形式。需要注意的时,在脚本中没有添加sshpass判断和key判断。然后再借助循环,那么。
2025-07-14 16:06:15
222
原创 [每日一学] Nvidia GPU服务器架构
PCIE是在主板上高速互联的总线,(例如你购买了一个4060的显卡插槽为PCIE)用于CPU-GPU 或 GPU-GPU之间#查看发现速率是32GT/s,为16通道#如何转换:带宽(GB/s) = GT/s × 编码效率 × 通道数 / 8#由32GT/s 可知采用的是PCIE5.0版本 编码效率为128/130,计算可得≈。这个就是通道降速说明有问题,我们也可以通过日志来查看更详细的记录。
2025-07-11 17:51:35
271
原创 [每日一学] nv_peer_mem
systemctl list-units --all | grep nvidia #发现有服务出现faied ,大概是由于重新安装驱动出现服务启动失败。/lib/modules/5.15.0-113-generic/extra/nv_peer_mem.ko #发现拥有此模块。/usr/local/cuda/extras/demo_suite# modprobe nv_peer_mem #手动启动。#正常虚机表象为成功加载nv_peer_mem。nv_peer_mem 加载失败。
2025-07-04 16:13:38
116
原创 [每日一学] GPU-Nvlink 降速
关于GPU运维方面,GPU在重启或者重装导致nvlink降速的问题,经常发生;目前通常解决方法为重装驱动。#欢迎各位大佬,解读一下原因以及有无更好的解决办法。
2025-07-04 16:10:21
64
原创 [每日一学] Win11蓝屏VMware
若修改conf文件来调试兼容性,可能会导致运行虚拟蓝屏问题。使用VMware15 16 可能出现兼容问题,导致问题。使用最新版的官网开源版本VMware 17。也有可能为安装运行hyper-v导致。使用最新版为简单解决版本。
2025-06-30 16:06:54
177
原创 [每日一学] 云创建裸金属排查思路
6.是否配置的PXE ip地址是否有问题(有些为数据库中绑定,或者DHCP分配PXE IP时候被占用)首先判断安装节点是BM00还是BM01,登录安装节点后 根据服务器ID,查询日志。2.云平台选择的安装方式是否为UEFI。A裸金属服务器通过PXE来安装系统。1.安装的镜像是否为UEFI镜像。3.系统的启动项是否含有PXE。#以上排查点仅供参考。1.云平台接入裸金属服务器进行创建。假设:云平台创建A裸金属失败。
2025-06-30 16:00:45
190
原创 [每日一学] 集群双向免密SSH
系统为ubuntu,在10.63.117.5上面生成ssh密钥,然后三台服务器共用同一个密钥进行免密 10.63.117.5 有ubuntu和root 用户,密码是123456 10.63.117.6和7 没有设置root用户的密码,,ubuntu的密码是123456 这三台服务器sudo su提权的密码也是123456。2.在server01中生成一个SSH证书,使100台设备共用同一个私钥和公钥 实现互相免密。3.应该是 server0X 生成证书,发给剩余99台,实现for in for的逻辑。
2025-06-30 10:12:27
212
原创 [每日一学] Ping测试脚本
ping为常用网络命令,但要测试整个集群的连通性,手动测试过于麻烦,我们借助bash中的list与for循环来实现集群连通性测试。下面是测试10.63.117.5~7 和 10.63.13.3~100 的一次性测试连通性。
2025-06-30 09:43:32
136
原创 [每日一学] Nginx代理上网-批量更新
nginx服务器需要可以上网,需要先配置apt源(ubuntu系统),如果可以上网直接可以apt instal nginx即可。不需要离线部署。
2025-06-25 20:15:03
135
原创 [每日一学] STP
由于 广播风暴、重复数据帧、MAC地址震荡等问题在网络中为了保证可靠性,设计冗余的链路或备份在此例中数据转发产生(顺逆时针)二层环路——广播风暴造成MAC地址表震荡——业务流量无法正常转发解决办法:STP(Spanning-Tree protocol)生成树协议 1 Stp 2 Rstp快速生成树协议 3 Mstp多生成树协议STP主要作用:链路备份 消除环路:通过阻断冗余链路来消除网络中可能存在的环路。 链路备份:当活动
2025-06-23 17:45:05
429
原创 [每日一学] 端口隔离与代理ARP
通过实验测试可得,当三个PC在同一个VLAN中开启inner arp-proxy时,使用port-isolate是依旧可以通信的,当我们port-isolate mode all 隔离后,可以解决arp-proxy代理通信的问题。因为以太网通信使用的是 MAC 地址,而我们使用的 IP 是逻辑地址,所以必须通过 ARP 将 IP 地址解析为 MAC 地址。:攻击者伪造 ARP 响应,将网关或其他主机的 IP 地址映射为自己的 MAC,从而实现中间人攻击(MITM)。(ARP地址解析协议)是用于解析。
2025-06-21 22:04:31
450
原创 [每日一学] Mux VLAN / Private VLAN
开启mux vlan 做主从vlan后,不能再开启三层VLANif、supervlan(聚合vlan),也不能进行vlan mapping和vlan stacking (vlan中继和监听)。同vlan间可以用isolate做限制,muxvlan的作用是什么呢?#因此如果我又想做vlan间通信又想节省ip地址,无法同时使用supervlan与muxvlan。需要vlan 2 和vlan 3 访问 vlan10 这是在二层做到互通的。🎯 场景描述:考试系统网络隔离(基于 Mux VLAN)
2025-06-19 18:03:57
152
原创 [每日一学] Super Vlan /Aggregate-vlan
设立一个super vlan 10,设置sub vlan 2~4;其中sub vlan公用vlan 10的子网,但是sub vlan之间互相隔离,若使sub vlan通信需要arp-proxy开启。但是在传统的vlanif 10 ip address 192.168.1.254,不是只能分配一个IP吗?是实现在同一VLAN中不同的子网之间通信的,VLAN中含有1.254 和2.254 之间进行通信。扩展:arp inner-sub-vlan-proxy enable。
2025-06-18 17:00:40
150
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人