黎明沐白-CSDN博客

原创大模型推理加速之vLLM

vLLM框架通过PagedAttention算法优化大模型推理中的KV Cache内存管理，借鉴操作系统虚拟内存思想减少内存浪费。其核心架构包括入口点(CLI/API)、引擎(协调推理)、工作进程(GPU管理)和模型运行器(执行逻辑)，采用分层设计保证可扩展性和一致性。引擎类提供add_request和step两大功能，后者执行解码迭代时包含序列调度、分布式执行和结果处理三个关键步骤。相比FasterTransformer等系统，vLLM能在保持相近延迟的情况下提升2-4倍吞吐量。

2025-06-20 13:31:20 541

原创 Paper Reading——ICLR 2023 iFPU

本文提出了一种创新方法iFPU，能够在神经网络推理中同时实现浮点激活的精度和整数运算的简单性。该方法通过将权重表示为二进制编码，将乘法转换为预对齐的浮点加法运算，进而将这些加法重构为整数运算。研究表明，即使激进截断预对齐的尾数，只需保留少量额外位仍能保持计算精度。硬件实现表明，与传统浮点单元相比，iFPU显著提高了能源效率和单位面积吞吐量，同时维持了神经网络准确性。该方法为解决激活量化难题提供了新思路，在保证精度的同时降低了硬件成本。

2025-06-20 10:43:28 432

原创 PyTorch源码编译报错“fatal error: numpy/arrayobject.h: No such file or directory”

记录一下这个bug的fix过程一开始以为是版本问题，尝试了几个不同版本都不可以，遂排除版本问题的可能。

2025-04-19 10:17:00 413

原创 Cache优化原则

Cache性能优化

2025-04-19 09:58:20 284

原创 Pytorch Hook 技巧

Pytorch 非侵入式、便捷插入 Hook 的技巧

2025-04-15 12:14:08 612

原创体系结构量化研究方法第四章-3

体系结构量化研究方法第四章 part3 数据级并行loop dependence 及优化方法

2024-12-30 13:04:06 741

原创体系结构量化研究方法第四章-2

【代码】体系结构量化研究方法第四章-2SIMD 扩展GPU架构

2024-12-30 12:55:56 916

原创体系结构量化研究方法第四章-1

体系结构量化研究方法第四章 part-1向量架构设计及优化

2024-12-28 20:44:02 1011

原创体系结构量化研究方法第五章-2

体系结构量化研究方法第五章线程级并行Cache coherence： directory based ProtocolSynchronization（硬件同步原语）Memory Consistency

2024-12-28 18:07:01 846

原创体系结构量化研究方法第五章-1

体系结构量化研究方法第五章 part1线程级并行问题概览，及 Cache coherence 的 snoopying coherence protocol

2024-12-27 19:42:52 1043

原创体系结构量化研究方法第六章

体系结构量化研究方法第六章仓储级 WSC 体系结构

2024-12-27 18:56:42 633

原创体系结构量化研究方法第三章-3

体系结构量化研究方法第三章指令级并行 part3指令发射优化、取指优化、其他高级优化方法多线程（粗粒度、细粒度、同步多线程）

2024-12-24 19:03:56 840

原创体系结构量化研究方法第三章-2

体系结构量化研究方法第三章 part2动态指令执行优化方法 Tomasulo’s Approach指令提交优化方法 Speculation Tomasulo’s Approach with speculation

2024-12-23 18:48:33 737

原创体系结构量化研究方法第三章-1

体系结构量化研究方法第三章 part1指令集并行basic techniquescompiler techniques

2024-12-22 11:24:22 651

原创体系结构量化研究方法（第二章-2）

体系结构量化研究方法第二章 part-2Cache 优化的 6 个基本方法，以及 10个高级方法虚拟内存、虚拟机、虚拟化

2024-12-20 19:31:54 966

原创体系结构量化研究方法（第二章-1）

体系结构量化研究方法，第二章 part-1Memory Hierarchy Design Memory Hierarchy 介绍Cache 回顾

2024-12-19 15:11:02 984

原创体系结构量化研究方法（第一章）

体系结构量化研究方法第一章量化研究基础

2024-12-17 18:49:52 1067

原创大模型推理加速——ALISA

ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV CachingISCA’24Algorithm and system co-design

2024-11-05 14:26:25 899

原创大模型量化算法之Smoothquant

经典大模型量化算法发表于 ICML 2023；8-bit weight, 8-bit activation (W8A8)，训练后量化方法（PTQ）量化

2024-10-16 18:42:58 1447 1

原创大模型量化算法之LLM.int8()

LLM.int8() 梳理，文章阅读

2024-10-16 18:11:01 1330

原创 RepQ-ViT 阅读笔记

RepQ-ViT，一种新的基于量化缩放因子（quantization scale）重参数化的PTQ框架量化步骤部署了复杂的量化器推理步骤采用量化缩放因子参数化的简化量化器以保证精确的量化和高效的推理重点关注具有极端分布的两个组件LayerNorm后的具有严重的通道间差异Softmax后的幂律分布关注的是对 activation 的量化方法最初对两部分数据分别采用： channel-wise 量化和log2log\sqrt 2log2量化。

2024-08-16 11:41:56 1170

原创 Cache结构

Cache架构，Cache设计

2024-08-06 23:04:31 1255

原创 BERT模型

BERT模型是由谷歌团队于2019年提出的 Encoder-only 的语言模型，发表于NLP顶会ACL上。原文题目为：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》在前大模型时代，BERT模型可以算是一个参数量比较大的预训练语言模型。在如今的大模型时代，LLM大多遵循GPT提出的Decoder-only的模型范式。BERT也可以算是时代的眼泪了。

2024-08-03 18:47:48 889

原创 TPU架构

第一代TPU架构的介绍

2024-08-01 13:50:35 1248

原创 Ajax使用指北

Ajax 全称为 asynchronous JavaScript and xml：也即，异步的 Js 和 XML。特点在于：服务器的响应只是数据，局部刷新html页面。

2024-08-01 10:54:01 713

原创缓存穿透、缓存击穿以及缓存雪崩

缓存穿透、缓存雪崩、缓存击穿及其解决方案

2024-07-29 15:26:36 379

原创 llama-2大模型结构

LLama-2大模型的结构梳理，以7B为例

2024-07-29 14:39:46 1699 2

原创 OPT 大语言模型（Large Language Model）结构

大语言模型follow GPT的做法，其基本组成结构是Decoder-only的Transformer block，多个Transformer Block堆叠在一起；不同数量、不同Head、不同隐藏层维度构成了不同参数量的大模型（也即模型跟着的后缀，比如，6.7B）；预训练模型参数的数据类型（大模型的参数一般都为半精度fp16，而非单精度浮点数fp32）大模型中通常采用的KV cache机制体现在图中的：past_key_value；以OPT-6.7b模型为例，梳理OPT大模型的网络结构；

2024-07-28 16:52:44 2480

原创 Verilog HDL学习

模块的端口也有方向（通常为输入和输出），输入端口由模块外部的一些东西驱动，而输出端口驱动外部的一些东西。持续赋值的意思是赋值是一直持续的，即使右端的值改变（左端的值会随着右端的值改变而改变），每当任何一个输入改变，输出被重新计算（recompute）在声明的时候，vector 的维度放在变量名的前面，而 part select 的时候将为度放在向量名的后面。声明的时候vector的索引被写在名字的前面，这些比特被 pack 在一起形成一个 blob；unpacked 的维度被声明在名字的后面。

2024-07-28 11:48:10 852

原创深度学习中的非线性函数

对一个样本所有特征计算均值和方法，然后对样本进行归一化。LLama 模型引入的 RMSNorm。向量维度为H，g、b为可学习的两个参数。层归一化，稳定训练并提升模型收敛性。为 Sigmoid函数。

2024-07-28 10:55:32 840

原创数字集成电路——设计透视第2版阅读笔记 1 第一章

数字电路经典教材，伯克利大学Rabaey教授编写

2022-11-20 22:53:32 703

原创 PTX ISA 7.4 参考手册翻译

PTX ISA 7.4

2021-12-21 11:33:58 2625

原创 lhy机器学习笔记-5

文章目录lhy机器学习笔记-5局部最小值local minimal和鞍点 saddle pointbatch批次 and momentum动量momentum： **对抗 minimal 和 saddle point 的方法**adaptive learning rate（optimizer）方法1：Adagrad方法2：RMSProplearning rate schedulingclassificationbatch normalizationbatch normalization的 Testing：为

2021-09-20 11:36:44 488

原创 LHY机器学习笔记-4

文章目录lhy机器学习笔记-4深度学习三个步骤神经网络完全连接前反馈神经网络 FC矩阵运算模型评价选取最优函数Backpropagation以单个神经元为例考虑forward passbackward passsummarylhy机器学习笔记-4深度学习三个步骤神经网络 -> 模型评估 -> 选择最优函数神经网络神经网络可以有很多不同的连接方式，这样就会产生不同的结构（structure）神经网络中的所有的权重和偏置构成了神经网络的参数 θ完全连接前反馈神经网络 FC前

2021-09-18 22:49:51 517

原创 LHY机器学习笔记-3

文章目录误差来源variancebiascross validation梯度下降tuning learning rate误差来源variance简单的模型比较不容易受样本数据的影响，简单的模型variance较小，复杂的模型有比较大的variancebias简单的模型有较大的bias，复杂的模型有较小的biaserror来源于 bias较大 —— underfittingerror来源于 variance较大 —— overfitting如果模型不能在训练集上得到较好的效果 ➡️ lar

2021-09-17 16:08:56 157

原创 LHY机器学习笔记-2

文章目录Regression 回归模型步骤选择模型模型评估筛选最佳模型——梯度下降验证模型好坏过拟合问题模型优化Regression 回归模型步骤step1：模型假设，选择模型框架（线性模型）step2：模型评估，如何判断众多模型的好坏（损失函数）step3：模型优化，如何筛选最优的模型（梯度下降）选择模型线性模型： y=b+∑wixi y = b + \sum w_ix_i y=b+∑wixi 形如其中， x_i 为特征，w_i 是各个特征权重， b 是偏置项模型评估

2021-09-15 11:35:19 284

原创 LHY机器学习笔记-1

文章目录机器学习介绍寻找function的框架（Framework）机器学习相关技术regression 回归classification 分类learning map机器学习介绍人工智慧是我们想要达成的目标，而机器学习是想要达成目标的手段深度学习就是机器学习的其中一种方法machine learning 约等于寻找一个function，要让机器具有一个能力，这种能力是根据你提供给他的资料，它去寻找出我们要寻找的function寻找function的框架（Framework）准备一个

2021-09-13 08:40:28 322

原创 PAT 乙级 1024 科学计数法

点击此处查看题目详情第6个测试点始终不过，先把代码记录在这里。等有空再改，欢迎大佬们来指出错误，嘻我的大体做法是把给的数字字符串按照格式分块取出来，再经过判断输出。#include <bits/stdc++.h>using namespace std;int main(){ char sf; // 数符 char z; //整数部分 char zs[5]; //指数部分 int zhi=0; //数字形式指数 char jf

2020-06-23 10:06:51 320

原创《Java核心技术》学习笔记1

常量与常量池常量常量池常量常量：不会修改的变量 Java中没有为常量定义专属的关键字（例如 C++中有定义常量的关键字Const），而是采用多个关键字组合的形式 public static final下面对上述几个关键字进行解释：public 方便访问static 在类中只保留一份（对应常量只读）final Java中...

2020-04-11 16:50:01 184

原创 Verilog HDL数码管动态扫描

数码管动态扫描1.概述本程序实现的是以个递增的数码管显示模块，可供其他模块使用。每隔0.5秒数码管显示的数值加12.模块设计说明本实验由5个模块构成，由顶层模块（top）调用其它四个模块实现。1.clk_out 模块本模块实现的功能是产生数码管刷新的cp信号，使数码管每隔4ms刷新一次。2.clk_s模块本模块的功能将板卡上的100兆赫的时钟频率分频成2赫兹作为get_...

2019-04-13 11:06:44 5461 4

数据结构-栈和队列-停车场管理问题

数据结构栈与队列专题，停车场管理问题。原题如下：设停车场是一个可停放n辆汽车的狭长通道，且只有一个大门可供汽车进出。汽车在停车场内按车辆到达时间的先后顺序，依次由北向南排列（大门在最南端，最先到达的第一辆车停放在最北端），若车场内已停满n辆汽车，则后来的汽车只能呢个在门外的便道上等候，一旦有车开走，则排在便道上的第一辆车即可开入；当停车场内某辆车要离开时，在它之后进入的车辆必须先退出车场为它让路，待该车开出大门外，其它车辆再按照原次序进入车场，每辆停放在车场的车在它离开停车场是必须按它停留时间的长短缴纳费用。按照从终端读入的输入数据序列进行模拟管理。每组输入数据包括三个数据项：汽车“到达”或“离去信息”、汽车牌照号码以及到达或离去的时刻。对每组输入数据进行操作后的输出信息为：若是车辆到达，则输出汽车停车场内或便道上的停车位置；若是车辆离去，则输出汽车在停车场内停留的时间和应缴纳的费用（在便道上停留的时间不收费，便道上的车辆也可随时开走）

2019-04-13

Verilog HDL实现数码管动态扫描

依据数码管的显示原理，实现数码管的动态扫描方法运用Verilog HDL 语言的描述与建模的技巧和方法编程实现了数码管的动态扫描

2019-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人