newyork major-CSDN博客

原创神经网络阅读整理

数字识别神经网络的实现-CSDN博客。神经⽹络可以计算任何函数的可视化证明。深度学习之分类手写数字的网络。柔性最大值解决学习缓慢问题。神经网络中的过度拟合问题。深度神经⽹络为何很难训练。深度学习之卷积神经网络。深度学习的人工神经元。梯度下降算法学习图像。深度学习中的一些名词。神经网络中的反向传播。

2025-07-14 09:56:26 916

PCIE中的cfg rd/wr TLP。PCIE中的mem rd/wr TLP。PCIE中的IO rd/wr TLP。TLP中与payload相关的参数。基于 PCIe 架构的处理器系统。PCIE之MSI/MSI-X基础。PCIe 体系结构的组成部件。PCIe 设备的扩展配置空间。PCIE中基于地址的路由。PCIE中的消息请求报文。PCIE总线使用的信号。PCIE总线的层次结构。PCIE中TLP的格式。PCIE中TLP的路由。PCIE基于ID的路由。PCIE中的隐式路由。PCIE中的完成报文。

2025-07-14 09:55:53 893

原创 PCI总线概述目录

在一个处理器系统中，每一个HOST主桥都管理了一颗PCI总线树，在同一颗PCI总线树上的所有PCI设备属于同一个PCI总线域。即PCI总线地址空间该空间与memory 地址空间通过HOST主桥隔离HOST主桥的一个重要作用就是将处理器访问的memory地址转换为PCI总线地址在HOST主桥中含有许多缓冲，这些缓冲使得处理器总线与PCI总线工作在各自的时钟频率中，彼此互不干扰HOST主桥是联系PCI总线与处理器的核心部件，掌握HOST主桥的实现机制是深入理解PCI体系结构的前提。PCIE总线的组成结构。

2025-06-17 10:40:41 610

原创 On-Chip-Network 阅读整理

On-Chip-Networks之interface with system architecture。On-Chip-Networks之introduction。On-Chip-Network之Topology。On-Chip-Network之routing。

2024-11-25 15:25:34 1540

原创 Memory consistency model 梳理目录

常见的一些RELAXED MODEL CONCEPTS。Coherence & Consistency的背景。coherence的基本概念。SC的实现原理及方式。

2024-11-13 14:42:58 1294

原创 RISC-V知识点目录

分支指令的方向预测_基于两位饱和计数器的分支预测。分支预测失败的处理_分支预测错误。超标量处理器中的分支预测实现。

2024-10-08 18:04:55 2178

原创 CHI协议简读汇总

(210条消息) CHI trans简析--Non-Allocating Read_newyork major的博客-CSDN博客。(210条消息) chi中的trans简析---Allocating Read_newyork major的博客-CSDN博客。(210条消息) CHI trans简析--combined trans_newyork major的博客-CSDN博客。(210条消息) CHI trans简介---Atomic trans_newyork major的博客-CSDN博客。

2023-07-23 10:53:14 1902

原创 SOC基础目录

SOC验证之Interconnet Verification-CSDN博客。单个axi master的读写黑盒验证策略-CSDN博客。SOC验证之Low Power验证-CSDN博客。芯片后仿真步骤及注意事项-CSDN博客。SOC验证之CDC验证-CSDN博客。

2025-07-17 11:26:28 239

原创神经网络之权重初始化

结果表明，我们可以⽐使⽤归⼀化的⾼斯分布做得更好。假设我们使⽤⼀个有⼤量输⼊神经元的⽹络，⽐如说1000个。假设，我们已经使⽤归⼀化的⾼斯分布初始化了连接第⼀个隐藏层的权重。创建了神经⽹络后，我们需要进⾏权重和偏置的初始化。

2025-07-16 10:05:03 170

原创 SOC验证之Interconnet Verification

如今的 SoC 包含数百个预先验证的 IP、内存控制器、DMA 引擎等。所有这些组件都需要使用多种不同的互连技术（基于跨总线、基于 NoC（片上网络）等）相互通信。本章将讨论互连验证面临的挑战、解决方案和方法，并讨论一些 EDA 供应商的解决方案等。

2025-07-16 10:03:22 935

原创 SOC验证之Low Power验证

独立供电区域。使能不同的功耗降低技术在每个region的应用。power domain 是一组出于电源管理目的而被当作一个组来处理的实例；电源域的实例通常（但并非总是）共享一组主要电源。电源域还可以有其他电源，包括retention电源和isolation电源。

2025-07-15 11:13:40 1347

原创芯片后仿真步骤及注意事项

例如，如果指定延迟为5ns，参数为“+pulse_r/40”和“+pulse_e/80”（其中的40和80为百分比），那么小于2ns（5x（40%））的信号将被滤除，大于等于4ns（5x（80%））的信号将可以通过，介于两者之间的信号将输出不定态。在仿真时，增加如下仿真参数：+transport_path_delays +pulse_r/ +pulse_e/ 可在仿真阶段实现传输延迟的模拟，并且配置不同的滤除百分比，输出的结果也会有差异，一般输出结果为三种情况：滤除、通过、不定态。

2025-07-15 10:20:11 663

原创 SOC验证之CDC验证

现今的soc, 几乎没有任何设计是在单个时钟上运行的。一个典型的SoC将有三个或更多的时钟，并且这些时钟是异步的。我们用lint工具和其他的一些手段，进行CDC check，但是问题在于，在RTL静态或者基于仿真的分析，与真正的物理芯片中的行为，这两者之间，并不是完全等价的。在RTL级或门级上，由于跨时钟域导致的亚稳态问题不是很容易预测。因此，模拟无法准确预测真实芯片的行为，有一些critical的bug, 可能会从验证流程中遗漏到后续环节；这导致近25%的问题是由时钟问题引起的，CDC是其中的主要原因。

2025-07-14 16:37:21 852

原创神经网络中的反向传播

反向传播是利用递归计算表达式的梯度的方法。理解反向传播过程及其精妙之处，对于理解、实现、设计和调试非常。在神经网络中f对应的是（L），输入x里面包含训练数据和神经网络的权重。举个例子，损失函数可以是SVM的损失函数，输入则包含了训练数据权重W和偏差b。

2025-07-11 09:59:50 1086

原创其他的深度学习模型

这就使得前期的层学习⾮常缓慢。例如，隐藏神经元的⾏为不是完全由前⼀层的隐藏神经元，⽽是同样受制于更早的层上的神经元的激活值。也可能隐藏和输出层的神经元的激活值不会单单由当前的⽹络输⼊决定，⽽且包含了前⾯的输⼊的影响。⽽像DBN这样的⽣成式模型可以类似这样使⽤，但是更加有⽤的可能就是指定某些特征神经元的值，然后进⾏“反向运⾏”，产⽣输⼊激活的值。在前馈神经⽹络中，单独的输⼊完全确定了剩下的层上的神经元的激活值。可以想象，这是⼀幅静态的图景：⽹络中的所有事物都被固定了，处于⼀种“冰冻结晶”的状态。

2025-07-11 09:59:27 374

原创深度学习之卷积神经网络

在上⼀章，我们学习了深度神经⽹络通常⽐浅层神经⽹络更加难以训练。我们有理由相信，若是可以训练深度⽹络，则能够获得⽐浅层⽹络更加强⼤的能⼒，但是现实很残酷。从上⼀章我们可以看到很多不利的消息，但是这些困难不能阻⽌我们使⽤深度神经⽹络。在前⾯的章节中，我们教会了神经⽹络能够较好地识别⼿写数字，我们使⽤了全连接的邻接关系的⽹络来完成这个⼯作。即，⽹络中的神经元与相邻的层上的每个神经元均连接。

2025-07-11 09:59:09 1089

原创深度神经⽹络为何很难训练

根本的问题其实并⾮是消失的梯度问题或者激增的梯度问题，⽽是在前⾯的层上的梯度是来⾃后⾯的层上项的乘积。所以，如果我们使⽤标准的基于梯度的学习算法，在⽹络中的不同层会出现按照不同学习速度学习的情况。结果表明了激活函数的选择，权重的初始化，甚⾄是学习算法的实现⽅式也扮演了重要的⻆⾊。这些简单的⽹络已经⾮常有⽤了：在前⾯的章节中，我们使⽤这样的⽹络可以进⾏准确率⾼达98%的⼿写数字的识别！那我们如何训练这样的深度神经⽹络呢？更加⼀般地说，在深度神经⽹络中的梯度是不稳定的，在前⾯的层中或会消失，或会激增。

2025-07-10 09:59:50 790

原创神经网络中的规范化

原因在于不同的⽹络可能会以不同的⽅式过度拟合，平均法可能会帮助我们消除那样的过度拟合。不同的⽹络会以不同的⽅式过度拟合了，所以，弃权过的⽹络的效果会减轻过度拟合。然⽽，⼤的⽹络拥有⼀种⽐⼩⽹络更强的潜⼒，所以这⾥存在⼀种应⽤冗余性的选项。这表明如果我们使⽤⼤量更多的训练数据 ——不妨设百万或者⼗亿级的⼿写样本，⽽不是仅仅50,000个——那么，我们可能会得到更好的性能，即使是⽤这样的简单⽹络。幸运的是，还有其他的技术能够缓解过度拟合，即使我们只有⼀个固定的⽹络和固定的训练集合。

2025-07-10 09:58:58 994

原创神经网络简介

激活速率编码。

2025-07-09 14:44:45 395

原创神经网络中的过度拟合问题

我们可以看到测试集上的代价在15迭代期前⼀直在提升，随后越来越差，尽管训练数据集上的代价表现是越来越好的。从⼀个实践⻆度，我们真的关⼼的是提升测试数据集上的分类准确率，⽽测试集合上的代价不过是分类准确率的⼀个反应。即使这样的模型能够很好的拟合已有的数据，但并不表⽰是⼀个好模型。诺⻉尔奖获得者，物理学家恩⾥科·费⽶有⼀次被问到他对⼀些同僚提出的⼀个数学模型的意⻅，这个数学模型尝试解决⼀个重要的未解决的物理难题。就像费⽶不⼤喜欢的那个模型⼀样，我们的⽹络在280迭代期后就不在能够推⼴到测试数据上。

2025-07-09 09:47:31 943

原创柔性最大值解决学习缓慢问题

本章，我们⼤多数情况会使⽤交叉熵来解决学习缓慢的问题。但是，我希望简要介绍⼀下另⼀种解决这个问题的⽅法，基于柔性最⼤值（softmax）神经元层。柔性最⼤值的想法其实就是为神经⽹络定义⼀种新式的输出层。第j各神经元的激活值如下，其中，分⺟中的求和是在所有的输出神经元上进⾏的。

2025-07-09 09:47:14 977

原创反向传播算法简介

在上⼀章，我们看到了神经⽹络如何使⽤梯度下降算法来学习他们⾃⾝的权重和偏置。但是，这⾥还留下了⼀个问题：我们并没有讨论如何计算代价函数的梯度。这是很⼤的缺失！在本章，我们会解释计算这些梯度的快速算法，也就是反向传播（backpropagation）；反向传播的核⼼是⼀个对代价函数C关于任何权重w（或者偏置b）的偏导数的表达式。这个表达式告诉我们在改变权重和偏置时，代价函数变化的快慢。由于此处数学推导非常多，因此这里尽可能的描述一些简单的推导过程和结论性的东西，有个概念即可；

2025-07-08 11:22:54 237

原创 PCIE链路层基础

数据链路层（Data Link Layer）主要进行数据链路层不仅可以转发来自事务层的包（TLP），还可以直接向另一个相邻设备的数据链路层直接发送DLLP；

2025-07-08 11:22:34 839

原创 PCIE Ack/Nak机制详解

Ack/Nak是一种由硬件实现的，完全自动的机制，目的是保证TLP有效可靠地传输。

2025-07-07 10:01:50 1132

原创 PCIE MSI-X之table使用

在Pending Table中，一个Entry由64位组成，其中每一位与MSI-X Table中的一个Entr y 对应。当Per Vector Mask 位为1时，PCIe设备不能立即发送MSI-X中断请求，而是将对应的Pending位置1。即Pending Table中的每一个Entry与MSI-X Table的64个Entry对应。当MSI-X Enable位有效时，该字段存放MSI-X存储器写事务的目的地址的低32位。该字段只有第0位(即Per Vector Mask位)有效，其他位保留。

2025-07-07 10:00:30 313

原创 PCIE之MSI/MSI-X基础

在PCI总线中，所有需要提交中断请求的设备，必须能够通过INTx引脚提交中断请求，而 MSI 机制是一个可选机制。而在PCIe总线中，PCIe设备必须支持MSI或者MSI-X中断请求机制，而可以不支持INTx中断消息在PCIe总线中，MSI和MSI-X中断机制使用存储器写请求TLP向处理器提交中断请求。

2025-07-04 14:20:27 772

原创 PCIE中的mem rd/wr TLP

一个源设备在发送Non-Posted数据请求之后，如果并没有收到目标设备回送的完成报文，TLP报文的发送端需要保存这个Non-Posted数据请求，此时该设备使用的Transaction ID(Tag字段)不能被再次使用，直到一次数据传送结束，即数据发送端收齐与该TLP对应的所有完成报文。“Zero-Length”读请求的引入是为了实现“读刷新”操作，该操作的主要目的是为了确保之前使用Posted方式所传送的数据，到达最终的目的地。对于Non-Posted数据请求，目标设备需要完成报文，作为回应。

2025-07-04 14:19:50 498

原创按照规则打印长bit数据

又是我们需要打印一个很大的数据，如果按照%b/%h%d等方式打印，出来的数字很长，可读性差，因此，我们需要对该打印进行一定的处理；例如，每4bit增加下划线；

2025-07-03 18:11:29 246

原创 TLP中与payload相关的参数

2025-07-03 09:47:04 563

原创 PCIE中的消息请求报文

INTx中断消息报文(INTx Interrupt Signaling)。锁定事务消息报文(Locked Transaction Support)。插槽电源限制消息报文(Slot Power Limit Support)。电源管理消息报文(Power Management)。错误消息报文(Error Signaling)。在PCIe总线中，多数消息报文使用隐式路由方式。PCIe 总线规定了以下几类消息报文。

2025-07-03 09:46:41 199

原创深度学习中的一些名词

在机器学习中，输入的feature, 通过预测模型，输出预测值，此过程称之为向前传播；为了将预测与真实值的产值减小，需要根据差值，更新模型中的参数，此过程称之为向后传播；它使用的是max(0,−)2，将更强烈（平方地而不是线性地）地惩罚过界的边界值；折叶损失（hinge loss）控制模型的行为和性能。

2025-07-02 14:53:35 1134

原创神经⽹络可以计算任何函数的可视化证明

这只是⼀个粗略的近似，但我们可以很容易地做得更好，仅仅通过增加隐藏神经元对的数量，分配更多的凹凸形状。这是所有要做的事情：现在我们有了⼀个可以很好计算我们原始⽬标函数的神经⽹络的完整的描述。为了感受⼀下⽹络的组成部分⼯作的机制，我们专注于最顶上的那个隐藏神经元。总结⼀下，更加准确的关于普遍性定理的表述是包含⼀个隐藏层的神经⽹络可以被⽤来按照任意给定的精度来近似任何连续函数。神经⽹络的⼀个最显著的事实就是它可以计算任何的函数，也就是说，针对任何一种复杂而奇特的函数f(x),它就像是唯⼀的输⼊。

2025-07-02 10:33:16 1490

原创 PCIE中的cfg rd/wr TLP

Attr2位为保留，而Attr[1:0]必须为“00b”，这表示I/O请求报文使用PCI总线的强序数据传送模式；AT[1:0]必须为“0b00”，表示不进行地址转换。PCIe 总线也支持两种配置请求报文，分别为Type 00h和Type 01h配置请求。Length[9:0]为“0b00 0000 0001”，表示配置读写请求最大Payload为1DW。TC[2:0]必须为0，I/O请求报文的传送类型(TC)只能为0。配置读写请求TLP由RC发起，用来访问PCIe设备的配置空间。

2025-07-02 10:32:13 185

原创 PCIE中的完成报文

Non-Posted总线事务在PCI和PCIe中会转换为Delayed事务和Split事务进行delayed事务PCI总线的Delayed传输使用Retry的方式进行，这里不再讲解例如，对于mem rd, 必须等到读请求到目的端，目的端返回数据，才能释放总线，效率很低split总线事务替代了PCI总线的Delayed数据传输方式，提高了Non-Posted总线事务的传输效工作原理Requester向 Completer发起存储器读请求总线事务；

2025-07-02 10:31:44 1127

原创 PCIE中的IO rd/wr TLP

Length[9:0]为“0b00 0000 0001”，表示I/O读写请求TLP最大的数据Payload为1DW，该类TLP不支持突发传送。因此虽然支持I/O 读写请求的PCIe设备极少，但是在PCIe体系结构中，依然需要支持PCI总线域的I/O地址空间。只是I/O读写请求TLP只能使用32位地址模式和基于地址的路由方式。TC[2:0]必须为0，I/O请求报文使用的TC标签只能为0。TH和Attr2位保留，而Attr[1:0]必须为“0b00”AT[1:0]必须为“0b00”，表示不支持地址转换。

2025-07-01 09:52:58 216

原创 PCIE中的隐式路由

在PCIe总线中，有许多消息是直接发向RC或者来自RC的广播报文，这些报文不使用地址或者ID进行路由，而是使用Msg和MsgD报文的Route字段进行路由，这种路由方式被称为隐式路由。当一个报文使用隐式路由向EP发送时，EP将对Route字段进行检查，如果这个报文是“来自RC的广播报文”，或者是“本地报文”，EP将接收此报文。如果Switch接收了一条来自下游端口发向RC的消息报文时，Switch将此报文直接转发到上游端口，直至RC；如果为0b100，RC将接收该TLP，并结束该TLP报文的传递。

2025-07-01 09:52:37 297

AScalable Front-End Architecture for Fast Instruction Delivery

cache的snoop vs directory，两种方式比较

空空如也