- 博客(16)
- 问答 (1)
- 收藏
- 关注
原创 SOC中transaction的延迟和AT model实现方法
我们来详细分解在一个 SoC 中,硬件 Master 通过 NoC (Network-on-Chip) 到达 Target 需要经过的 latency,以及在 TLM-2.0 AT (Approximately Timed) 建模中这些 latency 通常对应哪些阶段的。是 AT 建模的关键特征,它允许在较高的抽象层次上进行精确的时序分析,同时保持了模型的松散耦合。是一个累计的、可修改的参数,在事务的不同阶段和模块间传递时,它会被不断更新和累加。,即从当前时间点算起,事务的下一个阶段预计何时发生。
2025-06-11 10:36:51
311
原创 VDK中接收memcpy传递结构体时,interface被访问多次问题
问题现象:在VDK软件中,SDMA接受从SCP/AP侧发来的命令帧后自动解析命令帧,然后执行相应操作,但是在使用SCP 给 SDMA发送命令帧时,发现SDMA的回调调用了多次,因此查看反汇编出来的代码,是否给SDMA的interface发送了多次的transaction,造成了回调调用多次。猜测:memcpy时,是多次transaction需要调试的sdma代码如下最关键的部分来了。
2025-05-21 17:22:47
794
原创 AI芯片中得训练任务和推理任务在底层得差异
大模型在训练和**推理(推断)**阶段使用 AI 芯片时,虽然整体流程类似,但目标、资源使用、底层算子实现上都有显著差异。下面我给你分点详细讲一下它们的区别
2025-04-23 16:14:41
866
原创 NPU的编程模型和数据流驱动使用方法
NPU的编程模型从顶层到底层分为Dataflow programming model、High-Level Programming model、Low-level programming model、CT Kernel programming
2025-04-17 15:04:39
745
原创 芯片算力的计算方式
算力=操作数×主频×并行单元=1×109×16,384=16.384 TOPS算力 = 操作数 \times 主频 \times 并行单元 = 1 \times 10^9 \times 16,384 = 16.384 \, \text{TOPS}算力的计算与芯片的硬件架构、数据类型支持、以及工作频率密切相关。算力=2×1.41 GHz×6912=19.5 TFLOPS算力 = 2 \times 1.41 \, \text{GHz} \times 6912 = 19.5 \, \text{TFLOPS}
2025-01-21 20:28:40
1132
原创 SystemC使用使用sc_spawn创建同一函数的不同名THREAD
在SPE的设计中,需要在一个SC_MODULE中有同一逻辑的多个不同SC_THREAD,直接使用for循环+SC_THREAD()去创建,在运行时会报警告,有同名函数,为此使用sc_spawn创建同一函数的不同名THREAD。
2025-01-12 14:28:59
195
原创 TLM2.0基础
TLM(Transaction-Level Modeling) 是 SystemC 的高级建模方法,用于描述系统的通信行为,特别是在硬件设计和验证中。TLM 是 SystemC 的一部分,用于提高仿真的效率和抽象性。以下是 TLM 的核心知识以及关键概念。通过学习以上内容,你可以掌握 TLM 的基本用法并应用于模块间的高级通信。若需更深入了解,可以逐步研究 TLM-2.0 的非阻塞传输和时序建模。TLM 定义了一种通过事务(Transaction)交换信息的通信方式,事务通常是对数据块的抽象。
2024-12-27 21:00:26
1595
原创 SystemC-Event
2. event可以在elaboration或者simulation期间通知,但在elaboration期间或从以下回调之一创建即时通知将导致错误。3. 即时通知(immeiate)被认为早于增量通知(delta)发生,增量通知早于定时(timed)通知。b).non zero time: 在给定时间创建定时通知,相对于调用函数通知时的模拟时间表示。1. 如果为已有待处理通知的事件调用函数通知,则只有计划在最早时间发生的通知才会保留。流程实例可以在事件发生时(即,当通知事件时)触发或恢复。
2024-12-27 20:59:01
404
原创 优化Swtich case结构为双层表查询+Lamda表达式
最近在工作中遇到了这样一段代码,是三层switch嵌套的结构,第一次swtich有4个case,第二层switch有上百个case,第二层switch下有的case下会有第三层swtich结构。多次调用这段代码时,如果第二个switch结构中多次访问的是靠后的几个case,由于处理器设计的原因,会逐case去刷新缓存,这会让代码执行效率变得很差。那有什么办法可以去优化这个结构呢?
2024-09-21 23:45:17
1609
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人