农夫山泉2号-CSDN博客

原创【个人开源】——从零开始在高通手机上部署sd（二）

从零基础开始，在自己的高通手机(骁龙8 gen1+)上用NPU跑文生图stable diffusion模型。包含：- 高通qnn下载安装- sd模型浮点/量化导出- 在高通手机上用cpu跑浮点模型，htp跑量化模型

2025-02-21 21:14:57 770

arm，汇编Code网上有大佬用arm做了一个【Arm端算法优化笔记】一，一步步优化盒子滤波算法，这里我们也体验一下arm的neon assembly加速。这里我们做一个简单的：rgb图像，r，g，b 3通道分割分别采用4种方式实现了：opencv内置函数暴力for循环neon intrinsic的实现neon assembly汇编以上4种方式都单独测试了耗时情况，并将处理结果保存成图片，进行结果检查硬件tx2，armv8-a，64位的处理器0.code0.0 openc.

2021-04-07 18:48:38 854

原创【个人开源】——实时语义分割DDRNet

源码： DDRNet.py关键词: 实时语义分割原理介绍请看又快又强：Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of RoadDeep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road ScenesIntroductionThis is the unofficial .

2021-02-24 20:01:30 5455 28

原创【个人开源】——tensorrt自定义插件,双线性上采样

1. resizebilinear选择5.1的分支。onnx-tensorrtonnx模型：百度网盘，提取码: s7s1

2020-11-18 13:53:34 842

原创【个人项目】——细腻的人像分割

项目地址: segmentation.pytorch前面介绍了，一个人像分割数据集。这里采用该数据做了人像分割的小demo。Supervisely 人像分割数据集格式转换1. 测试1.1 环境采用本机的torch1401.2 下载预训练的模型到ckpt/ade20k-resnet50dilated-ppm_deepsup预训练模型 | 提取码: 67xi1.2 测试python test.py --config config/person-resnet50dilated-ppm_de.

2020-09-14 11:42:04 3088 6

原创【个人开源】论文复现SRN：Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

Towards Accurate Scene Text Recognition with Semantic Reasoning Networkscodehttps://github.com/chenjun2hao/SRN.pytorchUnofficial PyTorch implementation of the paper, which integrates not only globa...

2020-05-12 16:34:19 4778 12

原创【个人开源】和百度类似的口罩检测分类

凑个热闹，和百度类似的口罩检测分类。但是推理速度更快。可以采用pip一键式安装，支持CPU和GPU两种推理模式。视频效果coming soondemohttps://github.com/chenjun2hao/face_mask...

2020-02-28 00:56:55 1357

原创【个人开源】实时人脸检测centerface

the real-time face detection Centerfaceunofficial version of centerface, which achieves the best balance between speed and accuracy. Centerface is a practical anchor-free face detection and alignment...

2020-02-20 19:22:24 2819 44

原创【个人开源】提供预训练结果的ocr标注工具

ocr标注工具提供预训练模型的标注结果采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注，并进行人工的验证或目标矩形框的修正，同时支持单张图片多个目标的标注。整理想法很简单，但是实现起来还是很麻烦的。大概用了2周的时间（而且是在开源项目上修改来的）。原特点B/S方式交互支持多人同时标注（可分配不同标注人员的标注范围，或不同人...

2020-01-07 14:11:24 1864

原创【个人开源】2D Attentional Irregular Scene Text Recognizer代码复现

项目地址: https://github.com/chenjun2hao/Bert_OCR.pytorchUnofficial PyTorch implementation of the paper, which transforms the irregular text with 2D layout to character sequence directly via 2D attention...

2019-12-03 18:20:32 1063 5

原创 2D Attentional Irregular Scene Text Recognizer代码实现

原理解读参考：2D Attention Network for Scene Text Recognition个人复现的代码:Bert_OCR.pytorch

2019-11-25 17:35:06 965 1

原创 transformerOcr

简介整个项目采用attention ocr的思路进行中文场景文字识别，整个用resnet34采集特征，用transformer的方式做解码器。网络在训练的时候可以并行进行相较于现在常用的GRU做解码器训练速度会快很多。推理的时候还是采用和GRU做解码器同样的方式，将上一步的输出用于下一步的输出，速度并未提升。1. 网络结构...

2019-10-10 13:38:40 2573 8

原创【LLM】——qwen2.5 VL模型导出到onnx

说明：将qwen2.5 vl模型导出到onnx，用onnxruntime进行推理。

2025-07-29 23:00:00 824 4

原创【LLM】——Qwen2.5-VL 模型进行多模态推理（图像 + 文本）的自定义实现

本文展示了Qwen2.5-VL多模态模型的推理流程解析。通过加载3B参数的Qwen2.5-VL-Instruct模型，实现了图像描述生成任务。关键步骤包括：1) 使用AutoProcessor处理图文混合输入；2) 将视觉特征嵌入到文本token中；3) 通过DynamicCache管理历史信息；4) 进行迭代式文本生成。示例中模型成功识别了篮球场上五位女性的服装细节，验证了模型的视觉理解能力。代码还包含了模型输入准备、位置编码处理、注意力机制实现等核心环节，为后续模型导出到ONNX格式奠定了基础。

2025-07-28 17:28:30 376

原创【wsl】——wsl访问windows的usb设备

摘要：本文介绍如何在Windows系统中通过WSL连接USB设备进行嵌入式开发调试。主要步骤包括：1)安装usbipd-win工具；2)使用管理员权限PowerShell列出USB设备并获取总线ID；3)通过命令绑定共享设备；4)将USB设备附加到WSL；5)在WSL中使用lsusb验证设备连接。最后还提供了设备断开连接的命令。该方法适用于手机部署、RK3588模型部署等开发场景，需注意设备在WSL中使用时Windows将无法访问。

2025-07-16 21:23:44 413

原创【onnx】——报错Segmentation fault (core dumped)

摘要：使用onnxruntime推理Qwen2-7B模型时出现"Segmentation fault"错误。经检查发现onnx模型文件超过protobuf的2GB限制（实际5.48GB），导致加载失败。解决方案是对模型权重进行量化，减小模型体积后重新导出onnx格式。关键步骤包括：通过onnx.checker.check_model验证模型完整性，并需调整SessionOptions配置。该问题源于大模型文件与协议限制的冲突，量化是有效的优化方向。

2025-07-08 14:12:56 218

原创【python】—conda新建python3.11的环境报错

conda新建python3.11环境报错。

2025-05-13 23:00:00 689

原创【“星瑞” O6 评测】 — llm CPU部署对比高通骁龙CPU

随着大模型应用场景的不断拓展，arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用，推动大模型在不同场景落地从推理速度来看：星瑞O6在同样的核心数量时，推理速度更快。而且星瑞O6共有12个CPU核。

2025-04-28 23:45:00 1152

原创【“星瑞” O6 评测】 — CPU llama.cpp不同优化速度对比

随着大模型应用场景的不断拓展，arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用，推动大模型在不同场景落地Arm Kleidi 成为解决这些挑战的理想方案，它能够为运行在 Arm CPU 上的所有 AI 推理工作负载提供无缝的性能优化。KleidiAI 是一套轻量级且高性能开源的 Arm 例程，专为 AI 加速而设计。

2025-04-28 23:30:00 1040

原创【“星瑞” O6 评测】—NPU 部署 face parser 模型

瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力，支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。这里通过通过官方的工具链进行的部署。

2025-04-18 23:00:00 978

转载【工具】——保持termux中的sshd不掉线

下拉手机顶部状态栏，看到termux，点击“ACQUIRE WAKELOCK”，即可看到1 session(wake lock help)。此时，termux就可以保持后台运行，sshd也不会关闭。在手机上termux里面执行termux-wake-lock命令，手机会弹出是否运行后台执行的，选择允许就好了，手机管家–应用启动管理–找到Termux，不让它自动管理，选择允许后台运行。

2025-04-16 11:05:42 465

原创【“星瑞” O6 评测】 ——NPU 算力对比高通骁龙 npu

瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力，支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。此文档主要讲解用户如何使用 CIX P1 NPU SDK 运行基于 NPU 加速推理的人工智能模型和应用。包括模型编译工具，工具链和一些常见模型案例进行逐步讲解。

2025-04-15 16:22:14 983

原创【mllm】——x64模拟htp的后端无法编译debug

qualcomm是支持x64模拟htp推理的，这样比较好debug，方便调试。但是mllm中是不支持的。因为他htp后端强制使用了。来申请内存，就是高通说的shared mem。但是这部分的问题是可以修复的，需要自己或作者出点工作量。后续的人有同样问题的可参考。通过自定义qualcomm graph使用高通的htp后端进行llm推理，网络暂时只有。

2025-04-11 16:58:53 352

原创【mllm】——qnn后端解读

mllm端侧推理架构，qnn后端解读

2025-04-11 16:44:09 518 1

原创【c++】——报错error: member ‘ConstString＜126＞::data’ must be initialized by mem-initializer in ‘constexpr

用gcc编译的时候会报错error: member ‘ConstString<126>::data’ must be initialized by mem-initializer in ‘constexpr。用clang，clang++编译器。

2025-03-21 17:14:25 247

原创【LLM】——mllm端侧大模型推理框架解读

端侧大模型推理框架mllm详细解读

2025-03-21 10:57:51 490

原创【ubuntu】——wsl中使用windows中的adb

通过特定设置，能够在 WSL 中便捷地调用 Windows 系统中已安装的 ADB，避免在 WSL 中重复安装 ADB 带来的麻烦。在 WSL 终端中输入 adb devices。保存并关闭文件（在 nano 编辑器中，按 Ctrl + X ，然后按 Y ，最后按 Enter ）。为该文件添加可执行权限，使用命令 sudo chmod +x /usr/local/bin/adb。连接 Android 设备：通过 USB 线将 Android 设备连接到电脑，并在设备上开启 USB 调试模式。

2025-03-13 16:01:13 1843

原创【WSL】——wsl安装多个ubuntu

wsl安装多个版本的ubuntu

2024-12-12 15:39:28 1188

原创内存映射的时候，会将整个文件加载到内存中嘛？

例如，当你通过内存映射打开一个很大的文件（如一个 10GB 的数据库文件），在开始时，只有文件的一部分（可能是内存页大小的整数倍，如 4KB 或 8KB，这取决于操作系统的内存管理单元设置）会被加载到内存中。例如，当读取一个文件页面时，操作系统可能会根据文件系统的设置和以往的访问模式，预先加载该页面之后的几个页面。如果内存资源紧张，可能会将已经加载但长时间未使用的页面从内存中换出（写入磁盘的交换空间），以腾出空间给新需要加载的页面。访问模式：如果是顺序访问文件内容，操作系统会根据访问顺序逐步加载文件页面。

2024-12-06 17:32:41 448

原创【OCR】——端到端文字识别GOT-OCR2.0不香嘛？

最早做ocr的时候，就在想如何能做一个端到端的模型，就不用先检测再识别，最起码只用只用维护一个模型。现在他来了。而且鲁棒性，适用面都很强。但是部署。。。

2024-12-05 20:24:26 1134

原创【llm】——香橙派AIPRO跑qwen2.5-0.5B

香橙派AIpro，昇腾芯片跑qwen2.5-0.5B模型实测

2024-12-05 18:33:08 1009

原创【TVM】——ubuntu18.04源码编译TVM

tvm源码安装

2024-10-10 17:35:29 654

原创【opencv】——为arm平台交叉编译

为arm32，64位系统编译opencv，方便做一些AI模型推理的处理+可视化等功能。

2024-09-26 17:25:20 916

原创 [个人开源]——matting with flow matching

我们参考depthfm来做人像matting任务，利用stable diffusion在大量数据上训练后获得的泛化，鲁棒性能力，使用flow matching原理来使用更少数据微调预训练的模型。总结：用更少的数据，更少的训练时间，达到更好的鲁棒性。我们参看LFM和depthfm论文在P3M10K数据集上进行简单微调.具体细节请修改train_matting.py脚本中的代码。

2024-09-03 10:43:51 476

原创全国产的香橙派 AIpro AI开发硬件，对标nvidia jetson硬件。太香了

随着人工智能与大数据技术的飞速进步，国内对高性能计算的需求日益增长，促使科研机构与高新技术企业加大对AI芯片研发的投入，旨在打破海外技术垄断，保障国家信息安全与技术自主。•安全与自主可控：在全球化的背景下，依赖海外AI芯片技术可能使国家面临供应链中断的风险，尤其是在当前国际形势复杂多变的环境下。•技术创新与核心竞争力提升：发展国产AI芯片不仅能够促进国内企业在芯片设计与制造领域的技术突破，还能加速上下游产业链的成熟，形成完整的创新生态系统。我们基于已有的系统进行开发，无须进行环境的搭建。

2024-06-12 16:14:06 1302

原创【语义分割数据集】——imagenet语义分割

地址：https://github.com/LUSSeg/ImageNet-S。

2023-12-08 17:17:03 857 1

原创【人脸3D】——如何获得BFM模型其他关键点的索引

通过meshlab看一个标准脸的obj文件，然后通过“edit”——“get info” 可以看mesh中三角片中三个点的索引。这里我们通过“鼻尖的idx进行验证”meshlab中鼻尖的索引。

2023-11-10 09:43:30 669

原创【交互式分割】——数据可视化

ritm, 交互式分割。

2023-10-19 22:49:27 881

原创【目标检测】——PE-YOLO精读

卷积神经网络（CNNs）在近年来如何推动了物体检测的发展。许多检测器已经被提出，而且在许多基准数据集上的性能正在不断提高。然而，大多数现有的检测器都是在正常条件下对高质量图像进行研究。在真实环境中，经常会出现许多糟糕的光照条件，如夜晚、暗光和曝光过度，这些条件会降低图像的质量，影响检测器的性能。前人的解决方案：…略本文采用了金字塔增强网络（PENet）和YOLOv3。首先，PENet使用拉普拉斯金字塔将图像分解为四个不同分辨率的组件。

2023-10-06 22:39:10 2293

armv8的白皮书:Arm Architecture Reference Manual Armv8, for Armv8-A architecture

armv8的白皮书，为官方文档包含架构讲解，neon函数，指令集等。文件为百度网盘下载链接。

2021-04-07

ASTER_An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification.pdf

ASTER_An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification的论文pdf

2019-08-02

hisi3516dv300, 用IVE将yuv420数据转换成bgr，包含源代码和测试数据

hisi3516dv300, 用IVE将yuv420数据转换成bgr，包含源代码和测试数据。

2022-12-07

tensorrt5.1双线性上采样插件

针对tensorrt5.1实现的双线性上采样插件，插件实测无误。如果用nvidia的gpu，在推理的时候，采用tensorrt进行加速是一个很好的选择，虽然tensorrt没有开源。

2020-11-17

cuda向量加法cmake编译

采用cmake编译cuda向量加法。　在大量的C/C++的项目中都使用CMake来进行项目的管理，而CUDA又是很流行的并行计算库，利用CMake来构建CUDA项目就显得很有必要了，而且项目中使用的CMakeLists.txt基本框架一致。

2020-11-10

download_scannet.zip

scannet数据下载的python脚本。

2021-01-27

faiss_install.zip

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。这里将其移植到Hisi3559a芯片上。采用aarch64-linux-gnu-gcc/gfortran交叉编译实现。注意：编译器不同，可能无法使用。

2020-08-06

支持向量机线性可分matlab程序

采用matlab自带的quadprog（）函数对支持向量机模型进行求解。整个文件夹包含测试用数据集，可运行。

2018-05-02

armv7白皮书:ARM Architecture Reference Manual ARMv7-A and ARMv7-R edition

armv7白皮书，包含指令集等

2021-04-07

pybind11 python调用c++拓展的例子

采用pybind11模块来实现python调用c++程序的两个例子，具体可以看：文章：https://blog.csdn.net/u011622208/article/details/111302047

2020-12-16

Hi3519A编译好的YOLOV3 demo百度网盘下载链接

Hi3519A编译好的YOLOV3 demo百度网盘下载链接。海思3519A自带的sdk中是没有yolov3的demo例子的，这就让人很不开心，而且华为的人给的资料很乱，其次，很多的demo都是支持Hi3559A的，还没入坑的，推荐选Hi3559A进行开发。

2020-04-28

opencv_cuda.tar.gz

利用cuda加速opencv图像处理的例子——交换mat的r，b通道。利用Cuda Runtime API、Cuda Driver API实现一些操作的并行加速，使用过程需要管理CPU与GPU之间的数据传输，内核函数调用参数的设置，内核函数的优化等。优点是处理过程受控于用户，用户可以实现更多的并行加速处理操作。

2020-11-10