- 博客(883)
- 资源 (15)
- 收藏
- 关注

原创 【个人开源】——从零开始在高通手机上部署sd(二)
从零基础开始,在自己的高通手机(骁龙8 gen1+)上用NPU跑文生图stable diffusion模型。包含:- 高通qnn下载安装- sd模型浮点/量化导出- 在高通手机上用cpu跑浮点模型,htp跑量化模型
2025-02-21 21:14:57
716

原创 【个人开源】——从零开始在高通手机上部署sd(一)
从零基础开始,在自己的高通手机(骁龙8 gen1+)上用NPU跑文生图stable diffusion模型。包含:- 高通qnn下载安装- sd模型浮点/量化导出- 在高通手机上用cpu跑浮点模型,htp跑量化模型
2025-02-21 21:10:08
796

原创 【arm汇编优化】——rgb图像分离
arm,汇编Code网上有大佬用arm做了一个【Arm端算法优化笔记】一,一步步优化盒子滤波算法,这里我们也体验一下arm的neon assembly加速。这里我们做一个简单的:rgb图像,r,g,b 3通道分割分别采用4种方式实现了:opencv内置函数暴力for循环neon intrinsic的实现neon assembly汇编以上4种方式都单独测试了耗时情况,并将处理结果保存成图片,进行结果检查硬件tx2,armv8-a,64位的处理器0.code0.0 openc.
2021-04-07 18:48:38
831

原创 【个人开源】——实时语义分割DDRNet
源码: DDRNet.py关键词: 实时语义分割原理介绍请看又快又强:Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of RoadDeep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road ScenesIntroductionThis is the unofficial .
2021-02-24 20:01:30
5384
28

原创 【个人开源】——tensorrt自定义插件,双线性上采样
1. resizebilinear选择5.1的分支。onnx-tensorrtonnx模型:百度网盘, 提取码: s7s1
2020-11-18 13:53:34
834

原创 【个人项目】——细腻的人像分割
项目地址: segmentation.pytorch前面介绍了,一个人像分割数据集。这里采用该数据做了人像分割的小demo。Supervisely 人像分割数据集格式转换1. 测试1.1 环境采用本机的torch1401.2 下载预训练的模型到ckpt/ade20k-resnet50dilated-ppm_deepsup预训练模型 | 提取码: 67xi1.2 测试python test.py --config config/person-resnet50dilated-ppm_de.
2020-09-14 11:42:04
3077
6

原创 【个人开源】论文复现SRN:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
Towards Accurate Scene Text Recognition with Semantic Reasoning Networkscodehttps://github.com/chenjun2hao/SRN.pytorchUnofficial PyTorch implementation of the paper, which integrates not only globa...
2020-05-12 16:34:19
4759
12

原创 【个人开源】和百度类似的口罩检测分类
凑个热闹,和百度类似的口罩检测分类。但是推理速度更快。可以采用pip一键式安装,支持CPU和GPU两种推理模式。视频效果coming soondemohttps://github.com/chenjun2hao/face_mask...
2020-02-28 00:56:55
1351

原创 【个人开源】实时人脸检测centerface
the real-time face detection Centerfaceunofficial version of centerface, which achieves the best balance between speed and accuracy. Centerface is a practical anchor-free face detection and alignment...
2020-02-20 19:22:24
2805
44

原创 【个人开源】提供预训练结果的ocr标注工具
ocr标注工具提供预训练模型的标注结果采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人...
2020-01-07 14:11:24
1840

原创 【个人开源】2D Attentional Irregular Scene Text Recognizer代码复现
项目地址: https://github.com/chenjun2hao/Bert_OCR.pytorchUnofficial PyTorch implementation of the paper, which transforms the irregular text with 2D layout to character sequence directly via 2D attention...
2019-12-03 18:20:32
1050
5

原创 2D Attentional Irregular Scene Text Recognizer代码实现
原理解读参考:2D Attention Network for Scene Text Recognition个人复现的代码:Bert_OCR.pytorch
2019-11-25 17:35:06
958
1

原创 transformerOcr
简介整个项目采用attention ocr的思路进行中文场景文字识别,整个用resnet34采集特征,用transformer的方式做解码器。网络在训练的时候可以并行进行相较于现在常用的GRU做解码器训练速度会快很多。推理的时候还是采用和GRU做解码器同样的方式,将上一步的输出用于下一步的输出,速度并未提升。1. 网络结构...
2019-10-10 13:38:40
2558
8
原创 【“星瑞” O6 评测】 — llm CPU部署对比高通骁龙CPU
随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地从推理速度来看:星瑞O6在同样的核心数量时,推理速度更快。而且星瑞O6共有12个CPU核。
2025-04-28 23:45:00
1080
原创 【“星瑞” O6 评测】 — CPU llama.cpp不同优化速度对比
随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地Arm Kleidi 成为解决这些挑战的理想方案,它能够为运行在 Arm CPU 上的所有 AI 推理工作负载提供无缝的性能优化。KleidiAI 是一套轻量级且高性能开源的 Arm 例程,专为 AI 加速而设计。
2025-04-28 23:30:00
940
原创 【“星瑞” O6 评测】—NPU 部署 face parser 模型
瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力,支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。这里通过通过官方的工具链进行的部署。
2025-04-18 23:00:00
920
转载 【工具】——保持termux中的sshd不掉线
下拉手机顶部状态栏,看到termux,点击“ACQUIRE WAKELOCK”,即可看到1 session(wake lock help)。此时,termux就可以保持后台运行,sshd也不会关闭。在手机上termux里面执行termux-wake-lock命令 ,手机会弹出是否运行后台执行的,选择允许就好了,手机管家–应用启动管理–找到Termux,不让它自动管理,选择允许后台运行。
2025-04-16 11:05:42
111
原创 【“星瑞” O6 评测】 ——NPU 算力对比高通骁龙 npu
瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力,支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。此文档主要讲解用户如何使用 CIX P1 NPU SDK 运行基于 NPU 加速推理的人工智能模型和应用。包括模型编译工具,工具链和一些常见模型案例进行逐步讲解。
2025-04-15 16:22:14
898
原创 【mllm】——x64模拟htp的后端无法编译debug
qualcomm是支持x64模拟htp推理的,这样比较好debug,方便调试。但是mllm中是不支持的。因为他htp后端强制使用了。来申请内存,就是高通说的shared mem。但是这部分的问题是可以修复的,需要自己或作者出点工作量。后续的人有同样问题的可参考。通过自定义qualcomm graph使用高通的htp后端进行llm推理,网络暂时只有。
2025-04-11 16:58:53
328
原创 【c++】——报错error: member ‘ConstString<126>::data’ must be initialized by mem-initializer in ‘constexpr
用gcc编译的时候会报错error: member ‘ConstString<126>::data’ must be initialized by mem-initializer in ‘constexpr。用clang,clang++编译器。
2025-03-21 17:14:25
230
原创 【ubuntu】——wsl中使用windows中的adb
通过特定设置,能够在 WSL 中便捷地调用 Windows 系统中已安装的 ADB,避免在 WSL 中重复安装 ADB 带来的麻烦。在 WSL 终端中输入 adb devices。保存并关闭文件(在 nano 编辑器中,按 Ctrl + X ,然后按 Y ,最后按 Enter )。为该文件添加可执行权限,使用命令 sudo chmod +x /usr/local/bin/adb。连接 Android 设备:通过 USB 线将 Android 设备连接到电脑,并在设备上开启 USB 调试模式。
2025-03-13 16:01:13
1451
原创 内存映射的时候,会将整个文件加载到内存中嘛?
例如,当你通过内存映射打开一个很大的文件(如一个 10GB 的数据库文件),在开始时,只有文件的一部分(可能是内存页大小的整数倍,如 4KB 或 8KB,这取决于操作系统的内存管理单元设置)会被加载到内存中。例如,当读取一个文件页面时,操作系统可能会根据文件系统的设置和以往的访问模式,预先加载该页面之后的几个页面。如果内存资源紧张,可能会将已经加载但长时间未使用的页面从内存中换出(写入磁盘的交换空间),以腾出空间给新需要加载的页面。访问模式:如果是顺序访问文件内容,操作系统会根据访问顺序逐步加载文件页面。
2024-12-06 17:32:41
420
原创 【OCR】——端到端文字识别GOT-OCR2.0不香嘛?
最早做ocr的时候,就在想如何能做一个端到端的模型,就不用先检测再识别,最起码只用只用维护一个模型。现在他来了。而且鲁棒性,适用面都很强。但是部署。。。
2024-12-05 20:24:26
1050
原创 [个人开源]——matting with flow matching
我们参考depthfm来做人像matting任务,利用stable diffusion在大量数据上训练后获得的泛化,鲁棒性能力,使用flow matching原理来使用更少数据微调预训练的模型。总结:用更少的数据,更少的训练时间,达到更好的鲁棒性。我们参看LFM和depthfm论文在P3M10K数据集上进行简单微调.具体细节请修改train_matting.py脚本中的代码。
2024-09-03 10:43:51
451
原创 全国产的香橙派 AIpro AI开发硬件,对标nvidia jetson硬件。太香了
随着人工智能与大数据技术的飞速进步,国内对高性能计算的需求日益增长,促使科研机构与高新技术企业加大对AI芯片研发的投入,旨在打破海外技术垄断,保障国家信息安全与技术自主。•安全与自主可控:在全球化的背景下,依赖海外AI芯片技术可能使国家面临供应链中断的风险,尤其是在当前国际形势复杂多变的环境下。•技术创新与核心竞争力提升:发展国产AI芯片不仅能够促进国内企业在芯片设计与制造领域的技术突破,还能加速上下游产业链的成熟,形成完整的创新生态系统。我们基于已有的系统进行开发,无须进行环境的搭建。
2024-06-12 16:14:06
1231
原创 【语义分割数据集】——imagenet语义分割
地址:https://github.com/LUSSeg/ImageNet-S。
2023-12-08 17:17:03
793
1
原创 【人脸3D】——如何获得BFM模型其他关键点的索引
通过meshlab看一个标准脸的obj文件,然后通过“edit”——“get info” 可以看mesh中三角片中三个点的索引。这里我们通过“鼻尖的idx进行验证”meshlab中鼻尖的索引。
2023-11-10 09:43:30
639
原创 【目标检测】——PE-YOLO精读
卷积神经网络(CNNs)在近年来如何推动了物体检测的发展。许多检测器已经被提出,而且在许多基准数据集上的性能正在不断提高。然而,大多数现有的检测器都是在正常条件下对高质量图像进行研究。在真实环境中,经常会出现许多糟糕的光照条件,如夜晚、暗光和曝光过度,这些条件会降低图像的质量,影响检测器的性能。前人的解决方案:…略本文采用了金字塔增强网络(PENet)和YOLOv3。首先,PENet使用拉普拉斯金字塔将图像分解为四个不同分辨率的组件。
2023-10-06 22:39:10
2235
原创 【目标检测】——Gold-YOLO为啥能超过YOLOV8
基于全局信息融合的概念,提出了一种新的收集和分发机制(GD),用于在YOLO中进行有效的信息交换。通过全局融合多层特征并将全局信息注入到更高的层次,显著增强了NECK的信息融合能力,提高了模型在不同对象大小上的性能。一个浅层收集和分发分支和一个深层收集和分发分支,它们通过卷积基础块和注意力基础块提取和融合特征信息。为了进一步促进信息流动,我们引入了一个轻量级的相邻层融合模块,它在局部范围内结合了来自相邻层的特征。我们的Gold-YOLO架构超越了现有的YOLO系列,有效地展示了我们提出的方法的有效性。
2023-09-26 15:48:49
3544
原创 【数据集】——SBD数据集下载链接
SBD Dataset 是一个语义边界数据集,其包含来自 PASCAL VOC 2011 数据集中 11355 张图片的注释,这些图片均基于 Amazon Mechanical Turk,其中分割之间的冲突均为手动解决,此外,每张图像均由类别级别和实例界别的分段和边界,适用于 PASCAL VOC 2011 挑战中的 20 个对象类别。该数据集由加州大学·伯克利分校于 2011 年发布,相关论文有《Semantic contours from inverse》。
2023-07-17 20:43:15
2071
2
原创 【模型剪枝】——开源项目总结
阿里的一个高效、易用的深度学习模型压缩框架。它包含模型结构搜索、剪枝、量化、模型转换等功能, 能将巨大的深度学习模型压缩数倍到数十倍,目前在天猫精灵、海尔电视、优酷视频、人脸打卡机等场景中完成了落地,为超千万的IoT设备提供了AI能力。修剪是一种常用的压缩神经网络模型的技术。修剪方法探索模型权重(参数)中的冗余,并尝试删除/修剪冗余和非关键权重。- 一个通用的PyTorch模型剪枝库。- 实现了多种剪枝算法,如依赖性感知剪枝、L1剪枝等。- Microsoft 提供的多种模型剪枝算法实现。
2023-07-12 19:58:06
970
armv8的白皮书:Arm Architecture Reference Manual Armv8, for Armv8-A architecture
2021-04-07
ASTER_An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification.pdf
2019-08-02
hisi3516dv300, 用IVE将yuv420数据转换成bgr,包含源代码和测试数据
2022-12-07
tensorrt5.1双线性上采样插件
2020-11-17
cuda向量加法cmake编译
2020-11-10
faiss_install.zip
2020-08-06
pybind11 python调用c++拓展的例子
2020-12-16
Hi3519A编译好的YOLOV3 demo百度网盘下载链接
2020-04-28
opencv_cuda.tar.gz
2020-11-10
pig_coco.py
2019-07-03
python多文件夹/文件夹依赖关系制作pip安装包
2020-02-27
ocr_annotation-master.zip
2020-01-07
AMD-APP-SDK-v2.8-Windows-64.exe的安装文件
2020-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人