
AI大模型
文章平均质量分 95
AI大模型
造夢先森
一定要努力努力,永不放弃,才可以改变世界,改变自己~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型国产化适配 --昇腾AI全栈软硬件平台总结
华为昇腾AI全栈包含5层架构:硬件层提供Atlas系列设备;异构计算架构CANN对标CUDA+CuDNN,支持主流AI框架并优化处理器性能;AI框架层适配多种深度学习工具;应用使能层提供开发接口;行业应用层实现场景化落地。其中,CANN采用分层设计,包含编程接口(AscendCL)、计算服务(算子库与调优引擎)、编译层(图编译器与TBE)、执行层(Runtime等模块)和基础服务层(SVM/通信等),通过异构调度实现CPU/NPU协同计算,显著提升AI任务效率。该架构打通从芯片到应用的完整技术链条,为开发者原创 2025-07-12 15:59:47 · 955 阅读 · 0 评论 -
谷歌新发布的智能体通信协议(A2A)解析
参考:https://zhuanlan.zhihu.com/p/1894801654202748934。原创 2025-04-23 15:09:19 · 419 阅读 · 0 评论 -
SpringAI+MCP协议 实战
尽管Python最近成为了编程语言的首选,但是Java在人工智能领域的地位同样不可撼动,得益于强大的Spring框架。随着人工智能技术的快速发展,我们正处于一个创新不断涌现的时代。从智能语音助手到复杂的自然语言处理系统,人工智能已经成为了现代生活和工作中不可或缺的一部分。在这样的背景下,Spring AI 项目迎来了发展的机遇。尽管该项目汲取了Python项目如LangChain和LlamaIndex的灵感,但Spring AI并不是简单的移植。原创 2025-04-06 16:55:41 · 2675 阅读 · 0 评论 -
GPU架构与通信互联技术介绍
我们都知道,在GPU未出现前,CPU一直是计算机中的绝对核心,甚至连存储、内存、网络等子系统的能力都是CPU说了算。但人算不如天算,没想到大数据分析、AI、视觉渲染、基因分析以及EDR仿真等需求的突然爆发,给了NVIDIA的GPU带了巨大增长空间。GPU的快速增长超出了所有人的预料,它几乎彻底颠覆了CPU在计算机系统中的地位,而传统的根据CPU为核心设计的互联通信方式在GPU高速增长的情况下开始慢慢成为了阻碍,原有的通信技术已经成为效率阻碍。原创 2025-03-24 20:10:58 · 1070 阅读 · 0 评论 -
AI开源项目
官网:github:原创 2025-03-23 09:03:37 · 542 阅读 · 0 评论 -
【transformer理论+实战(三)】必要的 Pytorch 知识
【transformer理论+实战(三)】必要的 Pytorch 知识。原创 2025-03-22 16:43:15 · 454 阅读 · 0 评论 -
深度解读DeepSeek:开源周(Open Source Week)技术解读
深度解读DeepSeek:开源周(Open Source Week)技术解读。原创 2025-03-22 10:49:05 · 2168 阅读 · 0 评论 -
深度解读DeepSeek:源码解读 DeepSeek-V3
输入tokens → embed → 添加位置编码 → 逐层Block处理 → norm → head → 输出logits。此步骤对应下面DeepSeek V3技术架构图,核心即MLA和MoE。原创 2025-03-21 18:09:48 · 1007 阅读 · 0 评论 -
【白话神经网络(二)】从CNN、RNN到transformer
使用卷积神经网络非常方便可视化,我们可以看到训练过程中所训练出的卷积核,从原始图像中提取了什么样的特征,虽然这些都是中间隐藏层的事情,但是却能神奇的观察出一些实际意义,这也是卷积神经网络让人着迷的地方。为了更好的理解图像的局部模式,我们随便在这个图像中取一个3×3的矩阵,这里面的数值就是颜色的灰度值。卷积核不是一个新的概念,在传统的图像处理领域,卷积核是已知的,可以达到一定的图像处理效果,比如模糊效果、浮雕效果、轮廓效果以及锐化效果等等,就是ps的常规操作。每一层的神经元的值都是上一层的函数。原创 2025-03-17 21:08:00 · 714 阅读 · 0 评论 -
【transformer理论+实战(二)】Lora本地微调实战 --deepseek-r1蒸馏模型
Huggingface是一个开放的人工智能模型库,提供了大量经过预训练的模型供用户下载和使用。原创 2025-03-15 21:48:51 · 561 阅读 · 0 评论 -
深度解读DeepSeek:技术原理
DeepSeek-V3:NLP预训练基础模型。采用传统预训练 + 监督微调(SFT)模式,依赖人工标注数据。DeepSeek-R1:复杂逻辑任务的深度推理模型。以强化学习(RL)为核心,减少对标注数据的依赖,通过自我演化和冷启动技术降低成本。例如,R1-Zero 完全通过 RL 训练,无需 SFTDeepSeek-Distill:轻量化部署推理模型蒸馏版本。原创 2025-03-08 17:47:28 · 1657 阅读 · 0 评论 -
Dify - 自部署的应用构建开源解决方案
Dify是一个开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式AI应用的创建和部署。它融合了后端即服务(Backend as Service)和LLMOps的理念,提供从Agent构建到AI workflow编排、RAG检索、模型管理等能力,帮助开发者轻松构建和运营生成式AI原生应用。原创 2025-03-02 08:26:25 · 867 阅读 · 0 评论 -
【Transformer理论+实战(一)】Transformer & LLaMA & Lora介绍
左半部分是encoders,右半部分是decoders。注意,这里有一个xN,即encoder和decoder的个数,原文中是给定了6个。这两个还有一个特点,encoder和decoder架构是不相同的。Embedding: 词嵌入,将文本转成向量。最终得到的词嵌入矩阵是一个大小为(词汇量,嵌入维度)的二维数组矩阵。词嵌入矩阵中的向量是通过Word2Vec、GloVe和FastText等训练词嵌入模型生成的。Positional Encoding:位置编码,将向量加上位置信息。原创 2025-02-22 20:46:26 · 1478 阅读 · 0 评论 -
深度解读DeepSeek:发展历程
DeepSeek V2、V3 和 R1 模型架构优化要点:1、DeepSeek V22、DeepSeek V33、DeepSeek R1演进关系:视频链接:https://www.bilibili.com/video/BV1TzNVepEgY/?spm_id_from=333.337.search-card.all.click&vd_source=8066b0fe558a3d040eb762ed70ba335a原创 2025-02-22 19:21:28 · 593 阅读 · 0 评论 -
【白话神经网络(一)】从函数到神经网络
首先有两个输入变量,一个是x1,另一个是x2,它们构成了输入层,然后x1、x2二进行一次线性变换,再进行一次激活函数就得到了隐藏层a,这个a对应的就是上面这一大坨表达式,我们把它当做一个整体,继续进行一次线性变换和一次激活函数,这就计算出了最终的输出层y。但假如数据稍稍变化一下,就会发现,不论怎么调整都无法接近真实的数据,这个时候就需要从原来的线性函数进化到非线性函数了,我们就来研究一下,怎么把原来这个原本线性的函数变成非线性的呢?左边是输入层,只有输入x,右边是输出层,只有一个输出y。原创 2025-02-19 15:32:45 · 774 阅读 · 0 评论 -
DeepSeek-R1本地部署实践
Ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma等开源的大型语言模型。原创 2025-02-02 20:27:17 · 6853 阅读 · 0 评论 -
AI大模型扫盲
通过试错的过程,可让它从错误中学习经验,并随着时间的推移提高准确性。,也称为人工神经网络(Artificial Neural Network,ANNs),在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。让我们以 Llama2-7B(4096 序列长度,float16精度)为例,计算一下 batch_size = 1的理想推理速度(prompt是指输入到模型中的一段文本,而token则是指文本中的一个单词或符号)原创 2024-08-22 09:35:53 · 314 阅读 · 0 评论