大家好,上篇文章讲了深度学习中经典的神经网络结构–CNN、RNN、LSTM、Transformer,发现很多人处于入门阶段,对神经网络的基本概念和结构不了解,那今天今天我们就来讲讲神经网络基础,解释什么是深度学习
1 神经网络定义
人工神经网络(ANN),又称模拟神经网络(SNN),是机器学习的重要分支,也是深度学习技术的核心基础。其名称中的"神经"源于它对生物神经元信号传递机制的模拟。正如人类从自然界获取灵感进行发明创造(例如受鸟类飞行启发研制飞机),神经网络的设计理念正是借鉴了人脑的工作机制。这种算法通过构建由人工神经元相互连接而成的网络结构,能够自主学习和识别数据中的内在规律。
从学术角度界定,人工神经网络是一种基于生物神经网络结构和功能原理的计算系统。它由分层排列的节点(即人工神经元)构成,通过加权输入信号、执行累加运算并施加非线性激活函数,逐步将原始输入数据转化为多层次的特征表达,最终生成所需的输出结果。
目前,神经网络技术已在多个前沿领域展现出强大的应用价值,包括但不限于计算机视觉中的图像识别、电子商务中的个性化推荐以及跨语言机器翻译等复杂任务场景。
2 深度学习定义
深度学习是训练人工神经网络(尤其是大规模神经网络)的过程,属于机器学习的一个分支。其"深度"体现在神经网络的层级结构上——相比传统机器学习算法只能处理较简单的数据分析,深度学习能够从图像、文本、音频等高维复杂数据中学习更深层次、更抽象的特征表示。
当前,深度学习已成为推动计算机视觉、语音识别、自然语言处理等AI领域突破性进展的核心技术。
**【为初学者整理】**另外我根据自己的入门经历和阅读经验,整理了一份针对机器学习深度学习新手的书单,总共有12本优质书籍!不仅包含了入门前需要掌握的前置知识,还兼顾了python编程语言、深度学习框架、常用第三方库、理论、实战,以及必读的经典论文
如果需要全套书籍的高清电子版和代码
可添加任意一位助理无偿获取
3 深度学习历史
人工神经网络的概念最早可追溯至1944年,但直到近年才获得广泛应用。深度学习的雏形在20世纪50年代就已出现,其真正兴起得益于人工智能应用的普及和企业数据量的爆发式增长。与只能处理有限规模数据的传统机器学习不同,神经网络特别擅长分析海量数据。事实上,深度学习的渊源可以追溯到AI发展的萌芽阶段——早在1943年,Warren McCulloch和Walter Pitts就首次构建了模拟大脑神经元的数学模型,这被视为人工神经网络的起源。
-
20世纪50年代,弗兰克·罗森布拉特 (Frank Rosenblatt) 开发了感知机,这是一种简单的两层神经网络,可以经过训练来识别模式。然而感知机存在局限性,直到20世纪80年代神经网络才开始得到更广泛的应用。
-
20世纪80年代,Geoffrey Hinton等人开发了一种新型神经网络,称为反向传播算法,反向传播使神经网络能够学习更复杂的模式,并引发了人们对神经网络的新兴趣。
-
20世纪90年代,深度学习研究仍在继续,但它仍然是一个相对小众的领域,一直到2000年代初,出现了一些突破,导致人们对深度学习的兴趣重新燃起。
-
最重要的突破之一是卷积神经网络(CNN)的发展,它是一种专门为图像处理而设计的神经网络,已被用于在各种图像识别任务中取得最先进的结果,例如人脸识别和物体检测。
-
另一个重要突破是循环神经网络(RNN)的发展。它是一种专门用于处理顺序数据的神经网络,已被用于在各种自然语言处理任务中取得最先进的结果,例如机器翻译和语音识别。
-
在过去的十年中,深度学习在图像识别,自然语言处理,语音识别和机器翻译等多种任务中取得了重大进展,它现在是人工智能最活跃和最有前途的研究领域之一。
以下是深度学习发展的一些主要里程碑:
-
1943年:Warren McCulloch和Walter Pitts创建了大脑神经元的数学模型。
-
1958年:Frank Rosenblatt开发了感知机,这是一种简单的两层神经网络,可以训练来识别模式。
-
1986年:Geoffrey Hinton等人开发了反向传播算法,该算法允许神经网络学习更复杂的模式。
-
1998年:Yann LeCun等人。开发了LeNet-5 CNN,在手写数字识别方面取得了最先进的结果。
-
2006年:杰弗里·辛顿等人开发了深度置信网络,这是一种可以对大量未标记数据进行预训练的神经网络。
-
2012:亚历克斯·克里热夫斯基等人开发了AlexNet CNN,它在图像分类方面取得了最先进的结果。
-
2014年:伊利亚·苏茨克弗 (Ilya Sutskever) 等人开发了Transformer,这是一种专为自然语言处理任务而设计的新型神经网络。
4 基础神经网络
单层感知机
感知机是一种让神经元能够从输入数据中自主学习的算法,主要分为两种基本结构:
1)单层感知机——作为人工神经网络(ANN)的最基础形态,仅由输入层和输出层直接相连,不含任何隐藏层;
2)多层感知机——通过引入一个或多个隐藏层,形成了更复杂的网络架构。
(注:这种层级结构的差异直接影响了模型的表达能力,单层感知机只能处理线性可分问题,而多层感知机凭借隐藏层能够学习非线性特征,这也是现代深度学习模型的基础构建模块。)
单层神经网络是只有一层神经元的神经网络,这种类型的网络也称为感知机,它是最简单的神经网络类型,可用于解决简单的问题;该架构由Frank Rosenblatt于1957年开发。
单层神经网络示例
我们从一个预测房价的案例入手。假设我们有一组数据,包含了六栋房子的信息,知道每栋房子的大小(平方米)和对应的价格,这些数据点在图表上用六个红点表示。我们的目标是找到一个函数,能够根据房屋的大小来预测其价格。
如果我们运用线性回归的方法,尝试为这些数据点画一条直线,就能得到一条拟合线(如图所示)。然而,价格不可能是负数,所以我们需要避免使用那些在某些输入下会得出负值的直线。因此,我们选择了一条在坐标左下角处截距为零的直线,这条粗蓝线就是我们最终用来根据房屋大小预测价格的函数。
这个预测房价的函数,其实可以看作是一个非常基础的神经网络。它几乎是神经网络中最简单的形式(如图右所示)。房屋的大小作为神经网络的输入,记作x,它进入神经网络中的一个节点(用小圆圈表示),然后输出预测的价格y。这个小圆圈代表神经网络中的一个单一神经元,它执行的就是我们在左侧图表中看到的线性拟合功能:接收房屋大小作为输入,计算线性函数,并输出估计的价格。
此外,在神经网络中,我们还会遇到一种叫做ReLU(修正线性单元)的函数,如图右上角所示。这个函数的特点是,当输入值小于零时输出为零,大于零时则输出等于输入值,形成了一个“纠正”的效果,这就是它名字的由来。如果你现在还不理解ReLU,没关系,我们后续会详细讲解。这个单神经元神经网络就是一个很小的网络,通过将许多这样的神经元像乐高积木一样堆叠起来,就可以构建出更大、更复杂的神经网络。
多层神经网络
在上面房屋价格预测的例子中,设想不只是根据房屋的面积来预测价格,还有一些其他特征,例如,房屋的卧室数量,你可能会认为家庭大小是影响房价的一个重要因素,对吧?这个房子能否适合三口之家、四口之家或五口之家?实际上,这取决于房屋的大小和卧室数量;然后,你可能了解到了房屋的邮政编码,它可以告诉你该地区的交通便利性,例如是否能轻松步行到超市或学校,或者是否需要开车;此外,邮政编码和家庭收入状况也能反映附近学区质量,图中的小圆圈都可以是一个修正线性单元(ReLU)或其他非线性函数;基于房屋的大小和卧室数量,可以估算家庭大小,根据邮政编码可以评估交通便利性,以及根据邮政编码和家庭收入状况估算学区质量;最后,人们在决定支付房屋价格时,会考虑对他们真正重要的因素,如家庭大小,交通便利性和学区质量,这些都有助于预测房价。
在这个例子里,x包括了这四个输入变量,y则是我们要预测的价格;我们可以通过组合上图中介绍的几个单一神经元或基础预测模型,构建一个更大的神经网络;训练这样的神经网络时,你只需要在实现时给定训练集中多个样本的输入x和输出y,神经网络会自动处理所有中间过程;所以实际上需要实现的是如下具有四个输入的神经网络模型。
输入特征可能是房屋的大小、卧室数、邮政编码和邻里的经济状况,有了这些输入特征后,神经网络的工作就是预测价格y;请注意,网络中的这些圆圈被称为隐藏单元,每个单元都利用了所有四个输入特征;例如,不要单纯将第一个节点定义为家庭大小,也不局限于只依赖特征X1和X2,神经网络自行决定每个节点的作用,并提供全部四个输入特征供其计算,我们称这是输入层,而神经网络中间的层则是密集连接的,每个输入特征都与这些中间的单元相连;神经网络的显著特点是,只要有足够的数据和足够的包含x和y的训练样本,它们就能非常有效地找出从x到y的准确映射函数,这就是一个基础的神经网络;实际上,当你构建自己的神经网络时,你会发现在监督学习中,尤其是像我们刚看到的房价预测这样的任务中,它们非常有用和强大,因为你需要将输入x映射到输出y。
放在最后:
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
基于知识点我自己画了一张AI大模型入门学习的思维导图,基本上是一份纯自学的学习指南,因为本身我们就具备编程基础,学习起来其实不难的,需要这份学习路线图和学习资料包的可以扫码添加一下我的小助手,她会把实战教程、学习路线图、书籍和手册分享给大家。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
有需要完整版学习路线,可以微信扫描下方二维码**,立即免费领取!**
AI大模型学习路线汇总
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
学会后的收获:
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
有需要完整版学习路线,可以微信扫描下方二维码**,立即免费领取!**