(一)什么是大模型?
参考答案:
我这边从 AI 产品经理的角度来看, 首先 LLM 本身一种具有强大 NLP 能力的模型,通过 DL(深度学习)的方法和大量训练数据来生成,能够捕捉丰富的语言信息和深层的语义关联 。实际上 LLM 在很大程度上重塑了 NLP 方向的研究和应用格局。通过更为先进的预训练和微调策略,让现在的大模型能够迅速适应多种
下游任务,显著降低了模型开发的难度和成本,另外 LLM 具有强大的生成能力,能够生成富有创意和质量较高的文本内容。
(二)什么是 ROC 曲线?
参考答案:
ROC 曲线是接收者操作特征曲线的缩写, 是一种用于评估分类模型性能的工具 。ROC 曲线图像的横轴代表假阳性率, 纵轴代表真阳性率 。在 ROC 曲线图像中, 对角线代表随机猜测模型的预测表现 。ROC 曲线越靠近左上角, 分类模型的性能越好。
下图中的蓝色曲线就是 ROC 曲线,它常被用来评价二值分类器的优劣,即评估模型预测的准确度。
二值分类器,就是字面意思它会将数据分成两个类别(正/负样本) 。例如:预测银行用户是否会违约 、内容分为违规和不违规, 以及广告过滤、图片分类等场景 。篇幅关系这里不做多分类 ROC 的讲解。
坐标系中纵轴为 TPR(真阳率/命中率/召回率) 最大值为 1, 横轴为 FPR (假阳率/误判率)最大值为 1,虚线为基准线(最低标准),蓝色的曲线就是 ROC曲线 。其中 ROC 曲线距离基准线越远, 则说明该模型的预测效果越好 。(TPR: True positive rate; FPR: False positive rate)
ROC 曲线接近左上角: 模型预测准确率很高
ROC 曲线略高于基准线: 模型预测准确率一般
ROC 低于基准线: 模型未达到最低标准, 无法使用

(三)什么是 AUC?
参考答案:
AUC 被定义为 ROC 曲线下的面积。往往使用AUC 值作为模型的评价标准是因为很多时候 ROC 曲线并不能清晰的说明哪个分类器的效果更好, 而作为一个数值, 对应 AUC 更大的分类器效果更好。
其中, ROC 曲线全称为受试者工作特征曲线 , 它是根据一系列不同的二分类方式, 以真阳性率感为纵坐标, 假阳性率为横坐标绘制的曲线。
1.AUC 就是衡量学习器优劣的一种性能指标 。从定义可知, AUC 可通过对ROC 曲线下各部分的面积求和而得。
2.AUC 面积的意义: AUC 是衡量二分类模型优劣的一种评价指标, 表示预测的正例排在负例前面的概率。

(四)什么是 Transformer 模型?
参考答案:
Transformer模型是由谷歌公司提出的一种基于自注意力机制的神经网络模 型,用于处理序列数据。相比于传统的循环神经网络模型,Transformer模型具有更好的并行性能和更短的训练时间,因此在自然语言处理领域中得到了广泛应用。
在自然语言处理中,序列数据的输入包括一系列文本、语音信号、图像或视频等 。传统的循环神经网络(RNN)模型已经在这些任务中取得了很好的效果,
但是该模型存在着两个主要问题:一是难以并行计算,二是难以捕捉长距离依赖关系 。为了解决这些问题, Transformer模型应运而生。
作为一种基于自注意力机制的神经网络模型,Transformer模型能够对序列中的每个元素进行全局建模,并在各个元素之间建立联系。与循环神经网络模型相比, Transformer模型具有更好的并行性能和更短的训练时间。
Transformer模型中包含了多层 encoder 和 decoder,每一层都由多个注意力机制模块和前馈神经网络模块组成 。encoder 用于将输入序列编码成一个高维特征向量表示,decoder 则用于将该向量表示解码成目标序列。在 Transformer模型中,还使用了残差连接和层归一化等技术来加速模型收敛和提高模型性能。
Transformer 模型的核心是自注意力机制(Self-Attention Mechanism), 其作用是为每个输入序列中的每个位置分配一个权重,然后将这些加权的位置向量作为输出。
自注意力机制的计算过程包括三个步骤:
计算注意力权重:计算每个位置与其他位置之间的注意力权重,即每个位置对其他位置的重要性。
计算加权和:将每个位置向量与注意力权重相乘,然后将它们相加,得到加权和向量。
线性变换: 对加权和向量进行线性变换, 得到最终的输出向量。
通过不断堆叠多个自注意力层和前馈神经网络层, 可以构建出Transformer模型。
对于 Transformer模型的训练, 通常采用无监督的方式进行预训练, 然后再进行有监督的微调。在预训练过程中,通常采用自编码器或者掩码语言模型等方式进行训练, 目标是学习输入序列的表示。在微调过程中,通常采用有监督的方
式进行训练,例如在机器翻译任务中,使用平行语料进行训练, 目标是学习将输入序列映射到目标序列的映射关系。
(五)什么是 ChatGPT 模型?
参考答案:
GPT 是 OpenAI 公司基于谷歌的 Transformer语言模型框架而开发出来的技术。
GPT, 英文全称是 Generative Pre-trained Transformer ,直译过来是生成型预训练-变换器 。名字前面加上chat, 即“聊天生成型预训练-变换器 ”。
从算法模式的版本上, ChatGPT 经历了 GPT-1(2018 年) 、GPT-2(2019年) 、GPT-3(2020 年) 和 InstructGPT(2022 年初) 四个版本, 未来有望生成新版本即 GPT-4(预计 2023 年) 。
GPT-1(2018 年):仅需要对预训练的语言模型做很小的结构改变, 即加一层线性层, 即可方面地应用于下游各种任务。
GPT-2(2019 年): 使用 zero-shot 设定, 基本实现一劳永逸, 训练一个模型, 在多个任务上都能使用。
GPT-3(2020 年)不通过任何样例学习,而是利用少量样本去学习,更接近人脑学习模式。
InstructGPT(2022 年初): 经过多任务的微调后, 能在其他任务上实现
zero-shot 预测,泛化能力极大提升 。(InstuctGPT 可以理解成是 GPT-3 的微调版本, 与 GPT-3 相比更擅长遵循指令, 回答更真实,且有害情绪输出大幅下降) 。
ChatGPT 可以理解成是 GPT-3.5 的微调版本,未来有望生成新版本即 GPT-4,相较于 InstructGPT,ChatGPT 效果更加真实,模型的无害性实现些许提升,编码能力更强 。ChatGPT 使用的新的 AI 训练方法, 加大“人 ”的反馈权重, 进行训
练监督策略模型、训练奖励模型(Reward Mode,RM)、采用 PPO(Proximal Policy Optimization,近端策略优化)三个阶段的训练,在持续参数迭代的过程中,输入奖励模型,得到优化参数。且会不断重复第二和第三阶段,通过迭代,训练出更高质量的 ChatGPT 模型。
(六)什么是 Diffusion 模型?
参考答案:
Diffusion模型是一种深度生成模型,属于无监督学习中的概率模型,主要用于图像生成和视频预测等领域。
Diffusion模型的工作原理是通过一系列高斯噪声逐步加入到原始图像中,直到图像变成纯高斯噪声。然后,模型通过去除噪声来还原图像。Diffusion模型的特点是加入噪声的过程是可逆的, 即噪声可以由原始图像逐步还原 。 因此,
Diffusion模型可以由给定的噪声图像还原出原始图像。
Diffusion模型在图像生成方面具有很好的效果,可以生成高质量的图像。此外, Diffusion模型还可以用于视频预测, 即根据给定的前几帧预测未来帧。
3089

被折叠的 条评论
为什么被折叠?



