大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope

最新推荐文章于 2025-06-05 10:40:28 发布

原创

最新推荐文章于 2025-06-05 10:40:28 发布 · 5.6k 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #tensorflow #人工智能 #modelscope

文章目录

前言
一、checkpoint
二、TensorFlow
三、 PyTorch
四、TensorFlow和PyTorch区别
五、Transformers
六、Transformers通过配置或自动检测来决定使用 PyTorch 或 TensorFlow
七、Transformers、PyTorch、Checkpoint层级关系梳理
八、ModelScope

前言

之前学习的过程中我们的模型应用可以跑起来了，那么在这个过程中我们是按官方的demo来学习编写的，有些地方只会用，但是并没有深入理解。现在我们一起来学习一些大数据的基础概念，Checkpoint、PyTorch、 Transformers、ModelScope

一、checkpoint

在大模型（如深度学习模型）中，checkpoint 是指在训练过程中保存模型当前状态的快照。它通常包含模型的权重、优化器的状态以及其他训练相关的参数。这些 checkpoint 的主要作用如下：

保存中间结果：在长时间训练模型时，定期保存 checkpoint 以防止由于中断（如停电、计算机崩溃等）而丢失训练进度。这样可以从最近一次保存的 checkpoint 继续训练，而不必从头开始。
模型评估：在训练过程中，可能会定期对模型进行评估，使用 checkpoint 可以方便地在不同的时间点加载模型，并进行验证或测试。
实验管理：在进行模型调优和实验时，可以保存多个 checkpoint，以便回顾和比较不同实验条件下的模型性能。
部署：训练完成后，最终的 checkpoint 通常会被用来部署模型。在生产环境中，使用保存的 checkpoint 来进行推理和预测。

所以，我们下载使用的大模型通常就是一个 checkpoint。它包含了训练好的模型的参数和状态，用户可以直接加载并使用这些模型，而无需重新进行训练。这对于实际应用非常有用，尤其是当训练一个大型模型需要大量的计算资源和时间时。

具体来说，当你下载并使用一个预训练的大模型时，你通常会得到以下几种文件：

模型权重文件：这个文件保存了模型的参数（如神经网络的权重和偏置）。在 TensorFlow 中，这通常是 .ckpt 文件；在 PyTorch 中，这通常是 .pt 或 .pth 文件。
模型配置文件：这个文件描述了模型的架构（如每一层的类型、层数、激活函数等）。在一些框架中，模型配置可能包含在 checkpoint 文件中，或者作为一个单独的 JSON 或 YAML 文件。
其他相关文件：一些模型可能还包含额外的信息，如训练过程中使用的词汇表（对于自然语言处理模型）、模型的超参数设置等。

二、TensorFlow

1. 简介

TensorFlow 是由 Google Brain 团队开发的开源深度学习框架。自 2015 年发布以来，它已经成为机器学习和深度学习社区中广泛使用的工具之一。TensorFlow 适用于从研究到生产的广泛应用场景，并支持多种编程语言。

2. 主要特点

1） 计算图（Computation Graph）：TensorFlow 最初是以静态计算图为基础的，这意味着在模型执行之前，需要先定义整个计算图。这种方法在优化和部署方面有优势，但调试和开发速度较慢。

2） Eager Execution：自 TensorFlow 2.0 起，默认启用了 Eager Execution 模式，这种模式允许即刻运行操作，无需构建计算图，类似于 PyTorch 的动态计算图，大大简化了调试和开发。

3） 多语言支持：虽然主要使用 Python，但 TensorFlow 还支持 C++、Java、JavaScript、Go 等多种语言，特别是 TensorFlow.js 和 TensorFlow Lite，分别支持在浏览器和移动设备上运行模型。

4） 强大的生态系统：TensorFlow 拥有丰富的工具和库，如 TensorFlow Extended (TFX) 用于生产环境中的端到端机器学习平台，TensorFlow Lite 用于移动和嵌入式设备，TensorFlow.js 用于在浏览器中运行模型，Keras（现已集成到 TensorFlow 中）用于简化模型的构建和训练。

5） 广泛的社区和支持：TensorFlow 拥有庞大的用户社区和丰富的文档、教程和资源，提供了强大的社区支持。

3. 示例代码

以下是使用 TensorFlow 构建和训练一个简单的神经网络的示例：

import tensorflow as tf
from tensorflow.keras import layers, models

# 构建模型
model = models.Sequential()
model.add(layers.Dense(128, activation='relu', input_shape=(784,)))
model.add(layers.Dense(10, activation='softmax'))

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 加载数据
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train.reshape(-1, 784) / 255.0, x_test.reshape(-1, 784) / 255.0

# 训练模型
model.fit(x_train, y_train, epochs=5)

# 评估模型
model.evaluate(x_test, y_test)

三、 PyTorch

1. 简介

PyTorch 是由 Facebook 的人工智能研究团队开发的开源深度学习框架。自 2016 年发布以来，PyTorch 迅速获得了学术界和工业界的广泛认可和使用。PyTorch 以其易用性、灵活性和动态计算图的特性而著称。

2. 主要特点

1） 动态计算图（Dynamic Computation Graph）：PyTorch 的计算图在运行时构建，这使得调试更加直观和方便。开发者可以使用标准的 Python 调试工具进行调试。

2） 简洁的 API：PyTorch 的 API 非常直观和易用，符合 Python 的编程风格，降低了学习门槛。

3） TorchScript：PyTorch 提供了 TorchScript 机制，可以将 PyTorch 模型转换为静态计算图，以便在生产环境中进行优化和部署。

4） 广泛的生态系统：PyTorch 拥有丰富的扩展库，如用于分布式训练的 PyTorch Lightning、用于图神经网络的 PyTorch Geometric、用于强化学习的 Stable Baselines3 等。

5） 强大的社区和支持：PyTorch 社区活跃，提供了丰富的教程、示例和文档资源，并且在学术界有广泛的应用。

3. 示例代码

以下是使用 PyTorch 构建和训练一个简单的神经网络的示例：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 数据加载和预处理
transform = transforms.Compose([transforms