提升游戏教程质量:基于视觉语言模型的创新评估方法
立即解锁
发布时间: 2025-09-02 00:56:38 阅读量: 14 订阅数: 37 AIGC 


计算机视觉前沿研究
### 提升游戏教程质量:基于视觉语言模型的创新评估方法
在当今的游戏开发领域,游戏教程的质量对于玩家的入门体验至关重要。一个清晰、易懂的教程能够帮助玩家快速上手游戏,提高玩家的留存率和满意度。本文将介绍一种利用视觉语言模型(VLMs)评估视频游戏教程质量的创新方法,以及通过少样本学习进行跨游戏参与度建模的相关研究。
#### 视觉语言模型评估游戏教程
##### 模型对比
首先,我们来看不同模型在MMMU和MMBench基准测试中的表现。以下是具体的对比表格:
| 模型 | 开放语言模型 | 视觉模型 | MMMU | MMBench |
| --- | --- | --- | --- | --- |
| GPT - 4o | ✗ | - | - | 69.2 | 82.2 |
| InternVL2 - 26B | ✓ | InternLM2 - 20B InternViT - 6B | 55.2 | 81.2 |
| InternVL2 - 8B | ✓ | InternLM2 - 7B InternViT - 300M | 51.2 | 79.4 |
| InternVL2 - 4B | ✓ | Phi - 3 - mini | InternViT - 300M | 48.3 | 73.6 |
| InternVL1.5 - 26B | ✓ | InternLM2 - 20B InternViT - 6B | 46.8 | 79.7 |
| InternVL1.5 - 4B | ✓ | Phi - 3 - mini | InternViT - 300M | 45.1 | 69.7 |
| DragonFly | ✓ | Llama3 - 8B | CLIP | 36.2 | - |
从这个表格中,我们可以直观地看到不同模型在各项指标上的差异。例如,GPT - 4o在MMBench上取得了较高的分数,而DragonFly在MMMU上的表现相对较弱。
##### 实验配置
为了评估这些VLMs,我们采用了两种不同的实验配置:
- **带历史信息**:在每个提示中,模型会接收到所选教程的完整聊天历史、待评估的新帧以及所有相关问题,每个问题都有适当的编号。
- **不带历史信息**:在每个提示中,模型仅接收到新帧和所有相关问题,没有任何先前的信息。
同时,我们还为系统提供了初始提示:“你是一名玩家,正在玩一个游戏教程。我将为你提供一些教程的截图,请回答与截图相关的问题。请简洁明了。”在“带历史信息”的配置中,这个提示仅在第一个问题时作为输入;而在“不带历史信息”的配置中,这个提示会附加在每个问题的开头。
##### 评估指标
为了定量评估视觉解释的清晰度和输出质量,我们使用了ROUGE和BERT - Score这两个既定的摘要评估指标:
- **ROUGE - N**:评估预测结果和真实结果的N - gram(给定文本中连续的N个项目序列)之间的句法重叠。在本研究中,我们使用了ROUGE - 1(单字重叠)、ROUGE - 2(双字重叠)和ROUGE - L(最长公共子序列)。
- **BERT - Score**:依赖于仅编码器的语言模型来测量语义重叠。对于生成文本中的每个标记,BERT - Score会计算其与参考文本中每个标记的余弦相似度,从而得到一个相似度矩阵。然后计算精度和召回率来衡量有多少标记是相同的,最后用F1 - Score将这两个指标进行汇总。
下面是一个简单的mermaid流程图,展示了评估的大致流程:
```mermaid
graph LR
A[提供初始提示] --> B[选择实验配置]
B --> C{带历史信息?}
C -- 是 --> D[输入聊天历史、新帧和问题]
C -- 否 --> E[输入新帧和问题]
D --> F[模型生成回答]
E --> F
F --> G[使用ROUGE和BERT - Score评估]
```
0
0
复制全文
相关推荐










