LLMs模型应用研究——从元数据到预测电影大片票房的实践-CSDN博客

本文链接：https://blog.csdn.net/matt45m/article/details/147780835

概述

尽管影视行业通常被视为富有创意且开放的领域，但它们长期以来一直对风险持谨慎态度。高昂的制作成本（美国项目可能很快会失去海外低成本拍摄地的优势）以及分散的制作格局，使得独立公司难以承受重大损失。

因此，在过去十年中，该行业对机器学习是否能够检测观众对影视项目的反应趋势或模式越来越感兴趣。

主要的数据来源仍然是尼尔森系统（尽管其基础在于电视和广告，但具有规模优势）以及基于样本的方法，例如焦点小组，这些方法以牺牲规模为代价换取特定人群的代表性。后一类还包括来自免费电影预览的评分反馈——然而，到那时，大部分制作预算已经花掉了。

“大片”理论

最初，机器学习系统利用传统的分析方法，如线性回归、K-最近邻、随机梯度下降、决策树和森林，以及神经网络，通常以类似于预人工智能时代的统计分析的方式组合使用，例如2019年佛罗里达中部大学的一项计划，基于演员和编剧的组合（以及其他因素）来预测成功的电视剧：

2019年佛罗里达中部大学的研究

2018年的一项研究根据角色和/或编剧的组合（大多数剧集由多人共同撰写）对剧集的表现进行评分。
最相关的工作（至少是在实际应用中部署的）是推荐系统领域的工作，尽管它经常受到批评：

典型的视频推荐流程

_典型的视频推荐流程。目录中的视频使用手动标注或自动提取的特征进行索引。推荐通过两个阶段生成：首先选择候选视频，然后根据从观看偏好推断出的用户画像对它们进行排名。

然而，这些方法分析的都是已经成功的项目。对于新的电视剧或电影，不清楚哪种“真实情况”最适用——至少因为公众口味的变化，加上数据源的改进和增强，意味着通常没有几十年一致的数据可用。

这是一个“冷启动”问题的实例，推荐系统必须在没有任何先前互动数据的情况下评估候选项目。在这种情况下，传统的协同过滤失效了，因为它依赖于用户行为中的模式（如观看、评分或分享）来生成预测。问题是，对于大多数新电影或电视剧，还没有足够的观众反馈来支持这些方法。

康卡斯特预测

康卡斯特技术人工智能与乔治华盛顿大学合作的一篇新论文提出了一个解决方案，通过向语言模型提供未发布电影的结构化元数据来解决这个问题。

输入内容包括演员阵容、类型、剧情简介、内容分级、情绪和奖项，模型返回可能成为未来热门的电影列表。

作者将模型的输出作为没有互动数据时的观众兴趣的替代品，希望避免对已经广为人知的标题产生早期偏见。

这篇非常短（三页）的论文，标题为使用LLMs预测电影大热，由康卡斯特技术人工智能的六名研究人员和乔治华盛顿大学的一名研究人员撰写，声明：

“我们的结果表明，当使用电影元数据时，LLMs可以显著优于基线模型。这种方法可以作为多种用例的辅助系统，能够自动对每天和每周发布的大批量新内容进行评分。

“通过在编辑团队或算法积累足够的互动数据之前提供早期洞察，LLMs可以简化内容审查流程。

“随着LLMs效率的持续提高和推荐代理的兴起，这项工作的见解具有价值，并且可以适应广泛的应用领域。”

如果这种方法被证明是可靠的，它可以减少行业对回顾性指标和大量宣传的标题的依赖，通过引入一种可扩展的方式来在发布之前标记有前景的内容。因此，与其等待用户行为发出需求信号，编辑团队可以收到早期的、基于元数据的观众兴趣预测，可能会将曝光范围重新分配给更广泛的新发布内容。

方法与数据

作者概述了一个四阶段的工作流程：从未发布电影元数据构建专用数据集；建立基线模型进行比较；使用自然语言推理和基于嵌入的预测评估适当的LLMs；并通过生成模式下的提示工程优化输出，使用Meta的Llama 3.1和3.3语言模型。

由于作者表示，没有公开可用的数据集可以直接测试他们的假设（因为大多数现有集合早于LLMs，并且缺乏详细的元数据），他们从康卡斯特娱乐平台构建了一个基准数据集，该平台为数千万用户提供直接和第三方接口服务。

该数据集跟踪新发布的电影，以及它们是否后来变得流行，流行程度通过用户互动来定义。

该集合专注于电影而不是电视剧，作者表示：

“我们专注于电影，因为它们受外部知识的影响比电视剧小，提高了实验的可靠性。”

标签是通过分析标题在不同时间窗口和列表大小中变得流行所需的时间来分配的。LLM被提示输入元数据字段，如类型、剧情简介、分级、时代、演员阵容、剧组、情绪、奖项和角色类型。

为了比较，作者使用了两个基线：随机排序和一个流行嵌入（PE）模型（稍后会详细介绍）。

该项目使用大型语言模型作为主要的排名方法，生成带有预测受欢迎程度分数和相应理由的电影有序列表——这些输出通过提示工程策略来指导模型的预测，仅使用结构化元数据。

提示策略将模型作为一个“编辑助理”，分配任务是仅根据结构化元数据识别哪些即将上映的电影最有可能变得流行，然后对固定列表的标题进行重新排序不引入新项目，并以JSON格式返回输出。

每个响应包括一个排名列表，分配的受欢迎程度分数，排名的理由，以及影响结果的任何先前示例的引用。这些多层元数据旨在提高模型的上下文理解能力，以及其预测未来观众趋势的能力。

测试

实验分为两个主要阶段：最初，作者测试了几种模型变体以建立基线，涉及识别比随机排序方法表现更好的版本。

其次，他们在生成模式下测试大型语言模型，将其输出与更强的基线进行比较，而不是随机排序，增加了任务的难度。

这意味着模型必须优于已经显示出一些预测哪些电影会变得流行的能力的系统。因此，作者声称，评估更好地反映了现实世界的情况，在这种情况下，编辑团队和推荐系统很少在模型和偶然性之间选择，而是在具有不同预测能力的系统之间选择。

无知的优势

这种设置的一个关键限制是模型的知识截止日期与电影实际发布日期之间的时间差距。由于语言模型的训练数据在电影可用之前六到十二个月结束，它们无法访问发布后的信息，确保预测完全基于元数据，而不是基于任何学到的观众反应。

基线评估

为了构建基线，作者使用三种嵌入模型生成电影元数据的语义表示：BERT V4；Linq-Embed-Mistral 7B；和Llama 3.3 70B，量化为8位精度以满足实验环境的限制。

由于Linq-Embed-Mistral在MTEB（大规模文本嵌入基准）排行榜上的领先地位，因此被选中。

每个模型生成候选电影的向量嵌入，然后与每个电影发布前一周的最热门一百部电影的平均嵌入进行比较。

通过这些嵌入之间的余弦相似度推断受欢迎程度，相似度分数越高，表示预测的吸引力越高。通过测量与随机排序基线的性能对比来评估每个模型的排名准确性。

与随机基线相比，流行嵌入模型的性能提升。每个模型都使用四种元数据配置进行了测试：V1仅包含类型；V2仅包含剧情简介；V3结合类型、剧情简介、内容分级、角色类型、情绪和发布时代；V4在V3配置基础上增加了演员阵容、剧组和奖项。结果显示丰富的元数据输入如何影响排名准确性。来源：https://arxiv.org/pdf/2505.02693

结果显示（如上），BERT V4和Linq-Embed-Mistral 7B在识别前三名最受欢迎的标题方面表现最强，尽管两者在预测单一最受欢迎项目方面都略有不足。

BERT最终被选为与LLMs进行比较的基线模型，因为其效率和整体收益超过了其局限性。

LLM评估

研究人员使用两种排名方法来评估性能：成对排名和列表排名。成对排名评估模型是否正确地将一个项目相对于另一个项目进行排序；列表排名则考虑整个候选列表的准确性。

这种组合使得不仅可以评估个别电影对是否正确排序（局部准确性），还可以评估整个候选列表是否反映了真实的受欢迎程度顺序（全局准确性）。

为了防止性能损失，确保LLM预测和嵌入基线之间的比较一致且可复现，使用了完整的、未量化的模型。

指标

为了评估语言模型预测电影受欢迎程度的有效性，使用了基于排名和分类的指标，特别关注识别前三名最受欢迎的标题。

应用了四种指标：Accuracy@1衡量最受欢迎的项目出现在第一位的频率；倒数排名通过取其位置的倒数来捕捉实际排名第一的项目在预测列表中的排名高度；归一化折扣累积增益（NDCG@k）评估整个排名与实际受欢迎程度的匹配程度，分数越高表示一致性越好；Recall@3衡量真正受欢迎的标题出现在模型前三名预测中的比例。

由于大多数用户互动发生在排名菜单的顶部，评估集中在较低的__k__值上，以反映实际用例。

与BERT V4基线相比，大型语言模型的性能提升，以排名指标的百分比增益衡量。每个模型-提示组合的结果平均进行了十次运行，最高的两个值被突出显示。报告的数字反映了所有指标的平均百分比提升。

通过测量与先前建立的BERT V4基线的指标改进来评估Llama模型3.1（8B）、3.1（405B）和3.3（70B）的性能。每个模型都使用一系列提示进行了测试，从最小到信息丰富，以检查输入细节对预测质量的影响。

作者表示：

“当使用最具信息量的提示时，Llama 3.1（405B）表现最佳，其次是Llama 3.3（70B）。根据观察到的趋势，当使用复杂且冗长的提示（MD V4）时，更复杂的语言模型通常会在各种指标上表现出更好的性能。然而，它对添加的信息类型很敏感。”

当提示中包含演员奖项时，性能得到提升——在这种情况下，每部电影中排名前五的演员获得的主要奖项数量。这种更丰富的元数据是信息最丰富的提示配置的一部分，超过了排除演员认可的简单版本。这种好处在较大的模型Llama 3.1（405B）和3.3（70B）中最为明显，这两个模型在获得这一额外的声望和观众熟悉度信号时显示出更强的预测准确性。

相比之下，最小的模型Llama 3.1（8B）在提示变得更加详细时表现出性能提升，从类型到剧情简介，但当添加更多字段时性能下降，表明该模型缺乏有效整合复杂提示的能力，导致泛化能力较弱。

当提示仅限于类型时，_所有_模型的表现都低于基线，表明有限的元数据不足以支持有意义的预测。