【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
0. 论文信息
Title: Unsupervised Human Preference Learning
Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakkani Tur
Comments: EMNLP 2024 Main Conference
https://arxiv.org/pdf/2410.03731
1. 摘要:
本文提出了一种新颖的方法,使用小型参数模型作为偏好代理,以生成指导大型预训练模型的自然语言规则,实现个性化内容的高效生成。该方法通过一个小型的本地“方向盘”模型来指导一个更大的基础模型,以产生符合个人偏好的内容,同时利用大模型的广泛知识和能力,且无需对大模型进行微调。实验结果表明,该技术在数据和计算效率方面显著优于现有的个性化方法。
2. 研究背景:
大型语言模型(LLMs)在推理、知识检索和内容生成方面展示了令人印象深刻的能力,但在适应个体用户偏好方面存在挑战。现有的个性化技术,如上下文学习和参数高效微调,难以捕捉人类偏好的复杂性,尤其是在个人数据集较小的情况下。
3. 问题与挑战:
LLMs通常在大规模、通用的数据集上进行训练,这促进了中立性,但限制了它们学习和适应个体