一、引言
随着人工智能技术的飞速发展,大语言模型(LLM)在企业中的应用日益广泛。在工业智造,半导体等企业中,基于大模型的 Chatbot 可以辅助员工解答技术问题、提供生产流程建议、知识管理等多种任务。为了确保 Chatbot 能够为企业提供准确、高效的服务,需要对不同版本的大模型进行内部评测,以评估其在特定领域问题上的问答表现。
本文旨在设计一个小型系统,用于评测不同版本大模型在半导体企业内部场景下的实际表现。
二、系统目标
- 客观、准确地评估不同版本的大模型(如 DeepSeek、OpenAI、Google 等)在半导体企业内部特定问题上的问答质量。
- 提供详细的评测指标和结果分析,为模型选择和升级决策提供依据。
- 系统具有可扩展性,能够方便地接入新的模型版本和更新的评测标准。
三、系统架构
(一)数据存储模块
- 企业知识库 :存储半导体企业内部的技术文档、产品资料、生产流程规范、常见问题解答等信息,作为大模型回答问题的背景知识和参考依据。
- 评测问题集 :构建一个涵盖半导体