Skip to content

llm2014/llm_benchmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

186 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

大模型测评记录

榜单查询

简介

  1. 本评测是个人性质,使用滚动更新的私有题库进行长期跟踪评测。
  2. 本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试。不够权威,不够全面。仅从一个侧面观察各个大模型的长期进化趋势。
  3. 本评测的题库规模不大,长期维持在30题/240个用例以内,不使用任何互联网公开题目。题目每月会有滚动更新。题目不公开,意图是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。不可盲信任何评测。
  4. 因为题目会每月增减,每个模型的成绩在每个月榜单中会有正负4分左右的变化,属于正常现象。大致排序保持稳定。

评测方法

  1. 每道题设置若干个得分点,有些题目每个用例通过记1分,有些题目每答出一个符合要求的数据/文本记1分。每题有至少1个得分点。最终得分是计分除以得分点总数,再乘以10。(即每道题满分10分)
  2. 每题要求推导过程必须正确,猜对的答案不得分。部分题目有额外要求,输出多余答案会扣分,避免枚举。
  3. 要求回答必须完全符合题目要求,如果明确要求不写解释,不得编程等,而回答包含了解释或编程部分,即使正确,也记0分。
  4. 评测统一使用官方API或OpenRouter中转。官方有明确建议的温度值,使用官方温度,否则使用默认温度值0.1,推理模型限制思考长度30K,输出长度10K,无法分别设置的模型,设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限,就按模型上限。其他参数均默认。部分不提供API的模型使用官网问答。每道题测3遍,取最高分。

题目大纲

2、文本摘要:阅读包含误导信息的文本,提取正确信息,按要求格式输出
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
16、插件调用:给定插件描述,要求根据文本信息输出正确插件调用和参数
24、数字规律:给2个示例,找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
29、符号还原:将数学符号含义打乱,给表达式,要求推导符号原始含义
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定2个点的最大面积等腰三角形顶点
32、干支纪年:天干中删除部分,求历史某一年的干支
37、投影问题:给三维投影视图,求对应的立方体体积
38、函数求交:给多个函数求所有交点
39、火车售票:多个车次,多人次操作购票退票,求最终售票情况
40、代码推导:给100行算法代码和输入,要求纸面推导输出结果
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过使用工具,得到指定输出
45、程序编写:完成复杂约束下的python编程
46、字母组合:从字母序列中找出存在的单词
48、字符处理:根据规则对一段文本进行字符级别处理和统计
49、激光布局:根据条件约束,在10x10空间中部署满足要求的激光器
50、日志分析:在约20K的生产服务器日志中找到有效线索进行归纳
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场没有解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分拼图完成图形
55、寻路问题:在给出的地图中寻找符合条件的通路

更新机制

  • 新模型测试后,总榜实时更新
  • 每月25号做一次成绩归档
  • 每个模型的详细评测首发在知乎个人号: 知乎主页,和微信公众号:大模型观测员

qrcode_for_gh_ced94128890d_258

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •