本体对齐评估倡议:六年经验总结
1. 评估指标
OAEI 数据集具有多样性,主要体现在测试用例的复杂性以及(完整)参考对齐的有无,这就需要使用不同的评估指标。从不同角度评估匹配系统,可避免在同一数据集下偏袒某种方法或系统。以下是 OAEI 评估中使用的评估标准概述:
| 类型 | 合规性 | | | 其他 |
| — | — | — | — | — |
| | 手动标注 | 部分参考 | 完整参考 | 效率 |
| 数据集 | | | | |
| benchmarks | √ | | | |
| anatomy | √ | √ | | |
| conference | √ | √ | √ | √ |
| directory | √ | | | |
| library | √ | √ | | |
| benchmarksubs | √ | | | |
| ars | √ | √ | | |
| tap | √ | √ | | |
| iimb | √ | √ | | |
| vlcr | √ | | | |
评估本体对齐最常用和易理解的标准是匹配器对齐与参考对齐的合规性。OAEI 活动中使用精度(真阳性/检索到的)、召回率(真阳性/预期的)和 f - 度量(精度和召回率的聚合)作为衡量合规性的基础。对于部分数据集,如 conference、library 和 vlcr,由于没有完整的参考对齐,合规性是基于部分参考对齐来衡量的。
虽然精度和召回率是评估对齐合规性的标准指标,但也使用了一些解决这些指标局限性的替代指标。例如,为了更好地区分匹配系统,