【论文分享】An Empirical Study on the Effectiveness of Static C Code Analyzers for Vulnerability Detection

本文链接：https://blog.csdn.net/u013648063/article/details/126059482

看到gossip的推送，所以细细读了一下这篇文章，感觉还是挺有收获的。
如果觉得文章太长，可以看gossip公众号的推送。

https://mp.weixin.qq.com/s/X3l2stiMTxoIt77wHvQW_g

文章的数据集开源于：https://doi.org/10.5281/zenodo.6515687

简介

静态分析工具经常用来检测安全漏洞。现有的静态分析的实现很多，很难去做一个客观的比较来看哪个工具在检测漏洞上最有效。现有的方法存在两个局限。一是，他们使用合成的数据集，漏洞不能反映安全漏洞的复杂性。二是，不提供可区分的分析，比如检测出漏洞的类型都不一样。因此，关于分析器检测漏洞的能力的结论不能泛化到真实程序。

这篇文章提出了一种方法，来自动评估静态分析工具的有效性。文章评估了5个开源和1个商用的静态分析工具。具体来说，对27个软件，总共1百万行代码和192漏洞进行了评估。结果表示，静态分析工具在合成漏洞的表现上很好，在真实程序的benchmark上，静态工具的漏报会高达47%-80%。组合这些结果，可以降低15%的漏报率。许多漏洞仍然没被发现，尤其是经典的内存相关的安全漏洞。

CVE Mapping and Grouping

不同的静态分析器使用不同的识别方法来划分漏洞的类型。比如FlawFinder使用CWE来做漏洞划分。这些不同的划分使得很难自动去评估静态工具找到的漏洞。对于这个原因，文章构造了一个映射来给每个漏洞分类器分配一个CWE ID。比如下面的这个例子。UAF，DF都给分为CWE-664。更具体的mapping，论文没有给出，不过可以去细看下文章给的dataset。

Benchmarking

Benchmark Dataset - Ground Truth

现有的静态分析工作主要是用juliet test suite作为测试集。但是，这些Juliet Test Suite的漏洞和真实世界程序的还差很多。但是带有真实世界程序漏洞的数据集里，漏洞比较少，大多是同一类型，或者没有文档说明（比如没说明白漏洞的类型）

这篇文章选择的是magma数据集和两个真实程序。magma是建立在合法的CVE报告上，包含了很多中的漏洞。magma数据集使用的是一种前向导入（front-porting）的方法。就是旧版本的漏洞被重新插入到最新版本的程序中。对于每个导入的漏洞，magma都有指出漏洞的root cause和他的manifestation。root cause就是漏洞的根源，manifestation是漏洞表现的地方。

除了magma以外，还用了Binutils和FFMpeg这两个程序。因为这两个程序包含很多well-documented的漏洞。

漏洞验证 . 由于许多分析器在build过程时候进行分析，所以要确保源码在build过程时，不会因为错误的build设置而被预处理器给处理掉。如果被去掉了，就需要重新设置，或者把这个漏洞从评估中剔除。

另外，由于使用的是真实程序作为数据集，所以静态分析器有可能发现未知的漏洞。然而，评估的目的是静态分析是否能够在benchmark中找到已知的漏洞，作者认为这就足够说明静态分析器的有效性了。也就是不考虑这个未知的漏洞。

漏洞的类型和类别，文中分为五大类：

Improper Control of a Resource Through its Lifetime（CWE664）：主要是内存破坏漏洞。
- 越界读写（CWE-{119，125，787}）
- UAF（CWE-415，416）
- 资源管理错误（CWE 399，770，772，401）
- 类型转换（CWE 681）
Incorrect Calculation（CWE682）：错误的计算，然后结果被用作内存分配和访问上。
- 除零错误(CWE 369)
- 整数溢出（CWE-190）
- 错误的缓冲区长度的计算（CWE-131）
Insufficient Control-Flow Management（CWE691）：表示控制流被操控那类的漏洞
- 循环没有退出条件：CWE 835
- 攻击者消耗额外的资源，或者让程序导向断言，导致DoS
Improper Check or Handling of Exceptional Conditions（CWE703）：没有处理好异常条件
- 空指针解引用（CWE 476）
Improper Neutralization（CWE707）：没有处理好程序的输入和输出。
- 畸形的字符串作为参数或者环境变量（CWE 20）
- improper validation of array indices（CWE 129）

静态器所支持的漏洞类型如下表。

FLF：FlawFinder
IFR：Infer
CPC：CppCheck
CCH：CodeChecker
CQL：CodeQL
CSA：不知名商业软件。

漏洞检测的粒度

由于静态分析器检测漏洞的方式五花八门，有的指出漏洞的root cause，有的指出漏洞的manifestation。这样就不好判断静态分析工具到底检测出了漏洞没有。作者提出了一种指标Fault-Error Conformity(FEC)。root cause所在的函数的与manifestation所在的函数的交集的数目除以manifestation函数的数目。也就是FEC越接近于1，漏洞的root cause和manifestation的重叠越高。

实验结果表明，大部分的漏洞的root cause和manifestation都是重叠的。