隐私保护联邦学习之差分隐私原理-CSDN博客

本文链接：https://blog.csdn.net/whdeast/article/details/128082879

本文介绍了隐私的概念，强调了单个用户隐私的重要性，并详细解释了差分隐私的定义、如何通过随机噪声保护个体数据，以及在联邦学习中的应用。讨论了敏感度、KL散度和常见的随机化机制。重点在于理解差分隐私的原理和在实际场景中的实施策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

什么是隐私

讲差分隐私前，说一下什么是隐私

其实隐私这个定义，各家有各家的说法，而且各人有各人不同的考量。目前普遍比较接受的是：“单个用户的某一些属性” 可以被看做是隐私。这个说法里所强调的是：单个用户。也就是说，如果是一群用户的某一些属性，那么可以不看做隐私。

举个例子：医院说，抽烟的人有更高的几率会得肺癌。这个不泄露任何隐私。但是如果医院说，张三因为抽烟，所以有了肺癌。那么这个就是隐私泄露了。好，那么进一步，虽然医院发布的是趋势，说抽烟的人更高几率得肺癌。然后大家都知道张三抽烟，那么是不是张三就会有肺癌呢？那么这算不算隐私泄露呢？结论是不算，因为张三不一定有肺癌，大家只是通过一个趋势猜测的。

所以，从隐私保护的角度来说，隐私的主体是单个用户，只有牵涉到某个特定用户的才叫隐私泄露，那么我们是不是可以任意发布聚集信息呢？倒是未必。我们设想这样一种情况：医院发布了一系列信息，说我们医院这个月有100个病人，其中有10个感染HIV。假如攻击者知道另外99个人是否有HIV的信息，那么他只需要把他知道的99个人的信息和医院发布的信息比对，就可以知道第100个人是否感染HIV。这种对隐私的攻击行为就是差分攻击。

差分隐私

差分隐私顾名思义就是用来防范差分攻击的。举个简单的例子，假设现在有一个婚恋数据库，2个单身8个已婚，只能查有多少人单身。刚开始的时候查询发现，2个人单身；现在张三跑去登记了自己婚姻状况，再一查，发现3个人单身，所以张三单身。

从群里数据通过差分攻击（查询的方式）推测个体隐私。

差分隐私(Differential Privacy)是Dwork 在2006年针对数据库的隐私泄露问题提出的一种新的隐私定义。主要是通过使用随机噪声来确保，查询请求公开可见信息的结果，并不会泄露个体的隐私信息，即提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会，简单来说，就是保留统计学特征的前提下去除个体特征以保护用户隐私。

怎么实现差分隐私呢，简单的说就是向数据中加入噪声。但差分隐私的优势就在于这个噪声并不是随便加的，而是通过数学方法得到一个平衡，通过对差分隐私参数的调节，可以让用户在隐私保护强度和数据可用性之间寻求一个合适的平衡点。

为了更好的理解差分隐私的定义，这里先介绍一些关于信息量和熵的知识。