DP 学习总结
DP 相关的一些学习
DP 研究方向
- 建立 DP 基础隐私框架
- 提升 privacy/utility trade-offs
- 隐私保护攻击与审计
- DP 隐私保护范围
DP 目前为了弥合 privacy/utility trade-offs
- 使用公共数据
- 设计数据自适应算法
- 设计个性化的 DP 算法
- 设计专门为使用 DP 进行学习而定制的 ML pipelines
部署 DP 防护的挑战
- 理解问题:明确自己的隐私需求
- 隐私方法对比:证明对于 DP 的需求
- 威胁模型:仔细建模信任假设
- 噪声影响
- 控制计算成本
- 如何满足数据分析
针对公共数据的思考
- 使用公共数据时需要哪些安全保护措施
- 互联网上的任何可用数据都是公开的吗
- 应考虑哪些隐私单元并为其设计隐私保护基础方法
- 公共数据集可能是未标记或标记的、小的或大的、分布内或分布外(相对于私有数据集)
使用公共数据的方式
- 公共预训练和私人微调
- 公共数据辅助私人训练(梯度、超参数选择)
- 私有查询发布中的公共数据
- 部分公开数据:想象数据的某些方面是公开的,而其他方面是私有的
- 公共数据的陷阱
DP 数据自适应方法
- 平滑灵敏度
- PTR(propose-test-release)框架
- PTR 变体
- Data adaptive DP算法
- 统计估计
DP 在攻击方面局限性
- DP 边界可能不会告知利益相关者感兴趣的系统最初容易受到针对数据隐私的具体攻击的程度:这可能使得在部署 DP 算法之前和之后评估隐私风险变得困难
- 由于边界与对手的能力无关,因此在某些情况下它可能过于保守或不准确
- 这种基于攻击的评估或审计提供的结果是对理论 DP 保证的补充
当前 DP 主要是针对数据匿名性
- 鲁棒性与隐私性的联系、
- 当基于差异隐私数据摘要做出决策时,代表性不足的群体可能会遭受更大的效用损失
- 差分隐私文献都假设每个用户向数据集贡献一个数据点
- 公共数据也可以用于超参数选择的重要任务、只有标签是敏感的,而特征向量不被认为是私有的
- 如何从第三方检测使用了正确的DP
- machine unlearning 对于隐私的影响