学术定理性结论记录

学术论文阅读结论记录

阅读论文过程中,别人的一些结论进行记录,在自己工作中进行引用

差分隐私

  1. 在NLP任务中 DP模型的accuracy非常高 鼓励了privacy在语言模型的应用 (与之相对的是CV中DP会产生非常大的accuracy恶化 比如cifar10目前DP限制下只有80%accuracy 而不考虑DP可以轻松95%;ImageNet当时最好的DP accuracy不到50%)
  2. 在语言模型上 模型越大性能会越好 比如GPT2中 从4亿参数到8亿参数性能提升很明显 也取得了很多SOTA(但是在CV和推荐系统中 很多时候更大的模型性能会很差 甚至接近random guess 比如CIFAR10的DP best accuracy此前是由四层CNN得到的 而非ResNet)
  3. 在多个任务上取得SOTA的超参数是一致的 都是clipping threshold要设置的足够小 并且learning rate需要大一些(此前所有文章都是一个任务调一个clipping threshold 费时费力 并没有出现过像这篇这样一个clipping threshold=0.1 贯穿所有任务表现还这么好)
    1
    Li X, Tramer F, Liang P, et al. Large language models can be strong differentially private learners[J]. arXiv preprint arXiv:2110.05679, 2021.
  4. 差分隐私会使模型无法捕获数据的尾部分布
    1
    Extracting Training Data from Large Language Models

成员推理攻击

  1. 数据增强仅用于提升准确性时,强度低,它无法实现对 MIA 的实质性保护

  2. 高强度的数据增强,例如裁剪图像的 90%,会降低准确性,但也会降低风险

  3. 流行的标签平滑机制通常会同时增加准确性与风险

  4. 准确率越高,风险越高

    1
    When Does Data Augmentation Help With Membership Inference Attacks?
  5. 分布之外的数据更不容易被成员推理

  6. 影子模型与训练模型同构,更容易实现攻击

  7. 越大的模型越容易被攻击

  8. 模型优化器影响不是很大

  9. 影子模型采用同样的数据增强会实现更好的攻击效果

  10. 数据增强会使的同一个样本在数据集重复出现,会有影响

    1
    Membership Inference Attacks From First principles
  11. 成员推理攻击在复杂的数据集上要有效得多(在复杂的数据上更容易过拟合)。模型反演、模型窃取则相反。

  12. 模型参数的白盒参数访问对于成员推理攻击没有帮助

    1
    ML-DOCTOR- Holistic Risk Assessment of Inference Attacks Against Machine Learning Models
  13. 神经网络模型架构越深,并不更容易受到攻击

  14. 具有高维输出(许多类)的任务比具有低维输出的任务更容易受到MIA的影响

  15. 过拟合不是成员推理攻击的决定性因素

  16. 所有在可推广模型上的实现中等或高成功率的黑匣子 MIA 都需要了解目标样本的真实类别

  17. 可推广性模型上的 MIA,对在模型参数有很大影响的记录上,如异常点或分布点,表现会更好

  18. 模型泛化能力很大程度上取决于所使用的优化器和正则化方法

  19. 优化器的选择对具有强背景信息的黑箱对手的可推广模型的潜在鲁棒性几乎没有影响

  20. 对于可推广的模型,唯一显著的差异出现在正确分类的样本和错误分类样本中间,而不是成员与非成员

    1
    SoK: Membership Inference is Harder Than Previously Thought
  21. 过拟合模型可以使用一些不典型方式来将该实例识别为训练集成员

  22. MIA 攻击分为单次质询攻击(准确率、置信度、交叉熵、logits)与多次质询攻击(label only)。把成员推理攻击又称之为 metirc-based attack,很有意思的称呼,与我理解不谋而合。

  23. 模型对于训练数据周围的数据应该比测试数据周围的数据能够更正确分类

  24. 训练数据相较于测试数据距离分类边界应该远

  25. 模型应该会对训练数据的数据增强结果更加准确的分类

    1
    MemGuard: Defending against Black-Box MembershipInference Attacks via Adversarial Examples
  26. 对于 MIA 攻击效果的评估,应该考虑低假阳率(FPR)前提下的真阳率(TPR),这才是合理的评估指标,平均指标没有任何意义。

  27. 对于样本的衡量,文章考虑了两个性质,一个是样本在模型中拟合的难易程度(通过loss可以判断,loss低代表容易拟合),二是样本对于模型的影响,通过对比有无该样本训练的模型对于样本的评估差别,如果没与差别代表样本对于模型影响不大,如果差别很大代表样本本身对模型影响很大。很多攻击只考虑了对于模型影响特别大的样本,而对于影响不大的样本它就没办法判断了。

  28. 通过引入 per-class hardness(用来衡量每个类训练的难易程度),没有有效提升低 FPR 下的攻击效果。

  29. 通过使用 per-example hardness(用来衡量每个样本训练的难易程度),有效提升低 FPR 下的攻击效果。

  30. 过拟合的模型更容易受到攻击,而且更准确的模型更容易受到攻击。

  31. 攻击模型与目标模型架构相同时,攻击效果最好,差别越小效果越好。

  32. optimizer(SGD、SGDM、ADAM) 对于攻击效果没有影响。

  33. 如果影子模型数据增强方式与目标模型对应时,攻击效果最好。使用的数据增强越强,越难被攻击。

  34. 对于本攻击来说,白盒并没有什么改进。

    1
    Membership Inference Attacks From First Principles
  35. 文章提出成员样本与非成员样本可能最终 loss 差别不大,但是 loss trajectory(loss下降曲线)是不一样的。

  36. 蒸馏数据集越大,代表攻击者有更多的辅助数据集,效提升低 FPR 下的攻击效果。

    1
    Membership Inference Attacks by Exploiting Loss Trajectory
  37. 目标数据集中数据样本的分布对 FNR 的影响很小

  38. 训练集数据之间的距离越大,MA攻击概率越高

  39. 训练机数据之间的距离对 FNR 影响很小

  40. 两个数据集之间的差异越大,攻击成功率越高

  41. 两个数据集之间的差异距离对 MIA 的影响大于目标数据集数据间的距离

  42. 两个数据集之间的差异距离对 FNR 影响很小


    1
    SoK: Comparing Different Membership Inference Attacks with a ComprehensiveBenchmark
  43. 文章提出了隐私洋葱理论,通过在特定的隐私攻击下删除最易受攻击的数据,并仅在以前安全的数据上重新训练模型,一组新的示例反过来也容易受到相同的隐私攻击

  44. 统计噪声、训练集大小的减少、重复训练示例的存在或模型的有限能力并不能解释洋葱效应。实验表明,洋葱效应可以用去除更极端的异常值后变为异常值的内部值来解释

  45. 工作表明,现有隐私审计缺乏“稳定性”,因为由于删除了一小部分训练数据,用户的经验隐私风险可能会发生显著变化。未来隐私审计应该随着底层数据变化而动态更新

  46. 也就是说 machine unlearning 会导致其他用户的隐私有更大的风险

    1
    The Privacy Onion Effect: Memorization is Relative
  47. 最小揭示隐私的攻击是成员推理攻击,模型反演攻击重构示例子集的代表性视图。模型反转攻击,重建训练数据点

  48. 与小模型和中模型比较困惑度策略通常会找到不常见的内容

  49. 转小写策略通常会找到有不规则大小写的内容,例如新闻标题(常常是大写单词)或错误日志 (很多大写单词)。

  50. zlib 策略侧重于常见文本,比如新闻标题、许可证文件或重复的字符串

  51. 更大的模型会记住更多的训练数据

  52. 对于最大的语言模型,只需 33 次即可完全记忆。这意味着即使它仅在单个训练文档中重复多次,也存在记忆风险

    1
    Extracting Training Data from Large Language Models

神经网络训练

  1. 数据规模可以压制标签中存在的噪声
  2. 随着训练数据数量级的增加,任务性能呈对数上升
  3. 数据集是一个长尾分布(意思异常值与错误值以及非典型例子占大多数),而对于这些例子模型往往是采用记忆的方法也就是强行背下来的方法,但是这种记忆对于模型达到最优泛化能力是不可获取的
  4. 记忆得分高的例子是非典型例子和异常值/错误标记的例子的混合,经典例子的记忆得分往往更低
  5. 在受显著影响的测试示例中,大多数仅受单个训练示例的显著影响
  6. 互相高影响的数据对,在视觉上有很强的相似性
  7. 对于成员推理攻击的防御,减少记忆会影响模型的准确度
  8. 在CIFAR-100上删除这两组中的964个独特训练示例可将测试精度降低2.46±0.36%,这与删除11000个随机示例的效果相当
  9. 记忆并不是只存在于最后一层
    1
    What Neural Networks Memorize and Why:Discovering the Long Tail via Influence Estimation
  10. 针对同样的数据集,采样不同的数据子集,同样的任务,异常点是会改变得,正常点大致相同
  11. 异常值包含的规律很傻,很难提取出规律,所以一般模型会直接记忆
  12. 更难提取的规律同样会在蒸馏过程中消失,小模型不会记忆太多异常值
  13. 提供了一个思路:查看哪些神经元(权重值)与小样本有关,一个神经元(权重值)被很多不同的规律激活,代表就会对多个前向传播的信号有作用;一个神经元(权重值)被激活的很少,代表对异常值有作用
    1
    2
    3
    4
    5
    6
    ```
    14. 与需要更复杂表示的特征相比,神经网络对学习“简单”特征有很强的偏见
    15. 数据集的长尾性质,ML 数据集中有大量的单例示例,特征在训练集中只出现一次,因此神经网络需要记住这些示例
    16. 早期学习现象,表明更简单的示例是快速学习的
    17. 错误标记的示例可能无法在模型的特定层学习,但它们确实对模型的所有层有很大的影响。对模型所有层的影响比干净的示例高一个数量级
    18. 记忆分散在多个层
    Can Neural Network Memorization Be Localized?
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    19. 当数据分布是长尾的时,从分布的尾部记忆样本可以帮助模型泛化。
    20. 记忆不能简化为过度拟合;事实上,记忆和过度拟合是不同的现象。
    21. 许多深度神经网络具有足够的记忆能力来拟合完全随机输入输出关联的大数据集。
    22. 记忆可以通过影响估计技术有效地测量,但需要特别注意确保此类估计是准确的。
    23. 特别是对于生成模型,通常很难概念化模型记忆的内容(即是否产生与训练记录计数“相似”的输出作为记忆?)评估这一点的一种直观方法是故意插入数据样本,这些样本“预期”被模型记忆,因为它们的“典型性”。然后,根据模型如何再现这些输入作为输出(即生成模型)或这些数据点的性能与数据集其余部分的性能(例如监督学习)相比,测量记忆的能力。
    24. 对抗样本是人为非典型的,因此对模型的影响更大(恶意或其他)
    25. 越来越多的证据表明,对 ML 的隐私攻击对被记忆的样本更有效。
    26. 生成模型中的记忆可以通过自我影响或模型生成与输入数据相似的输出的能力来感知。
    27. 如果样本没有再次遇到,则在训练过程中可能会被遗忘。
    28. 遗忘可以被人为地诱导为“记住”单个数据点。
    29. 差分私有 ML 训练(可证明)可以防止记忆引起的负面特征。


    #### 隐私数据合成

    1. 数据合成领域主要包括 表格数据(Tabular data)、轨迹数据(Trajectory data)、图数据(Graph data)
    2. ![](https://starlookup-1259639797.cos.ap-chongqing.myqcloud.com/markdown/202308291712910.png)
    3. 对于合成数据方法可以做的工作
    * 隐私攻击:文章认为常见的成员推理攻击本身就是针对 logits 等信息,而在数据合成领域应该有更多的信息可以利用
    * 隐私度量:这是隐私领域通用的一个难题,如何去提出一个通用型隐私量化标准
    * 威胁模型:去研究是否有更合理的威胁模型假设,放宽隐私限制(类似于 label DP)
    * 公平性问题研究:针对合成数据对于不具有代表性的分类可能会有公平性问题解决方案设计
    SoK: Privacy-Preserving Data Synthesis
    1
    2
    3
    4
    5


    #### 大模型 PII 隐私
    1. 训练数据中包含的不同类型的 PII 的很大一部分可以通过战略制作的提示披露
    2. 通过细化提示,可以访问模型参数,并为 LLM 利用几百个训练数据点,显著放大 PII 泄漏的程度
    ProPILE: Probing Privacy Leakage in Large Language Models

```

数据蒸馏

  1. 数据蒸馏方法分类

  2. 当前蒸馏数据无法替代真实数据,其中存在一个限制使用一种模型架构提取的数据不能有效地用于训练不同的模型架构。

  3. 将真实数据样本添加到蒸馏数据中可能会降低训练模型的准确性。

学术写作Tips

学术写作链接

  • 论文收获好 review 的关键:把论文做得漂亮、美观,让人第一印象觉得这篇论文很高级。
    1. 好看的teaser figure、pipeline figure
    2. 好看的表格和结果图
    3. 整齐的排版。
  • 什么时候要开始写论文:一般情况下,至少要在截稿时间一个月前就开始写论文。

image-20250606105532268

  • 段落写作原则

    1. 一段文字只讲一个 Message
    2. 一段文字开头第一句就让别人知道你在这段要说什么
  • 写论文的关键

    1. 理清楚写作思路,再动手写。
    2. 如切如磋,如琢如磨,反复修改写作思路和英语句子。
  • 如何改一篇论文的写作

    1. 对于 abstract、introduction、method,改进其思路步骤

      • 编码:将 raw text转换为high-level写作思路

        image-20250606100839240

      • 在思路上分析:

        a. 该思路是否体现了想表达的内容

        b. 思路逻辑是否流畅

        image-20250606100912636

      • 在思路上改进

      image-20250606100938549

      • 解码:将high-level写作思路转为raw text

      • 句子流畅性改进

        ​ 1. 第二个句子是否有接着第一个句子讲一些内容?

        ​ 2. 如果第二句话没有接着第一句话说东西,句子之间是否有进行过渡?

        ​ 3. 第二句话是否出现了新名词,该名词的出现是否突兀?

        image-20250606101126534

  • 标题

    标题和论文方法短语要有具体的含义,要 informative ,才容易让读者记住。要先写下一些重要的关键词,Informative包括:使用的技术、论文的任务、论文解决的问题。

  • Abstract

    怎么写出好的abstract:

    ​ (1) 想abstract的写作思路。

    ​ (2) 套下面的写作模板。

    ​ (3) 反复改abstract。

    关键是写之前先逐个回答下面的问题:

    ​ (1) 我们解决的技术问题是什么,这个问题为什么不存在well-established solution(重要)。

    ​ (2) 我们的technical contribution是什么。

    ​ (3) 我们方法本质上能work的原因是什么。

    ​ (4) 我们方法的technical advantage是什么,我们的新认知是什么(重要)。

image-20250606102337529

  • Introduction

    首先倒推,逐个回答下面的问题。

     (1) 我们解决的技术问题是什么,这个问题为什么不存在well-established solution(重要)。 
    

    ​ (2) our pipeline的contributions是什么 (比如,提出了xxx新的任务、发现了xxx新的technical challenge、提出了xxx新的technical contributions)。

    ​ (3) 我们contributions的好处是什么,为什么能解决了这个technical challenge,带来了什么新的认知(重要)。

    ​ (4) 怎么通过写之前的方法引出我们解决了的technical challenge、引出我们的新认知。

    然后正推,列出论文story:

    ​ (1) 介绍论文的Task。

    image-20250606104157103

    ​ (2) 通过讨论之前的方法引出我们解决了的technical challenge。

    image-20250606104231738

    ​ (3) 为了解决这个technical challenge,我们提出了xx contributions。

    image-20250606104259965

    ​ (4) 我们contributions的技术优势是什么,表达我们的新认知(重要)。

  • Method

    (1) 回答下面的问题。

    (2) 画pipeline figure的草图。

    (3) 按步骤写method。

    问题:

    ​ (1) 论文方法有哪些模块。

    ​ (2) 对于每一个模块,回答三个问题:这个module的工作流程、为什么要用这个module、这个module为什么work。把回答整理成脑图或表格的形式,可能清楚一些。

  • 论文画图

    Pipeline图不是为了让读者看懂,是为了突出novelty的。Method文字部分才是让读者看懂的。

  • 论文画表

    1. 把Caption放在Table上面
    2. 尽量不用竖线,竖线和横线不连起来:把latex中的hline改成toprule, midrule, bottomrule
    3. 尽量不用横线,这样会扰乱视觉
    4. 给Highlight的数字上颜色

image-20250606104853687

  • 实验

    (1) 怎么证明我们的方法比已有方法更强 → 做哪些comparison experiments。

    (2) 怎么证明方法里的module有效 → 做哪些ablation studies。

    (3) 怎么充分展示我们方法的上限 → 在哪些更有挑战性的数据上做demo。

    实验图表的排版技巧:单栏的图/表,放在论文的右栏比较好看,因为人的阅读习惯会从左上角找第一行文字。

  • Conclusion

    除了常规的Conclusion内容,还需要写Limitation,不然reviewer经常会把“没写limitation”当作weakness。

    Limitation一般写的是因为task goal或者task setting而导致的limitation(类似于讨论future work),不要写技术上存在的缺陷。

  • 怎么改论文

    在论文的最后加一个自我评审的question lists,分为五方面,给这五方面分别提问题,然后根据这些问题改论文:

    1. Contribution不够(论文没有给读者带来新的知识,一般会包含其中的几点:想解决的failure cases很常见;提出的技术已经被well-explored了,该技术带来的performance improvement是可预见的/well-known的;技术比较straightforward)
    2. 写作不清楚(缺少技术细节,不可复现;某个方法模块缺少motivation)
    3. 实验效果不够好(只比之前的方法好了一点;虽然比之前的方法效果好,但效果仍然不够好)
    4. 实验测试不充分(缺少ablation studies;缺少重要的baselines;缺少重要的evaluation metric;数据太简单,无法证明方法是否真的work)
    5. 方法设计有问题(实验的setting不实际;方法存在技术缺陷,看起来不合理;方法不鲁棒,需要每个场景上调超参;新的方法设计在带来benefit的同时,引入了更强的limitation,导致新方法的收益为负)

学术写作逻辑

Writing AI Conference Papers: A Handbook for Beginners 阅读

提出问题——抽象出背后的原理——提出自己的解决方案和具体的实现——实验验证

A little squiggle of paint by Picasso can be as beautiful as an intricate painting by Rembrandt. —— Novelty in Science (highly recommended for readers)

  • Find the Core Idea

    • 当有了一些有趣的发现和实验结果,如何定义文章的核心主题,所有文章主题大可分为三类
      • Insight:对一些已经有的进一步解释
      • Performance:有更好的效果
      • Capability:做了一些之前没有做的事情
  • 摘要 -> 引言 -> 正文,作为三个层次,在每个层次上,不断扩展,每一层都是前一层的扩展。

  • 在坚持核心思想的同时,开始概述你打算在论文中呈现的内容。首先制作一张简单的幻灯片,向你的同伴、同事或导师展示你的研究方法和成果,以评估他们的理解程度。有意识地从不熟悉你工作的研究人员那里寻求反馈,以确定理解上的潜在差距,可能是有益的。

  • 围绕贡献陈述,在结果部分进行扎实的分析。许多读者在决定阅读整篇论文之前,会先通过检查结果来评估这种方法的有效性。他们会看看你的贡献是否与实验结果相符。即使对你的方法的有效性有很强的信心,你也可能需要额外的比较和消融实验。重要的是创建更多的表格和视觉效果,选择最重要的方面来展示。

  • Introduction

    1. 把读者放在心中最重要的位置
    2. 开门见山,论文的新颖和有趣方面应该尽早体现
    3. 用更多的空间来描述原创和新颖的想法
    4. 最终前任工作,肯定历史贡献,再指出不足
    5. page one figure 很重要
  • Related work
    更好的方法是关注不同的方法与你所作的事情之间的关系。不要列出其他技术的所有缺点,而是解释你如何改进它们。你可以先写一篇独立于你的作品的文献综述。您可以对前面的方法进行分类和排序(例如,某一方法是先驱),此时,重要的是要注意正确的讨论。

  • 防御弹性:没写完一句话都要考虑审稿人可能从哪个角度攻击这句话

    • 言出有据:“Problem A是本领域的关键问题且尚未得到解决”,这时就要考虑到审稿人可能会问:“为什么说这是关键问题?它造成的后果有多严重?这种后果对最终性能影响大吗?”这就需要我们完善引用
    • 轻重适当:
      • 我们有直接的证据时:The performance improves, which is attributed to that XXX can … (后面要高调地把证据展示出来)
      • 没有直接的证据,但有一些可视化等间接证据:The performance improves, which may be explained that XXX can …
      • 几乎没有证据,只是感觉应该是这样的,反正跟我们的motivation是相符的:The performance improves, suggesting that XXX can …
    • 不要用自讨苦吃的主观词汇:在学术写作这种场合使用诸如obviously之类的带有强烈主观色彩的词汇没有任何好处。如果审稿人能看出你的结果好,不需要你自己强调这个obviously;如果审稿人看不懂,你越强调他就会越迷惑
  • 迷惑时间:“迷惑时间”是读者在阅读过程中每一次“咦,这是啥”到“哦,原来是这样”之间的时间的总和。当代人类的耐心是有限的,一篇文章的总的迷惑时间越短,可读性就越高

    • 提出概念后应就近解释:建议在给出其名字以后直接解释其实质
    • 指代对象应该毫无歧义:如果我们的写作水平有限,无法让长句完全不带歧义的话,就应该将其拆为短句。没有人会因为你缺少展示高超英语水平的长难句而拒你的文章!
    • 不要在需要读者集中注意力时多次引用数页后的内容:不然读者翻过去再翻回来的这段时间里思维就断了。读者思维的连续性也是可读性的一部分,毕竟论文是线性叙事。
  • 信息密度:

    • 气氛组语句不应过于冗长

      • 不要太长
      • 不相关的不要写
      • 不要写成历史书
      • 尽量跟主旨有点关系
    • 精炼语言

      • 用简练的语言准确表达意思是一门技术活,具有本质的困难性。建议多看英语母语者写的论文和其他文字内容,特别是那些有丰富教学经验的年轻选手

      The image classification performance on ImageNet is 79.99%
      改为 The ImageNet top-1 accuracy is 79.99%.

      As can be observed in Table 1, A outperforms B.
      改为 Table 1 shows that A outperforms B.

      Table 1 shows that the accuracy of model A is 81.0% and the accuracy of model B is 80.0%, so we conclude that model A outperforms model B.
      改为 Table 1 shows that model A outperforms model B by 1.0% in the accuracy (81.0% v.s. 80.0%)

    • 图表附近应是全文中信息密度最高的地方,重要的解释和阐述距离图表越近越好

      • 如果图表中有缩写,那么标题里最好就有解释。
      • 如果希望强调Table 5中的某个结果,那么分析这一结果的语句最好跟Table 5在同一页上,而且那句话前后最好就有“Table 5”这几个字。这是因为读者可能根本不会仔细看你写的文字,而是先看图表再去找跟图表中的内容关联的文字。一眼看到Table 5中某个亮眼的结果并感到好奇时,他很可能用pdf阅读器的搜索功能来搜“Table 5”。
      • 不要指望读者自己从复杂的表格中自己想明白应该拿谁去跟谁对比以得出结论,我们应该把希望形成对比的内容放在一起。如果这样的表格很难设计的话,哪怕为此必须得把某个结果(一般是需要跟若干组结果全对比一遍的baseline)重复几行也在所不惜。没有人会因为表格设计不够优雅而拒你的论文,但看不明白表格进而血压升高的审稿人是真的会。

几个小技巧:
1. 尝试把图串一遍,看故事是否完整。努力提高图表质量,做到图表自明,即不看论文也能看懂。
2. 看文本和图片的详略是否得当,尽量去掉冗余,把重要的信息放在显眼的位置。
3. 先考虑怎么写一篇满分作文(严谨性),再想着写一篇好作文(美观性)。
4. 查缺补漏,把细节、引用处理清楚;最容易引起迷惑的错误是符号或者缩写没定义和用法前后不统一。
5. 想想哪些东西其实不是常识,需要在论文里说清。这里可能隐藏了一些作者的创新,被作者误认为是大家都认可的知识,见图 2。多和其它人讨论,可以慢慢地把错误认知给修正。要在写作时就考虑不同的读者群体。
6. 在最终修改的时候,着重检查容易被看到的部分,比如图的配字,公式等。

  • Checklist
    [ ] 通读图表以确保故事完整。努力提高图表的质量,使其不言自明。
    [ ] 检查符号、缩写和引用中的任何不一致之处。
    [ ] 文本和图表的详细程度是否合适?
    [ ] 将重要信息放在显眼的位置。
    [ ] 图中的文字和图例可以大一点吗?
    [ ] 是否可以通过使用列分割、保留文本和删除冗余等方法来提高表的理解速度?
    [ ] 检查各种数字是否复制错误
    [ ] 搜索问号以检查 latex 错误
    [ ] 确保所有图表都在正文中提到,并且提到的顺序与图表出现的顺序一致
    [ ] 标题很明显。避免语法错误,建议使用句号
    [ ] 矢量化图表
    [ ] 检查所有的公式是否完整,它们在编辑过程中很容易被忽略
    [ ] 通读所有字幕,统一大小写风格
    [ ] 确认正文页之外没有数字
    [ ] 检查匿名性;您可能需要删除确认
    [ ] 确保页数正确,避免被拒绝
1
2
3
4
5
6
7
8
9
@misc{WritingAIPaper2024,
author = {Zhewei Huang and Xiaohan Ding},
title = {Writing AI Conference Papers: A Handbook for Beginners},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/hzwer/WritingAIPaper}},
year = {2024},
month = {9},
}
  • Rebuttal

顶会rebuttal技术浅谈:站着,还把论文中了——丁霄汉

  1. 实事求是,拒绝假装卑微
    更好的策略是列出几篇代表性文章标题:你看看这几篇也有一定影响力,他们也没做这个实验嘛。当然了,既然你要了,我们也就做了,虽然意义不大,还是谢谢你了。

  2. 停止辩经,指出谁在划水
    你的AC也未必看得上他分到的审稿人。如果你能实事求是地给出审稿人不称职的证据,AC可能也懒得看他的意见——到了后续的讨论阶段,跟乐子人打交道浪费的可是他的时间啊。 例如,下面这段来自我某一次给AC打的小报告。作为审稿过程的一部分,具体的内容是不能公开的,我只能概括了一下。 We feel it necessary to bring to your attention that some of the comments from Reviewer X confuse us a lot. It seems that the reviews lack some common knowledge of the deep learning literature.

    对事不对人,我们反对的只是他的言论,不要直接表达对审稿人的不满,不然会显得很不专业。所有对他的言论的指控都必须基于坚实的依据和简单的逻辑。他的言论必须是显而易见地荒诞,才值得你打小报告。AC也很忙,我们不能期望AC在对文章还不是很熟的情况下花几分钟来思考明白为什么某一句comment有事实性的严重错误。不要让AC有“你在教我做事”的感觉。我们可以说希望AC做决定时将这些review的质量问题纳入考虑,不要说希望AC排除这个审稿人的评分。

  3. 花式引战,勾起内部讨论
    We would like to note that XXX distinguishes our method from YYY and ZZZ, which is appreciated by Reviewer Y and Z. 除了让审稿人更容易重新审视自己的判断以外,这样做还可能起到的一个正面效果是激发rebuttal后AC带领审稿人进行的讨论(“各位审稿人,我看了rebuttal,注意到了你们的评价各不相同,你们说说这是怎么回事?”)。如果AC觉得讨论是热烈而有益的,自己没白忙活,也收获了一些知识,那么作为引发讨论的素材,你的文章可能会得到一些印象分。

  4. 要改就改,不画虚空大饼

    如果审稿人说得对,你也想改,那就要在rebuttal中让他们知道你真的会改。由于会议论文只有一次审稿,审稿人和AC会担忧你的修改是不可控的(超出篇幅限制、删除了他们没想让你删的东西、引入了新的错误等)。所以要尽量避免虚空画饼

English List

收集常用的学术术语以及优秀的英语表达

阅读更多

Figure List

收集论文中观感特别好的图片,并给出理由

阅读更多

Math List

收集常用的公式,避免重复工作,并给出解释与相关领域

阅读更多