研究:为什么使用AI产生的内容再训练会使大模型退化

《自然》杂志发表的新研究表明,当人工智能使用人工智能生成的数据进行训练时,模型输出的质量会逐渐下降。随着后续模型产生的输出被用作未来模型的训练数据,效果会变得更糟。  


领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说:“如果你拍了一张照片,然后扫描,然后打印出来,然后重复这个过程,那么噪音基本上会淹没整个画面。你只剩下一个黑色的方块。”他说,人工智能的黑色方块的对应物称为“模型崩溃”,这意味着模型只会产生不连贯的垃圾。 


舒迈洛夫表示,当前的人工智能模型不仅会崩溃,而且还可能产生实质性影响:改进速度将会放缓,性能可能会受到影响。 


舒迈洛夫用这个类比解释了他的想法:假设你试图找出学校里最不可能的学生名字。你可以查看每个学生的名字,但这会花太长时间。相反,你查看了 1,000 个学生名字中的 100 个。你得到了一个相当不错的估计,但这可能不是正确答案。现在想象一下,另一个人过来根据你的 100 个名字做出估计,但只选择了 50 个。这第二个人的估计会更加错误。


互联网并不拥有无限量的数据。为了满足对更多数据的渴求,未来的人工智能模型可能需要使用合成数据(或由人工智能生成的数据)进行训练。   


“基础模型确实依赖于数据规模才能表现良好,”麻省理工学院媒体实验室研究法学硕士培训方式的 Shayne Longpre 表示,他没有参与这项研究。“他们希望在精心策划、受控的环境下合成数据来解决这个问题。因为如果他们继续在网络上抓取更多数据,收益就会递减。”


斯坦福大学人工智能研究员 Matthias Gerstgrasser 撰写了另一篇研究模型崩溃的论文,他表示,将合成数据添加到现实世界数据中而不是替换它不会引起任何重大问题。但他补充道:“所有模型崩溃文献都同意的一个结论是,高质量和多样化的训练数据很重要。”


随着时间的推移,这种退化产生的另一个影响是,影响少数群体的信息在模型中被严重扭曲,因为它倾向于过度关注训练数据中更普遍的样本。 


一个可能有助于避免退化的想法是确保模型对原始人工生成的数据给予更多权重。


但来源识别需要某种方式将互联网内容过滤为人工生成和人工智能生成的内容,而这一技术目前尚未被破解。虽然目前有许多工具可以确定文本是否由人工智能生成,但它们通常并不准确。


—— MIT科技评论 (https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense/) (节选)

*

发表评论 (0)
后一页 前一页