用AI生成數(shù)據(jù)訓練AI或導致模型崩潰

發(fā)布時間：2024-07-26 09:35:05來源：科技日報

　　科技日報北京7月25日電 (記者張夢然)《自然》24日正式發(fā)表的一篇研究論文指出了一個人工智能(AI)嚴重問題：用AI生成的數(shù)據(jù)集訓練未來幾代機器學習模型，可能會嚴重“污染”它們的輸出，這被稱為“模型崩潰”。研究顯示，原始內(nèi)容會在9次迭代以后，變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字)，這凸顯出使用可靠數(shù)據(jù)訓練AI模型的重要性。

　　生成式AI工具越來越受歡迎，如大語言模型等，這類工具主要用人類生成的輸入進行訓練。不過，隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大，計算機生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。

　　包括英國牛津大學在內(nèi)的聯(lián)合團隊一直在進行相關研究，并在去年論文預印本中提出這一概念。在正式發(fā)表的論文中，他們用數(shù)學模型演示了AI可能會出現(xiàn)的“模型崩潰”。他們證明了一個AI會忽略訓練數(shù)據(jù)中的某些輸出(如不太常見的文本)，導致其只用一部分數(shù)據(jù)集來自我訓練。

　　團隊分析了AI模型會如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn)，給模型輸入AI生成的數(shù)據(jù)，會減弱今后幾代模型的學習能力，最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語言模型，都容易出現(xiàn)問題。比如，一個用中世紀建筑文本作為原始輸入的測試，到第9代的輸出已經(jīng)是一串野兔的名字。

　　團隊指出，用前幾代生成的數(shù)據(jù)集去訓練AI，崩潰是一個不可避免的結局。他們認為，必須對數(shù)據(jù)進行嚴格過濾。與此同時，這也意味著依賴人類生成內(nèi)容的AI模型，或許能訓練出更高效的AI模型。

　　對AI來說，“模型崩潰”就像癌癥一樣，甚至分早期與晚期。在早期時，被“喂”了生成數(shù)據(jù)的AI會開始失去一些原始正確數(shù)據(jù);但在晚期，被“喂”了生成數(shù)據(jù)的AI會“口吐狂言”——給出完全不符合現(xiàn)實，也和底層數(shù)據(jù)一點不相關的結果，就像本文中的例子一樣。更可怕的是，“模型崩潰”的AI極其固執(zhí)，錯誤幾乎難以矯正。它會持續(xù)強化，最終把錯誤結果認為是正確的。這一問題值得所有關注生成式AI的人們警惕，因為它等于是在“毒化”AI對真實世界的認知。

　　【責任編輯:冉曉寧】

三星Galaxy Z Fold6|Z...

最后一頁

熱點推薦