Internet Develppment
      互聯(lián)網(wǎng)開發(fā)& 推廣服務提供商

      我們擅長商業(yè)策略與用戶體驗的完美結合。

      歡迎瀏覽我們的案例。

      首頁 > 新聞中心 > 新聞動態(tài) > 正文

      用AI生成數(shù)據(jù)訓練AI或導致模型崩潰

      發(fā)布時間:2024-07-26 09:35:05來源:科技日報

        科技日報北京7月25日電 (記者張夢然)《自然》24日正式發(fā)表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數(shù)據(jù)集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內(nèi)容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數(shù)據(jù)訓練AI模型的重要性。

        生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進行訓練。不過,隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。

        包括英國牛津大學在內(nèi)的聯(lián)合團隊一直在進行相關研究,并在去年論文預印本中提出這一概念。在正式發(fā)表的論文中,他們用數(shù)學模型演示了AI可能會出現(xiàn)的“模型崩潰”。他們證明了一個AI會忽略訓練數(shù)據(jù)中的某些輸出(如不太常見的文本),導致其只用一部分數(shù)據(jù)集來自我訓練。

        團隊分析了AI模型會如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn),給模型輸入AI生成的數(shù)據(jù),會減弱今后幾代模型的學習能力,最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語言模型,都容易出現(xiàn)問題。比如,一個用中世紀建筑文本作為原始輸入的測試,到第9代的輸出已經(jīng)是一串野兔的名字。

        團隊指出,用前幾代生成的數(shù)據(jù)集去訓練AI,崩潰是一個不可避免的結局。他們認為,必須對數(shù)據(jù)進行嚴格過濾。與此同時,這也意味著依賴人類生成內(nèi)容的AI模型,或許能訓練出更高效的AI模型。

        對AI來說,“模型崩潰”就像癌癥一樣,甚至分早期與晚期。在早期時,被“喂”了生成數(shù)據(jù)的AI會開始失去一些原始正確數(shù)據(jù);但在晚期,被“喂”了生成數(shù)據(jù)的AI會“口吐狂言”——給出完全不符合現(xiàn)實,也和底層數(shù)據(jù)一點不相關的結果,就像本文中的例子一樣。更可怕的是,“模型崩潰”的AI極其固執(zhí),錯誤幾乎難以矯正。它會持續(xù)強化,最終把錯誤結果認為是正確的。這一問題值得所有關注生成式AI的人們警惕,因為它等于是在“毒化”AI對真實世界的認知。

        【責任編輯:冉曉寧】

      最新資訊
      ? 2018 河北碼上網(wǎng)絡科技有限公司 版權所有 冀ICP備18021892號-1   
      ? 2018 河北碼上科技有限公司 版權所有.
      主站蜘蛛池模板: 亚洲视频一区二区| 人妻AV一区二区三区精品| 亚洲福利电影一区二区?| 色综合一区二区三区| 无码丰满熟妇一区二区| 久久99国产精品一区二区| 人成精品视频三区二区一区| 亚洲综合色一区二区三区| 久久精品一区二区三区日韩 | 麻豆亚洲av熟女国产一区二| 国产伦精品一区二区| 精品一区二区三人妻视频 | 波多野结衣一区二区三区高清在线 | 全国精品一区二区在线观看 | 日韩亚洲AV无码一区二区不卡| 一区二区网站在线观看| 国产一区风间由美在线观看| 成人免费视频一区二区三区| 国产情侣一区二区| 国产精品久久久久久一区二区三区| 日日摸夜夜添一区| 在线精品亚洲一区二区| 久久久久久人妻一区二区三区| 亚欧在线精品免费观看一区| 精品视频一区二区三区四区| 亚洲无码一区二区三区| 韩国精品一区二区三区无码视频| 人妻夜夜爽天天爽一区| 国产av一区二区精品久久凹凸| 日韩精品一区二区三区不卡| 亚洲国产激情一区二区三区| 久久精品国产亚洲一区二区三区| 好爽毛片一区二区三区四| 熟女少妇精品一区二区| 精品日产一区二区三区手机| 91精品国产一区二区三区左线| 亚洲一区二区三区久久| 成人国产精品一区二区网站公司| 日韩成人一区ftp在线播放| 国产福利电影一区二区三区,亚洲国模精品一区 | 成人一区二区免费视频|