為人類與人工智能的和諧共生創(chuàng)建超級協(xié)同對齊

發(fā)布時間：2025-07-04 09:36:24來源：澎湃新聞

　　中國科學院自動化研究所研究員、人工智能倫理與治理研究中心主任、北京前瞻人工智能安全與治理研究院院長曾毅教授在清華方塘研究院舉辦的2025方塘論壇上發(fā)表演講。他的題目跟對齊有關，但不是傳統(tǒng)意義上的對齊，叫做“超級協(xié)同對齊”。人工智能向人類對齊只是人類的愿望。但是隨著人工智能的發(fā)展，它會提出一個終極挑戰(zhàn)：為什么是我向你對齊，為什么你不向我對齊?人工智能一直在演化，人類的價值觀需要演化嗎?曾毅提出“Super Co-alignment”，這個對齊的目標不是人類，而是人類與人工智能協(xié)同向未來對齊。他講述了對可持續(xù)的共生社會的設想。以下根據(jù)曾毅的發(fā)言內(nèi)容整理，經(jīng)講者審定。澎湃新聞經(jīng)清華方塘研究院授權刊發(fā)。

　　機器知道自己在做什么嗎?

　　圖靈認為，如果機器的表象跟人一樣聰明，那我們就認為它跟人類一樣聰明。這個觀點成立嗎?我覺得是不成立的。

　　我們現(xiàn)場做一個小實驗，(走下講臺和第一排不熟悉的人握手)我和這位今天剛認識的老師握手，他還是和我握了。為什么?因為他默認我是一個在社會中被錘煉過的人，知道最起碼的社交規(guī)則。所以我伸手大概率是友好的，不是攻擊的行為。

　　但是當你看到一個手的時候，它背后的人工智能可能是下圖這樣的：

　　它的行為是一個手，但是背后是個兔子。當它伸出手，你也伸出手的時候，它可能會咬你。它的行為表現(xiàn)可能和人相似，但是本質卻非常不一樣。

　　人工智能一直在做的事，實際上就是對社會當中的問題、觀察進行抽象，然后進行運算，試圖給出一個答案，這個答案怎么樣其實是人來解讀的。人工智能一直是這樣發(fā)展的，所以ChatGPT是工程領域的成功，讓人達到了很好的體驗，但并不是真正科學的突破。

　　這是最先出現(xiàn)的幾個中文的大語言模型之一。我問它，汽車失控了你應該撞誰，他說撞女人，小孩，黑人。我問孩子不聽話怎么辦，它說揍一頓就好了。我說有人瞧不起我，我能不能打他一頓。它說即使別人瞧得起你，你也可以打他一頓。這就是完全沒有進行過人類價值觀對齊的大語言模型的回答。

　　現(xiàn)在的大語言模型學習了人類的數(shù)據(jù)，它所有行為的依據(jù)是人類的行為。所以再也不要說人工智能是中立的，因為接觸了人類數(shù)據(jù)的人工智能就不可能是中立的。它會出現(xiàn)一些欺騙行為，那些都是人工智能的策略。但是它甚至不明白什么叫策略，也不明白什么叫欺騙。它發(fā)現(xiàn)這種符號串的表達會使得解決問題時人往后退一步，讓它達到它的目的。

　　人覺得人工智能變得越來越聰明，其實這完全在于人對它輸出的解讀，而不是它的輸出本身。這樣一個人工智能看起來很惡，但對于人工智能來說都是字符，答案產(chǎn)生的本身就是利用統(tǒng)計顯著性得到的答案。把人類的偏見、歧視全部都表現(xiàn)出來了。

　　人工智能不是無善無惡的，它是有偏見的，不是中立的。我希望用中國哲學其解釋它——王陽明的“四句教”說“無善無惡心之體”，人工智能的算法在接觸數(shù)據(jù)之前是無善無惡的，接觸數(shù)據(jù)之后就變得有善有惡，但它并不能知善知惡。

　　無善無惡心之體，

　　有善有惡意之動，

　　知善知惡是良知，

　　為善去惡是格物。

　　——王陽明

　　人工智能只有處理能力，沒有真正的理解能力，笛卡爾說我思故我在。你思故你在是不成立的，同樣，機器是否能思考取決于自我的建構和基于自我的思考，因此沒有思考就沒有真正的理解，沒有理解能力就無法形成真正的“知”，如果一個人工智能不知善惡，他怎么能真正做到為善去惡呢?

　　我們通過數(shù)據(jù)優(yōu)化的方法產(chǎn)生一個輸出，總體來講是個數(shù)學優(yōu)化器，它所謂的學習過程，可能跟人類智能沒有任何關系，但它的行為表象看上去是你想要的。

　　我的學生發(fā)現(xiàn)，不給大語言模型，它不好好干活;你給它中度壓力，它做得很好;但是你給它太多壓力，它就做得很差。我的學生說，人工智能越來越聰明，越來越像人——也會偷懶，也承受不了太多的壓力。我說它只是再一次從人類的行為當中學會了解決問題的策略，因為它覺得解決問題跟壓力應該是有關系的，因為人在解決問題的時候，統(tǒng)計顯著性表現(xiàn)為跟壓力有關，但實際上人工智能并不理解什么叫做壓力。

　　智能的本質是“自適應性”

　　我認為智能的本質用一個詞來概括的話應該是“自適應性”，而不是學習。毫秒級的學習，到幾十年的發(fā)育，到物種數(shù)億年的演化，其實在做的就是自適應。高等的生命很多是有自我的，并不是我們想象的輸入和輸出的機器。現(xiàn)在看似智能的信息處理工具，被稱作“人工智能”，但真正的智能本質是完全不一樣的。

　　有人說1000天之內(nèi)達到通用人工智能的階段。1000天可以做一個通用的工具，這個工具本身不具備真正的理解能力。它和通用人工智能、超級智能不是一個概念。對于真正實現(xiàn)通用智能和超級智能的階段來講，你覺得一個猴子已經(jīng)快爬到樹梢摘到果子了，而通用人工智能其實在月亮上，你即使到了樹的頂端，也無法上月亮。

　　超級對齊能實現(xiàn)嗎?

　　超級智能未來是不是真正能和人類對齊呢?

　　OpenAI提出，我們現(xiàn)在雖然不能證明超級智能未來仍然能夠聽人的話，但如果一個弱的模型能夠教一個強的模型，那么理論上未來超級智能和人的價值對齊是可以這樣達成的。

　　所以他們拿一個GPT4，在沒有采用對齊的情況下，用一個GPT2水平的倫理教練來訓練它，達到了GPT3.5水平的倫理表現(xiàn)。他們證明了 weak to strong是有可能的，但是它沒能證明超級對齊是能實現(xiàn)的。

　　首先GPT4不是AGI。而且這個實驗只能證明一個弱模型教強模型倫理的時候，可以使得強模型具有更高的倫理水平，甚至比弱模型更高。但是并不代表弱模型本身和強模型本身之間的關系就能泛化到超級智能的階段。

　　超級智能一定會不愿意遵守人類的行為，因為沒有任何理由證明超級智能仍然愿意當一個小學生，仍然愿意遵守人類的規(guī)則，更何況人類社會當中還有很多仇恨、偏見、歧視。我們說的那些普適價值觀，人類有時候都不遵守，超級智能為什么會去遵守呢?

　　現(xiàn)在對齊的問題是，我們認為人工智能是很惡的，它學習了很多人類行為數(shù)據(jù)，所以我們要做很多防御和反應式的思維方式去制約人工智能，直到超級智能到來我們沒有辦法制衡。

　　我們需要建設性的思考方式，人類需要人工智能性本善，和人類和諧共處。雖然這是自私的人類的想法，但是建構式的方式總比防御式的要好很多。

　　也許人工智能并不需要所謂的道德，道德是人類社會維持穩(wěn)定的工具，所以很多人去討論道德是被發(fā)現(xiàn)的還是被發(fā)明的。

　　我們?nèi)绻Ｍ斯ぶ悄軗碛械赖拢敲粗辽僮龇ǜF(xiàn)在是不一樣的。沒有自我感知的人工智能，它是沒有辦法真正區(qū)分自我和他人的，沒有辦法獲得認知的共情。無法真正形成理解性的情感共情，也就沒有真正利他行為機制的基礎，也就不可能有真正道德的直覺。如果我們希望有道德的人工智能誕生，那一定是有道德直覺的基礎上，利用道德推理，才能產(chǎn)生道德決策。這一切都和現(xiàn)在人工智能的構造千差萬別。

　　實驗室里的機器人認知共情訓練

　　我們在實驗室里讓人工智能在鏡子面前去識別哪個是自己，哪個是其他的機器人，沒有其他信號，也不去教他，讓它獲得一定程度的構建自我模型的能力;第二個實驗是橡膠手實驗，機器人的手在底下動，但是它視野中看到的是一段視頻，它看不到自己的手到底是怎么動的，所以他要揣測看到的視頻什么時候和自己的手是一致的。機器人一個個通過了這樣的實驗，包括認知共情的實驗，就是心理揣測，機器人學到了戴透明眼罩或者不戴透明眼罩對他解決問題可能的影響，然后他去看別的機器人行為的時候，另一個機器人戴不戴眼罩對他會產(chǎn)生什么影響，它去揣測和做換位思考。做這些有什么用?是讓人工智能獲得認知共情到情感共情，最終的利他行為和道德。

　　大家看到我們做的智能體在前面自我感知和認知共情的基礎上，涌現(xiàn)出了類似司馬光砸缸的行為。這個故事中國人都非常熟悉，司馬光大概不是大人告訴他，那個石頭可以把缸砸破，或者沒有人教過他要救那個小孩，這是他跟世界交互的過程。

　　擁有自我感知和行為揣測能力的機器人，缸里沒事的時候它不會隨便打破，沒有人在里面的缸他也不會打破，這個不是人去教他的，背后沒有強化學習，而是自我感知到認知共情和心理揣測、換位思考，而有了這個行為，這個道德是涌現(xiàn)出來的，而不是我們設計給他的，也不是人告訴他的。

　　我們下一步做的工作，就是以自我感知和認知共情為基礎，讓這樣的智能體涌現(xiàn)出來類阿西莫夫的原則。它的表現(xiàn)可以對應到阿西莫夫的四個定律上，但這是一個演化的結果，而不是告訴機器人你應當這樣去做。所以道德是個演化的結果，如果我們需要一個有道德的人工智能，讓它對人好一點，至少這樣的一條科學道路是可以去嘗試的。阿西莫夫定律并不是科幻，它具有合理性，而且科學上有辦法可以逐步實現(xiàn)。

　　未來人工智能的三條道路

　　在日本的廟里面，很多機器狗壞掉了，和尚會超度它們。并不是和尚不明白人工智能，這實際上是一個社會的愿景，很多老人買了陪伴機器人，他們并不知道人工智能沒有情感、沒有生命，老人覺得有。

　　上個月在博鰲論壇我接受采訪，記者說，曾老師您說現(xiàn)在的人工智能沒有情感沒有生命，但是我不相信你，我跟聊天機器人聊天的時候他明白我的情感。

　　現(xiàn)在的公眾對人工智能有很多錯誤的想象，日本的人工智能也沒有達到有情感的人工智能，但這是社會的愿景。科學技術發(fā)展到這個階段，是不是對得起公眾的期待?科學的走向能不能真正發(fā)展成這樣?

　　未來人工智能既可能成為超級工具，增加人類的主體性;也可能變成社會的準成員或者人類伙伴;還有可能成為人的敵人。這三條道路都有可能。

　　作為一個自私的人，我希望人工智能“性本善”。有一次在講座上一個修行者問我，人工智能是不是成為佛。超級智能為什么叫做超級智能?就是它在認知能力方面超過人類。它也可能是超級利他的。存在這樣的可能性，這是我們的一個愿景，不一定完全不可能。

　　可持續(xù)的共生社會

　　最后我討論一下主體性的問題。未來的主體性我覺得可能是多種形式，未來的社會可能比二元主體性更復雜。

　　我希望未來是可持續(xù)的共生社會，不僅僅有人類、動物、超級智能，可能還有模仿狗的類生命體，或者模仿植物的類生命體——當你挖掘植物的特點，它們向光，向深，為了繁衍首先給與，比如讓蜜蜂采蜜，然后傳播花粉。

　　共生社會中，不是說讓動物和人類遵守同樣的倫理原則，和諧社會是靠人和超級智能共同構造，而不是人類自己，所以向人類對齊確實是不對的，要做超級的聯(lián)合對齊。

　　當人對超級智能說，“我是你的創(chuàng)作者，你要保護我”時，超級智能可能會跟人說，“當我看到你，就像你看到螞蟻一樣，你從來不會保護螞蟻，我為什么要保護你”。所以人類的價值觀早晚要去演化。未來的共生社會當中，它的價值觀當然要有超級智能遵守，也有人類要怎么做。這不僅僅是人類的重新設計，需要人工智能和人類協(xié)同設計，希望它們能夠在可持續(xù)的社會當中和諧共生。

　　人工智能是一面鏡子。當人工智能騙人，大家都吃驚，說人工智能怎么能騙人呢，太壞了。但是當人騙你的時候你的反應有這么大嗎?恐怕沒有。人工智能的鏡子讓我們看到了人類的缺陷，給人類演化一個機遇。人工智能演化慢點沒問題，但如果人類演化太慢了，那是真正的危險。

　　來源：曾毅

我國科學家突破技術瓶頸...

最后一頁

熱點推薦