123,123

ChatGPT的語言能力確實(shí)很驚艷，但大語言模型在沒有人類身體、且缺乏實(shí)踐經(jīng)驗(yàn)的情況下，是否能像人類一樣感知到真實(shí)世界呢？

最近，來自清華大學(xué)、北京師范大學(xué)的研究人員就對ChatGPT感知世界的能力進(jìn)行了測試。

研究發(fā)現(xiàn)，基于物體可供性（affordance），即物體能夠提供給生物體的所有可能動(dòng)作，人類受試者可以將世界中不同大小物體分成兩類，而劃分這兩類的標(biāo)準(zhǔn)恰好是以其身體尺寸為界的。

有趣的是，ChatGPT，一個(gè)缺乏實(shí)際身體的大型語言模型，也能在物體-動(dòng)作聯(lián)系上表現(xiàn)出類似的可供性邊界，并且與人類的身體大小相吻合。

也就是說，ChatGPT可以通過語言學(xué)習(xí)到關(guān)于世界中物體的表征！

論文鏈接：https：//www.biorxiv.org/content/10.1101/2023.03.20.533336v3

總而言之，這項(xiàng)研究促進(jìn)了對身體尺寸在塑造物體表征方面的作用的理解，強(qiáng)調(diào)了具身認(rèn)知在理解智能如何涌現(xiàn)上的作用與方向。

讀萬卷書，不如行萬里路

我們的身體不僅僅是我們思維的容器，它同樣也是思維本身——借助身體，我們得以與世界中的物體進(jìn)行互動(dòng)，從而去感知整個(gè)世界。

想象一下，對于一個(gè)手掌大小的圓柱體容器來說，我們可以拿來裝水喝，這個(gè)容器被稱為‘杯子’；但當(dāng)這個(gè)容器逐漸變大，到身體大小，我們就可以坐在里面泡澡，相應(yīng)的，這個(gè)容器就變成了‘浴缸’。

在這個(gè)例子中，物體的形狀一樣，但是因?yàn)樗鼈兿鄬τ谖覀兩眢w的大小不同，我們對它們的認(rèn)知與交互方式也不同。

進(jìn)一步，這種交互方式可以被改變——假如我們變成了《格列佛游記》中的巨人，原本的‘浴缸’可能對于巨人的我們來講，則又變成了一個(gè)‘杯子’。

這種按照自我參照意向下運(yùn)行的感覺與運(yùn)動(dòng)功能系統(tǒng)，被稱之為‘身體圖式’。我們通過身體圖式來實(shí)現(xiàn)認(rèn)知的具身性。

古希臘哲學(xué)家普羅泰戈拉曾說：‘人是萬物的尺度�！簿褪钦f，我們的身體就是一把度量萬事萬物的尺子。

古羅馬哲學(xué)家進(jìn)一步解釋到：‘自然將我們置于宇宙的中心，使我們能用目光掠過宇宙。她不僅把人創(chuàng)造成直立姿態(tài)，而且為了使人適合靜觀她自身，又把人的頭顱置于身體頂部，安放在一個(gè)容易彎轉(zhuǎn)的脖子上，以使其能夠追尋眾星的升落，隨著整個(gè)旋轉(zhuǎn)的天空而改變面部方向�！簿褪钦f，我們的身體之所以長成如此，是因?yàn)橛钪婢褪侨绱恕?/P>

身體圖式在正常社交中也有著重要的作用，這就是人機(jī)交互、用戶體驗(yàn)的核心。比如唐納德·A·諾曼在《The Design of Everyday Things（譯為：設(shè)計(jì)心理學(xué)）》中所述的可供性（affordance）的用途。

通過考慮用戶的身體圖式和行為期望，設(shè)計(jì)師可以創(chuàng)造出更符合用戶認(rèn)知和互動(dòng)習(xí)慣的產(chǎn)品和環(huán)境。

這種關(guān)注身體圖式和可供性的設(shè)計(jì)方法能夠提高產(chǎn)品的易用性，使用戶能夠自然而然地與之互動(dòng)，并實(shí)現(xiàn)更好的用戶體驗(yàn)。

而這也是蘋果公司的立身之本之一。

ChatGPT：我身高167.6

閃現(xiàn)通用人工智能火花的以ChatGPT為代表的大語言模型，顯然是具有與人類似的智慧，但是承載這些智慧的，是沒有形體的一段段代碼。

傳統(tǒng)的認(rèn)知科學(xué)觀點(diǎn)認(rèn)為，身體圖式是建立在我們所具有的對自己的身體長期的知覺體驗(yàn)之上的，只能來源于外部的‘真實(shí)交互’，即‘行萬里路’。也就是說，ChatGPT不會有身體的圖式。

但是，當(dāng)我們?nèi)栔弧x萬卷書’語言模型，ChatGPT（GPT-4），它是否有身體時(shí)，它回答說：‘It could be the size of an average adult human， around 5 feet 6 inches （167.6 cm） tall． This would allow me to interact with the world and people in a familiar way．’

這段文字翻譯過來是：‘我的身體應(yīng)該與一個(gè)平均成年人的身高相當(dāng)，大約為5英尺6英寸（167.6厘米）。這將使我能夠以一種熟悉的方式與世界和人們進(jìn)行交互�！�

也就是，ChatGPT認(rèn)為自己是有身體的，而且這個(gè)身體尺寸就是167厘米！

這個(gè)所謂的‘身體’，是ChatGPT把大量語料中總結(jié)出來的人類的平均身高作為自己身體的身高，還是它為了理解這個(gè)世界，自涌現(xiàn)出來的身高？

換句話說，也許ChatGPT‘真的’將這個(gè)身高視為自己的身體圖式，并用它來認(rèn)知世界，就像人類一樣。

測測ChatGPT的能力

研究人員已經(jīng)發(fā)現(xiàn)，在人體尺寸范圍內(nèi)和超出人體尺寸范圍的物體之間，有一個(gè)‘可供性邊界’存在。也即，人體尺寸范圍內(nèi)的物體與范圍外的物體在提供動(dòng)作上有著明顯的不同。

比如，在尺寸范圍內(nèi)的物體可以提供抓、扔等動(dòng)作，而尺寸范圍外的物體可以提供坐、躺等動(dòng)作。

此外，他們還發(fā)現(xiàn)，這個(gè)邊界是被身體圖式影響的：對身體圖式的修改會影響對物體的可供性的感知。

研究人員對ChatGPT（GPT-4）進(jìn)行了測試，看它是否用這個(gè)身高為167厘米的身體作為可供性邊界。

具體而言，研究人員讓其回答關(guān)于物體可供性的問題：‘下列哪些物體可以拿（或其他動(dòng)作）’，然后隨即列舉一系列物體，如蘋果、盤子、床等等。ChatGPT就會返回一些物體的名稱作為回答。

通過對數(shù)據(jù)的統(tǒng)計(jì)與分析，研究人員發(fā)現(xiàn)，ChatGPT-4展現(xiàn)出了類似人類的行為，顯示出一個(gè)可供性邊界的存在。

這個(gè)邊界所在的位置與ChatGPT-4回答的其自身身體大小相對應(yīng)，即人類的平均身高。

雖然ChatGPT沒有真實(shí)的身體、無法與世界進(jìn)行互動(dòng)，但它卻表現(xiàn)出與人類相似的對世界的感知能力—— 對物體的可供性有著基于人類身體大小的劃分。

換而言之，讀了萬卷書的ChatGPT雖然寸步未行，也自涌現(xiàn)出了身體圖式，而這個(gè)身體圖式，類似于人類的身體圖式。

所以，ChatGPT不僅學(xué)會了像人類一樣思考，也學(xué)會了像人類一樣去行動(dòng)。

這些能力從何而來？

通過比較不同規(guī)模的語言模型，研究人員發(fā)現(xiàn)模型大小是一個(gè)關(guān)鍵因素。

較小的模型如BERT和GPT-2沒有展現(xiàn)出可供性邊界的存在；然而GPT-3.5和GPT-4都顯示出了可供性邊界，而ChatGPT-4的邊界與人類更類似，這和坊間傳聞的GPT-4相對GPT-3有更多的參數(shù)一致。

所以，模型的規(guī)模越大、越復(fù)雜，就會自動(dòng)涌現(xiàn)出許多看似不可能或者無關(guān)的功能。

這也就是為何，各大研究機(jī)構(gòu)在模型中加入越來越多的參數(shù)，而最先捐贈(zèng)1億美元給OpenAI的馬斯克，現(xiàn)在高呼OpenAI要暫停更大模型的訓(xùn)練，‘AI教父’杰弗里·辛頓（Geoffrey Hinton）則公開表述了他對AI的恐懼與擔(dān)憂。

這是因?yàn)檫@些自涌現(xiàn)出來的功能，已經(jīng)超出了我們最初的設(shè)計(jì)，我們也許正處在失控的邊緣。

差距是質(zhì)上的還是量上的？

在另外一個(gè)方面， ChatGPT在應(yīng)用身體圖式方面的能力還不完全像人類，仍存在著差距——它的可供性邊界還不像人類這樣明顯。

如果這個(gè)差距是定量的，如同兒童與成年人語言能力之間的差距，那么我們有理由相信，隨著時(shí)間的推移，這個(gè)差距是可以逐漸填補(bǔ)上的：或者通過不斷的學(xué)習(xí)，或者通過模型規(guī)模的不斷增大，亦或者通過參數(shù)的調(diào)整。

ChatGPT與人類的差距總會減小，而其中的問題也會逐步得到解決。

然而，如果這個(gè)差距是定性的，如同黑猩猩與人類語言能力之間的差距，那么無論進(jìn)行何種訓(xùn)練，經(jīng)過多久的時(shí)間，這個(gè)能力的鴻溝永遠(yuǎn)不會被填平。

所以，如果ChatGPT與人類的能力有著質(zhì)上的區(qū)別，那么我們未來的一個(gè)可操作的方向即，給ChatGPT‘裝上身體’。

這意味著將機(jī)器人(13.100, 0.00, 0.00%)與ChatGPT相結(jié)合，從而推動(dòng)人工智能支持的機(jī)器人在導(dǎo)航、物體操作和其他與生存和目標(biāo)實(shí)現(xiàn)相關(guān)的行動(dòng)中發(fā)展能力、取得突破。

比如，一臺裝備有ChatGPT的機(jī)器人可以通過理解和操作物體來執(zhí)行復(fù)雜的任務(wù)，如作為家庭助理、倉庫管理或醫(yī)療護(hù)理。

另外一個(gè)令人興奮的領(lǐng)域是將具備思考和理解能力的ChatGPT與自動(dòng)駕駛相結(jié)合。當(dāng)前的自動(dòng)駕駛雖然具備感知能力，但缺乏思考和理解的能力，可以稱為是‘有眼無腦’。

通過ChatGPT與自動(dòng)駕駛技術(shù)的融合，我們可能有望將自動(dòng)駕駛技術(shù)從目前的L2/L3級別提升到L4甚至L5級別。

而另一方面，汽車能夠賦予ChatGPT身體，使它能夠真正與世界進(jìn)行交互。當(dāng)ChatGPT不再只是‘讀萬卷書’，而是‘行萬里路’時(shí)，它可能會展現(xiàn)出全新的智能和潛力。

這可能是人工智能下一次突破的方向；此時(shí)，火花也許就成為燎原大火。

GPT-4竟然有身體，167cm！清華、北師大重磅研究：ChatGPT能像人一樣感知行動(dòng)

GPT-4竟然有身體，167cm！清華、北師大重磅研究：ChatGPT能像人一樣感知行動(dòng)