像OpenAI的ChatGPT、谷歌(177.07, 1.94, 1.11%)的Gemini Ultra這樣的高級(jí)AI模型,訓(xùn)練它們通常需要數(shù)百萬(wàn)美元的費(fèi)用,且該成本還在迅速上升。
隨著計(jì)算需求的增加,訓(xùn)練它們所需的計(jì)算能力的費(fèi)用也在飆升。為此,AI公司正在重新考慮如何訓(xùn)練這些生成式AI系統(tǒng)。在許多情況下,這些策略包括在當(dāng)前的增長(zhǎng)軌跡下降低計(jì)算成本。
訓(xùn)練成本是如何確定的?
斯坦福大學(xué)與研究公司Epoch AI合作,根據(jù)云計(jì)算租金估算了AI模型的訓(xùn)練成本。雙方所分析的關(guān)鍵因素包括模型的訓(xùn)練時(shí)長(zhǎng)、硬件的利用率和訓(xùn)練硬件的價(jià)值。
盡管許多人猜測(cè),訓(xùn)練AI模型的成本變得越來(lái)越高,但缺乏全面的數(shù)據(jù)來(lái)支持這些說(shuō)法。而斯坦福大學(xué)發(fā)布的《2024年AI指數(shù)報(bào)告》正是支持這些說(shuō)法的罕見來(lái)源之一。
不斷膨脹的訓(xùn)練成本
去年,OpenAI的GPT-4培訓(xùn)成本估計(jì)為7840萬(wàn)美元,遠(yuǎn)高于谷歌PaLM (540B) 的訓(xùn)練成本。谷歌PaLM較GPT-4僅早一年推出,但訓(xùn)練成本為1240萬(wàn)美元。
相比之下,2017年開發(fā)的早期AI模型Transformer的訓(xùn)練成本為930美元。該模型在塑造當(dāng)前所使用的許多大型語(yǔ)言模型的體系結(jié)構(gòu)方面起著基礎(chǔ)性作用。
谷歌的AI模型Gemini Ultra的訓(xùn)練成更高,達(dá)到了驚人的1.91億美元。截至2024年初,該模型在幾個(gè)指標(biāo)上都超過(guò)了GPT-4,最引人注目的是在“大規(guī)模多任務(wù)語(yǔ)言理解”(MMLU)基準(zhǔn)測(cè)試中勝出。這一基準(zhǔn)是衡量大型語(yǔ)言模型能力的重要標(biāo)尺。例如,它以評(píng)估57個(gè)學(xué)科領(lǐng)域的知識(shí)和解決問題的熟練程度而聞名。
訓(xùn)練未來(lái)的AI模型
鑒于這些挑戰(zhàn),AI公司正在尋找新的解決方案來(lái)訓(xùn)練語(yǔ)言模型,以應(yīng)對(duì)不斷上漲的成本。
其中的方法有多種,比如創(chuàng)建用于執(zhí)行特定任務(wù)的較小模型,而其他一些公司正在試驗(yàn)創(chuàng)建自家的合成數(shù)據(jù)來(lái)“投喂”AI系統(tǒng)。但到目前為止,這方面還沒有取得明確的突破。
例如,使用合成數(shù)據(jù)的AI模型有時(shí)會(huì)“胡言亂語(yǔ)”,引發(fā)所謂的“模型崩潰”。