123,123

自2022年年底ChatGPT打響大模型熱潮第一槍，至今已有一年半多的時間，大模型持續(xù)受到業(yè)界高度關(guān)注。大模型當(dāng)前發(fā)展情況如何，未來又將如何演進(jìn)發(fā)展？天翼智庫大模型研究團(tuán)隊專家就知乎上廣受關(guān)注的14個相關(guān)熱點問題進(jìn)行了專業(yè)性回答。本文是上述問答內(nèi)容的摘編。

大模型入門

1.什么是大模型、超大模型和Foundation Model？

天翼智庫：大模型通常指具有大規(guī)模參數(shù)、能捕捉和學(xué)習(xí)更復(fù)雜數(shù)據(jù)模式的模型，在各種任務(wù)上表現(xiàn)更為出色，如自然語言理解、圖像識別等。超大模型是大模型的一個子集，參數(shù)通常達(dá)數(shù)千億甚至數(shù)萬億。隨著模型規(guī)模(如參數(shù)數(shù)量、數(shù)據(jù)量、計算量)增大，其性能通常會隨之提高，能處理更廣泛任務(wù)，在特定任務(wù)上達(dá)更高精度，甚至?xí)坝楷F(xiàn)”新能力，如常識推理、創(chuàng)作能力等。Foundation Model是一種特定類型的大模型，被設(shè)計為能夠處理多種類型的任務(wù)，而不專門針對某一特定任務(wù)，通常具有高度泛化能力。

2.如何系統(tǒng)地入門大模型?

天翼智庫：第一步是基礎(chǔ)知識學(xué)習(xí)。通過在網(wǎng)站搜索各類專家的視頻課程來學(xué)習(xí)，如吳恩達(dá)、李宏毅等。核心內(nèi)容包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等。第二步是了解大模型技術(shù)。通過視頻學(xué)習(xí)或閱讀書籍如《這就是ChatGPT》。學(xué)習(xí)知識點包括Transformer架構(gòu)、預(yù)訓(xùn)練與微調(diào)、多模態(tài)大模型等。第三步是實踐操作。通過多種方式在實際操作中檢驗學(xué)習(xí)成果，包括但不限于，研究開源大模型源碼，理解其內(nèi)部運作；通過Hugging Face、阿里云ModelScope等平臺，直接調(diào)用現(xiàn)有大模型進(jìn)行應(yīng)用開發(fā)。

3.想學(xué)習(xí)大語言模型（LLM），應(yīng)該從哪個開源模型開始？

天翼智庫：Llama系列模型是一個非常好的起點，原因有三：一是生態(tài)全面。Llama系列模型擁有較完善的開源資源、工具和社區(qū)等生態(tài)支持，遇到問題時更容易找到解決方案、獲得實踐上的幫助。二是上手方便。Llama系列模型提供一個無需GPU的體驗版本llama.cpp，可在不具備高性能硬件的條件下開始學(xué)習(xí)和實踐。三是擴(kuò)展性強(qiáng)。Llama系列模型具有普及性，有許多人在其基礎(chǔ)上進(jìn)行擴(kuò)展和優(yōu)化，如Flash Attention算法已成為標(biāo)準(zhǔn)組件，為學(xué)習(xí)者提供現(xiàn)成案例和改進(jìn)方向。

大模型發(fā)展現(xiàn)狀總結(jié)

1.從ChatGPT橫空出世到國內(nèi)外“百模大戰(zhàn)”，目前大模型發(fā)展情況如何？

天翼智庫：大模型仍處于快速發(fā)展和變革時期，呈現(xiàn)四大發(fā)展特征。一是技術(shù)快速迭代，邁進(jìn)原生多模態(tài)時代。2024年5月，OpenAI和谷歌前后腳放出基于自身原生多模態(tài)大模型打造的最新模型產(chǎn)品GPT-4o和Project Astro，開啟原生多模態(tài)大模型新階段。二是端側(cè)大模型加速落地，或成未來交互新入口。AI手機(jī)、AI PC、人形機(jī)器人、智能座駕等市占率有望快速提升，如IDC預(yù)計2024年國內(nèi)AI手機(jī)市場出貨量為3700萬臺、占比13.2%，到2027年將達(dá)到1.5億臺、市占率超50%。三是大模型在各行各業(yè)滲透日益加深，展現(xiàn)強(qiáng)大應(yīng)用潛力。Gartner預(yù)計到2027年, 企業(yè)中使用的超過50%的生成式AI模型將是垂直領(lǐng)域模型 (行業(yè)或業(yè)務(wù)功能相關(guān)), 2023年只有1%。四是大模型倫理與安全問題凸顯，各國法律法規(guī)跟進(jìn)。隨著大模型廣泛應(yīng)用，其可能帶來的倫理、偏見及數(shù)據(jù)安全問題引起廣泛關(guān)注，各國政府和監(jiān)管機(jī)構(gòu)相繼出臺相關(guān)政策法規(guī)。

2.如何看待國產(chǎn)大模型的現(xiàn)狀？

天翼智庫：據(jù)天翼智庫基于公開資料的不完全統(tǒng)計，當(dāng)前我國通用大模型87個，行業(yè)大模型341個，主要集中在北上廣三地。大模型發(fā)展熱潮背后，我們發(fā)現(xiàn)國內(nèi)通用大模型同質(zhì)化問題嚴(yán)重，缺乏原創(chuàng)性突破，應(yīng)用上缺乏獨特性；行業(yè)大模型多而不精，實際落地和商業(yè)化進(jìn)程緩慢。究其原因，我們認(rèn)為：一是原創(chuàng)性算法架構(gòu)創(chuàng)新不足。國內(nèi)AI企業(yè)側(cè)重于對現(xiàn)有Transformer架構(gòu)及其衍生模型進(jìn)行優(yōu)化和應(yīng)用創(chuàng)新，而非追求底層架構(gòu)根本革新。2019-2023年全球發(fā)布的387個重要機(jī)器學(xué)習(xí)模型中，美國機(jī)構(gòu)主導(dǎo)開發(fā)的達(dá)262個，中國僅68個。二是高端算力資源緊缺。一方面，美國對我芯片封鎖政策不斷升級；另一方面，核心算力芯片國產(chǎn)化進(jìn)展較慢，高端芯片工藝長期被卡，芯片工藝和性能落后國際先進(jìn)水平2-3代。三是高質(zhì)量中文數(shù)據(jù)短缺。一方面，公共數(shù)據(jù)開放共享水平不足，數(shù)據(jù)可獲得性有待提高；另一方面，各行業(yè)數(shù)據(jù)體量龐大，但標(biāo)準(zhǔn)不一、產(chǎn)業(yè)化不足，仍存在數(shù)據(jù)使用和數(shù)據(jù)安全之間的平衡問題。

國內(nèi)曾經(jīng)也出現(xiàn)過“百團(tuán)大戰(zhàn)”（團(tuán)購），最終只有2-3家生存下來。我們認(rèn)為未來國內(nèi)主導(dǎo)的通用大模型只有3-5家，甚至只有1-2家，現(xiàn)有的大量模型廠商將轉(zhuǎn)型到大模型垂直領(lǐng)域和應(yīng)用開發(fā)領(lǐng)域。

3.目前國內(nèi)大模型處于什么階段，是否有關(guān)鍵技術(shù)壁壘？

天翼智庫：目前處于追趕國外先進(jìn)水平的階段。盡管國內(nèi)在大模型研發(fā)上展現(xiàn)出巨大熱情，但與國際前沿模型相比仍存在一定差距，如號稱整體超越GPT-4 Turbo的訊飛星火大模型V4.0于2024年6月發(fā)布，而GPT-4 Turbo則于2023年11月發(fā)布，時間領(lǐng)先超半年。關(guān)鍵的技術(shù)挑戰(zhàn)集中在大模型的核心算法和基礎(chǔ)架構(gòu)設(shè)計上。目前，大模型主要基于Transformer架構(gòu)，并采用預(yù)測next token作為主要訓(xùn)練策略。為實現(xiàn)直道超車，可以通過增加模型參數(shù)、強(qiáng)化多模態(tài)和AI Agent產(chǎn)品能力等策略。同時，探索超越參數(shù)規(guī)模增長的新理論基礎(chǔ)，甚至提出非基于連接學(xué)派的新策略，可能為大模型帶來彎道超車的機(jī)遇，從根本上解決高能源消耗和大模型難以具備邏輯思維能力等問題。

4.目前國內(nèi)有哪些開源多模態(tài)大模型？

天翼智庫：據(jù)天翼智庫基于公開資料的不完全統(tǒng)計，當(dāng)前國內(nèi)開源多模態(tài)大模型至少有28個，發(fā)布者主要分為科技企業(yè)、科研機(jī)構(gòu)兩類，具體包括阿里的Qwen-VL、Qwen-Audio；智譜AI聯(lián)合清華大學(xué)發(fā)布的VisualGLM-6B、CogVLM；零一萬物的Yi-VL；面壁智能聯(lián)合清華大學(xué)NLP實驗室發(fā)布的MiniCPM-V 2.0、OmniLMM、VisCPM-Chat、VisCPM-Paint；中國電信的TeleSpeech-ASR；商湯科技的Shikra；字節(jié)跳動的BuboGPT；美團(tuán)的MobileVLM；小紅書的InstantID；上海AI lab的VideoChat、MM-Interleaved、LLM InternLM-XComposer-2.5；阿里達(dá)摩院的mPLUG-Owl；北京智源人工智能研究院的AltCLIP、AltDiffusion、EVA、Painter、SegGPT、Uni3D、Emu2、EVA-CLIP-18B；IDEA研究院的太乙、Ziya-Visual。

大模型發(fā)展深度剖析

1.大模型發(fā)展中有哪些經(jīng)驗和教訓(xùn)？

天翼智庫：主要總結(jié)四點可供企業(yè)、開發(fā)者、用戶借鑒的經(jīng)驗。一是提示工程的自動化可能會減少對人類工程師的依賴，并將以新的形態(tài)存在。當(dāng)前趨勢表明，自動生成的提示詞（以下簡稱prompt）在很多情況下表現(xiàn)優(yōu)于人類工程師設(shè)計的prompt。隨著技術(shù)不斷進(jìn)步，提示工程的自動化或減少對人類工程師的依賴并將以新形態(tài)存在，如集成到基礎(chǔ)模型或作為大語言模型運營（LLMOps）的一部分，仍然需要人類參與。二是混合專家模型（以下簡稱MoE）架構(gòu)有望超越傳統(tǒng)范式實現(xiàn)低成本萬億參數(shù)大模型。MoE架構(gòu)通過將任務(wù)分解為多個子問題，并由不同的專家模型分別處理，展現(xiàn)了其在提高預(yù)測性能方面的潛力。三是隨著數(shù)據(jù)隱私法規(guī)的加強(qiáng)和高質(zhì)量數(shù)據(jù)的稀缺，數(shù)據(jù)合成技術(shù)在大模型研發(fā)流程中的重要性愈發(fā)凸顯。四是基于SFT的企業(yè)大模型微調(diào)策略門檻較高，RAG+知識庫的方案有望成為主流。基于SFT（Supervised Fine-Tuning）的企業(yè)大模型微調(diào)策略雖能快速帶來效果，但計算密集且資源消耗大。結(jié)合RAG（Retrieval-Augmented Generation）和知識庫的方案不僅能提供個性化和領(lǐng)域特定的回答，且相較于SFT可能更易實施和維護(hù)，有望成為企業(yè)大模型微調(diào)的主流策略。

2.開源大模型是否比閉源大模型取得更多進(jìn)展和成就？

天翼智庫：從模型性能的角度看，開源大模型進(jìn)展落后于閉源大模型。據(jù)知名大模型競技場LMSYS Chatbot Arena Leaderboard于2024年7月8日更新的評測結(jié)果顯示，Top10均為閉源大模型，Top20中有6個開源大模型；據(jù)2024年7月15日查閱的斯坦福團(tuán)隊發(fā)布的AlpacaEval Leaderboard顯示，Top10中僅有2個開源大模型。從技術(shù)普及發(fā)展的角度看，開源大模型的貢獻(xiàn)大于閉源大模型。開源大模型吸引大量開發(fā)者和研究人員自由地查看、修改和擴(kuò)展模型，加速大模型技術(shù)創(chuàng)新和應(yīng)用場景探索，同時開源社區(qū)貢獻(xiàn)智慧，又推動開源大模型自身發(fā)現(xiàn)并修復(fù)問題、提升模型質(zhì)量。

3.大模型發(fā)展到現(xiàn)在，為什么還沒出現(xiàn)爆款級應(yīng)用？

天翼智庫：一是國內(nèi)C端用戶付費意愿普遍偏低，相較國外更難盈利。二是應(yīng)用場景并非面向用戶剛需，難以形成穩(wěn)固用戶基礎(chǔ)。傳統(tǒng)爆款級軟件往往能解決用戶某方面剛需（例如社交 App），而對于大模型核心應(yīng)用場景“內(nèi)容生成”而言，大部分使用者只有嘗鮮并無硬性需求，影響用戶留存率。三是應(yīng)用對用戶有使用門檻要求，限制了應(yīng)用的易用性。模型回復(fù)質(zhì)量取決于用戶個人提問技巧，用戶能力差異化帶來模型使用效果兩極化，導(dǎo)致當(dāng)前大模型應(yīng)用尚不具備爆款級應(yīng)用“人人易用”的特性。四是模型幻覺問題依然存在，對使用體驗有較大影響。

如今AI技術(shù)站在“技術(shù)革新到應(yīng)用繁榮的臨界點”上，爆款級應(yīng)用或許并非難以出現(xiàn)，而是正處于中間“應(yīng)用準(zhǔn)備期”階段。

4.大語言模型無法對數(shù)字進(jìn)行準(zhǔn)確運算的底層原因是什么？

天翼智庫：一是大模型的工作原理與數(shù)學(xué)運算的邏輯不一致。大語言模型基于上下文中詞與詞之間的關(guān)聯(lián)性獲取深層次語義信息，并根據(jù)統(tǒng)計概率預(yù)測下一個詞，更適合較為具象的自然語言理解與生成等任務(wù)。數(shù)學(xué)運算中上下文信息較少，數(shù)字含義更抽象，增加大模型理解難度。且大模型基于一定概率生成輸出內(nèi)容，與數(shù)學(xué)運算需要嚴(yán)格根據(jù)運算規(guī)則進(jìn)行準(zhǔn)確計算的推理方式不完全匹配。二是不同的分詞方法對大模型的數(shù)學(xué)運算能力存在一定影響。不恰當(dāng)?shù)姆衷~會增加大模型理解多位數(shù)的難度，難以建立token向量與數(shù)字之間的準(zhǔn)確對應(yīng)關(guān)系。此外，隨著多位數(shù)的位數(shù)增加，大模型將相同數(shù)位的數(shù)字進(jìn)行對齊的難度也會增加，使大模型在分步計算過程中容易出錯。

5.2024年大模型還有哪些可研究的方向？

天翼智庫：總結(jié)十個國際主流企業(yè)認(rèn)可的研究方向。一是模型融合技術(shù)。在不增大模型參數(shù)規(guī)模的前提下，通過模型融合來提升模型性能和效率，且新模型還沒有傳統(tǒng)集成方法的典型缺陷，如更高的算力需求。二是混合專家系統(tǒng)。通過將多個小型模塊組合起來創(chuàng)建MoE，可讓所得大模型的效果和效率媲美甚至超越大型模型。三是訓(xùn)練更小的大模型。研究如何在保持或提升模型性能的同時，減少模型的大小和計算資源需求。四是個性化與定制化。開發(fā)能根據(jù)特定用戶需求進(jìn)行個性化調(diào)整的大模型，以提供更加精準(zhǔn)的服務(wù)。五是多模態(tài)大模型和多模態(tài)融合技術(shù)。繼續(xù)發(fā)展能處理多種類型數(shù)據(jù)的大模型，以應(yīng)對復(fù)雜的現(xiàn)實世界問題。六是跨模態(tài)交互。通過不同的技術(shù)或方法促進(jìn)不同模態(tài)之間有效交互和預(yù)測，包括多模態(tài)數(shù)據(jù)處理與轉(zhuǎn)換技術(shù)、跨模態(tài)學(xué)習(xí)等。七是模型對齊與安全可控。研究如何使大模型更好地對齊人類偏好，并確保其在使用過程中的安全性和可控性。八是時序預(yù)測與異常檢測。利用大模型在時序預(yù)測和異常檢測方面的應(yīng)用潛力，進(jìn)一步提升其在金融、醫(yī)療等領(lǐng)域的實際應(yīng)用效果。九是智能體評測。通過指令遵從和偏好對齊的能力，評估大模型作為智能中樞解決復(fù)雜任務(wù)的能力。十是智能體評測交叉學(xué)科研究。將大模型與其他學(xué)科如語言學(xué)、政治學(xué)、社會學(xué)和心理學(xué)等進(jìn)行交叉研究，以拓展其應(yīng)用場景和理論深度。

大模型發(fā)展路徑展望

1.大模型再發(fā)展5年，搜索引擎還在嗎？

天翼智庫：大模型技術(shù)會與搜索引擎產(chǎn)品結(jié)合。從發(fā)展終局的視角看，結(jié)合大模型技術(shù)的搜索引擎最終會在用戶使用習(xí)慣、產(chǎn)品核心定位和企業(yè)市場格局三方面有新變化。一是用戶使用邊界從“檢索”向“問答”拓展。AI搜索讓信息的顆粒度從網(wǎng)頁細(xì)化到內(nèi)容本身，在多數(shù)情況下將幫助用戶省去“逐個鏈接查看”、“對多個網(wǎng)頁源信息進(jìn)行整合”兩個關(guān)鍵步驟，且“提問-回答-追問”的新用戶習(xí)慣也在快速建立。二是產(chǎn)品核心定位從“搜索引擎”轉(zhuǎn)向“大模型+搜索的整體問答系統(tǒng)”。首先，產(chǎn)品底層邏輯更加復(fù)雜，AI搜索的智能化水平成為新決定性因素。其次，產(chǎn)品UI界面重點從網(wǎng)頁列表轉(zhuǎn)移到內(nèi)容答案。然后，產(chǎn)品商業(yè)模式將變得更加多元，如采用用戶付費訂閱制、后向整合打造內(nèi)容生態(tài)并開啟知識付費等。最后，產(chǎn)品服務(wù)形態(tài)或從云服務(wù)向端云協(xié)同轉(zhuǎn)變。三是未來的搜索市場玩家將是整合大模型技術(shù)的傳統(tǒng)搜索龍頭企業(yè)以及AI搜索初創(chuàng)企業(yè)的混合市場格局。全球市場上的前兩名將仍然是谷歌、微軟，市場三四五名或迎來新一輪洗牌，專業(yè)AI搜索初創(chuàng)產(chǎn)品或殺出重圍。

2.大模型的終局是“通用”還是“專用”？

天翼智庫：通用大模型通過在海量數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)大量知識，獲得面向任務(wù)的通用求解能力，契合C端用戶的多樣化、碎片化需求。專用大模型遵循“大規(guī)模預(yù)訓(xùn)練+微調(diào)”的范式，針對特定任務(wù)進(jìn)行微調(diào)以更好地適應(yīng)實際應(yīng)用場景需要。專用大模型能力發(fā)展源自辦公、制造、醫(yī)療等場景降本增效、提高準(zhǔn)確率等訴求，并最終向B端、G端客戶提供適合細(xì)分場景的定制化大模型能力。通用大模型和專用大模型各有優(yōu)勢，未來將趨于并行發(fā)展。通用大模型將繼續(xù)作為技術(shù)基礎(chǔ)，推動模型架構(gòu)創(chuàng)新和應(yīng)用普及；專用大模型將在特定領(lǐng)域和任務(wù)中提供更精準(zhǔn)和高效的服務(wù)。隨著技術(shù)不斷進(jìn)步和融合，未來或出現(xiàn)更加靈活、智能的模型架構(gòu)和訓(xùn)練方法，以實現(xiàn)通用與專用的最佳結(jié)合。

大模型的當(dāng)前和未來