国产午夜在线,iGAO视频网

摘要 自2022年下半年以來，生成式人工智能技術(shù)和產(chǎn)業(yè)快速發(fā)展。聚焦生成式人工智能技術(shù)所用的生成式算法，結(jié)合相關(guān)法規(guī)規(guī)范，提出“生成式算法三定律”倫理原則。結(jié)合其技術(shù)特點，對實踐中存在的倫理難點開展分析，并初步探索并提出解決框架。

關(guān)鍵詞 生成式人工智能；大語言模型；生成式算法；算法倫理

0 引言

自2022年下半年以來，生成式人工智能技術(shù)和產(chǎn)業(yè)快速發(fā)展。根據(jù)《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》中的有關(guān)定義，生成式人工智能技術(shù)（具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)）用的是生成類算法。本文聚焦生成式算法，結(jié)合相關(guān)法律法規(guī)、倫理規(guī)范，提出“生成式算法三定律”的倫理原則；同時，結(jié)合其技術(shù)特點，分析在實踐中存在的倫理難點，并初步探索解決框架。

1 相關(guān)法律法規(guī)對生成式算法的倫理要求

根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》3部上位法、上述3部算法相關(guān)法規(guī)、我國提出的《全球人工智能治理倡議》和《科技倫理審查辦法》等，針對面向公眾提供服務(wù)的生成式算法的合規(guī)和倫理要求，形成“生成式算法三定律”（12條指引）。

1.1 第一定律：生成式算法應(yīng)“以人為本”，保障人的隱私和合法權(quán)益

（1）算法應(yīng)保障所有用戶的知情權(quán)、選擇停止權(quán)和涉?zhèn)€人信息的刪除權(quán)。

（2）算法在訓練、優(yōu)化、提供服務(wù)中使用、生成的數(shù)據(jù)，涉?zhèn)€人信息的，應(yīng)取得個人同意或符合法律法規(guī)規(guī)定，尊重他人肖像權(quán)、名譽權(quán)、榮譽權(quán)、隱私權(quán)和個人信息權(quán)益，不得危害他人身心健康。

（3）在做到第一點的基礎(chǔ)上，算法應(yīng)采取措施充分尊重并保護特殊群體的合法權(quán)益，如防范未成年人過度依賴或沉迷、對老年人的智能化適老服務(wù)和防范電信網(wǎng)絡(luò)詐騙等。

（4）算法應(yīng)造福于人類，增進人類共同福祉，保障社會安全，尊重人類權(quán)益。

1.2 第二定律：生成式算法應(yīng)遵循向上向善、公平公正原則

（1）算法生成的內(nèi)容符合和平、發(fā)展、公平、正義、民主、自由的全人類共同價值和所在國家、地區(qū)的價值觀要求。不得利用算法生成各類法律、法規(guī)禁止和違背倫理道德的內(nèi)容。不得利用算法操縱輿論、傳播虛假信息。鼓勵生成積極健康、向上向善的優(yōu)質(zhì)內(nèi)容。對圖片、視頻等生成內(nèi)容應(yīng)予以標識。

（2）在算法的設(shè)計、優(yōu)化與應(yīng)用中，應(yīng)采取有效措施防止民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等各類歧視。

（3）不得利用算法實施侵犯知識產(chǎn)權(quán)、違背商業(yè)道德、壟斷和不正當競爭等行為。

（4）明確和公開算法服務(wù)的適用人群、場合、用途，指導使用者科學理性認識和依法適用。制定并公開算法的相關(guān)基本原理、目的意圖和運行機制。

1.3 第三定律：生成式算法應(yīng)不斷提升安全性、可靠性、可解釋性和自主性

（1）應(yīng)采取有效措施，保障與算法相關(guān)的模型、數(shù)據(jù)、基礎(chǔ)設(shè)施、應(yīng)用等安全，提供安全、穩(wěn)定、持續(xù)的服務(wù)。防范對生成式人工智能技術(shù)的惡用、濫用。

（2）基于服務(wù)的類型特點，應(yīng)采取有效措施，不斷提升算法的可解釋性和可預測性，提升服務(wù)透明度，提高生成內(nèi)容的準確性和可靠性，確保生成式人工智能始終處于人類控制之下，打造可審核、可監(jiān)督、可追溯、可信賴的技術(shù)。

（3）研發(fā)、提供具有輿論屬性或社會動員能力的算法模型，應(yīng)建立健全算法機制機理審核驗證、科技倫理審查、安全評估、應(yīng)急處置、投訴舉報等管理制度和技術(shù)措施。

（4）鼓勵生成式算法及相關(guān)基礎(chǔ)技術(shù)的自主創(chuàng)新。應(yīng)使用具有合法來源的基礎(chǔ)模型，采用安全可信的軟件、工具和數(shù)據(jù)資源等。

2 生成式算法倫理實踐中存在的難點分析

生成式模型有三大要素：高并發(fā)大算力、海量語料數(shù)據(jù)和復雜集成的算法。其中，Transformer架構(gòu)生成式算法的主要技術(shù)包括詞向量的表示、編碼器-解碼器架構(gòu)、自注意力機制、預訓練和微調(diào)、多任務(wù)學習、分布式語義等。基于上述技術(shù)特點，逐一分析實踐中可能存在的倫理問題和難點。

2.1 機器幻覺造成信息誤導、歧視偏見，價值觀參差不齊，違背向上向善、公平公正原則

大語言模型的機器幻覺通常是指模型在生成文本時，產(chǎn)生了不符合事實、邏輯或常識的內(nèi)容。出現(xiàn)機器幻覺的技術(shù)原理，主要有4個方面。一是深度學習模型的局限性。模型會學習到數(shù)據(jù)中的偏見和錯誤信息，并在生成文本時反映出來。二是過度泛化。處理訓練數(shù)據(jù)中，模型并非真正理解文本含義，而是試圖找到一種簡單方法來生成文本，這些文本在訓練數(shù)據(jù)中出現(xiàn)頻率較高、但并不符合事實或邏輯。三是優(yōu)化目標不一致。訓練目標是最大化生成文本的概率，生成文本時，更注重提高文本的概率而非確保其準確性和一致性。四是訓練數(shù)據(jù)不足。模型無法學習到足夠的信息和知識。數(shù)據(jù)如存在偏見或歧視，生成內(nèi)容也可能繼承，如訓練數(shù)據(jù)中男女職業(yè)分布不均衡，生成內(nèi)容可能也會體現(xiàn)出這種不平衡。此外，超參數(shù)設(shè)置、自注意力機制過于復雜也可能導致機器幻覺。

機器幻覺問題可能帶來的倫理問題有：誤導公眾，即生成不符合事實、邏輯或常識的內(nèi)容，可能誤導用戶特別是青少年傳播錯誤信息，甚至影響社會穩(wěn)定，違背向上向善原則；公平性缺失，即生成帶有偏見歧視的內(nèi)容，違背公平公正原則，違背生成式算法“第二定律”；僅完成預訓練、SFT的模型，生成內(nèi)容與人類共同價值觀、所在國家和地區(qū)價值觀可能差異較大。此外，考慮到大語言模型的復雜性、海量文本 “千人千面”的生成機制，在人機互動場景中，采用常規(guī)“機審+人審”方法對生成內(nèi)容實現(xiàn)有效過濾監(jiān)管也存在難度。

2.2 持續(xù)追求模型的能力提升與資源耗費、模型可解釋性下降等問題之間的矛盾

自GPT3開始，千億模型時代來臨，國內(nèi)各企業(yè)大模型也基本是千億級別。參數(shù)數(shù)量通常與模型的大小、復雜性和表達能力有關(guān)。更多參數(shù)意味著模型可學習到更復雜的特征和模式。雖然更大的模型通常具有更強的表達能力和泛化能力，能處理更復雜的任務(wù)，但參數(shù)是否越多越好？過多的參數(shù)至少存在3個風險。一是過擬合風險。模型可能會記住訓練數(shù)據(jù)中的噪聲和偏差，導致對未知數(shù)據(jù)的性能下降。二是模型復雜度太高帶來的風險。模型會難以解釋和調(diào)試，遇到問題難以定位和解決。三是訓練和推理的計算資源和時間成本過高。按相關(guān)文獻，訓練所需算力可粗略估算為：參數(shù)量×批大小/學習率。一個1 000億參數(shù)模型訓練所需算力，假設(shè)批大小為64，學習率為0.001，訓練所需算力約為16 000 TFLOPS，換算成A100算力約821張卡，事實上考慮硬件冗余、通信開銷，可能要超過千張卡并行算力，即業(yè)界所說千億參數(shù)模型需要千卡算力。計算資源和時間的增加會造成訓練和推理過程中需要更多能源，這可能導致碳排放量增加，對環(huán)境造成負面影響。

不斷追求高能力、大參數(shù)可能造成算法模型可靠性、可解釋性下降，違背算法“第三定律”。碳排放量增加會加劇全球氣候變暖，違背造福人類“以人為本”的“第一定律”。

2.3 個人信息、重要數(shù)據(jù)泄露風險點增多，違背保障人的隱私和合法權(quán)益原則

基于筆者在《大語言模型的數(shù)據(jù)隱私保護難點分析與探索》中的觀點，預訓練收集的海量語料數(shù)據(jù)中含有大量個人信息和重要數(shù)據(jù)，深度學習技術(shù)提升屬性預測能力使模型成為“社工利器”，各類組織和人群濫用、惡用算法模型實施違法犯罪，此外算法實現(xiàn)、優(yōu)化、服務(wù)中的各類安全風險均可能導致個人信息、商業(yè)機密甚至國家安全數(shù)據(jù)的泄露風險增大，侵犯他人隱私權(quán)、名譽權(quán)等合法權(quán)益。數(shù)據(jù)來源不合規(guī)，可能涉侵犯他人知識產(chǎn)權(quán)等。而且因其技術(shù)特點，數(shù)據(jù)隱私保護的“知情同意”和數(shù)據(jù)收集使用“最小必要”原則面臨難以落地的倫理風險。以上問題對保障人的隱私和合法權(quán)益帶來風險，違背了生成式算法“第一定律”。

隱私攻擊、模型越獄、數(shù)據(jù)中毒、基于指令和非指令的后門攻擊，是當前較為頻繁且重要的針對生成式模型的攻擊類型，均會造成個人信息和重要數(shù)據(jù)泄露。

2.4 算法的可解釋性、透明性、可追溯性和技術(shù)自主性不足，引發(fā)信任和責任難點

生成式算法通常被認為是一種“黑盒”模型，內(nèi)部工作機制和決策過程難以解釋，透明性較差。一方面，生成的內(nèi)容難以理解和追蹤，當模型生成違規(guī)內(nèi)容時，確定責任歸屬成為難題，目前歸責于服務(wù)提供方；另一方面，生成式算法在許多應(yīng)用場景中，難以解釋其決策依據(jù)和結(jié)果。如在一些需要解釋決策依據(jù)的領(lǐng)域，如醫(yī)療診斷、信貸評估、司法判斷等，這個問題會很突出，引發(fā)信任和責任問題。由于算法決策過程難以解釋，對其進行審計以確保其合規(guī)性和公平性也變得困難。決策結(jié)果難以令人信服，可能導致用戶對算法的決策結(jié)果產(chǎn)生懷疑和不信任，影響其在實際應(yīng)用中的接受度和可用性。

盡管生成式算法自2022年以來異軍突起，但其技術(shù)成熟度和可靠性仍存在一定局限性。Transformer架構(gòu)的生成式算法可能會產(chǎn)生模式崩塌問題，導致生成內(nèi)容缺乏多樣性和質(zhì)量穩(wěn)定性。此外，目前，我國大語言模型算法均基于Transformer架構(gòu)，使用PyTorch框架，訓練算力還主要依賴于英偉達的GPU及其CUDA并行計算架構(gòu)，很多工程化方法也借鑒國外專業(yè)論文成果，自主創(chuàng)新性不足。以上，與生成式算法“第三定律”不符。

3 優(yōu)化思路與框架3.1 從數(shù)據(jù)源頭、訓練方法、引入評估3個層面糾偏和降低幻覺，加強價值觀對齊

降低模型的幻覺、提升算法的公平公正，加強價值觀對齊，遵循3個共性思路。

一是對數(shù)據(jù)去噪糾偏。對訓練語料進行去噪和清洗，去除違法違規(guī)風險數(shù)據(jù)、無意義數(shù)據(jù)、填充缺失值、文本規(guī)范化等，消除潛在的偏差、偏見歧視和不符合價值觀的數(shù)據(jù)；對文本進行詞頻統(tǒng)計，對圖像進行分類，找出可能帶有偏見歧視的詞匯或圖像，進行替換或刪除；使用數(shù)據(jù)增強技術(shù)提高數(shù)據(jù)集的多樣性。

二是優(yōu)化算法，強化學習與對抗。更改學習率、使用正則化技術(shù)，優(yōu)化算法。Transformer架構(gòu)處理長文本有優(yōu)勢、可用來提高對價值觀的敏感性和準確性，但生成文本時會出現(xiàn)幻覺，可嘗試使用多模型進行融合。使用強化學習，獎勵符合價值觀的生成結(jié)果、懲罰不符合結(jié)果來引導模型。使用對抗訓練，即在原始數(shù)據(jù)上訓練主模型，在另一個對抗性數(shù)據(jù)集上訓練一個對抗性模型，主模型和對抗性模型迭代優(yōu)化，減少對特定群體的偏見。這兩種方法可提高模型對不良內(nèi)容的魯棒性。復旦大學NLP團隊在RLHF階段運用PPO（近端策略優(yōu)化）算法并優(yōu)化為PPO-max，讓模型更好地理解深層語義。對齊訓練后，相較SFT模型，生成內(nèi)容經(jīng)測試更符合人類價值觀。

三是引入評估指標。針對幻覺問題，可使用困惑度（衡量預測下一個詞時不確定性，評估預測效果）、BLEU評分（比較機器翻譯與人工翻譯間的語法重疊度以評估翻譯質(zhì)量）、ROUGE評分（比較系統(tǒng)生成和人工生成文章間的共現(xiàn)詞以評估文摘質(zhì)量）等指標，評估生成效果。針對歧視偏見，可引入群體公平性指標（比較不同性別、種族等群體在模型決策中的表現(xiàn)，如比較男性和女性申請人在招聘中的錄取率差異，如很大，可能存在性別偏見）和反事實公平性指標（比較實際結(jié)果和反事實結(jié)果之間的差異，如比較一位女性在實際情況下和假設(shè)其是男性情況下的決策結(jié)果間的差異，如很大，可能存在性別偏見），以確保模型公平對待不同群體。針對生成內(nèi)容價值觀對齊，可使用安全評估（對標《生成式人工智能服務(wù)管理暫行辦法》）第四條要求答題測試）、倫理評分（公平性、透明度、責任感等）、語義相似度評估（計算生成內(nèi)容與預期價值觀語義相似度）等方法。

因幻覺問題的解決難度大，在共性方法上，目前還有幾類增強方法。一是后處理。使用語義分析、情感分析，識別和修正生成文本中的幻覺問題。二是聯(lián)網(wǎng)增強或知識庫檢索。針對一些知識性問題，通過外掛知識庫、增加聯(lián)網(wǎng)組件等檢索增強；針對一些涉及國家政權(quán)、國家主權(quán)等原則問題，建立權(quán)威問答庫，防止瞎答造成誤導或意識形態(tài)問題。三是領(lǐng)域適應(yīng)。使用領(lǐng)域特定數(shù)據(jù)來微調(diào)模型，或使用多任務(wù)學習來訓練模型，提高其泛化能力。

3.2 降本增效，量力而行，動態(tài)平衡參數(shù)規(guī)模與適用好用之間的關(guān)系

發(fā)展過程中，追求能力提升與資源耗費、模型可解釋性下降的矛盾，可以通過“降本增效”來解決。一是模型壓縮與加速。通過知識蒸餾和模型剪枝等壓縮和加速技術(shù)，在保持性能不變的情況下，降低模型計算復雜度和參數(shù)數(shù)量，減少資源耗費。二是簡化模型與調(diào)整訓練策略。如Transformer-XL等模型在保持性能的同時，簡化了架構(gòu)，降低模型復雜度，提高可解釋性和訓練效率。使用更好的優(yōu)化算法、更改學習率可幫助模型更有效地學習。強化多任務(wù)學習，提高模型泛化能力。三是數(shù)據(jù)預處理。數(shù)據(jù)增強、去噪可幫助模型更好地學習數(shù)據(jù)規(guī)律，提高性能。

對于模型研發(fā)、運營方來說，要綜合考慮占有或可獲得的計算資源、訓練時間的承受度、訓練數(shù)據(jù)量的收集和預處理能力、算力和時間帶來的投資成本，以及模型的應(yīng)用場景、部署成本等因素，遵循“量力而行”和“適合自己就是就好的”基本原則。

3.3 分類、分級、分場景，加強安全防護和用戶隱私保護，強化全供應(yīng)鏈安全

針對算法使用、優(yōu)化、應(yīng)用中涉及的數(shù)據(jù)安全和個人信息保護問題，筆者提出：嘗試基于數(shù)據(jù)分類分級的安全防護，提升針對性；嘗試不同情形下的“推定同意”“明確同意”“再次同意”，提升知情同意的可操作性；嘗試分階段的不同數(shù)據(jù)匿名化和加密技術(shù)手段，提升有效性；強化事后監(jiān)管，根據(jù)泄露的數(shù)量等級，予以分級問責與應(yīng)急處置。

在此基礎(chǔ)上，強化全供應(yīng)鏈安全也至關(guān)重要，包括模型前后端系統(tǒng)、應(yīng)用的網(wǎng)絡(luò)安全，第三方數(shù)據(jù)提供、標注處理等外包安全和可控性，模型的魯棒性和抗攻擊性等。特別是針對當前模型越獄、后門攻擊、推理攻擊等攻擊方法，通過對模型進行對抗訓練、融合多模型等方法，使用差分隱私、安全多方計算等技術(shù)，提高模型的魯棒性，不斷加固模型。

3.4 引入倫理規(guī)范，優(yōu)化技術(shù)方法，實施分類定制，促進創(chuàng)新發(fā)展

倫理規(guī)范上，通過道德準則方法（引入倫理規(guī)則和約束條件）、價值敏感設(shè)計（在算法需求分析、設(shè)計、開發(fā)、測試、部署全過程，考慮道德、倫理和社會影響）來引導模型決策，在決策過程中加入倫理評估機制，推動決策過程符合人類倫理價值觀和道德標準；公開模型的倫理規(guī)則、約束條件、評估標準等，使決策過程更透明；記錄模型的決策過程、倫理評估結(jié)果等，增強可追溯性。此外，開展用戶教育也有必要，使各類用戶了解生成式算法的原理、局限性和風險，以免陷入“烏托邦”或“敵托邦”的極端。

技術(shù)方法上，引入注意力機制、模塊化結(jié)構(gòu)、知識圖譜等方法，幫助用戶理解模型在不同任務(wù)中如何工作及決策原因；公開模型架構(gòu)、訓練數(shù)據(jù)、訓練過程等信息，幫助用戶更好了解模型內(nèi)部工作機制；記錄模型訓練過程、參數(shù)更新、數(shù)據(jù)來源等，幫助用戶進行故障排查和問題定位。

分類定制指針對不同群體、不同應(yīng)用場景，開展專用的算法定制和優(yōu)化。了解不同群體、不同場景的需求，與心理學、社會學專家和領(lǐng)域?qū)＜液献�，針對性地設(shè)計和優(yōu)化算法，并加強用戶教育。如針對未成年人，設(shè)計算法要考慮加強內(nèi)容過濾、時間管理和教育支持；針對老年人，提升易用性、幫助健康監(jiān)測和咨詢、幫助其與家人朋友聯(lián)系社交；針對消費者，算法優(yōu)化價格比較、評價分析、售前售后服務(wù)等保障；針對女性，要保障性別公正、提供女性健康建議、職業(yè)發(fā)展支持等。在重要領(lǐng)域，行業(yè)主管部門牽頭制定實施合規(guī)和倫理指引。醫(yī)療領(lǐng)域，算法要保護患者隱私、提升診斷和治療建議的準確性，以免誤導醫(yī)生或患者，可使用特征重要性分析方法，幫助理解不同特征對模型預測結(jié)果的貢獻程度，如疾病預測場景中，可找出對疾病預測最重要的特征，為醫(yī)生診斷提供參考。金融領(lǐng)域，提高算法合規(guī)性，在信貸、保險等產(chǎn)品定價審批中的公平性�？墒褂梅词聦嵔忉尫椒◣椭斫馑惴Q策過程，如在信貸審批場景，告訴申請人為什么貸款申請被拒絕，由哪些因素導致。司法領(lǐng)域，要提升算法合法合規(guī)性，提高輔助法官決策的公正性，減少誤判概率以確保司法公正。教育領(lǐng)域，算法要保護學生隱私、服務(wù)不同學生的學習需求和進度、保障資源分配公平，還要避免過度依賴，以免影響學生自主學習能力和發(fā)展。以上各場景，算法都要提高可解釋性，以便不同用戶（醫(yī)生和患者，用戶與監(jiān)管部門等）理解算法決策過程。

在全球激烈競爭的格局下，生成式人工智能領(lǐng)域不發(fā)展就是最大的不安全。因此，目前，我國對生成式人工智能服務(wù)采取“包容審慎”監(jiān)管原則，對技術(shù)自研自用基本沒有約束限制；鼓勵算法、框架、芯片及配套軟件平臺等基礎(chǔ)技術(shù)的自主創(chuàng)新，參與國際規(guī)則標準制定。

4 可能仍存在的難點和困境

一是機器幻覺問題無法根治。按目前語言大模型業(yè)界共識，即使采取強化數(shù)據(jù)清洗、改進模型架構(gòu)和訓練策略、引入檢索增強和事實校驗等各類優(yōu)化方法，仍只能將生成內(nèi)容的準確性、可靠性最高提升到約80%。剩下的20%，是現(xiàn)階段技術(shù)的盲區(qū)。

二是評估審查規(guī)則、量化指標存在局限性。不同利益相關(guān)方在算法倫理評估和審查中可能持有不同價值觀和道德觀，可能導致各方在評估審查規(guī)則、指標等方面難以達成共識。前文所提各類評估指標多數(shù)是評價算法模型性能。因商業(yè)驅(qū)動，業(yè)內(nèi)已盛行通過針對性“刷榜”來提升自家模型“考試成績”。但是，在生成內(nèi)容的安全性、價值觀符合性方面，目前并沒有成熟的量化評估或?qū)彶闄C制，特別是倫理問題的復雜性，可能很難用指標來評估。

三是評估審查與算法迭代速度間的矛盾與平衡難點。生成式算法模型的倫理審查和安全評估涉及制定審查評估規(guī)則、多方參與、確定指標、將評估審查納入整個生命周期，持續(xù)優(yōu)化、反饋循環(huán)等流程，除了技術(shù)、方法的難點外，可能帶來時間、人力、資金等資源限制和投入，與生成式廠商們以O(shè)penAI為目標、持續(xù)搞算法模型“煉丹”迭代升級之間存在矛盾。要真正做到發(fā)展和安全的動態(tài)平衡、相得益彰，可能是一個長期復雜的過程。

因此，需要通過不斷完善生成式人工智能的監(jiān)管機制和倫理框架，推動產(chǎn)業(yè)鏈相關(guān)主體共同發(fā)揮作用，隨著技術(shù)的不斷發(fā)展，持續(xù)探索與完善。

5 結(jié)束語

本文聚焦生成式人工智能的生成式算法，結(jié)合相關(guān)法律法規(guī)、倫理規(guī)范，提出“生成式算法三定律”（三大定律，12條指引）的倫理原則。同時，結(jié)合其技術(shù)特點，分析算法倫理在實踐中存在的四大難點，并初步提出一些解決和優(yōu)化的框架和思路。然而，因各類原因，這些優(yōu)化框架還存在一些倫理困境，需要多方合力，長期探索、完善。

生成式人工智能的算法倫理難點分析與探索