科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國人工智能大模型地圖研究報告》顯示,從全球已發(fā)布的大模型數(shù)量來看,中國和美國大幅領先,占全球總數(shù)的80%以上。
在大模型迅猛發(fā)展的浪潮之下,“語料荒”現(xiàn)象逐步暴露,幾乎已成為全球大模型產業(yè)共同共同的難題。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數(shù)據(jù)集可能會耗盡所有可用的高質量語料數(shù)據(jù)。
除此之外,大模型語料以英文為主,中文語料的占比僅為1.3%,中文語料的形勢更加嚴峻。在近期舉行的中國圖象圖形大會上,由CSIG文檔圖像分析與識別專委會與上海合合信息科技股份有限公司(簡稱“合合信息”)聯(lián)合主辦了《大模型技術及其前沿應用》論壇,來自華南理工大學、上海交通大學、清華大學、復旦大學、上海人工智能實驗室、合合信息等高校、研究機構及企業(yè)的專家代表就大模型技術在圖像領域的發(fā)展、應用進行了深入研討。
現(xiàn)階段,大量的高質量語料數(shù)據(jù)存在于書籍、論文、研報、企業(yè)文檔等文檔之中,復雜的版面結構制約了大模型的訓練語料處理及大模型文檔問答的應用能力。文檔解析技術的進步,讓機器能夠識別文檔中的多種元素,更好地處理文本、表格、圖像等多類型數(shù)據(jù),還原文檔閱讀順序,加速大模型訓練與應用。論壇上,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚分享了合合信息智能文檔處理技術在文檔解析領域的工作,給與會者帶來了新的技術視角。
合合信息發(fā)布的TextIn智能文檔處理平臺,在文本、表格、圖像等非結構化數(shù)據(jù)的表現(xiàn)上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閱讀順序。面對多類型樣本問題,合合信息在TextIn文檔解析的算法階段,就很注重圖表數(shù)據(jù)訓練。當前,TextIn文檔解析工具可以將柱狀圖、折線圖、餅圖、雷達圖等十余種常見圖表,以及任意格式文件 “還原”,并其拆解為Json(輕量級的數(shù)據(jù)交換格式)或Markdown(輕量級標注語言)格式。
面向中文語料庫短缺的問題,合合信息首先將場景前置,在未個性化階段提前給模型補充大量優(yōu)質的垂直領域Know-how,比如金融、法律、教育等,關注特定行業(yè)中的普遍痛點,基于用戶訴求在產品設計時提供解決方案,進而提高大模型加速器在核心應用場景中表現(xiàn)能力。二是專注產品化,不只對客戶提供通用場景的API,而是提供更多工具型產品,降低應用門檻,做到開箱即用,這對技術資源較為薄弱的傳統(tǒng)企業(yè)、中小創(chuàng)業(yè)公司或個人開發(fā)者來說非常友好。
未來,合合信息也將繼續(xù)在大模型領域深耕,挖掘潛在的難題,為人工智能行業(yè)的發(fā)展提供技術之城,助力AI產業(yè)健康平穩(wěn)發(fā)展。