5月31日2024向星力·未來數(shù)據(jù)技術(shù)峰會在上海隆重舉辦。峰會聚焦人工智能、大數(shù)據(jù)、數(shù)據(jù)要素、數(shù)字化轉(zhuǎn)型、新質(zhì)生產(chǎn)力等熱門話題,業(yè)內(nèi)知名專家、學(xué)者和企業(yè)代表分享最新研究成果、技術(shù)創(chuàng)新和實踐經(jīng)驗,高層次產(chǎn)、學(xué)、研、用四方的交流和思想碰撞,為企業(yè)數(shù)據(jù)化轉(zhuǎn)型和AIGC應(yīng)用提供新思路、新方向和新方法。
星環(huán)科技創(chuàng)始人、CEO孫元浩指出,大模型技術(shù)已快速融入企業(yè)生產(chǎn)經(jīng)營的方方面面,在企業(yè)生產(chǎn)效率提升、業(yè)務(wù)職能提效和行業(yè)應(yīng)用場景創(chuàng)新中無處不在,不但重構(gòu)產(chǎn)業(yè),打造企業(yè)的核心競爭力,而且成為企業(yè)的基礎(chǔ)設(shè)施和核心能力,助力企業(yè)打造新質(zhì)生產(chǎn)力。
1.從Data Infra到AI Infra,為企業(yè)打造自己的AI基礎(chǔ)設(shè)施
人工智能大模型正在催生新一輪技術(shù)創(chuàng)新與產(chǎn)業(yè)變革,也將為金融、制造、交通、政務(wù)等眾多行業(yè)企業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展帶來新的動能。當(dāng)前市場以通用基礎(chǔ)大模型為主,通識能力強,但缺少行業(yè)專業(yè)知識。將大模型融入千行百業(yè),讓企業(yè)的AI應(yīng)用從早期直接調(diào)用通用大模型,發(fā)展到建立自己的AI基礎(chǔ)設(shè)施,打造行業(yè)或特定領(lǐng)域、任務(wù)的專用大模型,助力生產(chǎn)力革新和產(chǎn)業(yè)升級,已經(jīng)成為目前企業(yè)關(guān)注的核心。
星環(huán)科技創(chuàng)始人、CEO孫元浩宣布,星環(huán)科技的定位從Data Infra進一步延伸到AI Infra,為企業(yè)客戶打造AI基礎(chǔ)設(shè)施,打造從語料處理、模型訓(xùn)練、知識庫建設(shè)等的一整套的工具鏈,幫助企業(yè)快速建立行業(yè)大模型,快速使用AIGC。
從需求上看,目前,通用大模型數(shù)量快速增加,并不斷升級迭代、提質(zhì)增效,但是卻不能適應(yīng)企業(yè)AI應(yīng)用的需求。而另一方面,企業(yè)對行業(yè)大模型需求增加,迫切需要降低使用門檻,更加普惠地使用大模型、生成式AI技術(shù),以解決企業(yè)內(nèi)部人才、算力、數(shù)據(jù)等不足的挑戰(zhàn)。將AGI限制在一個特定領(lǐng)域或者一個行業(yè)或者特定任務(wù),不斷提升模型準(zhǔn)確度,成為一條切實可行的發(fā)展途徑。
在技術(shù)上,生成式AI出現(xiàn)后,深度學(xué)習(xí)出現(xiàn)了一個重大變化,從以前的可能幾千萬、上億的樣本數(shù)量的大樣本機器學(xué)習(xí),演變成現(xiàn)在小樣本機器學(xué)習(xí),讓行業(yè)大模型應(yīng)用范圍變得更很廣,讓模型能夠思考、學(xué)習(xí),能夠理解自然語言,能夠完成更多的工作。
每個國家都需要主權(quán)AI,需要建立自己的AI基礎(chǔ)設(shè)施,打造自己的AI模型。企業(yè)同樣需要自身的AI Infra,打造行業(yè)大模型,賦能企業(yè)更快、更容易地使用大模型,釋放數(shù)據(jù)價值。
針對企業(yè)的AI Infra建設(shè),星環(huán)科技通過自主研發(fā),可以向用戶提供一站式企業(yè)級大模型生產(chǎn)及應(yīng)用全流程開發(fā)工具鏈,讓大模型快速落地。星環(huán)科技擁有從語料到模型再到應(yīng)用的完整的 AI Infra工具集,覆蓋語料開發(fā)和管理、大模型訓(xùn)練與持續(xù)提升、多模態(tài)知識工程、多模知識存儲與服務(wù)、原生AI應(yīng)用構(gòu)建編排和應(yīng)用服務(wù)等重要階段,提供提示詞工程、檢索增強、智能體構(gòu)建等大模型應(yīng)用快速構(gòu)建和提升、模型推理優(yōu)化、模型安全和持續(xù)提升技術(shù)。
通過星環(huán)科技AI Infra工具,企業(yè)能夠準(zhǔn)確、高效地將擁有的多種來源的多模語料轉(zhuǎn)換為高質(zhì)量的專業(yè)領(lǐng)域知識,并且源源不斷地支撐專業(yè)知識庫問答、業(yè)財數(shù)據(jù)分析、智能投研、設(shè)備預(yù)測性維護等豐富的使用場景和應(yīng)用,讓企業(yè)構(gòu)筑知識壁壘,實現(xiàn)“人工智能+”業(yè)務(wù)的落地和創(chuàng)新。
星環(huán)科技AI Infra工具支持異構(gòu)算力、語料、知識、大模型應(yīng)用的統(tǒng)一管理,為數(shù)據(jù)和語料資產(chǎn)的集約化提供了一站式平臺,且具備企業(yè)級的組織空間管理能力。
未來,星環(huán)科技通過自主研發(fā),不斷完善AI從基礎(chǔ)設(shè)施到應(yīng)用的產(chǎn)業(yè)鏈條,可以為客戶提供端到端的全套AI解決方案。
2.星環(huán)知識平臺TKH,為企業(yè)高效構(gòu)建AI Infra
星環(huán)科技整合大數(shù)據(jù)、人工智能等技術(shù),推出知識平臺Transwarp Knowledge Hub(TKH),為企業(yè)提供一個全面、高效、智能的數(shù)據(jù)處理和知識管理解決方案,可以實現(xiàn)企業(yè)內(nèi)部所有資料知識化的目標(biāo),并且可以統(tǒng)管企業(yè)Al Infra算力、語料、模型和應(yīng)用,助力企業(yè)打造安全可控AI Infra,幫助企業(yè)快速使用AIGC。
星環(huán)的知識平臺TKH包括知識存儲與服務(wù)、語料開發(fā)與知識構(gòu)建、大模型基礎(chǔ)服務(wù)等幾個重要部分。
第一,TDH for AI,打造新一代一站式多模型數(shù)字底座。
星環(huán)知識平臺TKH提供企業(yè)級多模態(tài)知識存儲與服務(wù),助力企業(yè)打造新一代一站式多模型數(shù)字底座;赥ranswarp Data Hub for LLM知識管理平臺的多模型統(tǒng)一技術(shù)架構(gòu),支持關(guān)系型數(shù)據(jù)、向量數(shù)據(jù)、全文檢索、圖數(shù)據(jù)、時序數(shù)據(jù)等的統(tǒng)一存儲管理,滿足各類場景下多模態(tài)數(shù)據(jù)的統(tǒng)一存儲管理與服務(wù),大幅簡化知識庫的知識存儲與服務(wù)層架構(gòu),降低開發(fā)與運維成本。
星環(huán)科技新推出的產(chǎn)品可以讓企業(yè)的數(shù)據(jù)底座實現(xiàn)四個一體化:湖倉集一體化、多模型處理一體化、歷史數(shù)據(jù)與實時數(shù)據(jù)處理一體化、本地集群和云平臺一體化。
其中,大數(shù)據(jù)基礎(chǔ)平臺TDH 9.4的多;铀貯I分析;倉集資源隔離架構(gòu),在混合業(yè)務(wù)場景下依然保持極致性能;湖倉一體架構(gòu),大幅降低TCO;同份數(shù)據(jù)跑批查詢與混合負(fù)載,實時備份強在線業(yè)務(wù)容災(zāi);同時支持多模型存諸架構(gòu)、大模型海量訓(xùn)練數(shù)據(jù)存儲、多模型混合檢索召回增強、Python生態(tài)等。
分布式向量數(shù)據(jù)庫Hippo支持文本、圖片、音視頻等轉(zhuǎn)化后的百億級向量數(shù)據(jù)的存儲、索引和管理,支持多種索引,具有全文檢索+向量檢索以及稀疏向量+稠密向量的混合檢索等能力。Hippo 2.0可以實現(xiàn)百億級向量存儲,提供靈活索引支持、20倍內(nèi)存成本下降和向量全文混合檢索等特性。
分布式圖數(shù)據(jù)庫StellarDB提供萬億級圖數(shù)據(jù)存儲、毫秒級點邊查詢和10+層深度鏈路分析等能力,支持豐富的圖算法和圖機器學(xué)習(xí),創(chuàng)新的動態(tài)時序圖能力更便捷地挖掘數(shù)據(jù)變化規(guī)律和預(yù)測分析。而新推出的StellarDB 5.1實現(xiàn)了向量/全文模糊檢索、秒級子圖匹配、跨集群數(shù)據(jù)災(zāi)備、RAG增強大模型、GPU算法加速等功能,更穩(wěn)定、更安全、更易用。
星環(huán)分布式分析型數(shù)據(jù)庫ArgoDB支持標(biāo)準(zhǔn)SQL語法,提供多模分析、實時數(shù)據(jù)處理、聯(lián)邦計算、隱私計算、數(shù)據(jù)脫敏等能力,一站式滿足OLAP分析,實時數(shù)倉、數(shù)據(jù)集市、湖倉集一體等場景。
而新推出的ArgoDB 6.1 版本以“增量數(shù)據(jù)實時處理”技術(shù)為基礎(chǔ),定義并發(fā)布“實時數(shù)據(jù)加工”的智能高效新范式;結(jié)合集群級實時同步與數(shù)據(jù)海量版本能力,協(xié)助用戶夠構(gòu)建高可靠的實時可信大集群,以數(shù)據(jù)透明加密、SQL審核/阻斷等安全技術(shù)手段為輔,共建“快好省”湖倉集一體的融合數(shù)據(jù)處理架構(gòu)。
星環(huán)分布式時序數(shù)據(jù)庫Timelyre支持海量時序數(shù)據(jù)庫的存儲與處理,具備每秒千萬級數(shù)據(jù)吞吐、5~20倍無損壓縮和毫秒級檢索能力,支持Python、C++等API,易用的時序分析框架滿足金融智能投研需求。TimeLyre 9.2新增了多模型時序分析、極速分布式回測平臺、投研數(shù)據(jù)中臺、時序數(shù)據(jù)湖引擎等,助力用戶解鎖數(shù)據(jù)深層價值。
星環(huán)分布式文件系統(tǒng)TDFS支持10億級以上的大小文件的存儲,并同時支持對象存儲,基于Raft保障強一致,支持HDFS平滑遷移,標(biāo)準(zhǔn)POSIX協(xié)議支持上層知識等AI場景應(yīng)用無感對接。
第二,語料加工工具與圖譜構(gòu)建工具,助力企業(yè)建立高質(zhì)量模型及應(yīng)用。
決定行業(yè)大模型質(zhì)量最關(guān)鍵的因素就是語料,語料的質(zhì)量決定了模型的質(zhì)量。同時高質(zhì)量語料也是解決行業(yè)大模型“幻覺”、“可信可控”等核心落地難點的重要手段。另外,高質(zhì)量行業(yè)專用語料是企業(yè)、機構(gòu)獨特的競爭優(yōu)勢和天然壁壘。
星環(huán)科技發(fā)布了一站式多場景語料平臺Transwarp Corpous Sudio(TCS),覆蓋了語料獲取、清洗、加工、治理、應(yīng)用和管理的全生命周期,具有多種靈活的采集和構(gòu)建方式,能分布式的高效處理海量語料。TCS支持20+主流文檔格式、數(shù)據(jù)化學(xué)公式、復(fù)雜語料處理、語料自動標(biāo)注及篩選、多視角體系化資產(chǎn)編目和數(shù)據(jù)治理等
星環(huán)TCS擁有全面、多維、精細(xì)、增強、資產(chǎn)等5大優(yōu)勢,是一個功能全面、易用高效、安全可靠的語料開發(fā)利器,能夠極大提升語料開發(fā)效率,助力企業(yè)或機構(gòu)高質(zhì)量地構(gòu)建大模型及其應(yīng)用。
企業(yè)知識庫的建設(shè),讓數(shù)據(jù)可以用自然語言方式進行對話和檢索,企業(yè)可以集中式地管理和利用知識資源,提高運營效率和創(chuàng)新能力。知識庫建設(shè)變成企業(yè)的基礎(chǔ)設(shè)施,所有的不同類型的數(shù)據(jù)都能進行存儲與管理,能根據(jù)需要導(dǎo)入到知識庫中。只要企業(yè)保有自己的知識庫,就可以通過微調(diào)得到企業(yè)專屬的大模型,就可以實現(xiàn)大模型可以隨時選、隨時換,而企業(yè)核心競爭力得到保護的目標(biāo)。
企業(yè)用戶利用TKH提供的星環(huán)圖譜構(gòu)建工具Transwarp Knowledge Studio for LLM,可以將企業(yè)內(nèi)部數(shù)據(jù)、個人經(jīng)驗數(shù)據(jù)和公開信息數(shù)據(jù)轉(zhuǎn)化為知識,讓數(shù)據(jù)平臺更加智能化,同時可以將AIPC端和云端資源聯(lián)動,確保數(shù)據(jù)安全性。個人經(jīng)驗數(shù)據(jù)的知識轉(zhuǎn)化和不斷的模型微調(diào)讓知識庫建設(shè)更具個性化,真正實現(xiàn)個性化、專家級大模型應(yīng)用。
TKS是一套全流程、端到端的知識圖譜構(gòu)建工具集,涵蓋了知識模型定義、多源異構(gòu)數(shù)據(jù)接入、概念與物理數(shù)據(jù)映射、多元化知識的抽取融合、全自動知識構(gòu)建、圖譜綜合查詢等功能,能夠幫助政務(wù)、工業(yè)、能源等多領(lǐng)域客戶高效構(gòu)建領(lǐng)域知識體系,并提供智能應(yīng)用的場景定制化和一站式解決方案。
第三,大模型基礎(chǔ)服務(wù)Infinity和LLMOps,讓大模型快速落地。
在行業(yè)大模型發(fā)展中,企業(yè)面臨技術(shù)復(fù)雜、數(shù)據(jù)和算力稀缺、管理成本高等挑戰(zhàn),F(xiàn)在企業(yè)已經(jīng)意識到必須建立自己的AI基礎(chǔ)設(shè)施,能夠自己對模型進行預(yù)訓(xùn)練、微調(diào)等。
星環(huán)科技推出大模型運營平臺Transwarp Sophon LLMOps,提供一站式企業(yè)級大模型生產(chǎn)及應(yīng)用全流程開發(fā)工具鏈,助力企業(yè)完成從預(yù)訓(xùn)練到微調(diào),到強化學(xué)習(xí),到持續(xù)模型評估的全生命周期,讓每個企業(yè)都能構(gòu)建自己的專屬大模型。
可以說,Sophon LLMOps一個平臺可以解決企業(yè)在大模型時代語料、模型、應(yīng)用三類資產(chǎn)的持續(xù)積累和加速迭代。
星環(huán)科技自主研發(fā)的無涯大模型Infinity具備自主可控特性,確保數(shù)據(jù)安全的同時,通過0-1預(yù)訓(xùn)練,可為各行業(yè)量身定制自有大模型,提供強大的意圖理解、語義召回、數(shù)據(jù)處理和分析能力。
基于無涯大模型底座,星環(huán)科技微調(diào)了三款垂類大模型,包括問答大模型、數(shù)據(jù)分析(代碼生成)大模型和多模態(tài)大模型,以應(yīng)對內(nèi)容生成、數(shù)據(jù)分析圖片及音視頻理解及檢索等多樣的使用場景。
星環(huán)無涯大模型Infinity提供了靈活的部署模式,包括私有化部署(AIPC版、企業(yè)版)、公有云服務(wù)等。
Infinity提升大模型數(shù)據(jù)分析能力,在語法正確性、數(shù)據(jù)庫方言、語義正確性等方面有重要突破。
星環(huán)無涯大模型Infinity擁有眾多優(yōu)勢,如精準(zhǔn)問答能力、減少大模型幻覺;多模數(shù)據(jù)來源,提升回答豐富度;構(gòu)建自有知識庫,確保企業(yè)數(shù)據(jù)安全等。其主要功能包括智能問答、文檔問答、智能寫作等。
3.一問便知,值得信賴的大模型無涯·問知發(fā)布
基于無涯大模型,星環(huán)知識平臺TKH打造了無涯·問知、無涯·問數(shù)、無涯·金融、無涯·工程等AI原生應(yīng)用,可廣泛應(yīng)用于金融、能源、制造、工程等多個領(lǐng)域,通過精準(zhǔn)的數(shù)據(jù)分析和知識管理,滿足企業(yè)不同類型的知識應(yīng)用需求,提升企業(yè)業(yè)務(wù)效率和競爭力。
本次峰會上,星環(huán)科技最新發(fā)布了無涯·問知Infinity Intelligence。無涯·問知是一款基于星環(huán)科技大模型底座,結(jié)合個人知識庫、企業(yè)知識庫、法律法規(guī)、財經(jīng)等多種知識源的企業(yè)級垂直領(lǐng)域問答產(chǎn)品。
無涯·問知充分利用了星環(huán)科技自研大模型底座的自動化知識工程特性,使其在處理和分析數(shù)據(jù)方面具有顯著的優(yōu)勢,允許用戶上傳文檔、表格、圖片等多源數(shù)據(jù),并支持與外部數(shù)據(jù)源的對接,使用戶能夠構(gòu)建屬于自己的專屬領(lǐng)域大模型。這一創(chuàng)新功能極大地擴展了模型的應(yīng)用范圍和深度,用戶可基于自身私域知識庫進行更為個性化和深入的數(shù)據(jù)分析。
無涯·問知支持不限長度的音視頻圖文等多模態(tài)數(shù)據(jù)快速入庫,且支持自動化文檔切片及向量化處理,配合自研的RAG框架,可實現(xiàn)知識的精準(zhǔn)召回,可用于市場研究分析、企業(yè)供應(yīng)鏈分析、法律風(fēng)險預(yù)警、智能寫作等豐富的業(yè)務(wù)場景中。
無涯·問知包括四大應(yīng)用場景:企業(yè)可以基于星環(huán)知識庫TKH,建立企業(yè)自己的知識庫應(yīng)用;當(dāng)企業(yè)算力不足時,可以采用安裝了天涯·問知的AIPC,在本地直接訪問天涯·問知,以彌補AI算力不足問題;中小企業(yè)用戶不用自己構(gòu)建知識庫,可以直接利用星環(huán)科技無涯·問知公有云服務(wù);對于個人而言,可以利用AIPC或者公有云服務(wù),訪問天涯·問知服務(wù)。
在峰會上,無涯·問知AIPC版本發(fā)布,讓知識即刻呈現(xiàn),讓答案值得信賴。無涯·問知AIPC打通個人文件資料與企業(yè)知識庫,形成本地和云端的知識聯(lián)動推理,且可保障個人的數(shù)據(jù)安全。
無涯·問知AIPC版在實際應(yīng)用中展現(xiàn)出了五大顯著特性,提供了本地化的向量庫;支持多種格式、不限長度的文件資料入庫,滿足了用戶多樣化的需求;支持影、音、圖、文等多模態(tài)數(shù)據(jù)和資料的“知識化”處理,以及相應(yīng)的“語義化”查詢和應(yīng)用能;自研的RAG模塊,實現(xiàn)精準(zhǔn)問答;具備出色的數(shù)據(jù)分析能力,能夠?qū)?shù)量化的數(shù)據(jù)進行精準(zhǔn)的分析和研判。
星環(huán)無涯·問知正式發(fā)布了公有云服務(wù),首批邀請用戶已經(jīng)可以在線測試。
另外,無涯·問數(shù)是基于星環(huán)數(shù)據(jù)分析大模型,并結(jié)合數(shù)據(jù)分析主體、指標(biāo)、標(biāo)簽設(shè)計、數(shù)據(jù)開發(fā)和治理,形成了從自然語言轉(zhuǎn)數(shù)據(jù)查詢語言,并返回數(shù)據(jù)表或數(shù)據(jù)圖表的完整流程。
在應(yīng)用場景上,無涯·問數(shù)提供分析儀表盤和智能問數(shù)能力,讓決策者/管理者以自然語言提問快速自助獲取目標(biāo)數(shù)據(jù);預(yù)定義指標(biāo)計算口徑,依托數(shù)據(jù)分析大模型理解用戶的分析意圖,讓數(shù)據(jù)分析人員實現(xiàn)對話即分析;通過頁面配置的方式快速完成數(shù)據(jù)準(zhǔn)備,讓數(shù)據(jù)開發(fā)人員,快速整合多種數(shù)據(jù)。
4.Data Infra持續(xù)深化,星環(huán)系列產(chǎn)品推陳出新
星環(huán)科技在推出全新的AI Infra的同時,不斷完善Data Infra產(chǎn)品與服務(wù)。
星環(huán)大數(shù)據(jù)云平臺推出TDC 5.0,將原來的多個TDH集群統(tǒng)一納管,統(tǒng)管多個TDH集群,形成物理上分散、邏輯上統(tǒng)一的企業(yè)級一體化大數(shù)據(jù)平臺。TDC 5.0具有獨特的優(yōu)勢,包括多集群及其基礎(chǔ)設(shè)施、多數(shù)據(jù)應(yīng)用實例統(tǒng)一管理;跨多集群統(tǒng)一調(diào)度資源,均衡多個集群資源使用;跨集群共享存儲組件,實現(xiàn)NoCopy的跨集群數(shù)據(jù)共享;隔離和控制資源配額,快速、靈活的為不同業(yè)務(wù)部門提供多租戶的PaaS服務(wù)。
星環(huán)科技推出了分布式交易型數(shù)據(jù)庫KunDB 4.0,高可用能力與Oracle兼容性提升,支持跨系統(tǒng)多租戶部署。其中,深度兼容Oracle,高度兼容Oracle對象與語法,支持?jǐn)?shù)據(jù)快速遷移;高可靠,基于Paxos協(xié)議的異地容災(zāi)能力,增強數(shù)據(jù)安全性保障;數(shù)據(jù)庫多租戶,支持多個應(yīng)用共享一個數(shù)據(jù)庫實例,能快速由集中式擴展成為分布式。
星環(huán)大數(shù)據(jù)開發(fā)工具TDS 4.0,增加了數(shù)據(jù)實時同步、數(shù)據(jù)入湖向?qū)А⒅悄芑瘮?shù)據(jù)資產(chǎn)盤點、數(shù)據(jù)資產(chǎn)門戶、數(shù)據(jù)服務(wù)編排等功能。
星環(huán)大數(shù)據(jù)安全與隱私保護工具軟件Transwarp Defensor是星環(huán)科技自主研發(fā)的大數(shù)據(jù)安全與隱私保護安全管理平臺,致力于幫助企業(yè)建設(shè)以數(shù)據(jù)為中心的數(shù)據(jù)安全防護體系,包括了解內(nèi)部敏感數(shù)據(jù)分布情況,幫助管理者發(fā)現(xiàn)潛在風(fēng)險,監(jiān)管重要數(shù)據(jù)的合規(guī)合理使用等。Transwarp Defensor 提供數(shù)據(jù)分類分級管理、數(shù)據(jù)脫敏、個人信息去標(biāo)識化、數(shù)據(jù)訪問控制、敏感資產(chǎn)風(fēng)險評估等基礎(chǔ)能力,能夠做到事前發(fā)現(xiàn),事中防護,事后溯源,幫助企業(yè)有效建立數(shù)據(jù)安全防護體系。Transwarp Defensor 4.5,增加了大模型核心資產(chǎn)識別、數(shù)據(jù)資產(chǎn)流轉(zhuǎn)鏈路監(jiān)控、安全策略智能推薦,安全風(fēng)險預(yù)警與應(yīng)急響應(yīng)。
星環(huán)數(shù)據(jù)要素流通平臺Transwarp Navier通過提供隱私計算環(huán)境,使得數(shù)據(jù)供需雙方可以進行安全的數(shù)據(jù)交易。而Transwarp Navier 3.1則新增了全鏈路智能合約確保安全合規(guī)、數(shù)據(jù)流通全鏈路行為監(jiān)控與分析、實時告警與阻斷等。