咨詢熱線:021-80392549

中文大模型讓AI更“接地氣”

放大字體  縮小字體 發(fā)布日期:2023-06-15     來源:科技日報     瀏覽次數(shù):91
 原標題:中文大模型讓AI更“接地氣”

目前成熟的生成式AI模型大多基于英文數(shù)據(jù)進行訓練,在國內(nèi)各行各業(yè)的應(yīng)用環(huán)境中,中文大模型顯然更“接地氣”。通過中文或英文數(shù)據(jù)訓練出來的大模型,差異比較大,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內(nèi)用戶來說,用中文去訓練的大模型比較適用。

“請訊飛星火認知大模型模仿梁曉聲先生筆下的小說《人世間》的風格,續(xù)寫一小段文章。”5月20日,在第七屆世界智能大會閉幕式上,主持人蔣昌建向訊飛星火認知大模型發(fā)問。短短幾秒鐘,續(xù)寫文字便“躍然紙上”。原作者梁曉聲認為,續(xù)寫內(nèi)容簡練、文字有一定溫度,從傳達的情感和思想來看幾乎“無可挑剔”。

在本次世界智能大會上,生成式人工智能毫無疑問成為大家關(guān)注的焦點。近期,國內(nèi)各大廠商紛紛加快開展生成式AI核心技術(shù)的研發(fā),無論是訊飛星火認知大模型展現(xiàn)出的雄厚“中文功底”,還是國家超級計算天津中心發(fā)布的基于國產(chǎn)天河超級算力、智能算力和匯集構(gòu)建中文大數(shù)據(jù)集研發(fā)訓練的天河天元大模型,都讓大眾對我國自主研發(fā)的中文生成式AI大模型充滿期待。

開發(fā)適合國人的中文大模型

“AI大模型是基于海量多源數(shù)據(jù)打造的預訓練模型,是對原有算法模型的技術(shù)升級和產(chǎn)品迭代。”國家超級計算天津中心數(shù)據(jù)智能部部長康波介紹,預訓練大模型在基于海量數(shù)據(jù)的自監(jiān)督學習階段完成了“通識”教育,再借助“預訓練+精調(diào)”等模式,在共享參數(shù)的情況下,根據(jù)具體應(yīng)用場景的特性,用少量數(shù)據(jù)進行相應(yīng)微調(diào),即可高水平完成任務(wù)。

AI大模型能夠理解人類的自然語言表達,并通過龐大的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)具有針對性的內(nèi)容輸出。

從效果上看,生成式AI表現(xiàn)為“無所不知、無所不能”,其具備了邏輯推理、上下文理解、文字創(chuàng)作、知識提取、代碼生成等非常多元化的強大能力。

不過,目前成熟的生成式AI大模型大多基于英文數(shù)據(jù)進行訓練。“通過中文或英文數(shù)據(jù)訓練出來的大模型,差異還是比較大的,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內(nèi)用戶來說,用中文去訓練的大模型比較適用。”康波說。

此外,生成式AI正一步步向生產(chǎn)工具方向發(fā)展,為產(chǎn)業(yè)深度賦能,或?qū)⒊蔀槿斯ぶ悄芘c實體經(jīng)濟深度融合的重要力量。那么作為數(shù)據(jù)驅(qū)動的AI大模型,其訓練數(shù)據(jù)來源的可靠性和安全性,便成為推動科技創(chuàng)新的關(guān)鍵。因此,自主研發(fā)中文大模型成為越來越多科技巨頭的首要選擇。

三月以來,國內(nèi)大模型領(lǐng)域已進入“混戰(zhàn)”模式,各路玩家紛紛入局,其中有不少都“相中”了研發(fā)中文大模型。

“搶抓通用人工智能的發(fā)展機遇有幾個基本要素。”科大訊飛董事長劉慶峰認為,第一,必須要在自主可控的平臺上;第二,必須要同時做中文和英文,不只學習中國的“智慧”,還要向世界學習;第三,在“硬碰硬”的科技對比上,不僅要學習,還要想辦法趕超。

例如,阿里推出了首個中文AI模型社區(qū),社區(qū)首批上架超300個模型,其中中文模型超過100個,覆蓋了視覺、語音、自然語言處理、多模態(tài)等AI主要領(lǐng)域,覆蓋主流任務(wù)超過60個,且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型,在海量的中文文本數(shù)據(jù)上進行了預訓練和微調(diào),從而具備了強大的語言理解和生成能力。據(jù)悉,該模型目前已經(jīng)達到了100億參數(shù)規(guī)模,并且還在不斷擴展中。

中文大語言模型數(shù)據(jù)集稀缺

生成式人工智能是人工智能發(fā)展到一定階段的產(chǎn)物。就像ImageNet數(shù)據(jù)集推動了殘差網(wǎng)絡(luò)等計算機視覺算法的成熟,openslr等開源數(shù)據(jù)集的發(fā)布催生了長短期記憶神經(jīng)網(wǎng)絡(luò)等自然語言神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖形處理器的大量使用使得模型參數(shù)從百萬級發(fā)展到千億級(ChatGPT使用了上萬塊A100顯卡開展訓練)。可以看出,生成式人工智能的快速成長,離不開算力和數(shù)據(jù)的支撐。

“大模型是大數(shù)據(jù)、大算力驅(qū)動的結(jié)果,兩者缺一不可。”超級計算天津中心首席科學家孟祥飛博士強調(diào)。

一方面,中文大模型的理解能力來自于數(shù)據(jù),它需要用海量數(shù)據(jù)來學習,通過自注意力和多頭注意力機制來建立知識之間的聯(lián)系。這就意味著,更多、更高質(zhì)量的數(shù)據(jù)供給,將會帶來模型網(wǎng)絡(luò)中知識之間關(guān)系的完善性和貫通性。當用戶提問到深層次或者冷門問題時,數(shù)據(jù)質(zhì)量越高,AI大模型回答出正確答案的概率就越大。

“但目前中文大語言模型的數(shù)據(jù)集非常稀缺。”孟祥飛介紹,為了解決這個問題,天津超算中心搜集整理了全域的網(wǎng)頁數(shù)據(jù),并從中提取處理高質(zhì)量的中文數(shù)據(jù)做成數(shù)據(jù)集,同時采集納入各種開源訓練數(shù)據(jù)、中文小說數(shù)據(jù)、古文數(shù)據(jù)、百科數(shù)據(jù)、新聞數(shù)據(jù)以及專業(yè)領(lǐng)域的諸如醫(yī)學、法律等多種數(shù)據(jù)集,訓練數(shù)據(jù)集總token數(shù)達到3500億,訓練打造了中文語言大模型——天河天元大模型。

另一方面,算力的供應(yīng)是大模型的基礎(chǔ)保障。大模型發(fā)端于自然語言處理領(lǐng)域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表,參數(shù)規(guī)模逐步提升至千億、萬億,同時用于訓練的數(shù)據(jù)量級也顯著提升,帶來了模型能力的提高,這也代表著算力需求的指數(shù)級上升。

“而超級計算可以說是算力中的戰(zhàn)斗機。”孟祥飛說,為了保證大模型的訓練順利,天津超算中心充分利用了天河新一代超級計算機的雙精度、單精度、半精度融合計算輸出能力,構(gòu)建基于自主E級算力體系架構(gòu)的智能計算引擎,建設(shè)人工智能大規(guī)模訓練與應(yīng)用系統(tǒng)支撐環(huán)境,特別是在中文處理方面構(gòu)建了中文大模型數(shù)據(jù)處理的工作流技術(shù)體系,從而保障了訓練任務(wù)的順利開展。

技術(shù)成果廣泛應(yīng)用于多領(lǐng)域

在此次世界智能大會上,隨著訊飛星火認知大模型一起展示的還有多款搭載了大模型的行業(yè)應(yīng)用成果。

康波認為,人工智能是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的巨大力量,應(yīng)將大模型作為產(chǎn)業(yè)智能化升級的基座,用專業(yè)數(shù)據(jù)集打造更貼合行業(yè)領(lǐng)域的智能化高水平“專家”。

以訊飛星火認知大模型為例,該大模型的整體布局為“1+N”體系。其中“1”是指通用認知智能大模型,“N”就是大模型在教育、辦公、汽車、人機交互等各個領(lǐng)域的應(yīng)用。例如在教育領(lǐng)域,作為全球首款搭載認知大模型的學習機,科大訊飛推出的學習機可像真人教師一樣與3歲至18歲的學生進行互動式輔學;在辦公領(lǐng)域,基于大模型能力升級的產(chǎn)品具備語篇規(guī)整、會議紀要、一鍵成稿等功能。

康波認為,在各行各業(yè)的應(yīng)用中,中文大模型顯然更“接地氣”。他舉例說,天津超算中心綜合實現(xiàn)了文本、語音、視頻等多模態(tài)的大模型生成能力,從而形成了“一平臺三能力”的基礎(chǔ)架構(gòu),實現(xiàn)了更廣泛的產(chǎn)業(yè)融合能力。基于其自然語言的理解和表達能力,與醫(yī)療結(jié)合,學習醫(yī)學指南等專業(yè)規(guī)范,可以迅速地掌握對應(yīng)的專業(yè)知識。其中,中文大模型可以解決“同詞不同義”在醫(yī)療上的歧義性,實現(xiàn)精準的輸出,為醫(yī)療輔助診斷提供更為全面的支撐能力。

同樣,在工業(yè)檢測和流程控制方面,大模型基于多元化輸出能力,可以進行規(guī)范輔導、缺陷檢測、流程指令生成一系列操作,降低錯誤率,提升生產(chǎn)效率。其中,中文大模型可以更好地理解復雜的專業(yè)術(shù)語以及流程指令邏輯,讓輸出更準確、嚴謹。

“在大模型通用性、泛化性以及降低人工智能應(yīng)用門檻的優(yōu)勢推動下,人工智能也將會加快落地,形成新的機遇。”康波表示。
工博士工業(yè)品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與商城(www.podvhdv.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
聯(lián)系電話:021-31666777
新聞、技術(shù)文章投稿QQ:3267146135  投稿郵箱:syy@gongboshi.com