采寫:本報記者 龔 茜
策劃:何 屹 房琳琳
繼去年“百模大戰(zhàn)”之后,今年國內大模型產(chǎn)業(yè)應用進入爆發(fā)元年。
然而,大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。
阿里研究院5月發(fā)布的《大模型訓練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達59.8%,而中文僅占 1.3%。
同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數(shù)據(jù),必然會輸出低質量結果。
在近日舉辦的第六屆北京智源大會上,中國互聯(lián)網(wǎng)協(xié)會理事長尚冰指出,高質量數(shù)據(jù)的生成速度遠低于AI大模型訓練數(shù)據(jù)需求量的增長速度,數(shù)據(jù)短缺問題已初現(xiàn)端倪。
如何獲取規(guī)模化高質量中文數(shù)據(jù)?建設高質量中文數(shù)據(jù)集的難點和堵點是什么?加速數(shù)據(jù)流通,推動中國特色大模型創(chuàng)新發(fā)展與應用的意義何在?對此,科技日報記者進行了采訪。
高質量中文語料供給嚴重匱乏
語料即大模型訓練所需數(shù)據(jù),是大模型訓練的基礎,也是決定大模型性能和專業(yè)性的關鍵因素。商湯科技大裝置事業(yè)群高級總監(jiān)張行程告訴記者,中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規(guī)模較小,且其電子化和網(wǎng)絡化程度明顯不足。此外,受版權、隱私等限制,許多優(yōu)質中文語料庫也無法公開獲取。
其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料?!栋灼分饕帉懗蓡T、阿里研究院數(shù)據(jù)經(jīng)濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規(guī)律,大模型需要學習大量知識和價值觀層面的數(shù)據(jù),這些數(shù)據(jù)深受人類主觀意志的影響。
在王崢看來,文言文、古漢語、電子書等反映優(yōu)秀傳統(tǒng)文化的內容,以及主流媒體發(fā)布的反映本土價值觀的內容,都可視為具有中式價值觀的高質量語料。
“訓練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性?!蓖鯈樥f,“更重要的是,能更好地服務中國本土用戶,滿足行業(yè)發(fā)展的需要。”
但目前面臨的實際困難是,這類語料開放共享與開發(fā)利用的程度遠遠不夠,且無法通過機器翻譯彌補其短缺問題?!栋灼分赋?#xff0c;中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發(fā)展的短板。
高質量中文語料的供給是中國大模型本土化的關鍵?!拔覀兿M袠I(yè)能加強企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同,共同推動高質量中文數(shù)據(jù)集的共享、開放,鼓勵數(shù)據(jù)提供方將高質量中文語料庫在一定范圍內公開,為各行各業(yè)大模型技術創(chuàng)新和應用奠定堅實的基礎,形成中國特色的AI大模型創(chuàng)新路徑,不斷提高國際競爭力。”張行程說。
供需雙方合作機制尚待完善
一方面,大模型廠商需要高質量數(shù)據(jù)支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質量中文語料庫的數(shù)據(jù)擁有者,如擁有各類圖書、文獻的出版商等,也期望在智能化時代實現(xiàn)數(shù)據(jù)增值。因此,探索數(shù)據(jù)供需雙方合作模式是關鍵。
然而,要推動數(shù)據(jù)供需雙方建立合作并非易事?!皵r路虎”到底是什么?
當前,大模型數(shù)據(jù)獲取主要有合理爬取、版權采購等途徑。
張行程透露,商湯目前的解決方案是聯(lián)合各機構盡量挖取、尋找現(xiàn)存的中文高質量語料,比如精心編校過的書本、論文等,以及向供應商購買版權語料。“雖然購買數(shù)量有限,但質量很高?!睆埿谐陶f。這是以前置協(xié)商付費方式來獲取版權類語料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問”大模型也采取了類似做法。
王錚還提到第二種潛在的方式,即與版權方協(xié)商,以訓練后的模型為版權方提供服務的方式進行對價。
然而,關于版權類語料使用,數(shù)據(jù)提供者和大模型廠商持有不同見解。王崢認為,大模型對版權類訓練語料的使用屬于轉換性使用,而非復制式拷貝,應構成“合理使用”或“法定許可”。
上海世紀出版集團數(shù)字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學習機制與人類學習有相似之處,使用版權類數(shù)據(jù)進行訓練,類似于人類閱讀文獻后撰寫論文而不標注參考文獻?!皬膶W術規(guī)范上來說,這種做法很難說沒有瑕疵?!彼f。
此外,大模型廠商訓練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構成“法定許可”。
在人工智能時代,高質量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認為,在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下,切實保障知識產(chǎn)權,對高質量數(shù)據(jù)集進行有效開發(fā)和高質量轉化,是出版行業(yè)的核心。
“出版行業(yè)為大模型提供語料,相應地,大模型的技術進步、功能提升,也應惠及包括出版行業(yè)在內的更廣泛群體?!眲⒁禾岢院献鞴糙A的方式與大模型廠商開展數(shù)據(jù)交易,通過訂立授權協(xié)議,明確授權范圍和條件,實現(xiàn)共同發(fā)展。
“如何將出版物進一步加工為數(shù)據(jù)要素并有效、有序流通,是擺在出版人面前的新問題?!敝袊霭?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀臣說,“但我認為這同樣是新機遇,因為我國出版行業(yè)一直強調知識服務這一理念。將出版物作為語料使用,從而提供產(chǎn)品和服務能力,正是出版知識服務的產(chǎn)品化體現(xiàn)?!?/p>
數(shù)據(jù)開源分享動力不足
目前,我國可供大模型訓練的優(yōu)質數(shù)據(jù)資源呈碎片化、分散狀態(tài)。
“特別是語料和科研成果等中文高質量數(shù)據(jù)集開放程度低,企業(yè)在訓練大模型時使用的語料來源不透明、權屬不明確,開源后存在合規(guī)風險,這導致企業(yè)更傾向于自行采集和使用數(shù)據(jù),大模型數(shù)據(jù)流通機制尚未形成。”王崢說。
北京理工大學管理學院副研究員尹西明認為,需要構建一個市場化、互利共贏的數(shù)據(jù)共享機制,以促進高質量中文數(shù)據(jù)的積累和有效利用。
“確立清晰的數(shù)據(jù)要素市場制度對于激發(fā)高質量數(shù)據(jù)集構建至關重要?!痹趶偷┐髮W教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,只有當市場機制能夠確保數(shù)據(jù)貢獻者獲得合理回報時,才能吸引更多的數(shù)據(jù)流入市場,充分挖掘并實現(xiàn)數(shù)據(jù)共享的巨大潛力與價值。
2023年12月31日,國家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,強調堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。
該行動計劃進一步明確,要提升數(shù)據(jù)供給水平,在科研、文化、交通運輸?shù)阮I域,推動科研機構、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設,打造高質量人工智能大模型訓練數(shù)據(jù)集。
事實上,作為數(shù)據(jù)流通領域中最大的“富礦”,公共數(shù)據(jù)開放的步伐正不斷加快?!度珖鴶?shù)據(jù)資源調查報告》顯示,2023年,我國公共數(shù)據(jù)開放量同比增長16%;省一級政府的開放數(shù)據(jù)量同比增長了18.5%,北京、浙江等15地數(shù)據(jù)管理部門開始探索公共數(shù)據(jù)授權運營機制。
今年初開始實施“數(shù)據(jù)入表”政策。張紀臣認為,隨著“數(shù)據(jù)入表”政策的實施,出版企業(yè)的數(shù)字資源經(jīng)過確權、評估、標準化后入表,成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎上構建大模型訓練使用方與出版企業(yè)共贏的商業(yè)模式,能發(fā)揮中國價值核心數(shù)據(jù)在人工智能時代的智能服務話語權?!斑@樣一來,‘數(shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動、共享并實現(xiàn)共贏的關鍵一步?!彼f。
數(shù)據(jù)流通環(huán)節(jié)問題突出
算法、算力、數(shù)據(jù)和場景是大模型發(fā)展的4個核心要素。當前,我國大模型算力算法能力顯著提升,高質量發(fā)展取決于數(shù)據(jù)和場景,應構建“供得出、流得通、用得好”的高質量數(shù)據(jù)集。
尹西明表示,大模型變強用好,前提是建立以場景驅動創(chuàng)新的思維,引領高質量數(shù)據(jù)持續(xù)在各種應用場景中發(fā)揮價值。那么,解決數(shù)據(jù)“供得出”難題后,應重點確保高質量數(shù)據(jù)“流得通”,真正面向場景釋放數(shù)據(jù)乘數(shù)效應和大模型對新質生產(chǎn)力的引擎價值。
數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要,數(shù)據(jù)要素流動帶來的開放性與動態(tài)性問題,為傳統(tǒng)數(shù)據(jù)理論與相應技術帶來新挑戰(zhàn)和新要求。
“其中之一便是數(shù)據(jù)確權?!毙ぱ鋈A表示,相比其他生產(chǎn)要素,數(shù)據(jù)要素在流通過程中主體更加多樣,涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運營者和其他產(chǎn)權人,權屬界定復雜。
北京智源人工智能研究院理事長、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會主任委員黃鐵軍指出:“當前普遍存在一種誤解,即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實,數(shù)據(jù)并非物理資產(chǎn),作為數(shù)字形態(tài)產(chǎn)品,它可以被無限次使用,且不會導致數(shù)據(jù)損耗?!?/p>
他提倡在確保使用合規(guī)的前提下,大模型訓練階段可以免費獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過程中并未產(chǎn)生商業(yè)利益,則無需支付任何費用;反之,一旦通過數(shù)據(jù)使用獲得了商業(yè)收益,便應按照既定比例支付相應的數(shù)據(jù)使用費用。
“雖然這一模式背后還涉及到數(shù)據(jù)確權、費率設定、監(jiān)管機制等復雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發(fā)展。”黃鐵軍說。
王崢則認為,確保數(shù)據(jù)流通需政府與企業(yè)、開源或非盈利組織、學界、多類型機構等社會力量協(xié)同推進。
他建議,在政府側,對可用于模型訓練的公共數(shù)據(jù)鼓勵“應開盡開”,避免在數(shù)據(jù)開放過程中因為預設特定場景限制了應用范圍;在社會力量側,應堅持“應試盡試”原則,通過不斷迭代,探索數(shù)據(jù)的有效搭配,尋找發(fā)揮最大價值的“配方”。
標注專業(yè)化、規(guī)模化提上日程
從2022年《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》出臺以來,數(shù)據(jù)要素建設和市場改革正穩(wěn)步推進。今年5月,國家數(shù)據(jù)局提出建設國家級數(shù)據(jù)標注基地,這一舉措對人工智能發(fā)展至關重要。
中國信息通信研究院人工智能研究所高級工程師、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會主任李蓀表示,數(shù)據(jù)標注是推動人工智能進步的核心環(huán)節(jié),它能夠提升數(shù)據(jù)質量,挖掘數(shù)據(jù)核心價值,形成高質量數(shù)據(jù)集,持續(xù)為AI提供數(shù)據(jù)支持。
也就是說,在一定程度解決數(shù)據(jù)供給、促進數(shù)據(jù)共享和打通流通機制后,如何讓大模型學習到高質量數(shù)據(jù),是接下來各界面臨的另一個新挑戰(zhàn)。
數(shù)據(jù)標注的專業(yè)性和規(guī)模化也被提上日程。
李蓀指出,當前國內數(shù)據(jù)標注產(chǎn)業(yè)還比較初級,大部分標注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統(tǒng)手工標注或簡單自動化標注方法無法滿足大模型對大規(guī)模、高質量、多樣化數(shù)據(jù)的需求,特別是具備模型訓練知識、行業(yè)領域知識的專業(yè)化數(shù)據(jù)標注人才也相對匱乏。
“大模型訓練數(shù)據(jù)標注人員的學歷要求比以前更高,很多是本科畢業(yè)?!蓖鯈槺硎?#xff0c;行業(yè)大模型數(shù)據(jù)標注凸顯了專業(yè)知識的重要性。
機器在對語言水平這一抽象概念進行評估時,必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節(jié)跳動合作開發(fā)了一款語言水平考試產(chǎn)品。實驗室負責人陳大建說,在研發(fā)階段,實驗室負責對自行收集的用戶音頻數(shù)據(jù)進行標注,其標注內容主要是基于音頻所體現(xiàn)的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成,且均為應用語言學專業(yè)的碩博士。
“吃”得好、“吃”得香,還要“吃”得夠。只有最終實現(xiàn)了規(guī)?;哔|量標注,才能切實提升大模型理解中文、傳遞中國傳統(tǒng)文化價值的能力。中國大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播,架起一座連接古今、溝通中外的橋梁。
中國出版集團中國圖書進出口總公司下屬中圖科信數(shù)智技術(北京)有限公司總經(jīng)理李沄沨認為,從正式出版物如文獻、學術專著等入手,依托先進的提取工具和解析技術,將出版物語料化、碎片化、標準化,加工成高質量的語料數(shù)據(jù),有別于一般的數(shù)據(jù)加工?!拔覀円呀?jīng)實現(xiàn)了大規(guī)模和批量開展數(shù)據(jù)語料化的技術和工具軟件,能夠更深層次地解析數(shù)據(jù),并形成獨立的圖片、表格、公式數(shù)據(jù)集,為大模型人工智能服務提供價值更高、標準程度更好的語料供給,使出版數(shù)據(jù)在人工智能時代煥發(fā)出新活力?!彼f。
在數(shù)字經(jīng)濟大潮中,數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著,成為推動相關產(chǎn)業(yè)高質量發(fā)展的必然要求。張紀臣認為:“我們正站在新一輪產(chǎn)業(yè)科技革命的門口。這是一個不進則退的時代?!?/p>
相關稿件