九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

中國企業(yè)報集團主管主辦

中國企業(yè)信息交流平臺

微博 微信

大模型發(fā)展提速 中文語料夠“吃”嗎

2024-06-27 14:21 來源:科技日報 次閱讀
 
大模型發(fā)展提速 中文語料夠“吃”嗎

  采寫:本報記者 龔 茜

  策劃:何 屹 房琳琳

  繼去年“百模大戰(zhàn)”之后,今年國內大模型產(chǎn)業(yè)應用進入爆發(fā)元年。

  然而,大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質量參差不齊,尤其是高質量中文語料短缺的問題日益凸顯,成為各方關注焦點。

  阿里研究院5月發(fā)布的《大模型訓練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達59.8%,而中文僅占 1.3%。

  同樣,語料的質量會顯著影響大模型的性能。在大模型領域,輸入低質量數(shù)據(jù),必然會輸出低質量結果。

  在近日舉辦的第六屆北京智源大會上,中國互聯(lián)網(wǎng)協(xié)會理事長尚冰指出,高質量數(shù)據(jù)的生成速度遠低于AI大模型訓練數(shù)據(jù)需求量的增長速度,數(shù)據(jù)短缺問題已初現(xiàn)端倪。

  如何獲取規(guī)模化高質量中文數(shù)據(jù)?建設高質量中文數(shù)據(jù)集的難點和堵點是什么?加速數(shù)據(jù)流通,推動中國特色大模型創(chuàng)新發(fā)展與應用的意義何在?對此,科技日報記者進行了采訪。

  高質量中文語料供給嚴重匱乏

  語料即大模型訓練所需數(shù)據(jù),是大模型訓練的基礎,也是決定大模型性能和專業(yè)性的關鍵因素。商湯科技大裝置事業(yè)群高級總監(jiān)張行程告訴記者,中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規(guī)模較小,且其電子化和網(wǎng)絡化程度明顯不足。此外,受版權、隱私等限制,許多優(yōu)質中文語料庫也無法公開獲取。

  其中,有一類型的中文語料極為重要,但又非常短缺——中式價值觀類語料?!栋灼分饕帉懗蓡T、阿里研究院數(shù)據(jù)經(jīng)濟研究中心副主任王崢解釋說,為了更好理解客觀世界和掌握客觀規(guī)律,大模型需要學習大量知識和價值觀層面的數(shù)據(jù),這些數(shù)據(jù)深受人類主觀意志的影響。

  在王崢看來,文言文、古漢語、電子書等反映優(yōu)秀傳統(tǒng)文化的內容,以及主流媒體發(fā)布的反映本土價值觀的內容,都可視為具有中式價值觀的高質量語料。

  “訓練中融入更多這類中式價值觀語料,有助于大模型深入理解和反映中文使用者的文化背景和價值取向,從而在全球化背景下保持中國文化的獨特性?!蓖鯈樥f,“更重要的是,能更好地服務中國本土用戶,滿足行業(yè)發(fā)展的需要。”

  但目前面臨的實際困難是,這類語料開放共享與開發(fā)利用的程度遠遠不夠,且無法通過機器翻譯彌補其短缺問題?!栋灼分赋?#xff0c;中文語料量的短缺尚有可解決方案,但中式價值觀類語料的短缺,則會成為制約我國大模型發(fā)展的短板。

  高質量中文語料的供給是中國大模型本土化的關鍵?!拔覀兿M袠I(yè)能加強企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同,共同推動高質量中文數(shù)據(jù)集的共享、開放,鼓勵數(shù)據(jù)提供方將高質量中文語料庫在一定范圍內公開,為各行各業(yè)大模型技術創(chuàng)新和應用奠定堅實的基礎,形成中國特色的AI大模型創(chuàng)新路徑,不斷提高國際競爭力。”張行程說。

  供需雙方合作機制尚待完善

  一方面,大模型廠商需要高質量數(shù)據(jù)支撐,以解“巧婦難為無米之炊”的困境;另一方面,高質量中文語料庫的數(shù)據(jù)擁有者,如擁有各類圖書、文獻的出版商等,也期望在智能化時代實現(xiàn)數(shù)據(jù)增值。因此,探索數(shù)據(jù)供需雙方合作模式是關鍵。

  然而,要推動數(shù)據(jù)供需雙方建立合作并非易事?!皵r路虎”到底是什么?

  當前,大模型數(shù)據(jù)獲取主要有合理爬取、版權采購等途徑。

  張行程透露,商湯目前的解決方案是聯(lián)合各機構盡量挖取、尋找現(xiàn)存的中文高質量語料,比如精心編校過的書本、論文等,以及向供應商購買版權語料。“雖然購買數(shù)量有限,但質量很高?!睆埿谐陶f。這是以前置協(xié)商付費方式來獲取版權類語料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問”大模型也采取了類似做法。

  王錚還提到第二種潛在的方式,即與版權方協(xié)商,以訓練后的模型為版權方提供服務的方式進行對價。

  然而,關于版權類語料使用,數(shù)據(jù)提供者和大模型廠商持有不同見解。王崢認為,大模型對版權類訓練語料的使用屬于轉換性使用,而非復制式拷貝,應構成“合理使用”或“法定許可”。

  上海世紀出版集團數(shù)字出版部副主任劉寅春對此持有保留意見。她指出,大模型的深度學習機制與人類學習有相似之處,使用版權類數(shù)據(jù)進行訓練,類似于人類閱讀文獻后撰寫論文而不標注參考文獻?!皬膶W術規(guī)范上來說,這種做法很難說沒有瑕疵?!彼f。

  此外,大模型廠商訓練大模型的最終目的是商用,這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件,包括說明作品的出處、作者姓名,并支付報酬。如果這些條件無法滿足,那么在顯性法律釋義下,這種行為很難構成“法定許可”。

  在人工智能時代,高質量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認為,在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下,切實保障知識產(chǎn)權,對高質量數(shù)據(jù)集進行有效開發(fā)和高質量轉化,是出版行業(yè)的核心。

  “出版行業(yè)為大模型提供語料,相應地,大模型的技術進步、功能提升,也應惠及包括出版行業(yè)在內的更廣泛群體?!眲⒁禾岢院献鞴糙A的方式與大模型廠商開展數(shù)據(jù)交易,通過訂立授權協(xié)議,明確授權范圍和條件,實現(xiàn)共同發(fā)展。

  “如何將出版物進一步加工為數(shù)據(jù)要素并有效、有序流通,是擺在出版人面前的新問題?!敝袊霭?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀臣說,“但我認為這同樣是新機遇,因為我國出版行業(yè)一直強調知識服務這一理念。將出版物作為語料使用,從而提供產(chǎn)品和服務能力,正是出版知識服務的產(chǎn)品化體現(xiàn)?!?/p>

  數(shù)據(jù)開源分享動力不足

  目前,我國可供大模型訓練的優(yōu)質數(shù)據(jù)資源呈碎片化、分散狀態(tài)。

  “特別是語料和科研成果等中文高質量數(shù)據(jù)集開放程度低,企業(yè)在訓練大模型時使用的語料來源不透明、權屬不明確,開源后存在合規(guī)風險,這導致企業(yè)更傾向于自行采集和使用數(shù)據(jù),大模型數(shù)據(jù)流通機制尚未形成。”王崢說。

  北京理工大學管理學院副研究員尹西明認為,需要構建一個市場化、互利共贏的數(shù)據(jù)共享機制,以促進高質量中文數(shù)據(jù)的積累和有效利用。

  “確立清晰的數(shù)據(jù)要素市場制度對于激發(fā)高質量數(shù)據(jù)集構建至關重要?!痹趶偷┐髮W教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,只有當市場機制能夠確保數(shù)據(jù)貢獻者獲得合理回報時,才能吸引更多的數(shù)據(jù)流入市場,充分挖掘并實現(xiàn)數(shù)據(jù)共享的巨大潛力與價值。

  2023年12月31日,國家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,強調堅持需求牽引、注重實效,試點先行、重點突破,有效市場、有為政府,開放融合、安全有序4方面基本原則。

  該行動計劃進一步明確,要提升數(shù)據(jù)供給水平,在科研、文化、交通運輸?shù)阮I域,推動科研機構、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設,打造高質量人工智能大模型訓練數(shù)據(jù)集。

  事實上,作為數(shù)據(jù)流通領域中最大的“富礦”,公共數(shù)據(jù)開放的步伐正不斷加快?!度珖鴶?shù)據(jù)資源調查報告》顯示,2023年,我國公共數(shù)據(jù)開放量同比增長16%;省一級政府的開放數(shù)據(jù)量同比增長了18.5%,北京、浙江等15地數(shù)據(jù)管理部門開始探索公共數(shù)據(jù)授權運營機制。

  今年初開始實施“數(shù)據(jù)入表”政策。張紀臣認為,隨著“數(shù)據(jù)入表”政策的實施,出版企業(yè)的數(shù)字資源經(jīng)過確權、評估、標準化后入表,成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎上構建大模型訓練使用方與出版企業(yè)共贏的商業(yè)模式,能發(fā)揮中國價值核心數(shù)據(jù)在人工智能時代的智能服務話語權?!斑@樣一來,‘數(shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動、共享并實現(xiàn)共贏的關鍵一步?!彼f。

  數(shù)據(jù)流通環(huán)節(jié)問題突出

  算法、算力、數(shù)據(jù)和場景是大模型發(fā)展的4個核心要素。當前,我國大模型算力算法能力顯著提升,高質量發(fā)展取決于數(shù)據(jù)和場景,應構建“供得出、流得通、用得好”的高質量數(shù)據(jù)集。

  尹西明表示,大模型變強用好,前提是建立以場景驅動創(chuàng)新的思維,引領高質量數(shù)據(jù)持續(xù)在各種應用場景中發(fā)揮價值。那么,解決數(shù)據(jù)“供得出”難題后,應重點確保高質量數(shù)據(jù)“流得通”,真正面向場景釋放數(shù)據(jù)乘數(shù)效應和大模型對新質生產(chǎn)力的引擎價值。

  數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要,數(shù)據(jù)要素流動帶來的開放性與動態(tài)性問題,為傳統(tǒng)數(shù)據(jù)理論與相應技術帶來新挑戰(zhàn)和新要求。

  “其中之一便是數(shù)據(jù)確權?!毙ぱ鋈A表示,相比其他生產(chǎn)要素,數(shù)據(jù)要素在流通過程中主體更加多樣,涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運營者和其他產(chǎn)權人,權屬界定復雜。

  北京智源人工智能研究院理事長、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會主任委員黃鐵軍指出:“當前普遍存在一種誤解,即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實,數(shù)據(jù)并非物理資產(chǎn),作為數(shù)字形態(tài)產(chǎn)品,它可以被無限次使用,且不會導致數(shù)據(jù)損耗?!?/p>

  他提倡在確保使用合規(guī)的前提下,大模型訓練階段可以免費獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過程中并未產(chǎn)生商業(yè)利益,則無需支付任何費用;反之,一旦通過數(shù)據(jù)使用獲得了商業(yè)收益,便應按照既定比例支付相應的數(shù)據(jù)使用費用。

  “雖然這一模式背后還涉及到數(shù)據(jù)確權、費率設定、監(jiān)管機制等復雜問題,這些還有待深入探討和解決,但‘先使用后收益’更有利于大模型的健康發(fā)展。”黃鐵軍說。

  王崢則認為,確保數(shù)據(jù)流通需政府與企業(yè)、開源或非盈利組織、學界、多類型機構等社會力量協(xié)同推進。

  他建議,在政府側,對可用于模型訓練的公共數(shù)據(jù)鼓勵“應開盡開”,避免在數(shù)據(jù)開放過程中因為預設特定場景限制了應用范圍;在社會力量側,應堅持“應試盡試”原則,通過不斷迭代,探索數(shù)據(jù)的有效搭配,尋找發(fā)揮最大價值的“配方”。

  標注專業(yè)化、規(guī)模化提上日程

  從2022年《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》出臺以來,數(shù)據(jù)要素建設和市場改革正穩(wěn)步推進。今年5月,國家數(shù)據(jù)局提出建設國家級數(shù)據(jù)標注基地,這一舉措對人工智能發(fā)展至關重要。

  中國信息通信研究院人工智能研究所高級工程師、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會主任李蓀表示,數(shù)據(jù)標注是推動人工智能進步的核心環(huán)節(jié),它能夠提升數(shù)據(jù)質量,挖掘數(shù)據(jù)核心價值,形成高質量數(shù)據(jù)集,持續(xù)為AI提供數(shù)據(jù)支持。

  也就是說,在一定程度解決數(shù)據(jù)供給、促進數(shù)據(jù)共享和打通流通機制后,如何讓大模型學習到高質量數(shù)據(jù),是接下來各界面臨的另一個新挑戰(zhàn)。

  數(shù)據(jù)標注的專業(yè)性和規(guī)模化也被提上日程。

  李蓀指出,當前國內數(shù)據(jù)標注產(chǎn)業(yè)還比較初級,大部分標注工作以人工為主,勞動密集型特點比較突出。但是,在通用人工智能時代,傳統(tǒng)手工標注或簡單自動化標注方法無法滿足大模型對大規(guī)模、高質量、多樣化數(shù)據(jù)的需求,特別是具備模型訓練知識、行業(yè)領域知識的專業(yè)化數(shù)據(jù)標注人才也相對匱乏。

  “大模型訓練數(shù)據(jù)標注人員的學歷要求比以前更高,很多是本科畢業(yè)?!蓖鯈槺硎?#xff0c;行業(yè)大模型數(shù)據(jù)標注凸顯了專業(yè)知識的重要性。

  機器在對語言水平這一抽象概念進行評估時,必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節(jié)跳動合作開發(fā)了一款語言水平考試產(chǎn)品。實驗室負責人陳大建說,在研發(fā)階段,實驗室負責對自行收集的用戶音頻數(shù)據(jù)進行標注,其標注內容主要是基于音頻所體現(xiàn)的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成,且均為應用語言學專業(yè)的碩博士。

  “吃”得好、“吃”得香,還要“吃”得夠。只有最終實現(xiàn)了規(guī)?;哔|量標注,才能切實提升大模型理解中文、傳遞中國傳統(tǒng)文化價值的能力。中國大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播,架起一座連接古今、溝通中外的橋梁。

  中國出版集團中國圖書進出口總公司下屬中圖科信數(shù)智技術(北京)有限公司總經(jīng)理李沄沨認為,從正式出版物如文獻、學術專著等入手,依托先進的提取工具和解析技術,將出版物語料化、碎片化、標準化,加工成高質量的語料數(shù)據(jù),有別于一般的數(shù)據(jù)加工?!拔覀円呀?jīng)實現(xiàn)了大規(guī)模和批量開展數(shù)據(jù)語料化的技術和工具軟件,能夠更深層次地解析數(shù)據(jù),并形成獨立的圖片、表格、公式數(shù)據(jù)集,為大模型人工智能服務提供價值更高、標準程度更好的語料供給,使出版數(shù)據(jù)在人工智能時代煥發(fā)出新活力?!彼f。

  在數(shù)字經(jīng)濟大潮中,數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著,成為推動相關產(chǎn)業(yè)高質量發(fā)展的必然要求。張紀臣認為:“我們正站在新一輪產(chǎn)業(yè)科技革命的門口。這是一個不進則退的時代?!?/p>

點贊()
上一條:“硬科技”上新 5G-A商用加速 2024-06-27
下一條:大模型發(fā)展提速 中文語料夠“吃”嗎2024-06-27

相關稿件

AI大模型助力金融高質量發(fā)展!馬上消費“天鏡大模型”問世 2023-08-30
大模型,冷靜! 2023-07-25
大模型發(fā)展再迎政策利好 2024-01-24
發(fā)展大模型賦能數(shù)字重慶建設 2023-10-23
杜蘭:AI大模型應更多應用于實體產(chǎn)業(yè)發(fā)展 2023-08-21
國務院國有資產(chǎn)管理委員會 中國企業(yè)聯(lián)合會 中國企業(yè)報 中國社會經(jīng)濟網(wǎng) 中國國際電子商務網(wǎng) 新浪財經(jīng) 鳳凰財經(jīng) 中國報告基地 企業(yè)社會責任中國網(wǎng) 杭州網(wǎng) 中國產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國網(wǎng) 天機網(wǎng) 中貿網(wǎng) 湖南經(jīng)濟新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國經(jīng)濟網(wǎng) 中國企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟網(wǎng) 華訊財經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當代金融家雜志 借貸撮合網(wǎng) 大公財經(jīng) 誠搜網(wǎng) 中國鋼鐵現(xiàn)貨網(wǎng) 證券之星 融易在線 2014世界杯 中華魂網(wǎng) 納稅人俱樂部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國國資報道 金融界 中國農業(yè)新聞網(wǎng) 中國招商聯(lián)盟 和訊股票 經(jīng)濟網(wǎng) 中國數(shù)據(jù)分析行業(yè)網(wǎng) 中國報道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng)新企業(yè)誠信聯(lián)盟網(wǎng) 中國白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國石油化工集團 中國保利集團公司 東風汽車公司 中國化工集團公司 中國電信集團公司 華為技術有限公司 廈門銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來健醫(yī)療器械有限公司 中國能源建設股份有限公司 內蒙古伊利實業(yè)集團股份有限公司 中國移動通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司