大模型發(fā)展提速中文語料夠“吃”嗎: 2024-06-27 14:21 來源：科技日報次閱讀; 分享：

　　采寫：本報記者龔茜

　　策劃：何屹房琳琳

　　繼去年“百模大戰(zhàn)”之后，今年國內大模型產(chǎn)業(yè)應用進入爆發(fā)元年。

　　然而，大模型產(chǎn)業(yè)發(fā)展如火如荼的同時，其訓練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質量參差不齊，尤其是高質量中文語料短缺的問題日益凸顯，成為各方關注焦點。

　　阿里研究院5月發(fā)布的《大模型訓練數(shù)據(jù)白皮書》（以下簡稱《白皮書》）顯示，互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異：在全球網(wǎng)站中，英文占比高達59.8%，而中文僅占 1.3%。

　　同樣，語料的質量會顯著影響大模型的性能。在大模型領域，輸入低質量數(shù)據(jù)，必然會輸出低質量結果。

　　在近日舉辦的第六屆北京智源大會上，中國互聯(lián)網(wǎng)協(xié)會理事長尚冰指出，高質量數(shù)據(jù)的生成速度遠低于AI大模型訓練數(shù)據(jù)需求量的增長速度，數(shù)據(jù)短缺問題已初現(xiàn)端倪。

　　如何獲取規(guī)模化高質量中文數(shù)據(jù)？建設高質量中文數(shù)據(jù)集的難點和堵點是什么？加速數(shù)據(jù)流通，推動中國特色大模型創(chuàng)新發(fā)展與應用的意義何在？對此，科技日報記者進行了采訪。

　　高質量中文語料供給嚴重匱乏

　　語料即大模型訓練所需數(shù)據(jù)，是大模型訓練的基礎，也是決定大模型性能和專業(yè)性的關鍵因素。商湯科技大裝置事業(yè)群高級總監(jiān)張行程告訴記者，中文高質量語料相對缺乏是國內外大模型面臨的共同問題。中文語料庫不僅規(guī)模較小，且其電子化和網(wǎng)絡化程度明顯不足。此外，受版權、隱私等限制，許多優(yōu)質中文語料庫也無法公開獲取。

　　其中，有一類型的中文語料極為重要，但又非常短缺——中式價值觀類語料?！栋灼分饕帉懗蓡T、阿里研究院數(shù)據(jù)經(jīng)濟研究中心副主任王崢解釋說，為了更好理解客觀世界和掌握客觀規(guī)律，大模型需要學習大量知識和價值觀層面的數(shù)據(jù)，這些數(shù)據(jù)深受人類主觀意志的影響。

　　在王崢看來，文言文、古漢語、電子書等反映優(yōu)秀傳統(tǒng)文化的內容，以及主流媒體發(fā)布的反映本土價值觀的內容，都可視為具有中式價值觀的高質量語料。

　　“訓練中融入更多這類中式價值觀語料，有助于大模型深入理解和反映中文使用者的文化背景和價值取向，從而在全球化背景下保持中國文化的獨特性?！蓖鯈樥f，“更重要的是，能更好地服務中國本土用戶，滿足行業(yè)發(fā)展的需要。”

　　但目前面臨的實際困難是，這類語料開放共享與開發(fā)利用的程度遠遠不夠，且無法通過機器翻譯彌補其短缺問題?！栋灼分赋?#xff0c;中文語料量的短缺尚有可解決方案，但中式價值觀類語料的短缺，則會成為制約我國大模型發(fā)展的短板。

　　高質量中文語料的供給是中國大模型本土化的關鍵?！拔覀兿Ｍ袠I(yè)能加強企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同，共同推動高質量中文數(shù)據(jù)集的共享、開放，鼓勵數(shù)據(jù)提供方將高質量中文語料庫在一定范圍內公開，為各行各業(yè)大模型技術創(chuàng)新和應用奠定堅實的基礎，形成中國特色的AI大模型創(chuàng)新路徑，不斷提高國際競爭力。”張行程說。

　　供需雙方合作機制尚待完善

　　一方面，大模型廠商需要高質量數(shù)據(jù)支撐，以解“巧婦難為無米之炊”的困境；另一方面，高質量中文語料庫的數(shù)據(jù)擁有者，如擁有各類圖書、文獻的出版商等，也期望在智能化時代實現(xiàn)數(shù)據(jù)增值。因此，探索數(shù)據(jù)供需雙方合作模式是關鍵。

　　然而，要推動數(shù)據(jù)供需雙方建立合作并非易事?！皵r路虎”到底是什么？

　　當前，大模型數(shù)據(jù)獲取主要有合理爬取、版權采購等途徑。

　　張行程透露，商湯目前的解決方案是聯(lián)合各機構盡量挖取、尋找現(xiàn)存的中文高質量語料，比如精心編校過的書本、論文等，以及向供應商購買版權語料。“雖然購買數(shù)量有限，但質量很高?！睆埿谐陶f。這是以前置協(xié)商付費方式來獲取版權類語料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問”大模型也采取了類似做法。

　　王錚還提到第二種潛在的方式，即與版權方協(xié)商，以訓練后的模型為版權方提供服務的方式進行對價。

　　然而，關于版權類語料使用，數(shù)據(jù)提供者和大模型廠商持有不同見解。王崢認為，大模型對版權類訓練語料的使用屬于轉換性使用，而非復制式拷貝，應構成“合理使用”或“法定許可”。

　　上海世紀出版集團數(shù)字出版部副主任劉寅春對此持有保留意見。她指出，大模型的深度學習機制與人類學習有相似之處，使用版權類數(shù)據(jù)進行訓練，類似于人類閱讀文獻后撰寫論文而不標注參考文獻?！皬膶W術規(guī)范上來說，這種做法很難說沒有瑕疵?！彼f。

　　此外，大模型廠商訓練大模型的最終目的是商用，這與“合理使用”的初衷和前提并不相符。“法定許可”需要滿足一定條件，包括說明作品的出處、作者姓名，并支付報酬。如果這些條件無法滿足，那么在顯性法律釋義下，這種行為很難構成“法定許可”。

　　在人工智能時代，高質量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認為，在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下，切實保障知識產(chǎn)權，對高質量數(shù)據(jù)集進行有效開發(fā)和高質量轉化，是出版行業(yè)的核心。

　　“出版行業(yè)為大模型提供語料，相應地，大模型的技術進步、功能提升，也應惠及包括出版行業(yè)在內的更廣泛群體?！眲⒁禾岢院献鞴糙A的方式與大模型廠商開展數(shù)據(jù)交易，通過訂立授權協(xié)議，明確授權范圍和條件，實現(xiàn)共同發(fā)展。

　　“如何將出版物進一步加工為數(shù)據(jù)要素并有效、有序流通，是擺在出版人面前的新問題?！敝袊霭?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀臣說，“但我認為這同樣是新機遇，因為我國出版行業(yè)一直強調知識服務這一理念。將出版物作為語料使用，從而提供產(chǎn)品和服務能力，正是出版知識服務的產(chǎn)品化體現(xiàn)?！?/p>

　　數(shù)據(jù)開源分享動力不足

　　目前，我國可供大模型訓練的優(yōu)質數(shù)據(jù)資源呈碎片化、分散狀態(tài)。

　　“特別是語料和科研成果等中文高質量數(shù)據(jù)集開放程度低，企業(yè)在訓練大模型時使用的語料來源不透明、權屬不明確，開源后存在合規(guī)風險，這導致企業(yè)更傾向于自行采集和使用數(shù)據(jù)，大模型數(shù)據(jù)流通機制尚未形成。”王崢說。

　　北京理工大學管理學院副研究員尹西明認為，需要構建一個市場化、互利共贏的數(shù)據(jù)共享機制，以促進高質量中文數(shù)據(jù)的積累和有效利用。

　　“確立清晰的數(shù)據(jù)要素市場制度對于激發(fā)高質量數(shù)據(jù)集構建至關重要?！痹趶偷┐髮W教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來，只有當市場機制能夠確保數(shù)據(jù)貢獻者獲得合理回報時，才能吸引更多的數(shù)據(jù)流入市場，充分挖掘并實現(xiàn)數(shù)據(jù)共享的巨大潛力與價值。

　　2023年12月31日，國家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計劃（2024—2026年）》，強調堅持需求牽引、注重實效，試點先行、重點突破，有效市場、有為政府，開放融合、安全有序4方面基本原則。

　　該行動計劃進一步明確，要提升數(shù)據(jù)供給水平，在科研、文化、交通運輸?shù)阮I域，推動科研機構、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設，打造高質量人工智能大模型訓練數(shù)據(jù)集。

　　事實上，作為數(shù)據(jù)流通領域中最大的“富礦”，公共數(shù)據(jù)開放的步伐正不斷加快?！度珖鴶?shù)據(jù)資源調查報告》顯示，2023年，我國公共數(shù)據(jù)開放量同比增長16%；省一級政府的開放數(shù)據(jù)量同比增長了18.5%，北京、浙江等15地數(shù)據(jù)管理部門開始探索公共數(shù)據(jù)授權運營機制。

　　今年初開始實施“數(shù)據(jù)入表”政策。張紀臣認為，隨著“數(shù)據(jù)入表”政策的實施，出版企業(yè)的數(shù)字資源經(jīng)過確權、評估、標準化后入表，成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎上構建大模型訓練使用方與出版企業(yè)共贏的商業(yè)模式，能發(fā)揮中國價值核心數(shù)據(jù)在人工智能時代的智能服務話語權?！斑@樣一來，‘數(shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動、共享并實現(xiàn)共贏的關鍵一步?！彼f。

　　數(shù)據(jù)流通環(huán)節(jié)問題突出

　　算法、算力、數(shù)據(jù)和場景是大模型發(fā)展的4個核心要素。當前，我國大模型算力算法能力顯著提升，高質量發(fā)展取決于數(shù)據(jù)和場景，應構建“供得出、流得通、用得好”的高質量數(shù)據(jù)集。

　　尹西明表示，大模型變強用好，前提是建立以場景驅動創(chuàng)新的思維，引領高質量數(shù)據(jù)持續(xù)在各種應用場景中發(fā)揮價值。那么，解決數(shù)據(jù)“供得出”難題后，應重點確保高質量數(shù)據(jù)“流得通”，真正面向場景釋放數(shù)據(jù)乘數(shù)效應和大模型對新質生產(chǎn)力的引擎價值。

　　數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要，數(shù)據(jù)要素流動帶來的開放性與動態(tài)性問題，為傳統(tǒng)數(shù)據(jù)理論與相應技術帶來新挑戰(zhàn)和新要求。

　　“其中之一便是數(shù)據(jù)確權?！毙ぱ鋈A表示，相比其他生產(chǎn)要素，數(shù)據(jù)要素在流通過程中主體更加多樣，涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運營者和其他產(chǎn)權人，權屬界定復雜。

　　北京智源人工智能研究院理事長、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會主任委員黃鐵軍指出：“當前普遍存在一種誤解，即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實，數(shù)據(jù)并非物理資產(chǎn)，作為數(shù)字形態(tài)產(chǎn)品，它可以被無限次使用，且不會導致數(shù)據(jù)損耗?！?/p>

　　他提倡在確保使用合規(guī)的前提下，大模型訓練階段可以免費獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過程中并未產(chǎn)生商業(yè)利益，則無需支付任何費用；反之，一旦通過數(shù)據(jù)使用獲得了商業(yè)收益，便應按照既定比例支付相應的數(shù)據(jù)使用費用。

　　“雖然這一模式背后還涉及到數(shù)據(jù)確權、費率設定、監(jiān)管機制等復雜問題，這些還有待深入探討和解決，但‘先使用后收益’更有利于大模型的健康發(fā)展。”黃鐵軍說。

　　王崢則認為，確保數(shù)據(jù)流通需政府與企業(yè)、開源或非盈利組織、學界、多類型機構等社會力量協(xié)同推進。

　　他建議，在政府側，對可用于模型訓練的公共數(shù)據(jù)鼓勵“應開盡開”，避免在數(shù)據(jù)開放過程中因為預設特定場景限制了應用范圍；在社會力量側，應堅持“應試盡試”原則，通過不斷迭代，探索數(shù)據(jù)的有效搭配，尋找發(fā)揮最大價值的“配方”。

　　標注專業(yè)化、規(guī)模化提上日程

　　從2022年《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》出臺以來，數(shù)據(jù)要素建設和市場改革正穩(wěn)步推進。今年5月，國家數(shù)據(jù)局提出建設國家級數(shù)據(jù)標注基地，這一舉措對人工智能發(fā)展至關重要。

　　中國信息通信研究院人工智能研究所高級工程師、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會主任李蓀表示，數(shù)據(jù)標注是推動人工智能進步的核心環(huán)節(jié)，它能夠提升數(shù)據(jù)質量，挖掘數(shù)據(jù)核心價值，形成高質量數(shù)據(jù)集，持續(xù)為AI提供數(shù)據(jù)支持。

　　也就是說，在一定程度解決數(shù)據(jù)供給、促進數(shù)據(jù)共享和打通流通機制后，如何讓大模型學習到高質量數(shù)據(jù)，是接下來各界面臨的另一個新挑戰(zhàn)。

　　數(shù)據(jù)標注的專業(yè)性和規(guī)模化也被提上日程。

　　李蓀指出，當前國內數(shù)據(jù)標注產(chǎn)業(yè)還比較初級，大部分標注工作以人工為主，勞動密集型特點比較突出。但是，在通用人工智能時代，傳統(tǒng)手工標注或簡單自動化標注方法無法滿足大模型對大規(guī)模、高質量、多樣化數(shù)據(jù)的需求，特別是具備模型訓練知識、行業(yè)領域知識的專業(yè)化數(shù)據(jù)標注人才也相對匱乏。

　　“大模型訓練數(shù)據(jù)標注人員的學歷要求比以前更高，很多是本科畢業(yè)?！蓖鯈槺硎?#xff0c;行業(yè)大模型數(shù)據(jù)標注凸顯了專業(yè)知識的重要性。

　　機器在對語言水平這一抽象概念進行評估時，必須依賴預先設定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節(jié)跳動合作開發(fā)了一款語言水平考試產(chǎn)品。實驗室負責人陳大建說，在研發(fā)階段，實驗室負責對自行收集的用戶音頻數(shù)據(jù)進行標注，其標注內容主要是基于音頻所體現(xiàn)的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成，且均為應用語言學專業(yè)的碩博士。

　　“吃”得好、“吃”得香，還要“吃”得夠。只有最終實現(xiàn)了規(guī)?；哔|量標注，才能切實提升大模型理解中文、傳遞中國傳統(tǒng)文化價值的能力。中國大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播，架起一座連接古今、溝通中外的橋梁。

　　中國出版集團中國圖書進出口總公司下屬中圖科信數(shù)智技術（北京）有限公司總經(jīng)理李沄沨認為，從正式出版物如文獻、學術專著等入手，依托先進的提取工具和解析技術，將出版物語料化、碎片化、標準化，加工成高質量的語料數(shù)據(jù)，有別于一般的數(shù)據(jù)加工?！拔覀円呀?jīng)實現(xiàn)了大規(guī)模和批量開展數(shù)據(jù)語料化的技術和工具軟件，能夠更深層次地解析數(shù)據(jù)，并形成獨立的圖片、表格、公式數(shù)據(jù)集，為大模型人工智能服務提供價值更高、標準程度更好的語料供給，使出版數(shù)據(jù)在人工智能時代煥發(fā)出新活力?！彼f。

　　在數(shù)字經(jīng)濟大潮中，數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著，成為推動相關產(chǎn)業(yè)高質量發(fā)展的必然要求。張紀臣認為：“我們正站在新一輪產(chǎn)業(yè)科技革命的門口。這是一個不進則退的時代?！?/p>

點贊()

上一條：“硬科技”上新　5G-A商用加速 2024-06-27

下一條：大模型發(fā)展提速中文語料夠“吃”嗎2024-06-27

相關稿件: AI大模型助力金融高質量發(fā)展！馬上消費“天鏡大模型”問世 2023-08-30; 大模型，冷靜！ 2023-07-25; 大模型發(fā)展再迎政策利好 2024-01-24; 發(fā)展大模型賦能數(shù)字重慶建設 2023-10-23; 杜蘭：AI大模型應更多應用于實體產(chǎn)業(yè)發(fā)展 2023-08-21

九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

大模型發(fā)展提速 中文語料夠“吃”嗎

大模型發(fā)展提速中文語料夠“吃”嗎