自ChatGPT的發(fā)布引發(fā)全球范圍內(nèi)對(duì)大模型的廣泛關(guān)注以來(lái),目前,國(guó)內(nèi)公布的大模型數(shù)量已超過(guò)300個(gè),行業(yè)呈現(xiàn)出“百模大戰(zhàn)”的競(jìng)爭(zhēng)格局。在此背景下,億歐近日發(fā)布《2024中國(guó)“百模大戰(zhàn)”競(jìng)爭(zhēng)格局分析報(bào)告》,全方位呈現(xiàn)大模型產(chǎn)業(yè)現(xiàn)狀。作為產(chǎn)業(yè)鏈上的重要一環(huán),澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大模型基礎(chǔ)層圖譜。與此同時(shí),作為大模型數(shù)據(jù)領(lǐng)域的代表案例,本次報(bào)告還分析了澳鵬如何成功助力全球15,000+個(gè)AI項(xiàng)目的研發(fā)及商業(yè)化,賦能AGI智能涌現(xiàn)。
澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大模型基礎(chǔ)層圖譜
隨著“數(shù)據(jù)二十條”等一系列政策措施相繼出臺(tái),數(shù)據(jù)要素市場(chǎng)的探索與發(fā)展已步入高速增長(zhǎng)階段。據(jù)億歐預(yù)計(jì),2025年數(shù)據(jù)要素市場(chǎng)規(guī)??蛇_(dá)1990億元,年復(fù)合增長(zhǎng)率可達(dá)25%。尤其是在人工智能快速迭代、大模型與數(shù)據(jù)相得益彰的發(fā)展態(tài)勢(shì)中,數(shù)據(jù)要素的戰(zhàn)略地位進(jìn)一步凸顯。
澳鵬(中國(guó))自主研發(fā)的大模型智能開(kāi)發(fā)平臺(tái)集大模型數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理、部署應(yīng)用于一體,支持從數(shù)據(jù)集管理、數(shù)據(jù)標(biāo)注、模型評(píng)估、模型調(diào)優(yōu)、訓(xùn)練平臺(tái)部署及標(biāo)注工具部署等大模型定制開(kāi)發(fā)的全流程需求,助力企業(yè)輕松擁抱大模型。
澳鵬(中國(guó))自主研發(fā)的大模型智能開(kāi)發(fā)平臺(tái)
澳鵬大模型智能開(kāi)發(fā)平臺(tái)涵蓋三大核心技術(shù):自研的預(yù)標(biāo)注模型、交互式分割模型及算法賦能的文檔智能。首先,澳鵬通過(guò)海量圖像、點(diǎn)云等數(shù)據(jù),結(jié)合豐富的實(shí)際項(xiàng)目經(jīng)驗(yàn),預(yù)訓(xùn)練了車輛行駛、交通燈、停車位、人像識(shí)別等多場(chǎng)景預(yù)標(biāo)注模型,可實(shí)現(xiàn)2D3D聯(lián)合拉框、視頻連續(xù)幀mask追蹤等全方位的預(yù)識(shí)別結(jié)果輸出,大幅提高后續(xù)標(biāo)注效率。
澳鵬自研預(yù)標(biāo)注模型
為適應(yīng)2D圖像標(biāo)注中多樣化的物體類別分割與檢測(cè),澳鵬結(jié)合豐富的圖像數(shù)據(jù)訓(xùn)練了交互式分割模型并內(nèi)嵌于標(biāo)注工具中。僅需通過(guò)點(diǎn)擊的方式標(biāo)記正確區(qū)域并糾正輸出結(jié)果,即可完成物體識(shí)別;再結(jié)合連續(xù)幀信息引入,大幅提升2D圖像標(biāo)注效率。模型支持微調(diào)訓(xùn)練,可適應(yīng)定制化的場(chǎng)景需求。
澳鵬交互式分割模型
為解決各類場(chǎng)景下的文檔信息轉(zhuǎn)化提取難題,澳鵬基于海量文檔數(shù)據(jù)預(yù)訓(xùn)練了智能文檔處理模型。支持輸入圖片或PDF格式文檔,對(duì)帶陰影圖片、傾斜圖片、手寫(xiě)表格、各類學(xué)科公式等多類信息進(jìn)行識(shí)別,并轉(zhuǎn)化成word文檔輸出,便于人工編輯校對(duì)。
澳鵬Appen算法賦能的文檔智能
隨著大模型技術(shù)的演進(jìn),其賦能千行百業(yè)的能力不斷提升。在數(shù)據(jù)集方面,澳鵬LLM數(shù)據(jù)庫(kù)覆蓋教育、法律、醫(yī)療、金融、百科等眾多熱門(mén)垂直領(lǐng)域,提供超過(guò)290種語(yǔ)言和方言的文本、語(yǔ)音數(shù)據(jù)庫(kù),并創(chuàng)建了一系列大模型專用數(shù)據(jù)集,如:百科類人工泛化文本問(wèn)答數(shù)據(jù)集,知識(shí)類百科文本語(yǔ)料對(duì)數(shù)據(jù)庫(kù),58億圖文對(duì)數(shù)據(jù)庫(kù)等等。澳鵬提供JSON格式的多學(xué)科題目,并擁有20萬(wàn)余條各種不同類型的高質(zhì)量指令集文本及法律醫(yī)療百科類文本,通過(guò)多重質(zhì)檢環(huán)節(jié)嚴(yán)格把關(guān)數(shù)據(jù)質(zhì)量,助力通用大模型和各種細(xì)分垂類大模型的訓(xùn)練和落地。
澳鵬Appen全球高級(jí)副總裁、大中華區(qū)及北亞區(qū)總經(jīng)理田小鵬博士表示:“數(shù)據(jù)是決定機(jī)器學(xué)習(xí)模型性能的三大要素之一。隨著各類大模型的智能涌現(xiàn),數(shù)據(jù),尤其是高質(zhì)量的行業(yè)數(shù)據(jù),正在成為決定大模型高速發(fā)展的關(guān)鍵因素。澳鵬自研的算法模型和核心技術(shù),以及一系列大模型數(shù)據(jù)集,充分給予AI應(yīng)用優(yōu)質(zhì)的數(shù)據(jù)養(yǎng)料,為大規(guī)模的大模型場(chǎng)景落地提供支持?!?br />
相關(guān)稿件