11月27日,浪潮電子信息產(chǎn)業(yè)股份有限公司在京發(fā)布“源2.0”基礎大模型,并宣布全面開源。“源2.0”包括102B(1026億)、51B(518億)、2B(21億)三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進的能力。
基礎大模型的關鍵能力是大模型行業(yè)和應用落地能力表現(xiàn)的核心支撐。在算法、數(shù)據(jù)和算力等方面,“源2.0”提出了新的改進方法并獲得了能力的提升。
“源2.0”能力測評數(shù)據(jù)(浪潮信息供圖)
如在算法方面,“源2.0”提出并采用了一種新型的注意力算法結(jié)構(gòu)“局部注意力過濾增強機制”,讓大模型在使用更少的訓練算力、更小的模型參數(shù)的情況下,同樣可以獲得更高的模型精度和涌現(xiàn)能力;數(shù)據(jù)方面,降低了互聯(lián)網(wǎng)語料內(nèi)容占比,通過使用中英文書籍、百科、論文等資料,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓練提供了高質(zhì)量的學科專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。
作為千億級基礎大模型,“源2.0”在業(yè)界公開的評測上進行了代碼生成、數(shù)學問題求解、事實問答方面的能力測試,測試結(jié)果顯示,“源2.0”在多項模型評測中展示出了較為先進的能力表現(xiàn)。
“源2.0”采用全面開源策略,全系列模型參數(shù)和代碼均可免費下載使用。“大模型的開源開放可以使不同模型之間共享底層數(shù)據(jù)、算法和代碼,有利于打破大模型孤島,促進模型之間協(xié)作和更新迭代;同時,有利于以更豐富的高質(zhì)量行業(yè)數(shù)據(jù)反哺模型,打造更強的技術產(chǎn)品,加速商業(yè)化進程。目前,業(yè)內(nèi)仍沒有完全開源可商用的千億大模型,我們希望‘源2.0’能夠為國內(nèi)外開發(fā)者、研究機構(gòu)、科技企業(yè)提供堅實的底座和成長的土壤?!崩顺毙畔⒏呒壐笨偛脛④娬f。
浪潮信息長期致力于人工智能算力基礎設施產(chǎn)品的研發(fā),2021年在業(yè)界率先推出了中文AI巨量模型“源1.0”,參數(shù)規(guī)模達2457億,落地南京智算中心。此次發(fā)布的“源2.0”較前一版本實現(xiàn)了能力的全面提升。(記者溫競?cè)A)
相關稿件