近日,在全球權(quán)威的CVPR?2024視覺異常檢測和創(chuàng)新性檢測挑戰(zhàn)賽中,中科視語AI團隊提交的“少量樣本異常檢測使用專家混合模型”以0.818的出色成績,從全球17個國家和地區(qū),百余支頂尖AI團隊中脫穎而出,摘下桂冠。這再次展現(xiàn)了中科視語在工業(yè)大模型領(lǐng)域的雄厚實力。
隨著大模型技術(shù)的發(fā)展,技術(shù)先進性和性能卓越性的要求更加苛刻,中科視語持續(xù)堅定、專注投入大模型研發(fā),深入磨煉“內(nèi)功”,建立技術(shù)壁壘,夯實技術(shù)優(yōu)勢,正是憑借中科視語深厚的技術(shù)積淀和長期積累的市場經(jīng)驗,視語坤川工業(yè)大模型核心技術(shù)連續(xù)多次取得國際領(lǐng)先的成果。本次獲獎,是繼登頂2019 VideoNet視頻內(nèi)容識別挑戰(zhàn)賽、2022道路損壞檢測世界競賽桂冠后的又一里程碑,這標志著中科視語在少樣本邏輯/結(jié)構(gòu)異常檢測技術(shù)上取得了新的突破。也正是憑借持續(xù)的技術(shù)革新,中科視語在工業(yè)大模型領(lǐng)域積累了顯著的競爭優(yōu)勢。
2024計算機視覺領(lǐng)域的頂級學(xué)術(shù)會議CVPR,是由IEEE計算機協(xié)會和計算機視覺基金會(Computer Vision Foundation,CVF)共同主辦,是一年一度的全球計算機視覺領(lǐng)域與模式識別領(lǐng)域最頂尖的學(xué)術(shù)會議。其與ECCV(European Conference on Computer Vision)、ICCV(IEEE/CVF International Conference on Computer Vision)一起并稱為計算機視覺領(lǐng)域的三大最高級別的頂級會議。
面對日益激烈的市場競爭和不斷變化的技術(shù)環(huán)境,中科視語始終保持前瞻性思維和創(chuàng)新精神。為了高效節(jié)約成本并提高效率,我們持續(xù)更新迭代,在xx的基礎(chǔ)上,采用了前沿的Mixture of Experts(MoE)架構(gòu)。MoE架構(gòu)的核心優(yōu)勢是旨在通過模塊化的方式降低更多的成本,實現(xiàn)更大的推理規(guī)模和更快的推理速度。這一創(chuàng)新架構(gòu)使我們在市場化競爭中更具優(yōu)勢。
MoE架構(gòu)將復(fù)雜任務(wù)分解為多個子任務(wù),由不同的“專家”模塊并行處理。這種分工合作的方式不僅提高了處理效率,還實現(xiàn)了更精準的模型預(yù)測。通過降低冗余計算和資源消耗,我們能夠以更低的成本實現(xiàn)更高的性能,從而在市場上形成更有優(yōu)勢的競爭地位。
圖 1 中科視語AI團隊斬獲少樣本邏輯/結(jié)構(gòu)異常檢測賽道(VAND 2.0)賽道第一名
少樣本工業(yè)異常檢測比賽VAND2.0
從飛機火車到螺絲螺母,工業(yè)產(chǎn)品在我們的生活中無處不在。為了保證這些產(chǎn)品能夠正常發(fā)揮其功能,避免安全事故,在生產(chǎn)過程中進行異常檢測是極為必要的。近年來,隨著計算機視覺技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的工業(yè)異常檢測方法層出不窮,成為學(xué)術(shù)和工業(yè)界的研究熱點。因此,CVPR會議連續(xù)兩年舉辦VAND挑戰(zhàn)賽,鼓勵研究者進一步探索工業(yè)異常檢測的有效方法。
本次VAND比賽分為兩個賽道:
1.Adapt & Detect: Robust Anomaly Detection in Real-World Applications
2. VLM Anomaly Challenge: Few-Shot Learning for Logical and Structural Detection
研究團隊參加的是第二個賽道,重點研究基于多模態(tài)模型的少樣本邏輯和結(jié)構(gòu)異常檢測方法。比賽使用的數(shù)據(jù)集將常見的異常分為結(jié)構(gòu)異常和邏輯異常兩類。結(jié)構(gòu)異常指的是諸如破損、劃痕這種在正常樣本上不會出現(xiàn)的異常情況;邏輯異常則指正常物品的錯誤組合。例如,每個塑料袋中應(yīng)該包含一長一短兩個螺絲釘、兩個螺母、兩個墊片。然而,在邏輯異常樣本中,可能包含三個螺母,這類異常難以通過簡單比對來判斷,需要使用新的異常檢測方式。
此外,賽道二在少樣本設(shè)置下進行異常檢測,即要求模型在訓(xùn)練期間從未見過來自測試數(shù)據(jù)集中的任何正常樣本,只在推理期間提供少量正常樣本以供參考,這要求方法具有較高的遷移能力。
圖 2 正常樣本、結(jié)構(gòu)異常和邏輯異常示意圖
圖 3 研究團隊在 CVPR 2024 的演講匯報
圖 4 研究團隊在 CVPR 2024 的展示海報
基于混合專家模型的少樣本異常檢測方法AnomalyMoE
為了高效檢測出不同類別的異常,研究團隊提出了混合專家模型AnomalyMoE,充分發(fā)揮不同類型的異常檢測方法的優(yōu)勢,使用 4 個不同的異常檢測專家模型:圖文異常檢測專家模型,全局異常檢測專家模型,子部分異常檢測專家模型,圖像塊異常檢測專家模型,并結(jié)合這四個專家模型的打分結(jié)果以得到最后的異常分數(shù)。
圖 5 AnomalyMoE 結(jié)構(gòu)圖
圖文異常檢測專家模型FiLo
圖文異常檢測專家模型方面,研究團隊主要使用了自己之前的工作FiLo [1],FiLo 創(chuàng)新性地使用大語言模型來為每一類物品生成其可能出現(xiàn)的異常種類,并使用可學(xué)習(xí)的文本向量來取代人工編寫的文本模板,減少了工作量,提高了異常檢測性能,并能夠通過與圖像特征最相似的文本描述內(nèi)容來判斷樣品上的具體異常類型,提高了模型決策的可解釋性。
全局異常檢測專家模型
全局異常檢測方面,研究團隊使用視覺-文本多模態(tài)大模型CLIP提取圖像全局特征,將測試樣本的全局特征與少量正常樣本的全局特征進行比較,根據(jù)與正常樣本的相似度來判斷圖像中是否有異常。圖文異常檢測專家模型和全局異常檢測專家模型在檢測全局邏輯異常方面具有明顯優(yōu)勢。
子部分異常檢測專家模型
通過將圖像分為多個子部分,異常檢測方法能夠方便統(tǒng)計每個子部分中的面積、數(shù)量、顏色,從而方便判斷樣本中的每個部分是否為異常。研究團隊使用子部分異常檢測專家模型,通過 DINO提取特征再聚類的方式得到每一個子部分的掩碼,然后進行檢測。子部分異常檢測專家模型對于局部邏輯異常,如上文提到的螺母的新增、缺失等,具有良好的檢測效果。
圖像塊異常檢測專家模型AnomalyGPT
圖像塊異常檢測專家模型通過比較測試圖像的每個圖像塊和正常圖像的每個圖像塊的內(nèi)容,判斷每個圖像塊是否為異常。在圖像塊異常檢測專家模型的實現(xiàn)上,研究團隊主要使用了他們在 AAAI 2024上發(fā)表的方法 AnomalyGPT [2],使用大語言模型實現(xiàn)工業(yè)異常檢測,在少樣本異常檢測方面具有顯著效果。
MoE架構(gòu)的引入是中科視語技術(shù)創(chuàng)新之路上的又一重要里程碑。它不僅體現(xiàn)了我們對技術(shù)進步的不懈追求,也展示了我們在實現(xiàn)技術(shù)可持續(xù)發(fā)展和落地方面的堅定決心。未來,我們將繼續(xù)探索和利用前沿技術(shù),為客戶提供更優(yōu)質(zhì)的服務(wù),為社會創(chuàng)造更多的價值。
參考文獻:
[1]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Li, H., Tang, M., & Wang, J. (2024). FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization. arXiv preprint arXiv:2404.13671.
[2]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Tang, M., & Wang, J. (2024, March). Anomalygpt: Detecting industrial anomalies using large vision-language models. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, No. 3, pp.1932-1940).
相關(guān)稿件