智能時代的一次進化
■在“高智商”的加持下,GPT-4o的反應(yīng)速度跳上了新臺階。它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入,平均響應(yīng)時長約320毫秒,這大約與人類對話相當(dāng)
■有媒體稱這預(yù)示著“智能時代的一次進化”,未來移動設(shè)備中的互聯(lián)網(wǎng)可能會被濃縮在一個程序之中,用戶可以通過它解決一切需求:發(fā)短信、導(dǎo)航、識物、打車等
本報記者?查睿
Sora之后,美國開放人工智能研究中心(OpenAI)昨天凌晨推出“王炸”新模型GPT-4o?!皁”是Omni(全能模型)的縮寫。GPT-4o不僅能夠?qū)崟r處理文本、音頻和圖像,還采用全新的語音交互模式,大幅提升人機對話的響應(yīng)速度,幾乎與真人對話相差無幾,它還會看人臉色、講笑話……總之,AI更像人,甚至更像一個朋友了。
在GPT-4o的“人性”背后,大模型正進入多模態(tài)發(fā)展的新階段。模型不再追求長文本的單一的語言對話,視覺、語音乃至情感都成為模型參數(shù)中的關(guān)鍵。對如今的“百模大戰(zhàn)”而言,這一變化是危機還是商機?
聰明又快速
作為ChatGPT的基礎(chǔ)技術(shù)模型,GPT-4o的能力將直接影響ChatGPT的用戶體驗?!癎PT-4o既聰明又快速,是自然的多模態(tài)?!監(jiān)penAI?CEO山姆·奧特曼評價。
GPT-4o有多聰明?
根據(jù)OpenAI的發(fā)布會和官網(wǎng)披露的信息所示,GPT-4o不僅可以識別手寫字體,還能解答數(shù)學(xué)方程式,甚至還能識別圖像中的人物微表情。
根據(jù)傳統(tǒng)基準(zhǔn)測試,GPT-4o的性能對比GPT-4?Turbo(OpenAI去年11月發(fā)布的大模型)基本都處于優(yōu)勢,對比其他模型更是大幅領(lǐng)先。具體來說,GPT-4o在英語文本和代碼上的性能與GPT-4?Turbo類似,但在非英語文本上的性能顯著提高,與現(xiàn)有模型相比,GPT-4o在視頻和音頻方面表現(xiàn)尤為出色。
在“高智商”的加持下,GPT-4o的反應(yīng)速度跳上了新臺階。
它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入,平均響應(yīng)時長約320毫秒,這大約與人類對話相當(dāng)。如果對320毫秒的突破沒有直觀印象,不妨看看上一代模型的成績:語音對話模式下,ChatGPT的平均響應(yīng)時長為2.8秒(基于GPT-3.5)和5.4秒(基于GPT-4)。
GPT-4o之所以這么快,離不開全新的神經(jīng)網(wǎng)絡(luò)處理流程。
“我們現(xiàn)在常見的‘Siri’‘小愛同學(xué)’等語音助理,以及GPT-3.5等上代大模型對語音對話的處理能力慢,至少需要三個步驟,反應(yīng)時間和處理速度延遲感強?!眹鴥?nèi)某AI企業(yè)技術(shù)專家解釋稱,第一步,音頻轉(zhuǎn)文本將人的指令轉(zhuǎn)化為文本輸入;第二步,機器對文本理解并輸出文本;第三步,文本轉(zhuǎn)語音“說”給用戶,這才完成了語音對話的流程?!斑@樣的模式不僅慢,而且會遺漏許多語音中的信息熵值,也會影響對話的連貫性?!?/p>
在GPT-4o上,OpenAI跨文本、視覺和音頻端到端地訓(xùn)練了一個新模型,這意味著所有輸入和輸出都由同一模型來處理,實現(xiàn)真正的多模態(tài)交互。
高智商疊加反應(yīng)快,GPT-4o還模仿了人類的情感和幽默感,更具人情味。難怪山姆·奧特曼稱之為“人類級別的響應(yīng)”。
基于GPT-4o的天賦,ChatGPT不僅能實時語音對話,還能聽懂用戶對話的不同語氣和情緒狀態(tài),還能相應(yīng)生成不同的情感表達,甚至可以要求GPT-4o唱歌,對話時幾乎感受不到僵硬的AI感。
經(jīng)過OpenAI的現(xiàn)場展示,不少人認為,會提供情緒價值的“AI伴侶”已觸手可及。
國內(nèi)模型存代際差異
“現(xiàn)在主打情感陪伴的AI創(chuàng)業(yè)公司可以退場了?!斌@訝于GPT-4o強大的共情能力,不少細分AI賽道隱隱感受到了危機。
此前,ChatGPT主要追求性能和生產(chǎn)力,不少創(chuàng)業(yè)公司錯位競爭,打造了一批“類人”AI產(chǎn)品,也吸引了部分用戶。比如InflectionAI的AI機器人Pi誕生一年就收獲了百萬級別的日活用戶。國內(nèi)大模型公司MiniMax推出一款名為Glow的虛擬聊天產(chǎn)品,僅四個月時間也吸引了數(shù)百萬用戶。
不同于Pi等純陪伴型的機器人,GPT-4o既能當(dāng)幫手,還是能開玩笑的“多面手”,無形中提高了AI的創(chuàng)業(yè)門檻。
“GPT-4o使得市場對AI產(chǎn)品的期望值大幅提高,創(chuàng)業(yè)公司需要投入更多資源來開發(fā)和優(yōu)化其AI模型?!鄙虾J腥斯ぶ悄苄袠I(yè)協(xié)會秘書長鐘俊浩表示,如OpenAI、谷歌、蘋果等大公司,能夠更快地推出高性能AI模型,導(dǎo)致市場資源向這些大公司集中,初創(chuàng)公司難以獲取足夠的市場份額和投資。
不僅是創(chuàng)業(yè)公司,國內(nèi)AI巨頭的壓力也不小。
目前,國內(nèi)AI在多模態(tài)模型訓(xùn)練方面主要采用圖像和文字聯(lián)合訓(xùn)練,語音則是通過單獨的模型進行處理并拆解完成上下游任務(wù)。與GPT-4o高度擬人化的多模態(tài)聯(lián)合訓(xùn)練相比,仍存在代際差異。
“據(jù)我了解,目前,國內(nèi)如上海人工智能實驗室、字節(jié)跳動、阿里和Minimax等企業(yè)也在進行類似的多模態(tài)聯(lián)合訓(xùn)練研究,但很難說已經(jīng)有能夠匹敵GPT-4o的產(chǎn)品?!辈贿^,鐘俊浩同時表示出樂觀,憑借國內(nèi)巨頭的研發(fā)能力,追趕GPT-4o并非遙不可及,在國內(nèi)算力基礎(chǔ)設(shè)施日益完善的前提下,“平替”產(chǎn)品的研發(fā)周期會大幅縮短。
據(jù)記者了解,商湯近期推出了商量擬人大模型“SenseChat-Character”,支持個性化角色創(chuàng)建與定制、知識庫構(gòu)建、長對話記憶、多人群聊等功能,可實現(xiàn)行業(yè)領(lǐng)先的角色對話、人設(shè)及劇情推動能力,可以廣泛應(yīng)用于情感陪伴、影視動漫IP角色、明星網(wǎng)紅AI分身、語言角色扮演游戲等擬人對話場景。
多模態(tài)交互是大勢所趨
“大模型發(fā)展一年以來,能力快速上升的同時,發(fā)展趨勢也更加清晰?!卑⒗镌剖紫夹g(shù)官周靖人認為,從單一語言模型到多模態(tài)混同發(fā)展是大勢所趨。
多模態(tài)模型,通常指能同時處理和整合多種類型數(shù)據(jù)(如文本、圖像、聲音等)的大模型,GPT-4o的橫空出世便是多模態(tài)模型的集大成。
國內(nèi)也在爭取抓住多模態(tài)的東風(fēng),也取得了斐然的成績。
據(jù)第三方統(tǒng)計,2023年,國內(nèi)多模態(tài)AI概念股研發(fā)支出合計達到327.53億元,占營收比例為11.2%,這一比例是同期A股整體水平的4.46倍。云從科技-UW、格靈深瞳、阿爾特、虹軟科技等概念股研發(fā)支出占營收比超過50%,相當(dāng)于拿出超一半的營收投入研發(fā)。
5月9日,阿里云發(fā)布的通義千問2.5,其多模態(tài)模型已初具影響力,如視覺理解模型Qwen-VL-Max在多個多模態(tài)標(biāo)準(zhǔn)測試中超越Gemini?Ultra和GPT-4V,目前已在多家企業(yè)落地應(yīng)用。當(dāng)前,通義已發(fā)展出文生圖、智能編碼、文檔解析、音視頻理解等能力。
14日,騰訊也宣布旗下混元文生圖大模型全面升級,升級后采用了與Sora一致的DiT架構(gòu),不僅可支持文生圖,也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。評測數(shù)據(jù)顯示,混元文生圖模型整體能力屬于國際領(lǐng)先水平。
作為OpenAI的春季升級產(chǎn)品,GPT-4o在多模態(tài)上的出色表現(xiàn),更讓業(yè)界對即將到來的GPT-5產(chǎn)生濃厚興趣。
鐘俊浩預(yù)計,GPT-5在多模態(tài)的基礎(chǔ)上將進一步強化多模態(tài)交互中的表現(xiàn),不僅能夠處理文本,還能通過攝像頭、麥克風(fēng)等設(shè)備直接與現(xiàn)實環(huán)境互動。例如,通過攝像頭識別物體并執(zhí)行相應(yīng)的指令,這將大大提升AI在現(xiàn)實場景中的實用性和交互體驗。同時,GPT-5還可與第三方平臺無縫整合,例如智能家居設(shè)備及辦公系統(tǒng)等,以擴展其應(yīng)用場景。
這也給AI創(chuàng)業(yè)公司帶來了新商機?!皠?chuàng)業(yè)公司不妨利用OpenAI提供的API(編程接口)來增強其產(chǎn)品功能,在垂直領(lǐng)域找到與科技巨頭的互補點,或針對特定行業(yè)或用戶需求,開發(fā)定制化解決方案?!辩娍『平ㄗh。
相關(guān)稿件