OpenAI推“王炸”新模型聰明又快速還會提供情緒價值: 2024-05-15 11:18 來源：解放日報次閱讀; 分享：

智能時代的一次進化

　　■在“高智商”的加持下，GPT-4o的反應(yīng)速度跳上了新臺階。它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入，平均響應(yīng)時長約320毫秒，這大約與人類對話相當(dāng)

　　■有媒體稱這預(yù)示著“智能時代的一次進化”，未來移動設(shè)備中的互聯(lián)網(wǎng)可能會被濃縮在一個程序之中，用戶可以通過它解決一切需求：發(fā)短信、導(dǎo)航、識物、打車等

　　本報記者?查睿

　　Sora之后，美國開放人工智能研究中心（OpenAI）昨天凌晨推出“王炸”新模型GPT-4o?！皁”是Omni（全能模型）的縮寫。GPT-4o不僅能夠?qū)崟r處理文本、音頻和圖像，還采用全新的語音交互模式，大幅提升人機對話的響應(yīng)速度，幾乎與真人對話相差無幾，它還會看人臉色、講笑話……總之，AI更像人，甚至更像一個朋友了。

　　在GPT-4o的“人性”背后，大模型正進入多模態(tài)發(fā)展的新階段。模型不再追求長文本的單一的語言對話，視覺、語音乃至情感都成為模型參數(shù)中的關(guān)鍵。對如今的“百模大戰(zhàn)”而言，這一變化是危機還是商機？

　　聰明又快速

　　作為ChatGPT的基礎(chǔ)技術(shù)模型，GPT-4o的能力將直接影響ChatGPT的用戶體驗?！癎PT-4o既聰明又快速，是自然的多模態(tài)?！監(jiān)penAI?CEO山姆·奧特曼評價。

　　GPT-4o有多聰明？

　　根據(jù)OpenAI的發(fā)布會和官網(wǎng)披露的信息所示，GPT-4o不僅可以識別手寫字體，還能解答數(shù)學(xué)方程式，甚至還能識別圖像中的人物微表情。

　　根據(jù)傳統(tǒng)基準(zhǔn)測試，GPT-4o的性能對比GPT-4?Turbo（OpenAI去年11月發(fā)布的大模型）基本都處于優(yōu)勢，對比其他模型更是大幅領(lǐng)先。具體來說，GPT-4o在英語文本和代碼上的性能與GPT-4?Turbo類似，但在非英語文本上的性能顯著提高，與現(xiàn)有模型相比，GPT-4o在視頻和音頻方面表現(xiàn)尤為出色。

　　在“高智商”的加持下，GPT-4o的反應(yīng)速度跳上了新臺階。

　　它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入，平均響應(yīng)時長約320毫秒，這大約與人類對話相當(dāng)。如果對320毫秒的突破沒有直觀印象，不妨看看上一代模型的成績：語音對話模式下，ChatGPT的平均響應(yīng)時長為2.8秒（基于GPT-3.5）和5.4秒（基于GPT-4）。

　　GPT-4o之所以這么快，離不開全新的神經(jīng)網(wǎng)絡(luò)處理流程。

　　“我們現(xiàn)在常見的‘Siri’‘小愛同學(xué)’等語音助理，以及GPT-3.5等上代大模型對語音對話的處理能力慢，至少需要三個步驟，反應(yīng)時間和處理速度延遲感強?！眹鴥?nèi)某AI企業(yè)技術(shù)專家解釋稱，第一步，音頻轉(zhuǎn)文本將人的指令轉(zhuǎn)化為文本輸入；第二步，機器對文本理解并輸出文本；第三步，文本轉(zhuǎn)語音“說”給用戶，這才完成了語音對話的流程?！斑@樣的模式不僅慢，而且會遺漏許多語音中的信息熵值，也會影響對話的連貫性?！?/p>

　　在GPT-4o上，OpenAI跨文本、視覺和音頻端到端地訓(xùn)練了一個新模型，這意味著所有輸入和輸出都由同一模型來處理，實現(xiàn)真正的多模態(tài)交互。

　　高智商疊加反應(yīng)快，GPT-4o還模仿了人類的情感和幽默感，更具人情味。難怪山姆·奧特曼稱之為“人類級別的響應(yīng)”。

　　基于GPT-4o的天賦，ChatGPT不僅能實時語音對話，還能聽懂用戶對話的不同語氣和情緒狀態(tài)，還能相應(yīng)生成不同的情感表達，甚至可以要求GPT-4o唱歌，對話時幾乎感受不到僵硬的AI感。

　　經(jīng)過OpenAI的現(xiàn)場展示，不少人認為，會提供情緒價值的“AI伴侶”已觸手可及。

　　國內(nèi)模型存代際差異

　　“現(xiàn)在主打情感陪伴的AI創(chuàng)業(yè)公司可以退場了?！斌@訝于GPT-4o強大的共情能力，不少細分AI賽道隱隱感受到了危機。

　　此前，ChatGPT主要追求性能和生產(chǎn)力，不少創(chuàng)業(yè)公司錯位競爭，打造了一批“類人”AI產(chǎn)品，也吸引了部分用戶。比如InflectionAI的AI機器人Pi誕生一年就收獲了百萬級別的日活用戶。國內(nèi)大模型公司MiniMax推出一款名為Glow的虛擬聊天產(chǎn)品，僅四個月時間也吸引了數(shù)百萬用戶。

　　不同于Pi等純陪伴型的機器人，GPT-4o既能當(dāng)幫手，還是能開玩笑的“多面手”，無形中提高了AI的創(chuàng)業(yè)門檻。

　　“GPT-4o使得市場對AI產(chǎn)品的期望值大幅提高，創(chuàng)業(yè)公司需要投入更多資源來開發(fā)和優(yōu)化其AI模型?！鄙虾Ｊ腥斯ぶ悄苄袠I(yè)協(xié)會秘書長鐘俊浩表示，如OpenAI、谷歌、蘋果等大公司，能夠更快地推出高性能AI模型，導(dǎo)致市場資源向這些大公司集中，初創(chuàng)公司難以獲取足夠的市場份額和投資。

　　不僅是創(chuàng)業(yè)公司，國內(nèi)AI巨頭的壓力也不小。

　　目前，國內(nèi)AI在多模態(tài)模型訓(xùn)練方面主要采用圖像和文字聯(lián)合訓(xùn)練，語音則是通過單獨的模型進行處理并拆解完成上下游任務(wù)。與GPT-4o高度擬人化的多模態(tài)聯(lián)合訓(xùn)練相比，仍存在代際差異。

　　“據(jù)我了解，目前，國內(nèi)如上海人工智能實驗室、字節(jié)跳動、阿里和Minimax等企業(yè)也在進行類似的多模態(tài)聯(lián)合訓(xùn)練研究，但很難說已經(jīng)有能夠匹敵GPT-4o的產(chǎn)品?！辈贿^，鐘俊浩同時表示出樂觀，憑借國內(nèi)巨頭的研發(fā)能力，追趕GPT-4o并非遙不可及，在國內(nèi)算力基礎(chǔ)設(shè)施日益完善的前提下，“平替”產(chǎn)品的研發(fā)周期會大幅縮短。

　　據(jù)記者了解，商湯近期推出了商量擬人大模型“SenseChat-Character”，支持個性化角色創(chuàng)建與定制、知識庫構(gòu)建、長對話記憶、多人群聊等功能，可實現(xiàn)行業(yè)領(lǐng)先的角色對話、人設(shè)及劇情推動能力，可以廣泛應(yīng)用于情感陪伴、影視動漫IP角色、明星網(wǎng)紅AI分身、語言角色扮演游戲等擬人對話場景。

　　多模態(tài)交互是大勢所趨

　　“大模型發(fā)展一年以來，能力快速上升的同時，發(fā)展趨勢也更加清晰?！卑⒗镌剖紫夹g(shù)官周靖人認為，從單一語言模型到多模態(tài)混同發(fā)展是大勢所趨。

　　多模態(tài)模型，通常指能同時處理和整合多種類型數(shù)據(jù)（如文本、圖像、聲音等）的大模型，GPT-4o的橫空出世便是多模態(tài)模型的集大成。

　　國內(nèi)也在爭取抓住多模態(tài)的東風(fēng)，也取得了斐然的成績。

　　據(jù)第三方統(tǒng)計，2023年，國內(nèi)多模態(tài)AI概念股研發(fā)支出合計達到327.53億元，占營收比例為11.2%，這一比例是同期A股整體水平的4.46倍。云從科技-UW、格靈深瞳、阿爾特、虹軟科技等概念股研發(fā)支出占營收比超過50%，相當(dāng)于拿出超一半的營收投入研發(fā)。

　　5月9日，阿里云發(fā)布的通義千問2.5，其多模態(tài)模型已初具影響力，如視覺理解模型Qwen-VL-Max在多個多模態(tài)標(biāo)準(zhǔn)測試中超越Gemini?Ultra和GPT-4V，目前已在多家企業(yè)落地應(yīng)用。當(dāng)前，通義已發(fā)展出文生圖、智能編碼、文檔解析、音視頻理解等能力。

　　14日，騰訊也宣布旗下混元文生圖大模型全面升級，升級后采用了與Sora一致的DiT架構(gòu)，不僅可支持文生圖，也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。評測數(shù)據(jù)顯示，混元文生圖模型整體能力屬于國際領(lǐng)先水平。

　　作為OpenAI的春季升級產(chǎn)品，GPT-4o在多模態(tài)上的出色表現(xiàn)，更讓業(yè)界對即將到來的GPT-5產(chǎn)生濃厚興趣。

　　鐘俊浩預(yù)計，GPT-5在多模態(tài)的基礎(chǔ)上將進一步強化多模態(tài)交互中的表現(xiàn)，不僅能夠處理文本，還能通過攝像頭、麥克風(fēng)等設(shè)備直接與現(xiàn)實環(huán)境互動。例如，通過攝像頭識別物體并執(zhí)行相應(yīng)的指令，這將大大提升AI在現(xiàn)實場景中的實用性和交互體驗。同時，GPT-5還可與第三方平臺無縫整合，例如智能家居設(shè)備及辦公系統(tǒng)等，以擴展其應(yīng)用場景。

　　這也給AI創(chuàng)業(yè)公司帶來了新商機?！皠?chuàng)業(yè)公司不妨利用OpenAI提供的API（編程接口）來增強其產(chǎn)品功能，在垂直領(lǐng)域找到與科技巨頭的互補點，或針對特定行業(yè)或用戶需求，開發(fā)定制化解決方案?！辩娍『平ㄗh。

點贊()

上一條：OpenAI推“王炸”新模型聰明又快速還會提供情緒價值2024-05-15

下一條：沒有了

相關(guān)稿件: AI賽道開年王炸！震撼級產(chǎn)品Sora爆火，AI板塊代幣大幅上漲，哪些標(biāo)的值得布局？ 2024-02-22; 王小川：大模型的機會不一定落在大廠里 2023-08-09; 大模型，冷靜！ 2023-07-25; 工業(yè)產(chǎn)業(yè)大模型應(yīng)用持續(xù)落地發(fā)揮技術(shù)價值的關(guān)鍵在于產(chǎn)業(yè)厚度 2024-01-09; 華為發(fā)布大模型時代AI存儲新品 2023-07-15

九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

OpenAI推“王炸”新模型 聰明又快速還會提供情緒價值

OpenAI推“王炸”新模型聰明又快速還會提供情緒價值