美國人工智能公司OpenAI發(fā)布的ChatGPT以其高效信息獲取、海量數(shù)據(jù)調(diào)用、超強優(yōu)化學習能力火速出圈。ChatGPT不僅是人工智能技術(shù)的應用端普及,更是憑借完善的邏輯歸納能力、有監(jiān)督的持續(xù)改進調(diào)優(yōu)以及連續(xù)對話的交互體驗開啟了通用人工智能(AGI)的一扇窗,不僅僅在內(nèi)容生產(chǎn)、便捷交互和簡化工作等消費端的應用快速普及,并向工業(yè)設計、藥物研發(fā)、材料科學等領域快速擴散。
而隨著集度、吉利、紅旗等汽車企業(yè)紛紛宣布支持汽車機器人自然交流,以人工智能為技術(shù)驅(qū)動的自動駕駛,將成為新能源汽車發(fā)展的重要方向。本文就近期ChatGPT此類預訓練大模型人工智能技術(shù)的突破,將對自動駕駛領域帶來哪些變革進行探討。
ChatGPT能夠給自動駕駛帶來語音交互提升,成為提升智能座艙語音交互質(zhì)量的重要工具
ChatGPT是以其令人驚艷的“對話聊天”能力出圈的,對比市面上現(xiàn)有的機械式的車載智能語音交互模式,ChatGPT依托海量參數(shù)的預訓練大模型實現(xiàn)了降維打擊。當前車載智能語音交互主要有識別、理解和執(zhí)行三大重點,而在目前提供的解決方案中,語音識別部分已經(jīng)能夠達到90%以上,堵點難點主要聚焦于“理解”部分。
由于機器不具備語義理解能力,用戶只能通過觸摸屏與部分語音相結(jié)合的方式,按照指定命令與汽車進行交互,功能的復雜性和關鍵詞的多少成正相關,整個系統(tǒng)機械化運行、功能單一。據(jù)相關機構(gòu)調(diào)研,2022年1-8月,語音交互功能在智能座艙的滲透率達到73.3%,但用戶對智能語音交互感興趣程度僅為42.9%。
所以,ChatGPT作為自然語言處理技術(shù)功能強大,ChatGPT能夠在溝通中結(jié)合用戶提出的問題不斷做出精準的、連續(xù)的回應,一方面通過對模型在車內(nèi)對話場景的專項定制,可以在車載運行環(huán)境中取得優(yōu)異的識別效果;另一方面模型的學習能力和上下文結(jié)合能力,可以讓ChatGPT實現(xiàn)連續(xù)對話交互。這種語義理解能力應用在車機交互上,最直觀的變革就是語音交互更加直接,更符合人類思考的習慣,會更加接近于人與人之間的交流,交互效率直線提升,大幅提升用戶體驗。
生成式AI為自動駕駛模型訓練提供高質(zhì)量合成數(shù)據(jù),破解自動駕駛數(shù)據(jù)和測試難題
ChatGPT屬于生成式AI在自然語言對話場景中的應用,而AIGC(人工智能生產(chǎn)內(nèi)容)能夠靈活運用于寫作、繪圖、語音、視頻等不同維度的創(chuàng)作領域,結(jié)合自動駕駛模型訓練的數(shù)據(jù)需求,AIGC能夠生成任何人類想象到的駕駛場景。
自動駕駛需要通過真實世界的數(shù)據(jù)來訓練、測試和驗證模型算法的安全性和準確性,其過程需要大量數(shù)據(jù)支持和復雜的駕駛環(huán)境,甚至涵蓋許多極端環(huán)境的“邊緣案例”,某種意義上說需要數(shù)百年的真實駕駛才能收集構(gòu)建真正安全的自動駕駛汽車所需的所有數(shù)據(jù),并且真實世界的圖像數(shù)據(jù)必須先手動標記,然后才能用于訓練AI模型。谷歌(Waymo)已經(jīng)投入了數(shù)十億美元,并花費了十多年的時間來收集數(shù)百萬英里的真實駕駛數(shù)據(jù),并將其作為其自動駕駛技術(shù)堆棧的護城河。
相較而言,合成數(shù)據(jù)無論從成本還是場景方面都有著無可比擬的優(yōu)勢,因此第一批出現(xiàn)的合成數(shù)據(jù)初創(chuàng)公司也主要瞄準了自動駕駛汽車終端市場,幫助自動駕駛企業(yè)解決其在自動駕駛系統(tǒng)開發(fā)過程中所面臨的數(shù)據(jù)和測試難題。
隨著AIGC技術(shù)持續(xù)創(chuàng)新發(fā)展,基于AIGC算法模型創(chuàng)建、生成合成數(shù)據(jù)迎來重大進展,有望解決自動駕駛發(fā)展應用過程中的數(shù)據(jù)限制。一是通過合成數(shù)據(jù)來改善基準測試數(shù)據(jù)的質(zhì)量來實現(xiàn)數(shù)據(jù)增強和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題;二是利用合成數(shù)據(jù)訓練AI模型可以有效避免用戶隱私問題;三是合成數(shù)據(jù)可以自動創(chuàng)建、生成現(xiàn)實世界中難以或者無法采集的數(shù)據(jù)場景,能有效應對長尾、邊緣案例,提高模型算法的準確性、可靠性;四是合成數(shù)據(jù)技術(shù)可以實現(xiàn)更廉價、高效地批量生產(chǎn)自動駕駛模型訓練開發(fā)所需的海量數(shù)據(jù),畢竟人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分。
大模型技術(shù)路線啟發(fā)自動駕駛底層算法躍遷升級
ChatGPT作為一個語言模型主要用于生成自然語言文本,如對話、文章等,而自動駕駛算法需要處理的是感知、決策和控制等方面的問題,看似二者并沒有太大的關聯(lián),但是從技術(shù)邏輯上,ChatGPT能夠給自動駕駛算法技術(shù)路線發(fā)展帶來兩大啟發(fā)。
第一點,是大模型的突現(xiàn)能力,即參數(shù)規(guī)模超過一個閾值后,模型的“思維鏈”能力突然就涌現(xiàn)出來,這就是所謂大模型的“突現(xiàn)能力,通俗講就是量變引起質(zhì)變,大模型就意味著大參數(shù)、大數(shù)據(jù),當然伴隨的也是大成本和大投入。ChatGPT的破圈給人工智能業(yè)界帶來的突破性認知和范式轉(zhuǎn)變是突現(xiàn)能力只存在于大型模型中,而不是小型模型。各種測試表明,只有模型達到175B的規(guī)模才有可能形成“突現(xiàn)能力”,模型能夠展示類似人類的復雜推理和知識推理能力——思維鏈,基于“思維鏈”的推理能力能夠在提問時附加給出提示,模型就能自動學習并做出相應推理得到正確結(jié)果。這對于自動駕駛“躍進式”和“漸進式”兩大路線的選擇無疑會產(chǎn)生深遠影響。
第二點,是人類反饋的強化學習(RLHF),簡單理解就是應用人類處理問題的方式去訓練算法。從2020版本的GPT-3到2022版本的ChatGPT,在控制參數(shù)量和訓練數(shù)據(jù)不變的情況下對比監(jiān)督學習指令微調(diào)和RLHF,能夠發(fā)現(xiàn)在RLHF的參與下,模型的回答更加詳實、公正,并且能夠拒絕不當和知識范圍以外的問題。將這類模式映射到自動駕駛的算法模型中就是應用人類司機正確的駕駛數(shù)據(jù)來訓練算法,駕駛員針對自動駕駛算法的接管視為決策糾正,同時也是正向反饋的強化學習。ChatGPT的成功則證明應用RLHF是可以訓練出模型來驗證、評價機器模型的輸出,使其不斷進步,最終達到人類的駕駛水平,在自動駕駛業(yè)內(nèi)毫末通過該方式,在掉頭、環(huán)島等公認的困難場景,通過率提升30%以上。
一句話,以ChatGPT為代表的內(nèi)容生成式AI在自動駕駛領域還處于探索階段,目前看在智能座艙語音、自動駕駛模型訓練等方面具備應用,隨著科技領域、產(chǎn)業(yè)領域、資本領域的持續(xù)介入,預訓練大模型“思維”能力更強,在自動駕駛領域的應用將進一步拓寬,我團隊將持續(xù)關注。
相關稿件