作者 | Jessie
出品 | 焉知
本文接續(xù)前文,首先進(jìn)一步廣泛調(diào)查自動(dòng)駕駛端到端開發(fā)方法面臨的關(guān)鍵挑戰(zhàn)。同時(shí),我們總結(jié)了主要方面并提供了深入的分析,包括普遍性、語(yǔ)言引導(dǎo)學(xué)習(xí)、因果混亂等主題。
涵蓋了如何采用大型基礎(chǔ)模型和數(shù)據(jù)引擎的更廣泛影響。我們相信,這一研究領(lǐng)域及其提供的大規(guī)模高質(zhì)量數(shù)據(jù)可以顯著推進(jìn)該領(lǐng)域的發(fā)展。
5、可解釋性
可解釋性有助于人類理解端到端模型的決策過程、感知故障和輸出的可靠性,因此,可解釋性在自動(dòng)駕駛中起著至關(guān)重要的作用。它使工程師和研究人員能夠更好地測(cè)試、調(diào)試和改進(jìn)系統(tǒng),從社會(huì)角度提供性能保證,增加用戶信任,促進(jìn)公眾接受。然而,實(shí)現(xiàn)端到端自動(dòng)駕駛模型(通常被稱為黑匣子)的可解釋性具有挑戰(zhàn)性。
給定訓(xùn)練有素的自動(dòng)駕駛模型,一些事后 X-AI(可解釋的人工智能)技術(shù)可以應(yīng)用于學(xué)習(xí)模型以獲得顯著圖。顯著圖突出顯示模型主要依賴于視覺輸入進(jìn)行規(guī)劃的特定區(qū)域。然而,這種方法提供的信息有限,其有效性和有效性難以評(píng)估。相反,我們專注于直接增強(qiáng)模型設(shè)計(jì)可解釋性的自動(dòng)駕駛框架。我們將在下面的圖6中介紹每個(gè)類別的可解釋性。
圖 6:不同形式的可解釋性總結(jié)。
5.1 注意力可視化:
注意力機(jī)制通常提供一定程度的可解釋性??梢詰?yīng)用學(xué)習(xí)的注意力權(quán)重來聚合中間特征圖中的重要特征。學(xué)習(xí)注意力權(quán)重以自適應(yīng)地組合來自不同對(duì)象區(qū)域或固定網(wǎng)格的 ROI 池化特征。NEAT迭代聚合特征來預(yù)測(cè)注意力權(quán)重并細(xì)化聚合特征。最近,Transformer注意力機(jī)制在許多自動(dòng)駕駛模型中得到了普遍應(yīng)用。采用Transformer注意力塊來更好地聚合來自傳感器輸入的信息,注意力圖顯示輸入中用于駕駛決策的重要區(qū)域。在 PlanT 中,注意力層處理來自不同車輛的特征,為相應(yīng)的動(dòng)作提供可解釋的見解。與事后顯著性方法類似,雖然學(xué)習(xí)到的注意力圖可以提供一些關(guān)于模型焦點(diǎn)的直接線索,但它們的忠實(shí)度和實(shí)用性仍然有限。
5.2 可解釋的任務(wù):
在深度駕駛模型中,輸入最初被編碼為中間表示以供后續(xù)預(yù)測(cè)。因此,許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性,例如語(yǔ)義分割,對(duì)象檢測(cè),可供性預(yù)測(cè),運(yùn)動(dòng)預(yù)測(cè)和注視圖估計(jì)。盡管這些方法提供了可解釋的信息,但大多數(shù)僅將這些預(yù)測(cè)視為輔助任務(wù),對(duì)最終的駕駛決策沒有明確的影響。一些通過將這些輸出用于最終駕駛動(dòng)作,但它們僅用于執(zhí)行額外的安全檢查。
5.3 成本學(xué)習(xí):
基于成本學(xué)習(xí)的方法與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)有一些相似之處,因此表現(xiàn)出一定程度的可解釋性。NMP和 DSDNet 結(jié)合檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)結(jié)果構(gòu)建成本量。P3 將預(yù)測(cè)的語(yǔ)義占用圖與舒適度和交通規(guī)則約束相結(jié)合來構(gòu)建成本函數(shù)。采用各種表示形式對(duì)采樣軌跡進(jìn)行評(píng)分,例如概率占用和時(shí)間運(yùn)動(dòng)場(chǎng)、緊急占用和自由空間。安全性、舒適性、交通規(guī)則以及基于感知和預(yù)測(cè)輸出的路線等因素都被明確包含在內(nèi)來構(gòu)建成本量。
5.4 語(yǔ)言可解釋性:
可解釋性的一個(gè)方面是幫助人類理解系統(tǒng),因此自然語(yǔ)言是實(shí)現(xiàn)此目的的合適選擇。生成 BDD-X 數(shù)據(jù)集,將駕駛視頻與描述和解釋配對(duì)。他們還提出了一種帶有車輛控制器和解釋生成器的自動(dòng)駕駛模型,并強(qiáng)制兩個(gè)模塊的空間注意力權(quán)重保持一致。BEEF提出了一個(gè)解釋模塊,融合預(yù)測(cè)軌跡和中間感知特征來預(yù)測(cè)決策的理由。也有引入了一個(gè)名為 BBD-OIA 的數(shù)據(jù)集,其中包括駕駛決策的注釋和高密度交通場(chǎng)景的解釋。最近,ADAPT 提出了一種基于 Transformer 的網(wǎng)絡(luò),根據(jù) BBD-X 數(shù)據(jù)集中的駕駛視頻來聯(lián)合估計(jì)動(dòng)作、敘述和推理。鑒于多模態(tài)和基礎(chǔ)模型的最新進(jìn)展,我們相信,進(jìn)一步將語(yǔ)言與自動(dòng)駕駛模型相結(jié)合有望實(shí)現(xiàn)卓越的可解釋性和性能。
5.5 不確定性建模:
不確定性是解釋模型輸出可靠性的定量方法。由于規(guī)劃結(jié)果并不總是準(zhǔn)確或最佳,因此設(shè)計(jì)者和用戶必須識(shí)別不確定的情況以進(jìn)行改進(jìn)或必要的干預(yù)。對(duì)于深度學(xué)習(xí)來說,有兩種類型的不確定性:任意不確定性和認(rèn)知不確定性。任意不確定性是任務(wù)固有的,而認(rèn)知不確定性是由于有限的數(shù)據(jù)或建模能力造成的。對(duì)端到端自動(dòng)駕駛系統(tǒng)的不確定性進(jìn)行了定量評(píng)估,可以有效利用模型中的某些隨機(jī)正則化來執(zhí)行多個(gè)前向傳遞作為樣本來測(cè)量不確定性。然而,多次前向傳遞的要求在實(shí)時(shí)場(chǎng)景中是不可行的。RIP建議通過專家似然模型集合來捕獲認(rèn)知不確定性,并匯總結(jié)果以執(zhí)行安全規(guī)劃。關(guān)于建模任意不確定性的方法中明確預(yù)測(cè)了駕駛行為/規(guī)劃和不確定性(通常用方差表示)。根據(jù)預(yù)測(cè)的不確定性,從多個(gè)輸出中選擇不確定性最低的輸出,生成建議行動(dòng)的加權(quán)組合。VTGNet不直接使用不確定性進(jìn)行規(guī)劃,但證明對(duì)數(shù)據(jù)不確定性進(jìn)行建??梢蕴岣呖傮w性能。目前,預(yù)測(cè)的不確定性主要與硬編碼規(guī)則結(jié)合使用。有必要探索更好的方法來建模和利用自動(dòng)駕駛的不確定性。
5.6 因果混亂
駕駛是一項(xiàng)表現(xiàn)出時(shí)間平滑性的任務(wù),這使得過去的動(dòng)作可以可靠地預(yù)測(cè)下一個(gè)動(dòng)作。然而,使用多個(gè)幀訓(xùn)練的方法可能會(huì)過度依賴此快捷方式,并在部署過程中遭受災(zāi)難性失敗。這個(gè)問題在一些作品中被稱為模仿問題,是因果混亂的表現(xiàn),即訪問更多信息會(huì)導(dǎo)致性能更差。LeCun 等人最早報(bào)道了這種效應(yīng),他們使用單個(gè)輸入幀進(jìn)行轉(zhuǎn)向預(yù)測(cè),以避免這種推斷。盡管很簡(jiǎn)單,但這仍然是當(dāng)前最先進(jìn)的模仿學(xué)習(xí)方法中的首選解決方案。不幸的是,使用單幀的缺點(diǎn)是無法提取周圍運(yùn)動(dòng)體的速度。因果混亂的另一個(gè)來源是速度測(cè)量,如下圖 7 顯示了汽車等紅燈的示例。
圖 7:模仿學(xué)習(xí)中的因果混亂
汽車的速度與制動(dòng)動(dòng)作高度相關(guān),因?yàn)槠囌诘却S多速度為零且動(dòng)作為制動(dòng)的幀。僅在交通信號(hào)燈從紅色變?yōu)榫G色的單幀處,這種相關(guān)性才會(huì)被打破。實(shí)際上,汽車當(dāng)前的動(dòng)作與低維虛假特征(例如速度或汽車過去的軌跡)密切相關(guān)。端到端模型可能會(huì)抓住它們,導(dǎo)致因果混亂。
使用多個(gè)框架時(shí),有多種方法可以解決因果混淆問題。ChauffeurNet通過在 BEV 中使用中間視覺抽象來解決這個(gè)問題。一種抽象是自我代理的過去,而其他抽象不包含此信息。在訓(xùn)練期間,自我代理過去的動(dòng)作以 50% 的概率被丟棄。然而,為了使這種方法有效地工作,需要顯式的抽象。有研究者試圖通過訓(xùn)練預(yù)測(cè)自我代理過去行為的對(duì)抗模型,從學(xué)習(xí)到的中間瓶頸表示中消除虛假的時(shí)間相關(guān)性。這導(dǎo)致了最小-最大優(yōu)化問題,其中模仿?lián)p失最小化,而對(duì)抗性損失最大化。直觀地說,這訓(xùn)練網(wǎng)絡(luò)從中間層消除自己的過去。這種方法在 MuJoCo 中效果很好,但無法擴(kuò)展到復(fù)雜的基于視覺的駕駛。第一個(gè)致力于驅(qū)動(dòng)復(fù)雜性的是建議增加訓(xùn)練損失中關(guān)鍵幀的權(quán)重。關(guān)鍵幀是發(fā)生決策更改的幀(因此無法通過推斷過去來預(yù)測(cè))。為了找到關(guān)鍵幀,他們訓(xùn)練了一種策略,僅以自我代理的過去作為輸入來預(yù)測(cè)動(dòng)作。PrimeNet通過使用集成來提高與關(guān)鍵幀相比的性能,其中單幀模型的預(yù)測(cè)作為多幀模型的附加輸入給出。后又有用動(dòng)作殘差而不是動(dòng)作來監(jiān)督多幀網(wǎng)絡(luò)。OREO將圖像映射到表示語(yǔ)義對(duì)象的離散代碼,并將隨機(jī)丟棄掩碼應(yīng)用于共享相同離散代碼的單元。這在 Confounded Atari 中很有幫助,因?yàn)橹暗牟僮鲿?huì)呈現(xiàn)在屏幕上。在自動(dòng)駕駛中,可以通過僅使用激光雷達(dá)歷史(具有單幀圖像)并將點(diǎn)云重新對(duì)齊到同一坐標(biāo)系來避免因果混亂的問題。這會(huì)刪除有關(guān)自車運(yùn)動(dòng)的信息,同時(shí)保留有關(guān)其他車輛過去狀態(tài)的信息。
近二十年來,模仿學(xué)習(xí)中的因果混亂一直是一個(gè)持續(xù)的挑戰(zhàn)。近年來,人們投入了大量精力來研究這個(gè)問題。然而,這些研究使用了經(jīng)過修改的環(huán)境,以簡(jiǎn)化因果混淆問題的研究。在最先進(jìn)的設(shè)置中顯示性能改進(jìn)仍然是一個(gè)懸而未決的問題。
6、魯棒性評(píng)測(cè)
6.1 長(zhǎng)尾分布
長(zhǎng)尾分布問題的一個(gè)重要方面是數(shù)據(jù)集不平衡,其中少數(shù)類別占大多數(shù),而許多其他類別只有有限數(shù)量的樣本,如下圖8(a)所示。
圖 8:穩(wěn)健性方面的挑戰(zhàn)
與數(shù)據(jù)集分布差異相關(guān)的三個(gè)主要泛化問題,即長(zhǎng)尾和正常情況、專家演示和測(cè)試場(chǎng)景以及位置、天氣等領(lǐng)域的轉(zhuǎn)移。這對(duì)模型泛化到各種環(huán)境提出了巨大的挑戰(zhàn)。有多種方法通過數(shù)據(jù)處理來解決這個(gè)問題,包括過采樣,欠采樣和數(shù)據(jù)增強(qiáng)。此外,基于加權(quán)的方法也常用于緩解數(shù)據(jù)集不平衡問題。研究通過對(duì)抗性攻擊以數(shù)據(jù)驅(qū)動(dòng)的方式生成安全關(guān)鍵場(chǎng)景。有用貝葉斯優(yōu)化被用來生成對(duì)抗場(chǎng)景。學(xué)習(xí)碰撞將駕駛場(chǎng)景表示為構(gòu)建塊上的聯(lián)合分布,并應(yīng)用策略梯度 RL 方法來生成風(fēng)險(xiǎn)場(chǎng)景。AdvSim修改代理的軌跡,同時(shí)仍然堅(jiān)持物理合理性,以導(dǎo)致失敗并相應(yīng)地更新 LiDAR。最近的工作提出了一種通過可微運(yùn)動(dòng)學(xué)模型使用梯度來解決安全關(guān)鍵擾動(dòng)的優(yōu)化算法。
一般來說,有效生成涵蓋長(zhǎng)尾分布的現(xiàn)實(shí)安全關(guān)鍵場(chǎng)景仍然是一個(gè)重大挑戰(zhàn)。雖然許多工作關(guān)注模擬器中的對(duì)抗場(chǎng)景,但更好地利用現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行關(guān)鍵場(chǎng)景挖掘和對(duì)模擬的潛在適應(yīng)也至關(guān)重要。此外,系統(tǒng)、嚴(yán)格、全面、現(xiàn)實(shí)的測(cè)試框架對(duì)于評(píng)估這些長(zhǎng)尾分布式安全關(guān)鍵場(chǎng)景下的端到端自動(dòng)駕駛方法至關(guān)重要。
6.2 協(xié)變量平移
行為克隆的一個(gè)重要挑戰(zhàn)是協(xié)變量轉(zhuǎn)變。專家策略的狀態(tài)分布和經(jīng)過訓(xùn)練的代理策略的狀態(tài)分布不同,當(dāng)經(jīng)過訓(xùn)練的代理部署在看不見的測(cè)試環(huán)境中或當(dāng)其他代理的反應(yīng)與訓(xùn)練時(shí)間不同時(shí),會(huì)導(dǎo)致復(fù)合錯(cuò)誤。這可能會(huì)導(dǎo)致受過訓(xùn)練的代理處于專家訓(xùn)練分布之外的狀態(tài),從而導(dǎo)致嚴(yán)重的失敗。
圖 8 (b) 給出了一個(gè)示例。DAgger(數(shù)據(jù)集聚合)是克服這個(gè)問題的常用方法。DAgger 是一個(gè)迭代訓(xùn)練過程,在每次迭代中推出當(dāng)前訓(xùn)練的策略來收集新數(shù)據(jù),并使用專家來標(biāo)記訪問過的狀態(tài)。通過添加如何從不完美的策略可能訪問的次優(yōu)狀態(tài)中恢復(fù)的示例,豐富了訓(xùn)練數(shù)據(jù)集。然后在增強(qiáng)數(shù)據(jù)集上訓(xùn)練該策略,并重復(fù)該過程。然而,DAgger 的一個(gè)缺點(diǎn)是需要一位可用的專家在線查詢。
對(duì)于端到端自動(dòng)駕駛,通過結(jié)合 DAgger 和基于 MPC 的專家。為了減少不斷查詢專家的成本并提高安全性,SafeDAgger 通過學(xué)習(xí)估計(jì)當(dāng)前策略與專家策略之間偏差的安全策略來擴(kuò)展原始 DAgger 算法。只有當(dāng)偏差較大時(shí)才會(huì)詢問專家,在那些危險(xiǎn)的情況下專家就會(huì)接手。MetaDAgger將元學(xué)習(xí)與 DAgger 結(jié)合起來,聚合來自多個(gè)環(huán)境的數(shù)據(jù)。LBC采用DAgger對(duì)數(shù)據(jù)進(jìn)行重采樣,使得損失較高的樣本被更頻繁地采樣。在 DARB中,對(duì) DAgger 進(jìn)行了一些修改以適應(yīng)駕駛?cè)蝿?wù)。為了更好地利用故障或安全相關(guān)樣本,它提出了多種機(jī)制,包括基于任務(wù)、基于策略以及基于策略和專家的機(jī)制,來對(duì)此類關(guān)鍵狀態(tài)進(jìn)行采樣。它還使用固定大小的重播緩沖區(qū)進(jìn)行迭代訓(xùn)練,以增加多樣性并減少數(shù)據(jù)集偏差。
6.3 域適配
在端到端自動(dòng)駕駛的背景下,長(zhǎng)尾分布問題尤為嚴(yán)重。數(shù)據(jù)集不平衡在駕駛數(shù)據(jù)集中尤其成問題,因?yàn)榇蠖鄶?shù)典型的駕駛都是重復(fù)且無趣的,例如,在許多幀中沿著車道行駛。相反,有趣的安全關(guān)鍵場(chǎng)景很少發(fā)生,但本質(zhì)上是多種多樣的。為了解決這個(gè)問題,一些工作依賴于手工制作的場(chǎng)景來在模擬中生成更加多樣化和有趣的數(shù)據(jù)。LBC 利用特權(quán)代理來創(chuàng)建以不同導(dǎo)航命令為條件的假想監(jiān)督。LAV 認(rèn)為,雖然用于數(shù)據(jù)收集的自車很少有容易發(fā)生事故的情況,但其他智能體可能經(jīng)歷過一些安全關(guān)鍵或有趣的情況。因此,它包括其他智能體的軌跡進(jìn)行訓(xùn)練,以促進(jìn)數(shù)據(jù)多樣性。
領(lǐng)域適配(DA)是一種遷移學(xué)習(xí),其中目標(biāo)任務(wù)與源任務(wù)相同,但領(lǐng)域不同。在這里,我們討論源域有可用標(biāo)簽而目標(biāo)域沒有標(biāo)簽或可用標(biāo)簽數(shù)量有限的場(chǎng)景。域隨機(jī)化也是一種簡(jiǎn)單有效的技術(shù),用于在模擬器中進(jìn)行 RL 策略學(xué)習(xí)的模擬到真實(shí)的適應(yīng),并進(jìn)一步適用于端到端自動(dòng)駕駛。它是通過隨機(jī)化模擬器的渲染和物理設(shè)置來實(shí)現(xiàn)的,以覆蓋訓(xùn)練過程中現(xiàn)實(shí)世界的可變性,并獲得具有良好泛化能力的訓(xùn)練策略。
如圖8(c)所示,自動(dòng)駕駛?cè)蝿?wù)的領(lǐng)域適應(yīng)包含幾種情況。這里需要注意的是,上述情況經(jīng)常重疊。
① 模擬到真實(shí):用于訓(xùn)練的模擬器與用于部署的現(xiàn)實(shí)世界之間存在巨大差距。
② 地理位置到地理位置:不同的地理位置具有不同的環(huán)境外觀。
③ 天氣變化:由雨、霧和雪等天氣條件引起的傳感器輸入變化。
④ 晝夜:傳感器輸入的照度變化。
⑤ 傳感器與傳感器之間:傳感器特性可能存在差異,例如分辨率和相對(duì)位置。
VISRI等人使用翻譯網(wǎng)絡(luò)將模擬圖像映射到真實(shí)圖像,并使用分割圖作為中間表示。強(qiáng)化學(xué)習(xí)代理根據(jù)翻譯后的模擬圖像進(jìn)行訓(xùn)練。通過圖像翻譯器和鑒別器實(shí)現(xiàn)域不變特征學(xué)習(xí),將兩個(gè)域的圖像映射到公共潛在空間。類似地,LUSR 采用循環(huán)一致 VAE 將圖像投影到由特定領(lǐng)域部分和通用領(lǐng)域部分組成的潛在表示中,并在此基礎(chǔ)上學(xué)習(xí)策略。UAIL 通過將不同天氣條件下的圖像分解為可區(qū)分的風(fēng)格空間和與 GAN 共享的內(nèi)容空間來實(shí)現(xiàn)天氣到天氣的適應(yīng)。在SESR 中,從語(yǔ)義分割掩模中提取類解纏結(jié)編碼,以減少模擬器中的圖像與現(xiàn)實(shí)世界之間的域差距。
目前,通過源目標(biāo)圖像映射或域不變特征學(xué)習(xí)進(jìn)行模擬到真實(shí)的適應(yīng)是端到端自動(dòng)駕駛的焦點(diǎn)。其他領(lǐng)域適應(yīng)案例,例如地理到地理或天氣到天氣的適應(yīng),是通過訓(xùn)練數(shù)據(jù)集的多樣性和規(guī)模來處理的。由于激光雷達(dá)已成為一種流行的駕駛輸入方式,鑒于當(dāng)前的工作主要集中在基于圖像的自適應(yīng)上,因此還必須設(shè)計(jì)適合激光雷達(dá)特性的特定自適應(yīng)技術(shù)。此外,應(yīng)注意交通人員的行為和模擬器與現(xiàn)實(shí)世界之間的交通規(guī)則差距,因?yàn)楫?dāng)前的方法僅關(guān)注圖像中的視覺差距。通過 NeRF 等技術(shù)將現(xiàn)實(shí)世界的數(shù)據(jù)納入模擬則是另一個(gè)有前途的方向。
7、未來趨勢(shì)
考慮到所討論的挑戰(zhàn)和機(jī)遇,本文列出了未來研究的一些關(guān)鍵方向,這些方向可能會(huì)在該領(lǐng)域產(chǎn)生更廣泛的影響。
7.1 零樣本和少樣本學(xué)習(xí)
自動(dòng)駕駛模型最終不可避免地會(huì)遇到超出訓(xùn)練數(shù)據(jù)分布范圍的現(xiàn)實(shí)場(chǎng)景。這就提出了一個(gè)問題:我們是否可以成功地將模型適應(yīng)一個(gè)看不見的目標(biāo)領(lǐng)域,其中可用的標(biāo)記數(shù)據(jù)是有限的甚至沒有。將這項(xiàng)任務(wù)形式化為端到端駕駛領(lǐng)域并結(jié)合零樣本/少樣本學(xué)習(xí)文獻(xiàn)中的技術(shù)是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵步驟。
7.2 模塊化端到端規(guī)劃
模塊化端到端規(guī)劃框架優(yōu)化多個(gè)模塊,同時(shí)優(yōu)先考慮下游規(guī)劃任務(wù),其具有可解釋性的優(yōu)勢(shì),某些行業(yè)解決方案(Tesla、Wayve 等)也涉及類似的想法。在設(shè)計(jì)這些可微感知模塊時(shí),會(huì)出現(xiàn)一些關(guān)于損失函數(shù)選擇的問題,例如用于對(duì)象檢測(cè)的 3D 邊界框的必要性、占用表示是否足以檢測(cè)一般障礙物,或者選擇 BEV 分割相對(duì)于車道的優(yōu)勢(shì)靜態(tài)場(chǎng)景感知的拓?fù)洹?/span>
7.3 數(shù)據(jù)引擎
大規(guī)模、高質(zhì)量數(shù)據(jù)對(duì)于自動(dòng)駕駛的重要性怎么強(qiáng)調(diào)都不為過。建立具有自動(dòng)標(biāo)記管道的數(shù)據(jù)引擎可以極大地促進(jìn)數(shù)據(jù)和模型的迭代開發(fā)。自動(dòng)駕駛的數(shù)據(jù)引擎,特別是模塊化的端到端規(guī)劃系統(tǒng),需要借助大型感知模型,以自動(dòng)的方式簡(jiǎn)化高質(zhì)量感知標(biāo)簽的標(biāo)注過程。它還應(yīng)該支持挖掘困難/極端情況、場(chǎng)景生成和編輯,以促進(jìn)數(shù)據(jù)驅(qū)動(dòng)評(píng)估。促進(jìn)數(shù)據(jù)的多樣性和模型的泛化能力。數(shù)據(jù)引擎將使自動(dòng)駕駛模型能夠不斷改進(jìn)。
7.4 基礎(chǔ)模型
語(yǔ)言和視覺大型基礎(chǔ)模型的最新進(jìn)展對(duì)社會(huì)的各個(gè)方面產(chǎn)生了重大影響。大規(guī)模數(shù)據(jù)和模型能力的利用釋放了人工智能在高級(jí)推理任務(wù)中的巨大潛力。微調(diào)或即時(shí)學(xué)習(xí)的范式、自監(jiān)督重建或?qū)Ρ葘?duì)形式的優(yōu)化以及數(shù)據(jù)流水線等都適用于端到端端自動(dòng)駕駛領(lǐng)域。然而,直接語(yǔ)言模型注入自動(dòng)駕駛代理似乎在兩個(gè)目標(biāo)的不同目標(biāo)之間不一致。自主代理的輸出通常需要穩(wěn)定且準(zhǔn)確的測(cè)量,而語(yǔ)言模型中的生成序列輸出旨在表現(xiàn)得像人類,而不管其準(zhǔn)確性如何。開發(fā)大型自動(dòng)駕駛模型的一個(gè)可行解決方案是訓(xùn)練一個(gè)視頻預(yù)測(cè)器,該視頻預(yù)測(cè)器可以以 2D 或 3D 方式對(duì)環(huán)境進(jìn)行長(zhǎng)期預(yù)測(cè)。為了在規(guī)劃等下游任務(wù)上表現(xiàn)良好,大型模型的優(yōu)化目標(biāo)需要足夠復(fù)雜,超出幀級(jí)感知。
7.5 車對(duì)萬物(V2X)
遮擋和超出感知范圍的障礙物是現(xiàn)代計(jì)算機(jī)視覺技術(shù)的兩個(gè)基本挑戰(zhàn),這甚至?xí)o人類駕駛員在需要對(duì)交叉代理做出快速反應(yīng)時(shí)帶來很大困難。車對(duì)車(V2V)、車對(duì)基礎(chǔ)設(shè)施(V2I)和車對(duì)一切(V2X)系統(tǒng)為解決這個(gè)難題提供了有前景的解決方案,來自不同觀點(diǎn)的信息補(bǔ)充了自車盲點(diǎn)。這些系統(tǒng)見證了多智能體場(chǎng)景信息傳輸機(jī)制的進(jìn)步,可以提供一種解決方案來實(shí)現(xiàn)自動(dòng)駕駛車輛之間的高級(jí)決策智能。
總結(jié)
本文對(duì)端到端自動(dòng)駕駛系統(tǒng)的研發(fā)現(xiàn)狀進(jìn)行了全面分析,涵蓋了端到端自動(dòng)駕駛的動(dòng)機(jī)、路線圖、方法論、挑戰(zhàn)和未來趨勢(shì)。重點(diǎn)介紹了幾個(gè)關(guān)鍵挑戰(zhàn),包括多模態(tài)、可解釋性、因果混亂、穩(wěn)健性和世界模型等。此外,我們還討論了基礎(chǔ)模型和視覺預(yù)訓(xùn)練方面的當(dāng)前進(jìn)展,以及如何將這些技術(shù)整合到端到端駕駛框架中。端到端自動(dòng)駕駛面臨著巨大的機(jī)遇和挑戰(zhàn),基于端到端研發(fā)現(xiàn)狀的基本方法,通過擁抱快速發(fā)展的基礎(chǔ)模型和數(shù)據(jù)引擎的努力,并強(qiáng)調(diào)了廣泛的關(guān)鍵挑戰(zhàn)提出有希望的解決方案,最終針對(duì)智能汽車打造多面智能體是我們這代人可以完全預(yù)見的。