歷時7年,特斯拉自動駕駛寫了一篇逆襲爽文_快看
特斯拉自動駕駛的重大彩蛋出現了。
國外黑客大神 GreenTheOnly 在特斯拉 FSD Beta 的代碼中發現了一段隱藏代碼。據了解,這段代碼可以開啟一個全新的模式「Elon Mode」(埃隆模式,代碼以馬斯克名字命名)。
如果車輛時速在60km/h以下,開啟這一模式,車輛可以實現 L3 級自動駕駛,無需雙手把持方向盤。
(資料圖片僅供參考)
可以說,特斯拉在技術上已經有能力實現 L3 級自動駕駛。只是,目前其仍沒有拿到政府的相關批準。
在自動駕駛領域,特斯拉一騎絕塵。
但是,領先地位的鑄就并非朝夕。
復盤特斯拉自動駕駛發展歷程,實際上不亞于看了一篇逆襲「爽文」。即使是特斯拉,也經歷了從落后,到追趕超越,再到稱王加冕,自我超越的五個時期。
2016 年,在 Mobileye 首先官宣「分手」后,特斯拉便開始自研算法。期間有一段時間,其算法表現甚至不如 Mobileye。
直到 2020 年,重構算法后,特斯拉才確立了行業領頭羊的地位。
在這一時期涌現的BEV、Transfomer、自動標注等技術,現如今已經成為如今行業普遍延用的技術路線。
但特斯拉并未止步,又對算法進行了升級,比如時序信息的加入,升級到占用網絡。
自始至終,特斯拉追求的就不是「武林第一」的頭銜。
特斯拉的目標只有一個:在純視覺方案下,如何用算法刻畫真實的物理世界,以實現自動駕駛。
總結來看,堅持視覺方案,特斯拉從「第一性原則」出發,針對算法問題進行持續迭代,使算法更趨向于理解真實世界。
01 、自研算法誕生前夜,特斯拉與 Mobileye 分手
2016 年 5 月 7 日,一場發生于美國的車禍引起了全球的關注。
一輛 Model S(2015 年款)在使用 Autopilot 狀態下,攔腰撞向了一輛垂直方向開來的白色掛車,事故導致了一人死亡。
彼時,這起事故被媒體冠以「全球首宗自動駕駛致命事故」的標題經大肆報道。
在鋪天蓋地的報道之下,特斯拉的Autopilot 成了眾矢之的。
特斯拉和 Mobileye 的合作開始于2014 年。
2014 年 10 月,特斯拉發布第一代硬件Hardware 1.0,軟硬件均由 Mobileye提供,自動駕駛芯片是 Mobileye 的 EyeQ3。
而在上述事故發生的兩個月后,2016 年 7 月,Mobileye 宣布了和特斯拉終止合作。供應商搶先聲明雙方合作破裂,這在汽車市場來說頗為罕見。
對于分手原因,彼時雙方各執一詞。
在特斯拉看來,Mobileye 的黑盒模式是雙方分手的原因所在。
特斯拉曾在一份文件中直言:黑盒模式之下,Mobileye 難以跟上特斯拉產品的發展步伐。
而 Mobileye 則表示:因為特斯拉的自動駕駛功能「超過了安全的底線」,因此才終止了雙方的合作。
實際上,雙方的分手早有預兆。
2015 年,特斯拉就開始布局自研自動駕駛軟硬件,Mobileye 被棄用只是時間問題。
2015 年 4 月,特斯拉組建了基于計算機視覺感知的軟件算法小組 Vision,準備自研軟件。
同年,特斯拉還從 AMD 挖來了傳奇芯片設計師 Jim Keller。隨后,在 2016 年,特斯拉開始組建芯片研發團隊,并由 Jim Keller 擔任 Autopilot 負責人。
和眾多俗套的情愛故事一樣,與 Mobileye 分手之后,特斯拉也經歷了短暫的低谷和失落。
但在隨后的日子里,失意的特斯拉最終成長為自動駕駛領域領頭羊。
02、2016 年-2018 年特斯拉初出茅廬
在告別了 Mobileye 之后,特斯拉選擇全棧自研自動駕駛算法,自立自強。
在自動駕駛軟硬件發展思路上,馬斯克為特斯拉制定了「硬件先行,軟件更新」的思路。
硬件方面,2016 年 10 月,特斯拉還發布了第二代硬件Hardware 2.0。自動駕駛芯片由英偉達提供,配置 8 個攝像頭+12 個遠程超聲波雷達+1 個前置毫米波雷達,并且這一套配置延續到了 Hardware3.0。
算法方面,特斯拉延用了業內常規的骨干網結構;使用 2D 檢測器進行特征提取;以人工對數據進行標注。
整體來看,這一套自動駕駛算法還比較原始,相對傳統。
值得一提的是,在這一時期,特斯拉自動駕駛算法仍處于技術追趕階段。
從硬件配置來看,盡管 HW2.0 優于此前 Mobileye 提供的的 HW1.0,但受限于軟件算法,彼時特斯拉的自動駕駛能力和 Mobileye 有著較大差距。
盡管2016 年 10 月,特斯拉推出了HW2.0,但在空跑了大半年后,直到2017 年 3 月,Model3/Y 才開始能夠真正用上 Autopilot 功能。
在算法能力追上 Mobileye 后,特斯拉發現,當前使用的算法存在著諸多不足。其中,最為明顯的是效率問題。
在那一時期,自動駕駛的目標檢測普遍遵循一個通用的網絡結構:Input → backbone→neck →head →Output
主干網絡 backbone為特征提取網絡,主要用于識別圖像中的多個對象;
neck 則主要負責提取更為精細的特征;
而在經過特征提取之后,檢測頭 head 則為提供了輸入的特征圖表示,比如檢測對象,實例分割等。
值得一提的是,當時業內自動駕駛視覺神經網絡都只有一個 head。
但是,在自動駕駛的場景中,往往需要在一個神經網絡中同時完成多項任務,比如車道線檢測,人物檢測與追蹤,信號燈檢測等。
這就使得原有算法出現了「腦袋不夠用」的情況。
因此,在 2018 年,特斯拉開始了對自動駕駛算法的第一次革新,瞄準自動駕駛網絡結構及效率。
03、2018 年-2019 年算法利刃初成
在這次算法革新中,特斯拉構建了多任務學習神經網絡架構HydraNet,并使用了特征提取網絡 BiFPN。
這使得特斯拉算法效率得到了提升。其中,最具特色的為 HydraNet。
Hydra 一詞源于傳說中的生物「九頭蛇」,因而 HydraNet 也被稱為「九頭蛇網絡」。
以「九頭蛇」命名的原因在于,HydraNet 結構能夠完成多頭任務,而非此前的單一檢測。
相較于此前算法,HydraNet 能夠減少重復的卷積計算,減少主干網絡計算數量,還能夠將特定任務從主干中解耦出來,進行單獨微調。
不過,此次革新更多是一次算法的「微調」,并沒有達到重構和跨越性的程度。
在融合方式上,特斯拉采用的仍是后融合策略,數據進行人工標注,且自動駕駛算法仍舊是小模型,與后續算法革新相比,并沒有太大的突破。
這一時期,在改良了傳統算法之后,特斯拉還對硬件進行了新一輪的更新。
在歷經四年研發后,2019 年 4 月,特斯拉發布了 Hardware 3.0 系統。其中最大的亮點是特斯拉采用了自研的FSD 芯片。
特斯拉 FSD 芯片算力達72TOPS,遠高于當時市面上的自動駕駛芯片。同時,FSD 芯片以兩塊 NUD 為主,圖片處理效率更高,且不裝配激光雷達。
新硬件的發布,為特斯拉算法的下一次迭代提供了可能。
在完成硬件準備的前期工作之后,特斯拉開始了對自動駕駛算法的史詩級重構。
04、2020 年特斯拉自動駕駛一騎絕塵
2020 年 8 月,馬斯克在推特上發文稱,Autopilot 團隊正對軟件的底層代碼進行重寫和深度神經網絡重構;全新的訓練計算機 Dojo正在開發。
馬斯克的一封推文激起浪千重。市場對特斯拉自動駕駛算法的發展方向投以關注。
在他看來,對 AP 的重寫,不是對現有結構的優化,而是一場「量子式躍遷」。
縱覽特斯拉自研算法近十年歷程,2020 年可以說是其最為璀璨的一年。
在這一場行業重構中,特斯拉帶來的一系列技術方向被自動駕駛行業延用至今,如 BEV+Transformer 的組合,特征級融合取代了后融合,數據自我標注取代人工標注等。
如果說 2020 年自動駕駛江湖是群雄逐鹿時期,那么,自 2020 年之后,這片江湖便進入了特斯拉時代。
(1)BEV+Transformer,自動駕駛進入大模型時代
在特斯拉的這場技術重構中,最為引人注目的便是于 2020 年引入的 BEV+Transfomer 架構。
在特斯拉看來,過去自動駕駛依靠「2D 圖像+ CNN」便企圖實現全自動駕駛是不太可能的。
主要原因在于,攝像頭采集的數據是 2D 圖像,但自動駕駛需要面對的卻是三維真實世界。
以二維數據解決三維問題,不大現實。
純視覺路線之下,攝像頭拍攝的 2D 圖像如何「升維」到 3D,成了特斯拉需要思考的問題。
在特斯拉看來,2D 圖像「升維」的最佳表達方式是:BEV(鳥瞰圖)。BEV 視角,形成車身自坐標系的好處在于兩方面:
一是將不同視角在 BEV 下統一表達是很自然的描述,有利于后續規劃控制模塊任務;
二是 BEV 視角解決了圖像視角下的尺度和遮擋問題。
但緊接著問題就來了:如何實現 2D 向 3D 的轉換,以引入 BEV?
D 圖像是照片,存在近大遠小的問題。而解決「近大遠小」問題的傳統轉變方法是依靠 IPM(逆透視變幻),進行先 2D 再 3D 的正向開發。
IPM,簡而言之,就是利用照相機成像過程中坐標轉換的公式,在已知照片的光圈,焦距等條件下,去「算出」3D 坐標數據,對 2D 的圖像進行「3D 復原」。
但是,和課堂上的算數題一樣,這樣的計算需要以各種「完美」假設為前提。比如,地面是「完美」水平的,相機和地面不存在相對運動等。
也即是說,只要車輛有任何一點顛簸,道路有一點不平,就會打破這個假設,導致最終的成像結果失真。
另外,在一系列卷積,提取特征,融合之后,得到的感知結果,再投影到 BEV 空間中,精度很差,尤其是遠距離的區域。
以此來看,利用傳統方法,實現從 2D 到 3D 的「升維」,很難實現。
在這樣的情況下,特斯拉引入大模型 Transformer,進行 3D 到 2D 的逆向開發。
在這一方式中,特斯拉先在 BEV 空間層中初始化特征,再通過多層的 Transformer 和 2D 圖像特征進行交互融合,最終得到 BEV 特征,也就是先 3D 再 2D,反向開發,實現 BEV 的轉換。
Transformer 是一種基于注意力機制(Attention)的神經網絡模型。與傳統神經網絡 RNN 和 CNN不同,Transformer 不會按照串行順序來處理數據,而是通過注意力機制,去挖掘序列中不同元素的聯系及相關性。
這種機制背后,使得 Transformer 可以適應不同長度和不同結構的輸入。
Transformer 的引入,使得 BEV 視角在自動駕駛領域得以實現。
而 3D 空間的引入,使得自動駕駛的思維方式,更接近于真實世界。
但是,在這一階段,BEV 空間仍是對瞬時的圖像片段進行感知,缺乏時間序列信息,自動駕駛仍未進入 4D 空間。
(2)特征級融合取代后融合成為主流
BEV 即鳥瞰圖,「上帝視角」,車身自坐標系。
若僅從定義來看,BEV 或許是特斯拉各類「燒腦」術語中最容易理解的。但這絲毫不影響 BEV 對自動駕駛行業的價值和意義。
引入 BEV 視角后,給自動駕駛帶來最直觀的變化是,推動 2D 圖像向 3D 車身自坐標系的轉變,方便后續的決策和控制。
但除此之外,BEV 還使得自動駕駛從后融合(或稱「決策層融合」)向特征級融合(或稱「中融合」)方向邁進。
同一物體在不同傳感器視角中的狀態
自動駕駛的每一個傳感器,都在對周遭世界進行感知。
每個攝像頭、雷達都包含了其對真實世界的理解,但由于角度,傳感器類型的不同,使得車輛沒辦法依靠一個傳感器完成對周遭世界的認識。
因此,每個傳感器所感知的只是現實世界的其中一塊拼圖,要實現自動駕駛,便需要完成拼圖拼湊。
而傳感器數據的融合則可以看成是拼圖的拼湊步驟。
所謂的后融合,便是由決策層域控制器進行拼圖的拼湊。
后融合的好處非常明顯,傳感器「即插即用」,融合在域控制器決策層,對芯片算力要求較低。
后融合策略對車端算力要求僅在 100TOPS 以內,作為參考,前融合卻需要500-1000TOPS 算力。
而特征級融合介于兩者之間,大約需要300-400TOPS。
因此,在自動駕駛的早期,由于門檻低,后融合策略受到了自動駕駛供應商、車企的歡迎。
但是,后融合策略容易產生信息失真,造成錯誤決策。
后融合策略下,低置信度信息會被過濾掉,產生原始數據的丟失,并且可能誤差疊加,導致信息「失真」。
尤其是在惡劣天氣下,這樣的情況更為明顯。這就有可能造成決策層錯誤決策。相較于后融合策略,特征級融合本質上更接近于傳感器的原始數據。因此,其準確度必然會更高。
除此之外,在 BEV 空間層進行特征級融合,還具有多種好處,更是后續行業革新的方向:
跨攝像頭融合和多模融合更易實現。大多數行業公司采用的是異構傳感器(攝像頭、激光雷達、毫米波雷達等)的感知方案。而 BEV 空間能夠統一傳感器數據維度,更容易實現特征融合。
時序融合更易實現。
可「腦補」出遮擋區域的目標。
更方便端到端做優化。
得益于此,BEV 架構也成了國內自動駕駛公司延用的基本方向。
(3)數據從人工標注轉向自我標注
在自動駕駛圈,有一句名言:數據決定了算法的上限,模型只是不停的逼近這個上限。
數據燃料在自動駕駛算法訓練中的地位可見一斑。
為了確保投喂給算法的數據正確而有益,過去自動駕駛行業往往都采取人工標注的方式。
特斯拉也不例外。
在 2018 年時,特斯拉選擇和第三方公司合作,但這樣的方式標注效率很低,并且溝通的成本很高。
為了實現標注效率和質量的提升,特斯拉自建了標注團隊,人員規模一度超過 1000 人。
但是,自建標注團隊也隨之帶來了新問題。
隨著自動駕駛數據的進一步擴大,所需的標注人員數量也在進一步增長,這意味著成本水漲船高。
鑒于高成本,低效率的屬性,人工標注自然地成為了特斯拉的「眼中刺」。
在 BEV+Transfomer 引入后,特斯拉的數據標注效率得到了一定提升。在引入 BEV 空間層前,標注人員需要標記 8 張 2D 圖像,而在 BEV 空間層下,僅需要進行一次 3D 空間中的標注便可完成。
但是,由于人類標注員對于語義信息更擅長,而計算機對幾何,重建,三角化,跟蹤更加擅長。
這使得 BEV 下,數據標注是一種「半自動」狀態,需要人工和計算機進行協作。
同時,盡管標注的效率有所增加,但在數據的指數級增長下,仍舊捉襟見肘。
顯然,自動標注才是效率、效果、成本三方矛盾的最終破局方法。
為此,在 2020 年開始,特斯拉研發并使用了數據自動標注系統。
特斯拉數據標注的思路非常簡單:用更多的數據訓練更大的模型,再用「大模型」的數據訓練車端「小模型」。
在車輛行駛過程中,攝像頭收集的路面信息,打包上傳到服務器的離線神經網絡大模型,由大模型進行預測性標注,再反饋給車端各個傳感器。
由于傳感器視角不同,當預測的標注結果在 8 個傳感器均呈現一致時,則這一標注成功。
而這一過程,也即是車載模型對服務器的大模型進行自動標注系統的蒸餾。
同時,車輛也在充當特斯拉「眾包地圖」采集車的角色。
當不同的車輛走在同一段路時,離線大模型將記錄同一段路不同的標注結果。
當數據標注系統將不同車輛,不同時間,不同天氣狀況下的標注結果疊加后,得到了一個具備高度一致性的標注結果,這也意味著,特斯拉得到了自己的「高精地圖」。
052021 年-2022 年劍指端到端大模型
BEV+Transfomer 架構的引入,可以說是一場行業重構。
這一「黃金組合」在自動駕駛領域有著諸多優勢,是過去算法所不具備的。
但是,BEV+Transfomer 在推出之初,也并非完美無瑕。
隨著自動駕駛的進一步發展,面臨場景逐漸多樣化,coner case 越來越多,這便對自動駕駛算法的泛化能力提出了新的要求。
在隨后的兩年時間里,為了讓算法更接近人類的思考方式,特斯拉對 BEV+Transformer 架構進行了改良。
其中,最主要的兩個改良是時序信息的增加和占用網絡的應用。
雖然 2020 年,特斯拉利用 BEV 解決了 2D 向 3D 轉換的空間問題,但卻仍未引入時序信息。
也即是說,在上一個版本中,BEV 仍然是對瞬時的圖像片段進行感知,缺乏時空記憶力,汽車只能根據當前時刻感知到的信息進行判斷。
時序信息的缺席,讓自動駕駛潛藏了極大的安全風險。
例如在行車過程中,如果有行人正在穿過馬路,過程中被靜止的障礙物遮擋,如果汽車僅有瞬時感知能力,由于在感知時刻行人正好被汽車遮擋,則無法識別到行人,可能威脅駕乘人員和行人的安全。
人類司機在面對類似場景時,則會根據之前時刻看到行人在穿越馬路的記憶,能夠意識到行人被車輛遮擋,且有繼續穿越馬路的意圖,從而選擇減速或者剎車避讓。
如何給自動駕駛增加「記憶」功能便顯得尤為關鍵。
因此,自動駕駛感知網絡也需要擁有類似的記憶能力,能夠記住之前某一時間段的數據特征,從而推演目前場景下可能性最大的結果,而不僅僅是基于當前時刻看到的場景進行判斷。
為了解決這一問題,特斯拉感知網絡架構引入了時空序列特征層,使用視頻片段,而不是圖像來訓練神經網絡,為自動駕駛增添了短時記憶能力。
除了引入時序網絡外,在 2022 年,特斯拉對 BEV 進行了升級——引入占用網絡。
在過去,自動駕駛算法和人作比較,往往顯得呆板、過于機械。
在傳統的自動駕駛算法中,大多是依靠大數據喂養,得出「經驗」,然后識別物體,再進行決策。
也即是說,算法需要經歷,感知,辨識,決策,執行這樣的思考流程。
但在現實世界里,真實的路況下,實際情況是錯綜復雜的,存在著大量的極端情況(corner case),要讓算法認全所有事物,顯然不太現實,且效率不高。
以「二仙橋大爺」為例,若自動駕駛遇上了如此「超載」的車輛,算法將其識別為一般的三輪車,并判斷路況,但對車后拖載的貨物,既不顯示,也不識別。
當自動駕駛的車輛進行超車變道時,就容易發生剮蹭等事故,潛藏一定風險。
為了解決這類問題,特斯拉將 BEV 升級到了占用網絡(occupancy network)。
在 2D 圖像世界中,一個物體由無數個像素點組成。
而在占用網絡之下,3D 的真實世界則是由無數個微小立方體——體素堆疊組成。
占用網絡,將原本的 BEV 空間,分割成無數的體素,再通過預測每個體素是是否被占用。
簡單來說,不考慮這個物體到底是什么,只考慮體素是否被占用。這使得非典型但卻存在的事物能夠直接表示出來,增加了算法的泛化能力和對現實世界的認知。
實際上,占用網絡的體素,充當了激光雷達點陣的作用。而占用網絡最直接的效果便是實現了「偽激光雷達」的效果。
時序信息的增加,升級占用網絡,使得特斯拉自動駕駛算法的泛化能力得到了提升。
而借助于算法提升,特斯拉 FSD 更能刻畫真實的物理世界,進而才有可能實現端到端模型。
06、未來,自動駕駛將走向何方
在自動駕駛領域,特斯拉毫無疑問是領頭羊。
在確定純視覺路線后,特斯拉在自動駕駛算法上進行了四次迭代更新。除了第一次是為追趕行業發展以外,其余更新均引領行業的發展。
特斯拉能夠走在行業前列,除了優秀的團隊以外,更在于整體的思路設計秉持「第一性原理思維」。
所謂的「第一性原理思維」,即一種刨根問底、追究最原始假設和最根本性規律的思維習慣。
「物理學教會你根據第一性原理做出推理,而不是通過類比進行推理。類比式推理就是幾乎絲毫不差地模仿或模擬他人。」馬斯克曾如此說到。
在特斯拉自動駕駛迭代思維上,第一性原理思維滲透在了方方面面:
算效率不高,HEAD 部分不夠用?開發了九頭蛇網絡結構;
小模型無法實行并行計算,泛化能力不強,BEV 無法精確實現?引入大模型 Transfomer,逆向開發;
現有芯片的構成冗余,不適配純視覺路線需求,且成本高?自研 FSD 芯片;
數據標注成本高,數據訓練量不足?建設超算中心 DOJO,實現數據自我標注,同時虛擬場景訓練算法,提高自動駕駛能力等等。
在錨定純視覺路線后,特斯拉均在算法迭代中,針對各種問題,發現短板,并加以解決。
而這,正是特斯拉執牛耳的關鍵。
同時,鑒于特斯拉的行業領導地位,研究其自動駕駛算法迭代歷程后,也能讓外界窺見自動駕駛行業的未來。
(1)「輕地圖,重感知」成行業主流方向
在過去,自動駕駛行業,往往采取高精地圖方案,輔助實現自動駕駛。
高精地圖能夠提供超視距、厘米級相對定位及導航信息,在數據和算法尚未成熟到脫圖之前,能夠成為整機廠的「拐杖」,幫助自動駕駛的落地。
但是,和其優點一樣,高精地圖的缺點也非常明顯:
需要圖商采集更新,無法實時更新;
制圖資質受到嚴格管理,信息采集面臨一定法規風險;
成本昂貴高昂。
在這樣的情況下,特斯拉構建了自己的「高精地圖」。
通過 BEV 空間層,特斯拉將不同視角的攝像頭采集到 2D 圖像統一轉換到 BEV 視角,車輛形成自車坐標系。
同時,引入服務器的離線神經網絡,實現數據自動標注,確保標注效果,且在無數「眾包采集車」的幫助下,疊加標注結果,得出道路信息標注的「唯一解」。
BEV、Transfomer、引入時序信息、數據自動標注等等,一系列技術加持之下,特斯拉才得以實現「無圖」。
國內市場,「輕地圖,重感知」也成為了行業發展的主流方向。
2022 年 4 月,毫末智行提出要做「重感知、輕地圖」的城市智能駕駛,開始降低方案中高精地圖的權重,乃至做到無需高精地圖;
2022 年年底,小鵬發布了第二代智能輔助駕駛系統 XNGP,并對外宣布將擺脫高精地圖限制;
2022 年下半年,華為余承東表示:「自動駕駛未來不應過分依賴于高精地圖、車路協同。」
今年 5 月,蔚來發布了 Banyan 2.0.0 系統,完成了向 BEV 感知路線的切換;
國內一眾廠商深受特斯拉路線影響,延用 BEV 架構,開始對高精地圖動刀,「重感知,輕地圖」路線成為了市場主流發展方向。
特斯拉的 BEV+Transformer 方案為行業的「脫圖」提供了技術上的可行性。
從特斯拉路線經驗來看,如果要以純算法,實現擺「脫圖」,或許需要車企同時具備以下兩個條件:
引入 BEV 架構,實現異構傳感器的融合,生成活地圖;具備超算中心,或離線服務器的大模型,能夠實現自動標注及仿真訓練;
目前,「輕地圖」路線大多仍是通過軟硬件結合的方式,降低高精地圖需求,本質上仍然是「多傳感器+高精地圖」路線。
從行業發展趨勢來看,國內車企也在向「云端大模型+BEV」的路線靠攏,以期實現「脫圖」。
6 月 17 日,在理想汽車家庭科技日上,理想副總裁兼自動駕駛負責人郎咸朋便對外公布了理想汽車的 NPN 網絡。
郎咸朋介紹稱,在車輛行經一段路時,NPN 網絡將道路信息特征進行提取后,存儲于云端。
而當車輛再次行駛到該路口時,再將儲存的道路特征拿出來,與車端模型進行特征層融合,以此解決道路信息的遮擋問題。
當 NPN 網絡對同一路段堆疊大量標注結果后,最終便達到了「高精地圖」的效果。
理想汽車的「NPN 網絡+BEV」實際上延用的就是特斯拉的「離線大模型+BEV」的技術路線。
(2)升級到占用網絡,實現去「激光雷達」
在 2022 年的 AI day 上,特斯拉將 BEV 升級到了占用網絡。
占用網絡顯著的特點是,拋棄了過去算法需要先識別、判斷物體,再進行決策的思路。
在面對訓練中沒有出現過的物體時,如側翻的白色大卡車,垃圾桶出現在路中央,傳統視覺算法是無法檢測的。
而占用網絡,則用體素的概念,僅僅是判斷該空間有沒有物體,而不去深究物體是什么。
這大幅提升了模型的泛化能力,有助于城市 NOA 的實現。
從特斯拉 AI Day 演示效果來看,特斯拉通過鳥瞰圖、占用檢測和體素分類使純視覺方案已經達到「偽激光雷達」效果。
值得注意的是,在特斯拉發布的最新硬件HW4.0中,預留了4D 毫米波雷達接口。這預示著特斯拉或將重啟毫米波雷達,以彌補純視覺算法在高程信息感知上的不足。
從成本來看,公開報道顯示,4D 毫米波雷達價格僅約為高線束激光雷達的 1/10。
(3)AI 大模型卷入自動駕駛,超算中心成標配
今年 5 月,馬斯克發推文稱,FSD11.透露稱,FSD V12 版本將完全實現端到端。
什么是端到端?
目前,自動駕駛模型架構將駕駛目標分為感知、規劃、控制三大模塊。
但是,這和人類駕駛行為有著根本的不同。
人類司機在看到視覺信息后,不會對所看到的物體進行數據分析,而是基于經驗,在「黑盒」狀態下完成駕駛決策,并協調手、腳執行任務。
而端到端模型更為貼近人的駕駛決策行為。
攝像頭采集到外界的視頻數據后,算法直接輸出的是方向盤轉角多少度的控制決策,不存在單獨的「圖像識別檢測」任務。
端到端模型的決策在「黑盒」狀態下進行,通過賦予數據,使算法積攢「經驗」,使得其決策和執行同步進行。
在理想狀態下,「黑盒」狀態下的端到端大模型實際比基于規則設定的傳統小模型更為安全。
比起傳統的設定規則,參數對算法結構進行「補丁」式矯正,只要投喂的正確案例足夠多,那么 AI 大模型模型所需要的時間必然小于傳統規則。
而經過足夠的數據和案例的投喂,端到端模型的泛化能力也必然強于傳統的自動駕駛算法。
為了使得大模型落地,海量的數據投喂成了廠商必然選擇。
毫末智行 CEO 顧維灝就曾公開表示,要使由數據驅動的 Transformer 大模型量變引起質變需要 1 億公里的里程數據。
這一海量數據顯然無法單獨依靠某個廠家通過銷售車輛完成。在這樣的情況下,超算中心便成了 AI 大模型落地的標配。
超算中心對大模型的助力主要體現在數據標注和仿真訓練上。
特斯拉 2022 年發布的超算中心 Dojo 便是如此。
特斯拉 Dojo 的功能,能夠利用海量的視頻數據,做「無人監管」的標注和仿真訓練。
特斯拉打樣在前,國內不少廠商也緊隨其后。在 2022 年以后,超算中心開始活躍在自動駕駛領域。
2022 年 8 月,基于阿里云智能計算平臺,小鵬推出了扶搖超算中心,每秒浮點運算達 60 億次,專用于自動駕駛模擬訓練。
同時,小鵬還推出了全自動標注系統,將標注效率提升近 4.5 萬倍,以前 2000 人一年的標注量,現在 16.7 天可以完成。
今年 1 月,毫末智行和火山引擎聯合打造了MANA OASIS 智算中心,用于自動標注及仿真訓練。
據悉,MANA OASIS 智算中心,每秒浮點運算達 67 億次,存儲帶寬每秒 2T,通信帶寬每秒 800G。
除了小鵬和毫末以外,跟隨特斯拉步伐,國內車企設立的超算中心還有:吉利設立了星瑞智算中心;智己汽車的云上數據超級工廠等。
可以說,在自動駕駛領域,特斯拉引領著行業的發展方向。
自 2020 年以來,特斯拉率先使用了 BEV、Transfomer 架構、離線網絡大模型,隨后,國內眾多車企才開始紛紛跟進。
而近一段時間,「FSD 入華」的話題時常引發市場討論。
在熱議的背后,有觀點認為,FSD 將是那條引起自動駕駛行業優勝劣汰的鯰魚。言外之意滿是對行業賽道參與者的擔憂。
這倒也不用過分憂慮。
正如前文所言,特斯拉也并非一開始就是「江湖第一」。
在經歷「被分手」后,特斯拉自動駕駛算法經歷了落后,到追趕,再到引領的不同時期,更多是帶有逆襲成分。
而逆襲的關鍵點在于:選好目標,敢于「一條道走到黑」。
在過去一段時間里,市場對于特斯拉的純視覺方案并不看好。不少業內觀點認為,激光雷達是安全件,純視覺方案的自動駕駛并不具備可行性。
但在確定純視覺路線以后,針對純視覺方案的各種問題,特斯拉從第一性原理出發,思考確切問題的根本,并提出解決方式。
最終的結果是,特斯拉成為自動駕駛領頭羊。
目前,自動駕駛也并未到決賽階段。對于國內這一賽道的參與者,市場要有足夠信心。
畢竟,特斯拉 FSD 仍未入華,而賽道參與者的較量仍未真正開始。
關鍵詞:
相關閱讀
-
歷時7年,特斯拉自動駕駛寫了一篇逆襲爽...
特斯拉自動駕駛的重大彩蛋出現了。國外黑客大神GreenTheOnly在特斯拉FS -
前沿資訊!阿門-湯普森:我最擅長打轉換...
火箭4號秀阿門-湯普森本周接受了TheAthletic的采訪。當被問及他認為個 -
【新要聞】任何人發現火災時都應當立即...
1、1998年頒布的《消防法》明確規定,任何人發現火災時,都應當立即報 -
健合舉辦寵物健康營養科普大賽,積極推...
要想把寵物養好、養細,科學養寵很重要,健合旗下Solid Gold素力高為了向 -
天藤湘子年輕照片_天藤湘子
天藤湘子年輕照片,天藤湘子這個很多人還不知道,現在讓我們一起來看看 -
短視頻電腦制作軟件_制作小視頻的電腦軟...
1、小影制作,我高中的畢業錄像就用這個軟件后期編輯的,相對其他軟件 -
家長速看!300輛鳳凰牌兒童自行車召回,...
中新經緯6月22日電據“上海市場監管”微信號消息,上海鳳凰自行車有... -
籃球的歷史和起源_籃球的歷史和起源介紹...
1、籃球已經有100多年的歷史了。它首先出現在美國,是由一位名叫詹姆斯 -
海電運維IPO:關聯方為四名員工代繳五險...
樂居財經蘭蘭6月20日,福建海電運維科技股份有限公司(以下簡稱“海電 -
【天天報資訊】越南銀行業非現金支付日...
中國商務新聞網是商務部國際商報社主辦,國家互聯網信息辦公室批準的國 -
當前視訊!香港食安中心呼吁市民不要食...
香港食物環境衛生署食物安全中心(中心)六月二十三日呼吁市民不要食用 -
坤鵬論:讀《普羅泰戈拉篇》 德性是否...
政治的本質是基于利益的妥協,做人也一樣,也得適當妥協。——坤鵬... -
廣東高考今日放榜、廣州中考順利收官,...
今天,廣東高考放榜。幾天前,廣州中考順利收官。今年,廣州有5 8萬名 -
世界速讀:2023廣東廣州高溫補貼是哪幾...
天氣也越來越熱,伴隨著炎炎夏日的到來,部分職工的工資收入將多出一筆 -
陜西“十大最美農村路”!嵐皋這段路上...
近日,陜西2022年度“十大最美農村路”評選結果揭曉。富平縣美楊路... -
《原神》2023年6月25日禮包兌換碼分享-觀點
原神2023年6月25日的兌換碼是什么呢?看來還是有很多小伙伴們都還不是 -
“冰”與火!未來一周河南高溫和陣雨天...
大象新聞記者吳紫翼6月22日至24日,河南省淮河以北大部出現高溫天氣, -
世界百事通!濟南高新:擬向控股股東關...
【濟南高新:擬向控股股東關聯方定增募資不超4億元】濟南高新(600807)6 -
每日訊息!江蘇2023高考一分一段表 江蘇...
在使用一分一段表時,應該對比近三年來的“一分一段”表,而不是單... -
資訊推薦:800MW/1600MWh!歐盟批準對匈...
歐盟委員會已經批準了匈牙利政府11億歐元(約合12億美元)的計劃,以支持