2025年5月7日,理想汽車舉辦「AI Talk 第二季」并就VLA司機(jī)大模型等一系列內(nèi)容展開。在當(dāng)下自動(dòng)駕駛行業(yè)普遍陷入“功能瓶頸”與“用戶信任焦慮”之時(shí),VLA不僅是一項(xiàng)技術(shù)成果,更是一種戰(zhàn)略宣言。此前,由ChatGPT帶動(dòng)的大模型浪潮逐漸從語(yǔ)言走向多模態(tài)之后,VLA的出現(xiàn)也可以被視為一場(chǎng)在垂直場(chǎng)景中“自我閉環(huán)”的工程性嘗試,它不僅標(biāo)志著理想汽車正式跨入人工智能核心研發(fā)陣地,也將自動(dòng)駕駛從“功能層”推到了“智能協(xié)作層”。
自動(dòng)駕駛,從功能堆疊到智能協(xié)作
過(guò)去幾年,整個(gè)智能駕駛行業(yè)在“端到端”和“規(guī)則算法”之間來(lái)回?fù)u擺。技術(shù)社區(qū)爭(zhēng)論模型結(jié)構(gòu),資本市場(chǎng)押注落地節(jié)奏,而用戶層面則在體驗(yàn)不穩(wěn)定與安全焦慮中漸趨疲勞。
理想VLA的意義在于,它不是對(duì)已有路線的加強(qiáng)版,而是結(jié)構(gòu)性的方向重建。VLA全稱為Vision-Language-Action,即視覺(jué)-語(yǔ)言-行為三位一體的大模型體系。它具備三種能力融合輸出的能力:看清世界(3D空間建模)、理解語(yǔ)義(語(yǔ)言智能)、做出合理決策(行為生成),最終讓駕駛系統(tǒng)從“被動(dòng)反應(yīng)”轉(zhuǎn)為“主動(dòng)協(xié)同”。這不是更聰明的工具,而是一個(gè)有基本判斷力的智能體。換句話說(shuō),VLA不僅是“開得更好”,而且是“開得像人”。
技術(shù)進(jìn)化路徑背后,是對(duì)工程規(guī)律的堅(jiān)持
VLA不是天降成果,而是理想從規(guī)則系統(tǒng)、端到端架構(gòu)、再到多模態(tài)融合長(zhǎng)期積累的結(jié)果。在理想汽車內(nèi)部,VLA的研發(fā)并不是跨越式推進(jìn),而是經(jīng)過(guò)工程邏輯深度打磨的自然演進(jìn)。
李想在AI Talk中明確表達(dá):“VLA不是突變,而是進(jìn)化?!边@個(gè)觀點(diǎn)背后的意思是——理想從一開始就沒(méi)有打算跳過(guò)模型階段或捷徑式追趕,而是清楚每一步架構(gòu)演化的技術(shù)條件和數(shù)據(jù)支撐要求。從規(guī)則到端到端+VLM,再到VLA,是基于場(chǎng)景、數(shù)據(jù)體系、工程結(jié)構(gòu)三者耦合之后的結(jié)果,而不是某種參數(shù)堆疊下的偶然成功。
值得注意的是,VLA并非現(xiàn)有多模態(tài)模型的疊加。理想重構(gòu)了推理鏈路、推理方式和輸出路徑,引入action token機(jī)制、diffusion軌跡預(yù)測(cè),以及投機(jī)推理與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,以適配自動(dòng)駕駛場(chǎng)景中的實(shí)時(shí)性、穩(wěn)定性與安全性。這是一套“為車而生”的AI結(jié)構(gòu),而非從通用AI平臺(tái)遷移而來(lái)的兼容方案。
理想不談“AI”,只談怎么落地
理想汽車在技術(shù)敘事中有意淡化“AI能力”的渲染,轉(zhuǎn)而強(qiáng)調(diào)系統(tǒng)結(jié)構(gòu)、行為一致性與用戶信任。
VLA模型在技術(shù)架構(gòu)上具備高復(fù)雜度,但其落地思路相對(duì)清晰:VLA將部署在車端運(yùn)行,并具備獨(dú)立空間理解、語(yǔ)言交互與軌跡控制能力。配合理想自研的星環(huán)OS及自動(dòng)駕駛控制系統(tǒng),理想意圖構(gòu)建的是一套從AI底座模型、到智能決策鏈路、再到系統(tǒng)調(diào)度的閉環(huán)生態(tài)。這意味著,理想并不把AI視作獨(dú)立功能層,而是產(chǎn)品核心結(jié)構(gòu)的一部分。正如理想在AI Talk中強(qiáng)調(diào)的,只有當(dāng)AI跨域了信息工具、輔助工具之后,真正成為生產(chǎn)工具,才是人工智能爆發(fā)的時(shí)刻,而理想在做的輔助駕駛,正在一步步走向生產(chǎn)工具。
“司機(jī)智能體”的戰(zhàn)略含義
自動(dòng)駕駛行業(yè)發(fā)展到今天,依然未能擺脫“高上限、低下限”的結(jié)構(gòu)困境。系統(tǒng)在封閉測(cè)試場(chǎng)景中表現(xiàn)優(yōu)異,卻在真實(shí)環(huán)境中常常暴露“不像人”的不穩(wěn)定行為——忽視潛規(guī)則、不合時(shí)宜的變道、對(duì)行人意圖判斷失誤等,都是典型問(wèn)題。
VLA的設(shè)計(jì)目的之一,是通過(guò)“超級(jí)對(duì)齊”手段,解決行為與人類駕駛邏輯不一致的問(wèn)題。理想通過(guò)引入大量用戶接管數(shù)據(jù)、駕駛偏好樣本以及城市駕駛中的長(zhǎng)尾工況數(shù)據(jù),用RLHF方法將系統(tǒng)行為與人類習(xí)慣進(jìn)行結(jié)構(gòu)性對(duì)齊,降低用戶的不安全感與陌生感。這種“像人開車”的一致性,是理想賦予VLA最重要的評(píng)價(jià)標(biāo)準(zhǔn)之一。
VLA的戰(zhàn)略價(jià)值,也不僅限于自動(dòng)駕駛。其技術(shù)架構(gòu)本質(zhì)上是一種通用型物理世界智能體模型(Physical AI),這讓理想在汽車這一高復(fù)雜度、多變量場(chǎng)景中率先跑通“空間-語(yǔ)言-行為”的智能融合邏輯,也為未來(lái)AI在機(jī)器人、智能家居等場(chǎng)景的延展埋下了路徑。
理想正在在走一條沒(méi)有對(duì)手走過(guò)的路
自動(dòng)駕駛不是效率問(wèn)題,而是信任問(wèn)題。這句話在AI Talk里雖未被明確說(shuō)出,但貫穿始終。當(dāng)前的AI行業(yè),概念更新迅速,但多數(shù)企業(yè)的產(chǎn)品進(jìn)展依然停留在“集成層”。理想選擇自研全棧大模型、重構(gòu)車端架構(gòu)、搭建閉環(huán)系統(tǒng),這種高投入、高工程復(fù)雜度的方式在短期看不討好,但卻是真正走向智能化產(chǎn)品形態(tài)的必要路徑。
VLA不是終點(diǎn),也不是一次性技術(shù)亮相,而是理想將AI內(nèi)化為產(chǎn)品骨架之后的第一次結(jié)構(gòu)釋放。它未必是標(biāo)準(zhǔn)答案,但提供了值得行業(yè)觀察與深度理解的另一種可能。
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...