男女综合精品视频久久久网站|国产精品毛片一区二区三区|天天做天天爱夭大综合网|久久国产成人综合色区

您的位置:首頁(yè)>生活家 >

鄧志東:生成式人工智能正從數(shù)字領(lǐng)域邁向真實(shí)物理世界

來(lái)源:今日熱點(diǎn)網(wǎng)  

11月12日,由成都市經(jīng)信局市新經(jīng)濟(jì)委主辦,雨前顧問(wèn)承辦的2024人工智能產(chǎn)業(yè)CEO大會(huì)暨人工智能賦能新型工業(yè)化供需對(duì)接活動(dòng)在成都舉行。

大會(huì)上,清華大學(xué)教授、人工智能研究院視覺(jué)智能研究中心主任鄧志東以“AI源動(dòng)力·解析產(chǎn)業(yè)發(fā)展新趨勢(shì)”為題進(jìn)行了精彩的演講,其中特別對(duì)如何聚焦大模型應(yīng)用、發(fā)展具身智能面臨的挑戰(zhàn)以及L4自動(dòng)駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)等,闡述了自己的思考。

鄧志東強(qiáng)調(diào),大模型的價(jià)值在于其實(shí)際應(yīng)用。大模型只有在多樣化的實(shí)際應(yīng)用場(chǎng)景中賦能智能經(jīng)濟(jì)與智能社會(huì)的發(fā)展,才能找到真正的產(chǎn)業(yè)價(jià)值,也才能成就大模型自身性能的迭代演進(jìn)。在大模型與智能體的應(yīng)用及落地過(guò)程中,我國(guó)在應(yīng)用場(chǎng)景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢(shì),才會(huì)充分體現(xiàn)出來(lái),形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式,以此重建我們?cè)贏I大模型時(shí)代下的新優(yōu)勢(shì)。

鄧志東還認(rèn)為,生成式人工智能正從數(shù)字領(lǐng)域拓展至真實(shí)物理世界,賦能智能制造、自動(dòng)駕駛、人形機(jī)器人、智能座艙、無(wú)人機(jī)、個(gè)人電腦及手機(jī)等物理系統(tǒng),強(qiáng)力推動(dòng)制造業(yè)與實(shí)體經(jīng)濟(jì)的發(fā)展。

c5ebc3c76e818e984bf4a31dfd1b630f.jpg

以下為鄧志東演講精華版:

一、聚焦大模型應(yīng)用,形成中國(guó)人工智能發(fā)展新優(yōu)勢(shì)

人工智能的發(fā)展路徑經(jīng)歷了從單模態(tài)的文本大型語(yǔ)言模型,迭代到如今快速發(fā)展的多模態(tài)大型語(yǔ)言模型,再到多模態(tài)的具身智能,這里的具身是指增加了移動(dòng)與操作等動(dòng)作能力。最后會(huì)進(jìn)一步發(fā)展到交互式的通用人工智能,增加與世界的交互。在這個(gè)發(fā)展路徑中,最重要的問(wèn)題是要通過(guò)大模型的實(shí)際應(yīng)用來(lái)發(fā)展。

大模型的價(jià)值在于其實(shí)際應(yīng)用。只有通過(guò)多樣化的應(yīng)用場(chǎng)景,賦能智能經(jīng)濟(jì)與智能社會(huì)的發(fā)展,才能找到大模型真正的產(chǎn)業(yè)價(jià)值,同時(shí)也才能成就大模型自身的迭代演進(jìn)。生成式人工智能目前正在從數(shù)字空間或互聯(lián)網(wǎng)空間走向真實(shí)的物理世界,賦能包括智能制造、自動(dòng)駕駛、人形機(jī)器人、智能座艙、無(wú)人機(jī)、個(gè)人電腦、手機(jī)等在內(nèi)的真實(shí)物理系統(tǒng),從聊天問(wèn)答等互聯(lián)網(wǎng)空間的任務(wù)走到真實(shí)的世界里,可以助力制造業(yè)與實(shí)體經(jīng)濟(jì)的發(fā)展。

大模型應(yīng)用有三條較為現(xiàn)實(shí)的實(shí)現(xiàn)路徑。一是大模型的應(yīng)用需要不斷提升基座大型語(yǔ)言模型,特別是多模態(tài)通用大語(yǔ)言模型的能力上限,同時(shí)聚焦行業(yè)原生多模態(tài)大模型的發(fā)展,實(shí)現(xiàn)原始創(chuàng)新。但這需要巨頭企業(yè)的長(zhǎng)期持續(xù)投入,原因是基礎(chǔ)與通用大模型需要超大規(guī)模的數(shù)據(jù)和算力支撐。

二是大模型的應(yīng)用需要特別關(guān)注利用現(xiàn)有的高性能多模態(tài)通用大型語(yǔ)言模型進(jìn)行微調(diào)。通過(guò)不斷的微調(diào)和產(chǎn)業(yè)部署,用較小的AI算力,構(gòu)建針對(duì)特定任務(wù)的專用模型,從而解決成千上萬(wàn)種不同類型的任務(wù)。人工智能的核心在于完成一個(gè)個(gè)從簡(jiǎn)單到復(fù)雜的具體任務(wù)。因此,我們需要選擇合適的高性能多模態(tài)通用大型語(yǔ)言模型,并掌握各種高效的微調(diào)方法。具體而言,微調(diào)方法包括監(jiān)督微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)和AI反饋強(qiáng)化學(xué)習(xí)(RLAI)等,也根據(jù)范式的不同,一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。我們需要根據(jù)不同的任務(wù)挑戰(zhàn)性,選擇合適的高效微調(diào)方法。

三是大模型的應(yīng)用需要聚焦智能體新技術(shù)新范式新導(dǎo)向的發(fā)展。例如,通過(guò)積極的創(chuàng)新實(shí)踐和產(chǎn)業(yè)落地,利用性能先進(jìn)的原生多模態(tài)通用大模型,探索智能體一體化端到端的新范式,比如自動(dòng)駕駛、通用人形機(jī)器人,就在不斷創(chuàng)新實(shí)踐這些新范式,也必將進(jìn)一步增強(qiáng)制造業(yè)的競(jìng)爭(zhēng)能力。

通過(guò)這些路徑,推動(dòng)人工智能賦能新型工業(yè)化,形成新應(yīng)用、新業(yè)態(tài)、新優(yōu)勢(shì)。大模型應(yīng)用既需要頭部企業(yè)直接發(fā)展行業(yè)原生多模態(tài)大語(yǔ)言模型,形成基礎(chǔ)能力,同時(shí)更需要眾多制造企業(yè)或中小型創(chuàng)新企業(yè),面向垂域或特定任務(wù),基于現(xiàn)有的多模態(tài)通用大模型微調(diào)訓(xùn)練出專用模型,大力推動(dòng)千行百業(yè)垂域?qū)S媚P偷漠a(chǎn)業(yè)落地,從而通過(guò)場(chǎng)景應(yīng)用創(chuàng)新與產(chǎn)品研發(fā),打造國(guó)際一流的大模型應(yīng)用生態(tài),賦能智能制造與新型工業(yè)化的發(fā)展。

在大模型的應(yīng)用落地過(guò)程中,我國(guó)在應(yīng)用場(chǎng)景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢(shì),才會(huì)充分體現(xiàn)出來(lái),形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式,以此重建我們?cè)贏I大模型時(shí)代下的新優(yōu)勢(shì)。

從更大尺度上看,人工智能可分成弱人工智能-通用人工智能-強(qiáng)人工智能-超級(jí)人工智能等不同的演化階段,目前我們正處于通用人工智能的早期階段,全球范圍的大模型應(yīng)用,一切才剛剛開(kāi)始!

二、挑戰(zhàn)與機(jī)遇:賦能智能制造的具身智能體

聚焦具身智能發(fā)展面臨的挑戰(zhàn),尤其是如何通過(guò)具身智能賦能智能制造,我想在這里分享一下我的看法。

首先是實(shí)現(xiàn)路徑的選擇。具身智能的實(shí)現(xiàn)路徑已經(jīng)從單純的感知空間或觀察空間,進(jìn)一步延伸到了動(dòng)作空間,尤其是感知空間與動(dòng)作空間之間的相互關(guān)系和相互作用。這就涉及到從感知空間到動(dòng)作空間的決策推理能力,涉及到所謂的單段式一體化具身智能體研發(fā)范式。

具體來(lái)說(shuō),通過(guò)對(duì)兩大空間、三大任務(wù)的模型微調(diào),可賦予具身智能體聽(tīng)、說(shuō)等感知與理解能力,決策推理能力以及移動(dòng)與操作能力。換句話說(shuō),首先要進(jìn)行具身的理解,然后進(jìn)行具身的推理,最后進(jìn)行具身的動(dòng)作生成。有了這三大微調(diào)模型,可以進(jìn)一步生成更多的下游微調(diào)模型。顯然這里的核心能力是決策或邏輯推理能力。微調(diào)的訓(xùn)練方法需要選擇合適的技術(shù)路線,主要包括監(jiān)督微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)和人工智能大模型反饋學(xué)習(xí)(RLAI)。此外,根據(jù)不同的范式,高效微調(diào)方法一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。提示微調(diào)既有以自然語(yǔ)言方式進(jìn)行的,如思維鏈(CoT),也有在連續(xù)隱含空間基于學(xué)習(xí)方式進(jìn)行的,而參數(shù)微調(diào)則對(duì)模型的全部或部分參數(shù)進(jìn)行微小調(diào)整,目前研究更多更深入。

其次是物理AI面臨的技術(shù)挑戰(zhàn)。大模型在實(shí)際應(yīng)用中可能會(huì)遇到一些技術(shù)難題。具身智能在完成任務(wù)時(shí),不僅有成功率的問(wèn)題,還會(huì)出現(xiàn)幻覺(jué)現(xiàn)象。這包括事實(shí)性幻覺(jué)和上下文不一致幻覺(jué)。事實(shí)性幻覺(jué)?是指大模型生成的內(nèi)容不符合常識(shí),甚至捏造信息;上下文不一致幻覺(jué)是指大模型生成的回復(fù)或下文與用戶上文的指令不一致,也就是答非所問(wèn)。

對(duì)于具身智能而言,這些幻覺(jué)可能會(huì)導(dǎo)致時(shí)空錯(cuò)亂,特別是在自動(dòng)駕駛和人形機(jī)器人等實(shí)際應(yīng)用場(chǎng)景中,可能會(huì)給用戶帶來(lái)安全風(fēng)險(xiǎn)。目前這一領(lǐng)域正迎來(lái)新的發(fā)展,各種方法層出不窮。但大模型的幻覺(jué)或許只能緩解,不能說(shuō)已經(jīng)完全消滅了。

為了緩解幻覺(jué)問(wèn)題,可以采取以下三種措施:一是提高訓(xùn)練數(shù)據(jù)的質(zhì)量?。在預(yù)訓(xùn)練和微調(diào)階段通過(guò)數(shù)據(jù)清洗和篩選,確保數(shù)據(jù)的準(zhǔn)確性和一致性,但制造業(yè)中高質(zhì)量訓(xùn)練數(shù)據(jù)的采集效率,是一個(gè)較大的技術(shù)挑戰(zhàn)。二是引入糾錯(cuò)機(jī)制?。在大模型的生成過(guò)程中需要加入糾錯(cuò)機(jī)制,以防止錯(cuò)誤信息的傳播與積累。三是優(yōu)化模型結(jié)構(gòu)?。通過(guò)不斷改進(jìn)模型結(jié)構(gòu),使其能夠更好地處理各種復(fù)雜任務(wù)和多種輸入類型?。

最后是改變研發(fā)范式的新機(jī)遇。我們看到了具身智能體在新范式和新導(dǎo)向方面的一些重要機(jī)遇。第一個(gè)機(jī)遇是從視覺(jué)-(文本)語(yǔ)言模型(VLM)發(fā)展到視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)。傳統(tǒng)的VLM主要依賴視覺(jué)和文本語(yǔ)言,而現(xiàn)在的VLA不僅增添了深度視覺(jué)和語(yǔ)音能力,還增加了動(dòng)作能力,也就是從感知空間或觀察空間延伸到了動(dòng)作空間。這種擴(kuò)展使模型能夠真正基于高級(jí)的決策推理,從而更好地賦能落地應(yīng)用與產(chǎn)業(yè)發(fā)展。具體來(lái)說(shuō),智能體的輸入端包括一幀一幀的圖像和(文本)任務(wù)要求;輸出端則是各種動(dòng)作。例如在自動(dòng)駕駛中,輸入是圖像幀與本體感知,而大模型與智能體可以直接生成方向盤(pán)的轉(zhuǎn)角、油門的開(kāi)度和剎車的制動(dòng)量。這些都特別像人類的大腦跟小腦的關(guān)系,所以也稱之為大腦模型與小腦模型。這里大腦皮層模型負(fù)責(zé)視覺(jué)與體感處理,擁有類似人類的視覺(jué)通路和本體感知。本體感知是指智能體對(duì)自己狀態(tài)的感知,包括導(dǎo)航信息等。通過(guò)視覺(jué)與本體感知獲取多模態(tài)信息后,智能體會(huì)在前額葉進(jìn)行決策推理,然后將決策結(jié)果輸入到運(yùn)動(dòng)皮層,運(yùn)動(dòng)皮層再將信號(hào)傳遞給小腦模型。小腦模型負(fù)責(zé)維持具身智能體的精細(xì)平衡和協(xié)調(diào),對(duì)應(yīng)于我們這里的動(dòng)作空間。

第二個(gè)機(jī)遇是從多段式方法向單段式方法的轉(zhuǎn)變。傳統(tǒng)的多段式方法將感知、預(yù)測(cè)、決策、規(guī)劃和控制人為地分段處理,以此構(gòu)成多個(gè)閉環(huán)。然而,最新的發(fā)展范式不再采用人為分段的方式,而是采用單段式方法,就像人的大腦一樣,一個(gè)大腦可以解決所有問(wèn)題,最多與小腦合體,成為一個(gè)一體化的單一模型。這種最新的智能體范式被稱為自動(dòng)駕駛2.0,其特點(diǎn)是引入了基于學(xué)習(xí)的決策與規(guī)劃。

三、產(chǎn)業(yè)發(fā)展新趨勢(shì):L4自動(dòng)駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)

人工智能產(chǎn)業(yè)的發(fā)展新趨勢(shì)在于通用與泛化,這是所有具身智能體追求的最高目標(biāo)?!巴ㄓ谩币馕吨軌驊?yīng)對(duì)各種環(huán)境與任務(wù)的變化,而不是局限于固定的操作對(duì)象與某一特定任務(wù)。人是這方面的最高標(biāo)桿。泛化則指跨場(chǎng)景、跨領(lǐng)域的廣泛應(yīng)用,能夠在任何環(huán)境中適應(yīng)和可靠運(yùn)作。本質(zhì)上這是一個(gè)什么問(wèn)題呢?其實(shí)就是一個(gè)環(huán)境的適應(yīng)性和自主性問(wèn)題,也就是什么樣的環(huán)境都可以自主適應(yīng)。時(shí)空大變化之后,如何提高智能體的復(fù)雜邏輯推理能力是當(dāng)前研究的重點(diǎn)。這里需要研究各種增強(qiáng)技術(shù),如提示增強(qiáng)、檢索增強(qiáng)(RAG)、知識(shí)增強(qiáng)和邏輯增強(qiáng)技術(shù)等,以提升多模態(tài)大模型與智能體的性能。

通用人形機(jī)器人與L4自動(dòng)駕駛是典型的具身智能代表,二者可以相互協(xié)同演進(jìn)。我們看到像Cybercab(特斯拉無(wú)人駕駛出租車)與Optimus(特斯拉人形機(jī)器人)的問(wèn)世,至少表明了目前最新發(fā)展的這種單段式的或者叫單模型的端到端的自動(dòng)駕駛技術(shù)在真實(shí)世界的成功實(shí)踐,證明了這條路徑是可以走得通的。未來(lái)能夠完全進(jìn)行大規(guī)模產(chǎn)業(yè)落地,我相信只是一個(gè)時(shí)間的問(wèn)題。

首先是高級(jí)別的自動(dòng)駕駛的規(guī)?;涞貞?yīng)用,即大模型+自動(dòng)駕駛。采用徹底的端到端解決方案,基于視覺(jué)大模型VLA,通過(guò)少量編程,實(shí)現(xiàn)類似人類的駕駛技巧學(xué)習(xí)。其次是高級(jí)別自動(dòng)駕駛的降維應(yīng)用,也就是大模型+通用機(jī)器人。把大語(yǔ)言模型帶入通用人形機(jī)器人,必將加速通用人形機(jī)器人的大發(fā)展,后者的產(chǎn)業(yè)化應(yīng)用,也會(huì)反過(guò)來(lái)助推L4自動(dòng)駕駛的技術(shù)進(jìn)步。更多的人形機(jī)器人會(huì)首先走向制造業(yè)的生產(chǎn)線,實(shí)現(xiàn)無(wú)人化的自動(dòng)化車間與工廠,即所謂的“黑燈工廠”,也就是可實(shí)現(xiàn)完全無(wú)人化生產(chǎn)的工廠。另外自動(dòng)駕駛的大規(guī)模商業(yè)化落地,可望推動(dòng)人形機(jī)器人的加速發(fā)展,催生人類-機(jī)器人共融社會(huì)的形成與演進(jìn),為未來(lái)智能生產(chǎn)與智能生活的發(fā)展,構(gòu)建出新的無(wú)限可能。

總之,應(yīng)該說(shuō)我們現(xiàn)在的大模型應(yīng)用其實(shí)做的事情就是在模仿學(xué)習(xí)。模仿人類,把人類所有寫(xiě)的小說(shuō)、產(chǎn)生的圖像都作為一個(gè)標(biāo)桿來(lái)模仿,模仿以后進(jìn)行所謂的強(qiáng)化學(xué)習(xí)。長(zhǎng)上眼睛了,長(zhǎng)上耳朵了,有了手,有了腳,就可以進(jìn)入到生產(chǎn)與生活的實(shí)踐角色之中。進(jìn)入這些社會(huì)角色后,通過(guò)與環(huán)境、與其他智能體和與人類進(jìn)行交互式學(xué)習(xí),就可以催生出超強(qiáng)的交互式多模態(tài)智能體,就可能產(chǎn)生出“青出于藍(lán)而勝于藍(lán)”這么一個(gè)效果。基本上我們現(xiàn)在看人工智能的發(fā)展,這個(gè)路徑就是在模仿學(xué)習(xí)的基礎(chǔ)之上,利用深度強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法,在虛實(shí)平行世界中實(shí)現(xiàn)更高效率的自主探索學(xué)習(xí),獲得接近或?qū)R人類智能的能力,從而實(shí)現(xiàn)人-機(jī)共融,賦能智能經(jīng)濟(jì)與智能社會(huì)的大發(fā)展。


關(guān)鍵詞:

最新文章