亚洲精华国产精华精华液网站,你懂的,娇生惯养4ph归寻(矜以),丰年经继拇中文3与其他教材比较

技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 機器人基于開源的多模態(tài)語言視覺大模型

機器人基于開源的多模態(tài)語言視覺大模型

時間:2024-01-22 16:39:57來源:機器之心

導(dǎo)語:?近年來,大模型的研究正在加速推進,它逐漸在各類任務(wù)上展現(xiàn)出多模態(tài)的理解和時間空間上的推理能力。

機器人的各類具身操作任務(wù)天然就對語言指令理解、場景感知和時空規(guÄ«)劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機器人領(lǐng)域,直接規(guÄ«)劃底層動作序列呢?  

對此,ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓(xùn)練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM,從而適用于語言交互的機器人操作任務(wù)。   OpenFlamingo 在機器人操作數(shù)據(jù)集 CALVIN 上進行了驗證,實驗結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機器人操作任務(wù)上取得了 SOTA 的性能。隨著 RT-X 數(shù)據(jù)集開放,采用開源數(shù)據(jù)預(yù)訓(xùn)ç·´ RoboFlamingo å¹¶ finetune 到不同機器人平臺,將有希望成為一個簡單有效的機器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓(xùn)練范式和不同 Flamingo 結(jié)æ§‹(gòu)çš„ VLM 在 Robotics 任務(wù)上微調(diào)的表現(xiàn),得到了一些有意思的結(jié)論。  

研究背景

基于語言的機器人操作是具身智能領(lǐng)域的一個重要應(yÄ«ng)用,它涉及到多模態(tài)數(shù)據(jù)的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎(chÇ”)模型(VLMs)已經(jÄ«ng)在多個領(lǐng)域取得了顯著的進展,包括圖像描述、視覺問答和圖像生成等。然而,將這些模型應(yÄ«ng)用于機器人操作仍然存在一些挑戰(zhàn),例如如何將視覺和語言信息結(jié)合起來,如何處理機器人操作的時序性等。   為了解決這些問題,ByteDance Research 的機器人研究團隊利用現(xiàn)有的開源 VLM,OpenFlamingo,設(shè)計了一套新的視覺語言操作框架,RoboFlamingo。其中 VLM 可以進行單步視覺語言理解,而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調(diào)方法就能讓 RoboFlamingo 適應(yÄ«ng)于基于語言的機器人操作任務(wù)。   RoboFlamingo 在基于語言的機器人操作數(shù)據(jù)集 CALVIN 上進行了驗證,實驗結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機器人操作任務(wù)上取得了 SOTA 的性能(多任務(wù)å­¸(xué)ç¿’(xí)çš„ task sequence 成功率為 66%,平均任務(wù)完成數(shù)量為 4.09,基線方法為 38%,平均任務(wù)完成數(shù)量為 3.06ï¼›zero-shot 任務(wù)的成功率為 24%,平均任務(wù)完成數(shù)量為 2.48,基線方法為 1%,平均任務(wù)完成數(shù)量是 0.67),并且能夠通過開環(huán)控制實現(xiàn)實時響應(yÄ«ng),可以靈活部署在較低性能的平臺上。這些結(jié)果表明,RoboFlamingo 是一種有效的機器人操作方法,可以為未來的機器人應(yÄ«ng)用提供有用的參考。   æ–¹æ³•

本工作利用已有的基于圖像 - 文本對的視覺語言基礎(chÇ”)模型,通過訓(xùn)練端到端的方式生成機器人每一步的 relative action。模型的主要模塊包含了 vision encoder,feature fusion decoder å’Œ policy head 三個模塊。Vision encoder 模塊先將當(dāng)前視覺觀測輸入到 ViT 中,并通過 resampler 對 ViT 輸出的 token 進行 down sample。Feature fusion decoder å°‡ text token 作為輸入,并在每個 layer 中先將 vision encoder çš„ output 作為 query 進行 cross attention,之后進行 self attention 以完成視覺與語言特征的融合。最后,對 feature fusion decoder 進行 max pooling 后將其送入 policy head 中,policy head 根據(jù) feature fusion decoder 輸出的當(dāng)前和歷史 token 序列直接輸出當(dāng)前的 7 DoF relative action,包括了 6-dim 的機械臂末端位姿和 1-dim çš„ gripper open/close。   在訓(xùn)練過程中,RoboFlamingo 利用預(yù)訓(xùn)ç·´çš„ ViT、LLM å’Œ Cross Attention åƒæ•¸(shù),并只微調(diào) resampler、cross attention å’Œ policy head 的參數(shù)。   å¯¦é©—結(jié)果數(shù)據(jù)集:  

CALVIN(Composing Actions from Language and Vision)是一個開源的模擬基準測試,用于學(xué)ç¿’(xí)基于語言的 long-horizon 操作任務(wù)。與現(xiàn)有的視覺 - 語言任務(wù)數(shù)據(jù)集相比,CALVIN 的任務(wù)在序列長度、動作空間和語言上都更為復(fù)雜,并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個 split,每個 split 對應(yÄ«ng)了不同的 context å’Œ layout。   定量分析:  

RoboFlamingo 在各設(shè)置和指標(biāo)上的性能均為最佳,說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。Full å’Œ Lang 表示模型是否使用未配對的視覺數(shù)據(jù)進行訓(xùn)練(即沒有語言配對的視覺數(shù)據(jù));Freeze-emb 指的是凍結(jié)融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強的指令。   消融實驗:  

不同的 policy head:   實驗考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT å’Œ LSTM。其中,MLP w/o hist 直接根據(jù)ç•¶(dāng)前觀測預(yù)測歷史,其性能最差,MLP w hist 將歷史觀測在 vision encoder 端進行融合后預(yù)測 action,性能有所提升;GPT å’Œ LSTM 在 policy head 處分別顯式、隱式地維護歷史信息,其表現(xiàn)最好,說明了通過 policy head 進行歷史信息融合的有效性。   視覺-語言預(yù)訓(xùn)練的影響:   預(yù)訓(xùn)練對于 RoboFlamingo 的性能提升起到了關(guān)鍵作用。實驗顯示,通過預(yù)先在大型視覺-語言數(shù)據(jù)集上進行訓(xùn)練,RoboFlamingo 在機器人任務(wù)中表現(xiàn)得更好。   模型大小與性能:   雖然通常更大的模型會帶來更好的性能,但實驗結(jié)果表明,即使是較小的模型,也能在某些任務(wù)上與大型模型媲美。   指令微調(diào)的影響:   指令微調(diào)是一個強大的技巧,實驗結(jié)果表明,它可以進一步提高模型的性能。

定性結(jié)果相較于基線方法,RoboFlamingo 不但完整執(zhí)行了 5 個連續(xù)的子任務(wù),且對于基線頁執(zhí)行成功的前兩個子任務(wù),RoboFlamingo 所用的步數(shù)也明顯更少。  

總結(jié)本工作為語言交互的機器人操作策略提供了一個新穎的基于現(xiàn)有開源 VLMs 的框架,使用簡單微調(diào)就能實現(xiàn)出色的效果。RoboFlamingo 為機器人技術(shù)研究者提供了一個強大的開源框架,能夠更容易地發(fā)揮開源 VLMs 的潛能。工作中豐富的實驗結(jié)果或許可以為機器人技術(shù)的實際應(yīng)用提供寶貴的經(jīng)驗和數(shù)據(jù),有助于未來的研究和技術(shù)發(fā)展。


標(biāo)簽: 機器人

點贊

分享到:

上一篇:ChatGPT算力芯片如何做算力輸出

下一篇:深入了解物聯(lián)網(wǎng)設(shè)備的OTA升級...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.siyutn.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責(zé)任。

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號

主站蜘蛛池模板: 榆林市| 夹江县| 东海县| 论坛| 建德市| 阿拉善左旗| 巨鹿县| 德兴市| 德州市| 凌源市| 淮阳县| 定西市| 太谷县| 湛江市| 梨树县| 深泽县| 深水埗区| 崇文区| 肥东县| 宜兰市| 麻江县| 惠州市| 年辖:市辖区| 泸州市| 湖口县| 贵州省| 马公市| 喜德县| 莱芜市| 乌拉特前旗| 宜兴市| 涡阳县| 肥乡县| 盐源县| 电白县| 安达市| 洛浦县| 马山县| 临沧市| 万全县| 虹口区|