您現在的位置：中國傳動網 > 技術頻道 > 技術百科 > 機器人如何構建3D語義地圖？

機器人如何構建3D語義地圖？

時間：2023-08-11 11:20:59來源：INDEMIND

導語：?機器人需要一張保姆級地圖。

隨著機器人的智能化技術不斷迭代，對于復雜的行為決策、人機交互等任務僅感知環境的空間幾何信息已無法滿足要求，它需要讓機器人能夠像人一樣，懂得環境中的物體類別及其位置，即環境的語義信息。以掃地機器人為例，一個清掃餐桌底部的任務便要求它需要知道目標的類別和位置。然而目前主流的傳統2D柵格地圖、拓撲地圖雖然能夠描述環境中存在的障礙物幾何特征及其環境結構信息，但卻缺乏機器人用于理解環境、人機/物機交互等業務邏輯的高層次語義信息，相反，3D語義地圖不僅包含物體及環境的結構信息，還有物體類別、功能屬性等“常識”性信息，可以說是機器人的保姆級地圖。

從技術角度而言，3D語義地圖的地圖模型是針對真實場景的三維環境重構，包含區域性場景信息及場景中每個獨立物體的屬性、空間中的三維模型、位姿信息等，使機器人在語義層次上理解環境信息，模仿人類大腦對環境理解的方式，從而為實現更高層次的智能化操作提供信息支持。

如何構建3D語義地圖？

要構建3D語義地圖，前提是需要提取出你所需要的物體特征，并進行語義切割。INDEMIND在實現構建3D語義地圖中，采用了立體視覺技術路線，通過對雙目視覺傳感器獲取到3D視覺點云信息進行點云聚類，并結合邊緣端的嵌入式深度學習和VSLAM算法，輸出個體性物體語義和區域性場景語義，從而實現3D語義地圖構建。

在真實場景中，無論是家庭、公司還是超市，大多擁有著3個及3個以上的細分場景，且這些場景大多有著相似性，當機器人收到指定房間作業任務后如何快速準確地理解房間的功能屬性，找到對應房間，并能根據不同房間的功能屬性進行個性化作業還需要極高的場景理解準確度。

因此，INDEMIND是根據輸出的區域性場景語義和個體性物體語義二者融合的方式實現場景理解。首先，根據獲取到的區域性場景語義信息，進行整體特征識別；其次，會根據個體性物體語義識別，對場景中一系列獨立個體信息進行識別，并作為場景特征標志，最終通過二相疊加判斷，實現準確穩定地場景理解。

在實際表現中，應用3D語義地圖的機器人，結合INDEMIND VSLAM算法和智能決策引擎，在AI識別、智能避障、指令智能作業、人機/物機交互等方面均有優異表現。

在AI識別和避障方面，基于3D語義地圖，能夠快速提取環境中各類圖像特征，結合深度學習可立體識別行人、動物、固定/移動物體等個體性障礙物，以及樓梯、自動扶梯等危險場景，避免危險情況發生，這種結合物體3D信息的識別和避障效果的穩定性、準確率都得到顯著提升。同時，通過識別到與顯示匹配的障礙物3D信息，機器人還可做出類似人類規避動作的精細化操作，能夠讓機器人有預判、有策略的實現主動避障。

在交互和智能作業方面，3D語義地圖通過對場景中獨立個體、房間信息做語義識別及物體分割，機器人懂得人類“常識”后，便能實現高層次的交互邏輯，配合INDEMIND自研的自然語言交互技術，可通過語音、手勢、動作等指令，命令機器人進行安全、搜尋、跟隨、自主尋路、定向清掃等多種智能作業邏輯。以定向清掃為例，發布語音命令:“清掃一下臥室”可被識別為針對地圖上識別到的臥室區域進行一次規劃清掃，告別粗糙的交互體驗。

目前，3D語義地圖技術已應用到INDMEIND推出的家用機器人導航方案「家用機器人AIKit」和商用機器人導航方案「商用機器人AIKit」中，兩種方案的市場表現均得到了客戶的廣泛認可。

值得一提的是，兩種方案由于采用視覺技術路線，在成本方面相對于競品均有著明顯優勢。「家用機器人AIKit」在實現同等水平的技術效果的同時，成本只有激光雷達融合方案的1/3，且激光視覺融合方案雖然也能獲取到場景中的語義信息，但受限于傳感器限制，事實上只能識別到物體的二維信息，無法構建3D語義地圖。「商用機器人AIKit」相比激光雷達方案，成本下降了60-80%，機器人開發成本最低可以下探到2千元以內，包含導航和電池的完整底盤成本則可以下探到5千元以內，顯著降低機器人的開發成本和周期。

標簽：機器人