控制算法手記:腿足運動控制

文:李磊2025年第一期

  與其他地面移動機器人不同,腿足機器人依靠腿足交替與地面接觸,腿足機器人的運動特點給其運動控制帶來了巨大挑戰,運動控制算法工程師必須小心規劃各個變量(步態、身體位姿、落腳點、交互力等),以保證機器人能夠穩定運動,并在非規則地形上體現出優勢。

  文/李磊

  1 腿足機器人運動性能要求

  從實際應用需求來看,對腿足機器人運動控制性能的要求主要分為以下幾個方面:

  (1)自然/平穩:機器人能夠平穩、相對柔順、自然地運動,以方便作為運動平臺完成相關任務;

  (2)高效:整體運動效率較高,在帶載工況下能夠長時間進行工作,無局部關節過熱等問題;

  (3)精確:能夠精確完成位姿調整或者軌跡跟蹤任務,以方便與上層環境感知與規劃部分匹配;

  (4)魯棒:在環境感知噪聲、外部干擾、地形、負載變化等工況下,維持一定的運動控制性能;

  (5)機動:能夠完成機身/腿足慣性占主導的運動行為,如高速運動、跳躍運動等;

  (6)地形自適應:能夠感知地形變化并以此調整相關運動控制行為,如跨越階梯、攀爬高臺、鉆入桌底等;在某些復雜地形下,魯棒性和機動性是地形自適應性的基礎,如需要跳躍的場合;

  (7)安全性/安全恢復:在實際運行中,能夠避免出現不安全的行為,如跌倒、碰撞等或者從失敗中順利恢復;

  (8)易部署/易維護/易調節:能夠根據實際環境中的表現,快速調整相關控制參數以適配不同機器/參數/產生一致性預期運動行為,避免重新訓練/編程所需要的大量準備/調試時間。

  實際應用中,上述運控性能要求并不需要同時具備,比如說在巡檢應用中,機動性不是一個特別需要考慮的問題,反而是地形適用性/安全性/平穩性值得關注。因此,如何根據應用場景定義性能需求,并進行有針對性地方案設計顯得尤為重要。無論是基于模型的方法還是深度強化學習方法,都應該從應用場景中的具體需求出發,從問題定義和描述出發,明確場景所需要的能力,然后根據各個控制算法解決問題的思路,結合被控系統的實際動力學特性,進行組合、優化和工程部署。腿足機器人領域各種開源深度強化學習算法/論文層出不窮,大幅降低了學習成本,然而對于工程師來說不應該沉迷于追求SOTA算法,而是要從大系統的層面明確問題,化繁為簡。

  2 腿足機器人動力學特性

  腿足機器人通過腿足與地面的間斷接觸實現身體(質心)的連續運動,可以被視為與地面間斷接觸的多剛體動力學系統。為支撐腿足機器人高動態運動,一般傾向于將腿足部分設計得盡可能地輕(腿足部分質量一般占全部質量的10%),使得身體姿態/質心-落腳點位置/接觸力(與地面碰撞/接觸)情況成為腿足機器人動力學行為的主導因素。從控制系統的角度來看,執行器動態/傳感器誤差以及相關通信延遲等也不可避免地對動力學行為造成了影響,尤其考慮到腿足機器人為降低成本,多采用精度一般的關節模組(12~14位磁編,0.2度左右的齒輪回程間隙)、傳動模塊(帶傳動、連桿傳動)、傳感器以及嵌入式通信系統(串口通訊),在控制誤差、延遲以及傳感器噪聲等方面對整體動力學造成了不可避免的影響;從實際應用上來看,腿足機器人雖然可以簡化為單剛體系統,但考慮到加工裝配質量與應用環境的復雜性,地形接觸特性和實際機器人重心位置、質量分布、關節模組摩擦力等因素也成為不可忽略的因素。

  因此,無論采用DRL還是基于模型進行運動控制算法設計,必須要考慮三方面的因素:

  l 多剛體動力學系統及其與地面的接觸碰撞;

  l 實際機電系統的非理想因素(傳動系統動態、關節控制帶寬等);

  l 元器件、加工、裝配的非理想因素(質量分布、關節限位、零點初始位等)以及應用環境復雜性(負載變化、接觸/地形不確定性、機身干擾等);

  腿足機器人實際上高階、非線性、混合/切換(由間斷接觸導致)、欠驅動(涉及騰空相)的動力學特性,使得腿足機器人可以呈現各種復雜的動力學行為,關于其穩定性分析和設計理論尚付之闕如。好在腿足機器人的仿生對象的運動形態為其提供了充分的參考依據,人們期待腿足機器人在各種地形上能夠像其仿生對象那樣運動,具有各種步態(周期性穩態運動模式)以及全身協同運動行為,并且兼具高效、機動等特點。

  3 理解腿足運動控制的深度強化學習范式

  深度強化學習作為一種數據驅動控制方法,在魯棒、機動、地形自適應性方面體現出了巨大優勢,已經成為提足運動控制的主流方法。當前,腿足運控領域的深度強化學習控制多采用一種Model-Free, Sim2Real的范式,這種范式結合強化學習求解最優策略的思路,具備以下特點:

  l 這種Sim2Real的深度強化學習在仿真訓練完成部署到實際中,已經不具備學習能力,學習的過程是在仿真環境中通過大量仿真交互數據訓練完成的,訓練完成的策略網絡擬合了狀態/觀察序列到動作輸出的映射,實際運行中的觀察/狀態通過深度網絡提取特征,通過上述映射輸出動作。如果出現了遠超分布外的狀態,則會出現映射失敗的問題,其出現的自適應行為仍是利用了神經網絡的自動特征提取和關聯能力,以仿真交互數據分布為前提的自適應性,這里不應該將由于海量多樣仿真數據帶來的廣域分布性與自適應性混淆;

  l Model-Free的方式并不是說不需要模型,而是說策略網絡的訓練生成過程中,并不需要顯式利用模型的參數/數據。策略生成盡管不直接依賴模型,但在仿真環境中產生的大量交互數據仍然需要模型用以計算能夠描述腿足機器人實際動力學特性(見上節)的數據。實際上,為提升Sim2Real的成功率,需要仿真交互數據分布與實際交互數據分布盡可能一致,這就需要在仿真環境中盡可能精確進行建模(如考慮傳動特性、傳感器噪聲、接觸碰撞行為等)。盡管存在著參數隨機化等策略降低了對精確模型的需求,但過于寬泛的參數范圍,無疑會使策略過于保守,使得實際部署時出現保守行為(如使用過高的步頻,過大的接觸力等)。

  從控制系統的角度進行理解,這種范式下的訓練得到的策略網絡本質上是一種利用海量離線數據學習到的“靜態”“非線性”“最優”“狀態反饋”控制率,其中:

  l 靜態主要是指系統無真正動態自適應性能力,只是進行了內插擬合;

  l 非線性則指在獎勵函數引導下建立的狀態特征-動作非線性映射能力;

  l 最優則指強化學習求解最優策略(最大化獎勵函數的策略)的特性,當前深度強化學習進行腿足運動控制大多基于策略梯度Actor-Critic架構以及PPO優化算法,其求解最優策略的思路是在價值函數(優勢函數)的輔導下,通過策略迭代增加較好的動作出現的概率,直至最好動作出現的概率最大。與MPC不同的是,通過神經網絡離線擬合的是狀態價值函數,能夠考慮更長期的時間效應(取決于Episode長度),從而降低了MPC預測窗口增大時帶來的運算量急劇增加的問題;另一方面,深度強化學習通過軟約束的形式,將復雜的約束項轉化為負獎勵項,同時避免非線性規劃中導數求解的問題;

  l “狀態”反饋是指策略網絡仍是根據當前狀態/觀察決定動作,外界干擾帶來的動態行為導致狀態/觀察發生了變化才進行調節,調節的方向仍為最大化獎勵函數,因此深度強化學習可以視作一種狀態反饋控制。當然,傳統控制視角下存在的全狀態反饋、狀態估計觀測反饋在強化學習中仍然存在,對應著馬爾科夫決策過程、部分可觀測馬爾科夫決策過程等框架,如何從部分可觀測過程中重構狀態也是值得研究的問題(如使用信念狀態網絡、使用歷史信息輸入等)。

  值得注意的是,深度強化學習具有端到端的優勢,即省去了狀態估計、跟蹤控制和規劃等模塊,直接可以根據狀態/觀察量,決定動作輸出。如在傳統控制視角下,為進行速度跟蹤控制,需要能夠準確及時估計機身當前速度,進行反饋控制,這是需要設計機身狀態估計器和接觸估計,狀態估計器的可靠性決定了反饋信號的可靠性,從而影響了控制效果;深度強化學習可以不依賴機身位姿估計,直接通過一個策略網略接受(機身加速度、關節速度/位置/電流、接觸狀態等)等決定動作,在策略網絡內部隱式地估計狀態以建立決策相關性。深度強化學習不依賴狀態估計模塊的這種特性并不意味著實際應用過程中不需要狀態估計,相關研究表明,腿足機器人深度強化學習框架中,最重要的狀態量即為機身速度,其反饋越直接,在策略和獎勵函數中的作用也越直接,整體運控性能越好,在相關框架中(如DreamWaQ-封面圖片、PIE)引入顯式的狀態估計模塊也相應了提升了性能。

  因此,不應該盲目迷信端到端的技術概念,實際中還是應該考慮應用場景、策略訓練難度、部署成本、性能表現等因素綜合考慮。

  4 總結

  本文從腿足機器人運控性能要求、實際動力學特性以及如何從控制視角理解目前較為流行的深度強化學習范式進行了分析介紹。回到筆者一直以來的觀點,對于控制算法的設計,首先還是應該回到場景需要中,回到實際控制系統動力學特性分析上,回到不同控制算法解決問題的思路中去,而不是所謂SOTA算法。本文章建立的分析框架,將為后續系列介紹文章建立分析框架,請持續關注。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.siyutn.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第六期

    2024年第六期

    伺服與運動控制

    2024年第六期

  • 2024年第五期

    2024年第五期

    伺服與運動控制

    2024年第五期

  • 2024年第四期

    2024年第四期

    伺服與運動控制

    2024年第四期

  • 2024年第三期

    2024年第三期

    伺服與運動控制

    2024年第三期

  • 2024年第二期

    2024年第二期

    伺服與運動控制

    2024年第二期