icra2021 decentralized paper list

decentralized

Learning for Robotics(+reinforcement learning)

基于深度強(qiáng)化學(xué)習(xí)的分散式多智能體追蹤

Decentralized Multi-Agent Pursuit Using Deep Reinforcement Learning

https://www.youtube.com/watch?v=cp_5RxCDmKg
追逃是指與一個(gè)或多個(gè)追蹤者一起捕獲移動(dòng)目標(biāo)的問題。我們使用深度強(qiáng)化學(xué)習(xí)來追求具有多個(gè)受單輪運(yùn)動(dòng)約束的同質(zhì)代理的全方位目標(biāo)。我們使用共享經(jīng)驗(yàn)為給定數(shù)量的追蹤者訓(xùn)練策略,由每個(gè)代理在運(yùn)行時(shí)獨(dú)立執(zhí)行。培訓(xùn)使用課程學(xué)習(xí)、掃視角度排序來局部代表鄰居代理,以及鼓勵(lì)良好隊(duì)形并將個(gè)人和團(tuán)隊(duì)獎(jiǎng)勵(lì)相結(jié)合的獎(jiǎng)勵(lì)結(jié)構(gòu)。對(duì)一個(gè)反應(yīng)式逃避者和多達(dá)八個(gè)追趕者的模擬實(shí)驗(yàn)表明,我們的基于學(xué)習(xí)的方法的性能優(yōu)于最近的強(qiáng)化學(xué)習(xí)技術(shù)和經(jīng)典算法的非完整適應(yīng)。在三架運(yùn)動(dòng)受限的追蹤者無人機(jī)的概念驗(yàn)證演示中,學(xué)習(xí)到的策略成功地轉(zhuǎn)移到了現(xiàn)實(shí)世界。

Human-Robot Interaction(+Multi-Robot)

學(xué)習(xí)動(dòng)態(tài)環(huán)境中分散式多機(jī)器人運(yùn)動(dòng)規(guī)劃的交互感知軌跡預(yù)測(cè)

Learning Interaction-Aware Trajectory Predictions for Decentralized Multi-Robot Motion Planning in Dynamic Environments

https://bbrito.github.io/publications/
https://www.youtube.com/watch?v=i8HRGeOmcH4
這封信提出了一種數(shù)據(jù)驅(qū)動(dòng)的分散軌跡優(yōu)化方法,用于動(dòng)態(tài)環(huán)境中的多機(jī)器人運(yùn)動(dòng)規(guī)劃。在共享空間中導(dǎo)航時(shí),每個(gè)機(jī)器人都需要對(duì)相鄰機(jī)器人進(jìn)行準(zhǔn)確的運(yùn)動(dòng)預(yù)測(cè),以實(shí)現(xiàn)預(yù)測(cè)性避碰。這些運(yùn)動(dòng)預(yù)測(cè)可以在機(jī)器人之間通過通信共享它們未來的計(jì)劃軌跡來獲得。然而,這種通信在實(shí)踐中可能不可用也不可靠。在這封信中,我們介紹了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的新型軌跡預(yù)測(cè)模型,該模型可以從使用集中式順序規(guī)劃器生成的演示軌跡中學(xué)習(xí)多機(jī)器人運(yùn)動(dòng)行為。學(xué)習(xí)模型可以為每個(gè)機(jī)器人有效地在線運(yùn)行,并根據(jù)對(duì)其歷史狀態(tài)的觀察提供其鄰居的交互感知軌跡預(yù)測(cè)。然后,我們將軌跡預(yù)測(cè)模型合并到分散模型預(yù)測(cè)控制 (MPC) 框架中,用于多機(jī)器人避免碰撞。仿真結(jié)果表明,我們的分散式方法可以達(dá)到與集中式規(guī)劃器相當(dāng)?shù)男阅芩?,同時(shí)無需通信并且可擴(kuò)展到大量機(jī)器人。我們還通過一組四旋翼飛行器在現(xiàn)實(shí)世界的實(shí)驗(yàn)中驗(yàn)證了我們的方法。

Decentralized Ability-Aware Adaptive Control for Multi-Robot Collaborative Manipulation
與單個(gè)機(jī)器人相比,多機(jī)器人團(tuán)隊(duì)可以完成更靈巧、更復(fù)雜和更重的有效載荷任務(wù),但需要有效的協(xié)作。由于機(jī)器人的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)能力不同、它們之間的通信有限以及系統(tǒng)參數(shù)的不確定性,多機(jī)器人協(xié)作極具挑戰(zhàn)性。在這封信中,分散的能力感知自適應(yīng)控制(DA3C) 被提議基于兩個(gè)關(guān)鍵特征來解決這些挑戰(zhàn)。首先,常見的操縱任務(wù)由提出的名義任務(wù)橢球表示,該橢球用于通過優(yōu)化其配置來最大化每個(gè)機(jī)器人的在線力量能力。其次,一個(gè)分散的自適應(yīng)控制器被設(shè)計(jì)成Lyapunov穩(wěn)定的,盡管機(jī)器人的異質(zhì)驅(qū)動(dòng)約束和物體和環(huán)境的物理參數(shù)不確定。在所提出的框架中,機(jī)器人之間的分散協(xié)調(diào)和負(fù)載分配是在沒有通信的情況下實(shí)現(xiàn)的,而如果任何機(jī)器人達(dá)到其力限制,則只會(huì)廣播控制缺陷。在這種情況下,以分散的方式修改對(duì)象的參考軌跡,以保證穩(wěn)定的交互。最后,針對(duì)異構(gòu)多機(jī)器人協(xié)作操作任務(wù),進(jìn)行了數(shù)值和物理仿真,分析和驗(yàn)證了該方法的有效性。

Control for Multi-Robot Systems(+Multi-Robot)

Decentralized Connectivity Maintenance with Time Delays Using Control Barrier Functions
連接維護(hù)對(duì)于多機(jī)器人系統(tǒng)的實(shí)際部署至關(guān)重要,因?yàn)樗罱K允許機(jī)器人以協(xié)作方式進(jìn)行通信、協(xié)調(diào)和執(zhí)行任務(wù)。連接維護(hù)控制器必須使多機(jī)器人系統(tǒng)獨(dú)立于系統(tǒng)任務(wù)和存在不希望的現(xiàn)實(shí)世界影響(例如通信延遲、模型錯(cuò)誤和計(jì)算時(shí)間延遲等)保持連接。在本文中,我們介紹了基于控制屏障功能的連接維護(hù)控制策略在真實(shí)機(jī)器人設(shè)置上的實(shí)現(xiàn)。在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)相對(duì)于理想情況,通信延遲的存在對(duì)受控系統(tǒng)的性能有重大影響。我們提出了一種啟發(fā)式方法來抵消通信延遲的影響,在仿真和真實(shí)環(huán)境中進(jìn)行了驗(yàn)證。

Haptic-Enabled Decentralized Control of a Heterogeneous Human-Robot Team for Search and Rescue in Partially-Known Environments
協(xié)作機(jī)器人團(tuán)隊(duì)已被證明在幾個(gè)高影響應(yīng)用中很有用,包括城市搜索和救援 (USAR) 和災(zāi)難響應(yīng)。在這種情況下,我們?yōu)楫悩?gòu)人機(jī)團(tuán)隊(duì)提出了一個(gè)分散的觸覺支持的連接維護(hù)控制框架。所提出的框架控制由移動(dòng)機(jī)器人和一個(gè)人組成的團(tuán)隊(duì)的協(xié)調(diào)運(yùn)動(dòng),以協(xié)同完成各種探索和 SAR 任務(wù)。人類用戶在物理上成為團(tuán)隊(duì)的一部分,在與機(jī)器人相同的環(huán)境中移動(dòng),同時(shí)接收到關(guān)于團(tuán)隊(duì)連接性和安全路徑方向的豐富觸覺反饋。我們?cè)谀M和真實(shí)環(huán)境中進(jìn)行了兩項(xiàng)人類受試者研究。結(jié)果表明,所提出的方法在廣泛的 SAR 場(chǎng)景中是有效和可行的。而且,提供觸覺反饋表明僅提供視覺信息的性能有所提高。最后,傳達(dá)有關(guān)團(tuán)隊(duì)連通性和遵循路徑的不同反饋比提供組合在一起的相同信息效果更好。

Human-Robot Interaction: Robot Navigation(+reinforcement learning)

使用深度強(qiáng)化學(xué)習(xí)的用于機(jī)器人人群導(dǎo)航的分散式結(jié)構(gòu)-RNN
Decentralized Structural-RNN for Robot Crowd Navigation with Deep Reinforcement Learning
https://sites.google.com/illinois.edu/crowdnav-dsrnn/home
在人群中安全高效地導(dǎo)航是移動(dòng)機(jī)器人的一項(xiàng)基本能力。先前關(guān)于機(jī)器人人群導(dǎo)航的工作假設(shè)所有代理的動(dòng)態(tài)都是已知的并且定義明確的。此外,先前方法的性能在部分可觀察的環(huán)境和人群密集的環(huán)境中會(huì)惡化。為了解決這些問題,我們提出了去中心化結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(DS-RNN),這是一種新穎的網(wǎng)絡(luò),可以解釋人群導(dǎo)航中機(jī)器人決策的空間和時(shí)間關(guān)系。我們?cè)跊]有任何專家監(jiān)督的情況下使用無模型深度強(qiáng)化學(xué)習(xí)來訓(xùn)練我們的網(wǎng)絡(luò)。我們證明我們的模型在具有挑戰(zhàn)性的人群導(dǎo)航場(chǎng)景中優(yōu)于以前的方法。我們成功地將在模擬器中學(xué)習(xí)到的策略轉(zhuǎn)移到了真實(shí)世界的 TurtleBot 2i。

Learning and Optimization(+swarm)

EGO-Swarm: A Fully Autonomous and Decentralized Quadrotor Swarm System in Cluttered Environments
本文提出了一種分散和異步的系統(tǒng)解決方案,用于僅使用車載資源在未知障礙物豐富的場(chǎng)景中進(jìn)行多機(jī)器人自主導(dǎo)航。規(guī)劃系統(tǒng)是在基于梯度的局部規(guī)劃框架下制定的,其中通過將碰撞風(fēng)險(xiǎn)公式化為非線性優(yōu)化問題的懲罰來實(shí)現(xiàn)碰撞避免。為了提高魯棒性并避開局部最小值,我們采用了一種輕量級(jí)的拓?fù)滠壽E生成方法。然后代理使用不可靠的軌跡共享網(wǎng)絡(luò)在幾毫秒內(nèi)生成安全、平滑和動(dòng)態(tài)可行的軌跡。通過使用深度圖像中的代理檢測(cè)來校正代理之間的相對(duì)定位漂移。我們的方法在模擬和真實(shí)世界的實(shí)驗(yàn)中都得到了證明。

Navigation in Humanoids and Animaloids

Autonomous Decentralized Shape-Based Navigation for Snake Robots in Dense Environments
在這項(xiàng)工作中,我們專注于蛇形機(jī)器人在密集雜亂環(huán)境中的自主導(dǎo)航,機(jī)器人與障礙物之間的碰撞頻繁,這可能經(jīng)常發(fā)生在災(zāi)難場(chǎng)景、地下洞穴或草原/森林環(huán)境中。這項(xiàng)工作的觀點(diǎn)是,不能避免障礙物,而是利用障礙物來支持和指導(dǎo)蛇形機(jī)器人的運(yùn)動(dòng)。我們建立在一個(gè)分散的、最先進(jìn)的蛇形運(yùn)動(dòng)兼容控制器的基礎(chǔ)上,并開發(fā)了一個(gè)雙穩(wěn)態(tài)動(dòng)態(tài)系統(tǒng),該系統(tǒng)依賴于慣性反饋來不斷地將機(jī)器人引導(dǎo)到所需的方向。我們通過實(shí)驗(yàn)表明,該控制器允許機(jī)器人通過始終沿著世界上給定的全球行進(jìn)方向移動(dòng)來自主導(dǎo)航密集的環(huán)境,可以由人工操作員或更高級(jí)別的計(jì)劃人員選擇。我們進(jìn)一步為機(jī)器人配備了車載視覺系統(tǒng),允許機(jī)器人根據(jù)其位置前方的障礙物分布自主選擇自己的行進(jìn)方向(即實(shí)施前饋控制)。在那些關(guān)于硬件的額外實(shí)驗(yàn)中,我們展示了這種外感傳感器如何讓機(jī)器人在撞到障礙物之前轉(zhuǎn)向,并搶先避開僅本體感覺(即扭矩和慣性)反饋控制不夠的具有挑戰(zhàn)性的區(qū)域。

Multiple and Distributed Systems(+decentralized)

多機(jī)器人系統(tǒng)的分散嵌套高斯過程
Decentralized Nested Gaussian Processes for Multi-Robot Systems
在本文中,我們針對(duì)多機(jī)器人系統(tǒng)中的嵌套高斯過程提出了兩種分散的近似算法。分布式實(shí)現(xiàn)是通過迭代和共識(shí)方法實(shí)現(xiàn)的,這些方法以犧牲機(jī)器人間通信為代價(jià)促進(jìn)本地計(jì)算。此外,我們提出了一種基于協(xié)方差的最近鄰機(jī)器人選擇策略,該策略使代理子集能夠執(zhí)行預(yù)測(cè)。此外,兩種算法都被證明是一致的。使用真實(shí)數(shù)據(jù)的經(jīng)驗(yàn)評(píng)估說明了所提出算法的效率。

Decentralized Circle Formation Control for Fish-Like Robots in Real-World Via Reinforcement Learning
本文研究了一組具有未知非線性動(dòng)力學(xué)和擾動(dòng)的合作欠驅(qū)動(dòng)類魚機(jī)器人的圓周隊(duì)形控制問題?;趶?qiáng)化學(xué)習(xí)和認(rèn)知一致性理論,我們提出了一種不需要魚形機(jī)器人動(dòng)力學(xué)知識(shí)的分散控制器,該控制器可以從仿真過渡到現(xiàn)實(shí)。它只在我們建立的仿真環(huán)境中進(jìn)行訓(xùn)練,訓(xùn)練后的控制器可以部署到真實(shí)的機(jī)器人上,而不需要任何人工調(diào)整。仿真結(jié)果表明,所提出的無模型魯棒編隊(duì)控制方法具有相對(duì)于機(jī)器人群體規(guī)模的可伸縮性,并優(yōu)于其他典型的RL算法。在真實(shí)世界中的幾個(gè)實(shí)驗(yàn)驗(yàn)證了基于RL的圓圈形成控制方法的有效性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容