20分鐘學會組裝電路板！開源SERL框架精密操控成功率100%，速度三倍於人類

近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。

面對這項挑戰，來自加州大學柏克萊、史丹佛大學、華盛頓大學以及Google的學者們共同開發了名為高效機器人強化學習套件（SERL）的開源軟體框架，致力於推動強化學習技術在實際機器人應用中的廣泛使用。

專案首頁：https://serl-robot.github.io/
開源程式碼：https://github.com/rail-berkeley/serl
論文題目：SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning

SERL 框架主要包含以下幾個組件：

1.高效強化學習

在強化學習領域，智能體（如機器人）透過與環境的互動來掌握執行任務的方法。它透過嘗試各種行為並根據行為結果獲得獎勵訊號，從而學習出一套旨在最大化累積獎勵的策略。 SERL 採用RLPD 演算法，賦能機器人同時從即時互動和先前收集的離線資料中學習，大幅縮短機器人掌握新技能所需的訓練時間。

2、多樣的獎勵規定方法

SERL 提供了多種獎勵規定方法，讓開發人員可以根據特定任務的需求客製化獎勵結構。例如，固定位置的安裝任務可以按照機械手的位置制定獎勵，更複雜的任務可以使用分類器或VICE 學習一個準確的獎勵機制。這種靈活性有助於精確地指導機器人學習特定任務的最有效策略。

3.無重製功能

傳統的機器人學習演算法都需要定期重置環境，進行下一輪互動學習。在很多任務中這無法自動實現。 SERL 提供的無重製強化學習功能同時訓練前向- 後向兩個策略，為彼此提供環境重置。

4、機器人控制接口

SERL 提供了一系列Franka 機械手任務的Gym 環境介面作為標準範例，方便使用者可以輕鬆地將SERL 拓展到不同的機械手臂上。

5、阻抗控制器

為了確保機器人可以在複雜的物理環境中安全精確地探索與操作，SERL 為Franka 機械手臂提供了特殊的阻抗控制器，在確保準確性的同時確保與外界物體接觸後不產生過大的力矩。

透過這些技術和方法的結合，SERL 大大縮短了訓練時間，同時保持了高成功率和穩健性，使機器人能夠在短時間內學習完成複雜任務，並在現實世界中有效應用。

圖1、2: SERL 和行為複製方法在各項任務中成功率和節拍數比較。在相似資料量的情況下，SERL 的成功率要比克隆的高出數倍(最高10 倍)，節拍數也要快上至少兩倍。

應用案例

1、PCB 元件組裝：

在PCB 板上組裝穿孔元件是一項常見卻又充滿挑戰的機器人任務。電子元件的接腳極易彎曲，而孔位與接腳之間的公差非常小，要求機器人在組裝時既要精準又要輕柔。透過短短21 分鐘的自主學習，SERL 讓機器人達到了100% 的任務完成率。即便麵臨如電路板位置移動或視線部分被遮擋等未知的干擾，機器人也能穩定完成組裝工作。

圖3、4、5：執行電路板元件安裝任務時，機器人能夠應付訓練階段未曾遇到的各種幹擾，順利完成任務。

2、電纜佈線：

在許多機械和電子設備的組裝過程中，我們需要將電纜沿著特定的路徑精確地安裝到位，這項任務對精度和適應性提出了很高的要求。由於柔性電纜在佈線過程中容易產生形變，而且佈線過程可能會受到各種幹擾，例如電纜被意外移動或夾持器位置的變化，這導致使用傳統的非學習型方法難以應對。 SERL 能夠在短短30 分鐘內實現100% 的成功率。即使在夾持器位置與訓練期間不同時，機器人也能夠泛化其學習到的技能，並適應新的佈線挑戰，確保佈線工作的正確執行。

圖6、7、8：機器人不需要更多的專項訓練也能直接把線穿過與訓練時位置不一樣的夾子。

3、物體抓取擺放操作：

在倉庫管理或零售業中，機器人經常需要將物品從一個地方移動到另一個地方，這要求機器人能夠識別並搬運特定的物品。在強化學習的訓練過程中，很難對欠驅動的物體進行自動的歸位重置。利用SERL 的無重置強化學習功能，機器人在1 小時45 分鐘內同時學習兩個100/100 成功率的策略。用前向策略把物體從A 箱放到B 箱，再用後向策略把物體從B 箱歸回A 箱。

圖9、10、11：SERL 訓練了兩套策略，一個把物體從右邊搬運到左邊，一個從左邊放回右邊。機器人不僅在訓練物體上達到100% 成功率，連沒看過的物體也能智慧搬運。

主要作者

1. Jianlan Luo

Jianlan Luo 目前是加州大學柏克萊分校電子與電腦科學系的博士後學者，他在柏克萊人工智慧中心(BAIR) 與Sergey Levine 教授合作。他主要的研究興趣在於機器學習，機器人學，以及最適控制。在回到學術界前，他是Google X 的全職研究員，與Stefan Schaal 教授合作。在此之前，他在加州大學柏克萊分校取得電腦科學碩士學位，機械工程博士學位；此間他與Alice Agogino 教授，Pieter Abbeel 教授一起工作。他也曾在Deepmind 倫敦總部擔任訪問研究學者。

2. Zheyuan Hu

他本科畢業於加州大學柏克萊的電腦科學和應用數學專業。目前，他在由Sergey Levine 教授領導的RAIL 實驗室進行研究。他對機器人學習領域有濃厚的興趣，專注於開發能夠使機器人在真實世界中迅速且廣泛地掌握靈巧操作技能的方法。

3. 查爾斯‧徐

他是加州大學柏克萊分校的電機工程與電腦科學專業的四年級本科生。目前，他在由Sergey Levine 教授領導的RAIL 實驗室進行研究。他的研究興趣位於機器人技術與機器學習的交匯處，旨在建構高穩健性且具有泛化能力的自主操控系統。

4. You Liang Tan

他是伯克利RAIL 實驗室的研究員工程師，由Sergey Levine 教授指導。他先前在新加坡南洋理工大學獲得了學士學位和美國喬治亞理工學院完成了碩士學位。在此之前，他曾是開源機器人基金會（Open Robotics）的成員。他的工作專注於機器學習和機器人軟體技術在真實世界應用。

5.斯特凡·沙爾

他於1991 年在德國慕尼黑的慕尼黑技術大學獲得機械工程和人工智慧的博士學位。他是麻省理工學院大腦與認知科學部及人工智慧實驗室的博士後研究員，也是日本ATR 人類資訊處理研究實驗室的特邀研究員，以及美國喬治亞理工學院和賓州州立大學運動學系的兼任助理教授。在日本ERATO 計畫期間，他還擔任計算學習小組組長，該計畫為川人動態大腦計畫（ERATO/JST）。 1997 年，他成為南加州大學電腦科學、神經科學和生物醫學工程教授，並晉升為終身教授。他的研究興趣包括統計與機器學習、神經網路與人工智慧、計算神經科學、功能性腦部造影、非線性動力學、非線性控制理論、機器人學及仿生機器人等主題。

他是德國馬克斯・普朗克智慧系統研究所的創始董事之一，在那裡他領導了自主運動部門多年。他目前是Alphabet [Google] 的新機器人子公司Intrinsic 的首席科學家。 Stefan Schaal 是IEEE Fellow。

6. 切爾西·芬恩

她是史丹佛大學電腦科學與電機工程的助理教授。她的實驗室IRIS 研究透過大規模機器人互動來探索智能，該實驗室隸屬於SAIL 和ML Group。她也是Google Brain 團隊的一員。她對機器人和其他智能體透過學習和互動發展出廣泛智慧行為的能力感興趣。此前，她在加州大學柏克萊分校完成了電腦科學博士學位，並在麻省理工學院獲得了電機工程與電腦科學學士學位。

7.阿布舍克古普塔

他是華盛頓大學保羅・G・艾倫電腦科學與工程學院的助理教授，領導WEIRD 實驗室。在此之前，他在麻省理工學院擔任博士後學者，與Russ Tedrake 和Pulkit Agarwal 合作。他在加州大學柏克萊分校的BAIR 完成了關於機器學習與機器人學的博士學位，期間受到Sergey Levine 教授和Pieter Abbeel 教授的指導。在此之前，他也在加州大學柏克萊分校完成了他的學士學位。他的主要研究目標是開發演算法，使機器人系統能夠學會在各種非結構化環境中執行複雜任務，如辦公室和家庭。

8.謝爾蓋·萊文

他是加州大學柏克萊分校電機工程與電腦科學系的副教授。他的研究專注於能夠使自主智能體透過學習獲得複雜行為的演算法，特別是那些能夠使任何自主系統學會解決任何任務的通用方法。這些方法的應用包括機器人技術，以及需要自主決策的其他一系列領域。

新聞