機器之心報道
編輯:小舟、陳陳
但可能打不過公園里的老大爺?
巴黎奧運會正在如火如荼地進行中,乒乓球項目備受關(guān)注。與此同時,機器人打乒乓球也取得了新突破。
剛剛,DeepMind 提出了第一個在競技乒乓球比賽中達到人類業(yè)余選手水平的學習型機器人智能體。
論文地址:https://arxiv.org/pdf/2408.03906
DeepMind 這個機器人打乒乓球什么水平呢?大概和人類業(yè)余選手不相上下:
正手反手都會:
對手采用多種打法,該機器人也能招架得�。�
接不同旋轉(zhuǎn)的發(fā)球:
不過,比賽激烈程度似乎不如公園老大爺對戰(zhàn)。
對機器人來說,乒乓球運動需要掌握復雜的低水平技能和策略性玩法,需要長期訓練。DeepMind 認為戰(zhàn)略上次優(yōu)但可以熟練地執(zhí)行低水平技能可能是更好的選擇。這使乒乓球與國際象棋、圍棋等純粹的戰(zhàn)略游戲區(qū)分開來。
因此,乒乓球是提升機器人能力的一個有價值的基準,包括高速運動、實時精確和戰(zhàn)略決策、系統(tǒng)設計以及與人類對手直接競爭。
對于這一點,Google DeepMind 首席科學家稱贊道:「乒乓球機器人將有助于我們解決高速控制和感知問題�!�
該研究進行了 29 場機器人與人類的乒乓球比賽,其中機器人獲勝 45% (13/29)。所有人類選手都是機器人未見過的玩家,從初學者到錦標賽選手能力不等。
雖然該機器人輸?shù)袅怂信c最高級別玩家的比賽,但它贏得了 100% 的與初學者的比賽,在與中級選手的對戰(zhàn)中贏得了 55% 的比賽,展現(xiàn)出人類業(yè)余選手的水平。
總的來說,該研究的貢獻包括:
提出一個分層和模塊化的策略架構(gòu),其中包括:
低級控制器及其詳細的技能描述器,這些描述器對智能體的能力進行建模并有助于彌合模擬與真實的差距;
選擇低級技能的高級控制器。
實現(xiàn)零樣本模擬到真實的技術(shù),包括定義基于現(xiàn)實世界的任務分布的迭代方法,并定義自動課程(automatic curriculum)。
實時適應未見過的對手。
方法介紹
該智能體由一個低級技能庫和一個高級控制器組成。低級技能庫專注于乒乓球的某個特定方面,例如正手上旋球、反手瞄準或正手發(fā)球。除了包含訓練策略,該研究還在線下和線上收集和存儲有關(guān)每個低級技能的優(yōu)勢、劣勢和局限性的信息。而負責協(xié)調(diào)低級技能的高級控制器會根據(jù)當前游戲統(tǒng)計數(shù)據(jù)、技能描述選擇最佳技能。
此外,該研究還收集了少量的人類和人類對打的比賽數(shù)據(jù),作為初始任務條件的種子,數(shù)據(jù)集包括位置、速度和旋轉(zhuǎn)的信息。然后使用強化學習在模擬環(huán)境中訓練智能體, 并采用一些現(xiàn)有技術(shù),將策略無縫部署到真實硬件中。
該智能體與人類一起對打以生成更多訓練數(shù)據(jù),隨著機器人的持續(xù)學習,游戲標準變得越來越復雜,以此讓智能體學習越來越復雜的動作。這種混合的「模擬 - 現(xiàn)實」循環(huán)創(chuàng)建了一個自動教學,使機器人的技能隨著時間的推移不斷提高。
分層控制
分層控制主要包含以下部分:
乒乓球打法:高級控制器(HLC,high-level controller)首先決定使用哪種打法(正手還是反手);
調(diào)整:根據(jù)與對手比賽中的統(tǒng)計數(shù)據(jù),在線維護每個 HLC 的偏好(H 值);
選擇最有效的技能:HLC 根據(jù)調(diào)整后的 H 值對入圍的 LLC 進行抽樣;
更新:H 值和對手統(tǒng)計數(shù)據(jù)會持續(xù)更新,直至比賽結(jié)束。
結(jié)果
研究者將該智能體與 29 名不同水平的乒乓選手進行了對比,選手包括初學者、中級、高級和高級 + 技能。人類選手按照標準乒乓球規(guī)則與機器人進行了三場比賽,但由于機器人無法發(fā)球,因此規(guī)則稍作修改。
面對所有對手,機器人贏得了 45% 的比賽(match)和 46% 的單局勝利(game)。按照技能水平細分,機器人贏得了與初學者的所有比賽,輸?shù)袅伺c高級和高級 + 選手的所有比賽,贏得了 55% 與中級選手的比賽。這表明該智能體在乒乓球回合中達到了中級人類選手的水平。
機器人打不過高級玩家的原因在于物理和技術(shù)的限制,包括反應速度,相機感應能力,旋轉(zhuǎn)處理等,這是很難在模擬環(huán)境中準確建模的。
與機器人對打,也很吸引人
研究參與者表示,他們非常享受與機器人一起對打,并在「有趣」和「吸引人」方面給予了機器人很高的評價。他們也一致表示「非常愿意」再次與機器人對打。在自由時間里,他們平均在 5 分鐘的時間里與機器人玩了 4 分 06 秒。
機器人不擅長下旋球
技能最好的參與者提到,機器人不擅長處理下旋。為了測試這一觀察結(jié)果,研究人員根據(jù)球的旋轉(zhuǎn)繪制了機器人的著陸率,根據(jù)結(jié)果可以看到,機器人在面對更多的下旋球時,著陸率大幅下降。這一缺陷部分是由于機器人在處理低球時,為了避免與桌子碰撞導致的,其次是實時確定球的旋轉(zhuǎn)確實很難。
參考鏈接:
https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1