- MyeongJin Lee

[ALOHA] Learning Fine-Graded Bimanual Manipulation with Low-Cost Hardware

Authors : Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn

Institute : Stanford University, UC Berkeley, Meta

Year : 2023

Teleoperation Interface: A low-cost, open-source hardware system that enables fine-grained bimanual manipulation by capturing real human demonstrations.
Imitation Learning: Employs Action Chunking with Transformers (ACT) to learn robust, precise dual-arm control policies directly from demonstration data.

Key words: teleoperation, imitation learning, dual manipulation, precise manipulation, low-cost, open-source

해당 논문은 높은 정밀도를 요구하는 manipulation task에 대해서 인공지능 모델의 학습을 통해 가격이 저렴하고 상대적으로 부정확한 하드웨어를 사용해 해결하는 것이 가능한지에 대해 기술함
위의 문제를 해결하기 위해 간단하지만 새로운 알고리즘인 Action Chunking with Transformers(ACT) 를 사용함
해당 알고리즘을 사용했을 때 6가지의 task에서 10분간의 시연을 통해 80~90%의 성공률을 확인함

single step을 예측하는 policy가 아닌 향후 k step 동안의 joint position을 예측하는 policy를 사용함.
위 방식을 통해 effective horizon, 즉 step에 소요되는 시간을 k 만큼 줄이게 되고 compounding error를 완화
또한 행동의 sequence를 예측함으로서, Markovian single-step policy로는 모델링하기 어려운, 시연 중 발생하는 pause, temporally correlated confounders를 해결하는 데 도움을 줌.
Policy의 부드러움을 향상시키기 위해 추가로 temporal ensembling을 제안함
Temporal ensembling은 policy query 주기를 높이고, overlapping action chunk를 평균냄.
위에서 정리한 Action-chunking policy를 Transformer를 활용하여 구현함.
또한 human-data의 변동성을 포착하기 위해 Conditional VAE(CVAE)로 학습함.
위의 방식을 Action Chunking with Transformers (ACT)라고 함.

사람이 만든 데이터는 비정형적이고 확률적임. 이를 CVAE(생성형 모델)를 사용하여 해결함.
ACT를 Conditional VAE (CVAE, Conditional Variational Autoencoder)로 학습함.
CVAE의 encoder는 action sequence와 joint observation을 $z$ 로 압축함.
Encoder는 test에서는 버림.
ACT의 decoder는 Transformer encoder를 사용하여 image, joint posision, 그리고 z 를 사용하여 decoder에서 sequence of action(다음 스텝에서 양 팔의 joint position)을 예측함
Observation : follower robot’s joint positions, image feed (4 camera images)

ACT Training & Inference

Action Chunking (AC) : chunk size를 k 로 고정하고 진행함. k 스텝마다 observation을 받아 다음 k 스텝의 action을 수행함.
단순한 AC 구현으로는 새로운 환경의 observation이 k 스텝마다 반영되어 jerky(덜 부드러운, 튀는)한 현상이 발생할 수 있음.
Temporal Ensenble (TE) : 매 스텝마다 k 스텝 만큼의 예측을 수행함.
CVAE (Conditional Variational Autoencoder)
- Encoder : 현재의 관측값과 행동 시퀀스를 입력으로 받아, diagonal gaussian으로 매개변수화된 스타일 변수 z의 분포의 평균과 분산을 예측함. CVAE decoder를 학습시키 위해서만 사용되며, 테스트 시에는 버려짐. 학습 속도를 높이기 위해 observation은 생략하고 proprioceptive observation과 행동 시퀀스만 조건화 함.
- Decoder : z와 현재의 observation(image, joint position)을 조건으로 하여 action sequence를 예측함. 테스트 시에는 z를 사전 분포의 평균(0)으로 설정하여 결정론적으로 디코딩함.