LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphra

1. どんなもの？

VLAモデルの「言い換えロバスト性」を診断するベンチマーク「LIBERO-Para」と評価指標「PRIDE」を提案。
ロボット操作におけるVision-Language-Action (VLA) モデルが、指示の言い換えに対してどれだけ頑健かを評価する。
特に、限られたデータでファインチューニングされたVLAモデルが特定の指示形式に過学習し、言い換えに弱いという課題を解決しようとする。

2. 先行研究と比べてどこがすごい？

VLAモデルの言い換えロバスト性に特化した初の診断ベンチマークである。
アクション表現とオブジェクト参照を独立して変化させることで、言語的汎化のきめ細かい分析を可能にした。
従来の二値成功率では見えなかった、言い換えの難易度を定量化するPRIDEメトリックを提案し、より詳細なモデル評価を可能にした。

3. 技術や手法の肝はどこ？

**LIBERO-Paraベンチマーク**: アクション表現（例: "pick up" vs "grasp"）とオブジェクト参照（例: "red cube" vs "crimson block"）を独立して変化させることで、系統的に言い換えを生成する。これにより、どの言語要素がモデルの性能低下に寄与しているかを特定できる。
**PRIDEメトリック**: 言い換えの難易度を、意味的・統語的要因（例: 語彙の多様性、文法構造の変化）に基づいて定量化する。モデルが簡単な言い換えにのみ成功しているのか、より難しい言い換えにも対応できているのかを評価できる。

4. どうやって有効だと検証した？

7つの異なるVLAモデル構成（0.6B-7.5Bパラメータ）でLIBERO-Paraベンチマークを評価した。
結果として、言い換えによって22-52%の性能低下を観測した。
特に、オブジェクトレベルの語彙的変動（単純な同義語置換）が大きな性能低下を引き起こすことを特定。これはモデルが意味的理解ではなく表面的なマッチングに依存していることを示唆する。
失敗の80-96%が実行エラーではなくプランニングレベルの軌道逸脱によるものであり、言い換えがタスク識別を妨げていることを示した。

5. 議論はある？

VLAモデルが表面的な語彙マッチングに依存しており、真のセマンティックグラウンディングが不足していることが示唆された。
失敗の大部分がプランニングレベルであり、言語理解の不足がロボットの行動計画に直接影響を与えている。
限られたデータでのファインチューニングが過学習を引き起こし、ロバスト性を損なっているという仮説を裏付ける結果となった。
今後の研究では、よりロバストなVLAモデルを開発するために、意味的理解を深める手法や、多様な指示形式に対応できるファインチューニング戦略が必要となる。

6. 次に読むべき論文は？

VLAモデルのロバスト性、汎化性能に関する研究。
ロボット操作における言語理解と行動計画の統合に関する研究。
少ないデータでのファインチューニングにおける過学習対策やデータ拡張に関する研究。
具体的には、LIBEROベンチマークの元の論文や、VLAモデルの基盤となるVision-Languageモデルの頑健性に関する研究。

Abstract (原文)

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models💻 コードあり

Abstract (原文)