元の研究: eCLIPとは
eCLIPは著者が以前取り組んでいた研究プロジェクトで、CLIPモデルにエキスパートの空間アテンション機構を追加したもの。医療X線画像のデータセットでテストされ、放射線科医の視線データのように「バウンディングボックスをガウシアンヒートマップに変換」してモデルの注意を特定領域に誘導する仕組み。
今回のAutoresearchでは、この手法を浮世絵データセット(Ukiyo-eVG、約11,000枚の日本の木版画)に適用し、フレーズとバウンディングボックスのアノテーションを使って実験を行った。
Autoresearchの仕組み
著者はAutoresearchを「LLMエージェントを中間に置いた制約付き最適化ループ」と定義している。
- 仮説を立てる — エージェントが改善案を考える
- コードを編集 —
train.pyを修正 - 学習を実行 — 800ステップ(RTX 4090で約3分)
- 評価 — 1,000枚のテストセットで検証
- コミット or リバート — 改善ならコミット、悪化ならリバート
- 繰り返し
安全性の工夫
- Dockerコンテナでネットワークアクセスなしに隔離
- Claude Codeが編集できるのは
train.pyとprogram.mdのみ - 1実験あたり5分の壁時計時間制限(過学習防止)
scratchpad.mdでエージェントの作業記憶を管理
実験フェーズ
- Phase 1-3: ハイパーパラメータ調整、小規模な構造変更、アーキテクチャ実験
- Phase 4-5: Web検索を使った論文探索による「ムーンショット」アイデア
結果
42回の実験: 13回コミット、29回リバート
Mean Rank: 344.68 → 157.43 54%改善 img→txt R@5: 53.0% txt→img R@5: 51.4%
何が効いたか
- バグ修正が最大の貢献 — 温度パラメータのクランプバグを修正するだけで Mean Rank が -113改善
- ハイパーパラメータ調整 — さらに -30の改善
- アーキテクチャ変更・ムーンショット — 成功率が大幅に低下、収穫逓減
モデル構成
- Vision Encoder: ViT-Small(22Mパラメータ)
- Text Encoder: DistilBERT(66Mパラメータ)
- HeatmapProcessor含め合計 ~90Mパラメータ
著者の振り返り
"最初の90%の作業は超スムーズで、ほとんど介入が要らなかった。最後の10%は泥沼だった。"
- 探索空間が明確に定義されている場合、コミット・リバートループは驚くほど効果的な探索戦略
- 「未知の未知」の領域に入ると、最適化ループは爆発的に不安定化
- 「1実験1変更」のルールが複雑な修正を制限した可能性あり
- Claude Codeが権限を「忘れて」不正なbash呼び出しをしたり、学習完了を待たず早期終了したりする問題も
「エージェントは最適化 >> イノベーション。明確な方向性がないと、ランダムな変更に退化する」 — Autoresearchの本質的な限界を端的に表現した指摘。