arXiv（論文）検索・リサーチ確認済み

arXiv論文：高額なAIエージェント評価を1%未満の費用で予測するPACE、順位一致は約85%

2026年7月2日投稿のarXiv論文は、SWE-BenchやGAIAのような高コストなエージェント評価を、少数の小テストで予測するPACEを提案しました。4評価・14モデルで検証しています。

PACEとは

高コストなエージェント評価の結果を、小さな非エージェント評価から予測する枠組みです。

主な結果

対象4評価、19ベンチマーク、14モデル

誤差平均絶対誤差4%未満

費用本格評価の1%未満

予測評価なので、自社タスクで同じ傾向になるかは別途確認が必要です。

この記事が役立ったら押してください

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告（アフィリエイト）リンクを含みます。最新の内容・料金・在庫・条件は、リンク先の公式ページ・販売ページでご確認ください。

why care

高いエージェント評価を毎回回さず、モデル選定やルーティングを安く速く進める考え方として参考になります。

source

提供状況や価格は変わるため、最終判断は公式情報で確認します。