arXiv(論文)検索・リサーチ確認済み

arXiv論文:高額なAIエージェント評価を1%未満の費用で予測するPACE、順位一致は約85%

2026年7月2日投稿のarXiv論文は、SWE-BenchやGAIAのような高コストなエージェント評価を、少数の小テストで予測するPACEを提案しました。4評価・14モデルで検証しています。

  • 2026-07-03
  • 最終確認日 2026-07-03

2026年7月2日投稿のarXiv論文は、SWE-BenchやGAIAのような高コストなエージェント評価を、少数の小テストで予測するPACEを提案しました。4評価・14モデルで検証しています。

PACEとは

高コストなエージェント評価の結果を、小さな非エージェント評価から予測する枠組みです。

主な結果
対象4評価、19ベンチマーク、14モデル
誤差平均絶対誤差4%未満
費用本格評価の1%未満

注意点

予測評価なので、自社タスクで同じ傾向になるかは別途確認が必要です。

PR

AIをもっと深く学べる本

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告(アフィリエイト)リンクを含みます。最新の内容・料金・在庫・条件は、リンク先の公式ページ・販売ページでご確認ください。

why care

自分に関係ある?

高いエージェント評価を毎回回さず、モデル選定やルーティングを安く速く進める考え方として参考になります。

source

出典

提供状況や価格は変わるため、最終判断は公式情報で確認します。

arXivを開く