arXiv検索・リサーチ確認済み

arXiv論文:テストとコードを一緒に直すAIを測るTestEvo-Bench、最新タスクほど成功率が下がる

arXivに2026年7月2日投稿されたTestEvo-Bench論文は、コード変更に合わせてテスト生成・更新できるかを測るライブベンチマークを提案。746件の生成タスクと509件の更新タスクを収録します。

  • 2026-07-04
  • 最終確認日 2026-07-04

arXivに2026年7月2日投稿されたTestEvo-Bench論文は、コード変更に合わせてテスト生成・更新できるかを測るライブベンチマークを提案。746件の生成タスクと509件の更新タスクを収録します。

何を測る?

TestEvo-Benchは、コード変更に合わせてテストを生成・更新できるかを、実行可能な実コミット由来タスクで測ります。

主な数字
746件のテスト生成タスク、509件のテスト更新タスク
152のJava OSSプロジェクト、59,950候補から作成
最高成功率は生成77.5%、更新74.6%。新しいタスクでは低下

どう関係する?

AI開発支援を使う時は、修正内容だけでなくテストの意味と実行結果まで確認する評価が必要です。

PR

AIをもっと深く学べる本

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告(アフィリエイト)リンクを含みます。最新の内容・料金・在庫・条件は、リンク先の公式ページ・販売ページでご確認ください。

why care

自分に関係ある?

AIに修正だけでなくテストも任せる時、古いベンチマークだけでなく、最近の実コミットで実行して測る重要性がわかります。

source

出典

提供状況や価格は変わるため、最終判断は公式情報で確認します。

arXivを開く