arXiv検索・リサーチ確認済み

arXiv論文：テストとコードを一緒に直すAIを測るTestEvo-Bench、最新タスクほど成功率が下がる

arXivに2026年7月2日投稿されたTestEvo-Bench論文は、コード変更に合わせてテスト生成・更新できるかを測るライブベンチマークを提案。746件の生成タスクと509件の更新タスクを収録します。

何を測る？

TestEvo-Benchは、コード変更に合わせてテストを生成・更新できるかを、実行可能な実コミット由来タスクで測ります。

主な数字

746件のテスト生成タスク、509件のテスト更新タスク

152のJava OSSプロジェクト、59,950候補から作成

最高成功率は生成77.5%、更新74.6%。新しいタスクでは低下

AI開発支援を使う時は、修正内容だけでなくテストの意味と実行結果まで確認する評価が必要です。

この記事が役立ったら押してください

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告（アフィリエイト）リンクを含みます。最新の内容・料金・在庫・条件は、リンク先の公式ページ・販売ページでご確認ください。

why care

AIに修正だけでなくテストも任せる時、古いベンチマークだけでなく、最近の実コミットで実行して測る重要性がわかります。

source

提供状況や価格は変わるため、最終判断は公式情報で確認します。