ICML 2026 / SWE-Bench Pro検索・リサーチ確認済み

ICML 2026論文:AIコーディングエージェントを現実の長い開発課題で測るSWE-Bench Pro

ICML 2026 regularのSWE-Bench Proは、41リポジトリから1,865件の課題を集め、AIエージェントの実務的なソフトウェア開発力を測るベンチマークです。

  • 2026-06-24
  • 最終確認日 2026-06-29

ICML 2026 regularのSWE-Bench Proは、41リポジトリから1,865件の課題を集め、AIエージェントの実務的なソフトウェア開発力を測るベンチマークです。

何を測る論文?

SWE-Bench Proは、AIコーディングエージェントを現実の長い開発課題で評価するICML 2026 regular論文です。

具体的な数字

41リポジトリから1,865件を集め、平均107行・4ファイルにまたがる修正を含みます。主要エージェントの成績は公開課題で45%未満、非公開課題で20%未満とされています。

従来ベンチとの違い

自分にどう関係する?

AI開発支援の評価では、短い修正だけでなく複数ファイルにまたがる仕事での強さを見る必要があります。

PR

AIをもっと深く学べる本

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。

why care

自分に関係ある?

コーディングAIの宣伝スコアを見る時、簡単なベンチだけでなく実務に近い長い課題での成績を確認する必要があります。

source

出典

提供状況や価格は変わるため、最終判断は公式情報で確認します。

OpenReview / ICML 2026を開く