ICML 2026 / SWE-Bench Pro検索・リサーチ確認済み
ICML 2026論文:AIコーディングエージェントを現実の長い開発課題で測るSWE-Bench Pro
ICML 2026 regularのSWE-Bench Proは、41リポジトリから1,865件の課題を集め、AIエージェントの実務的なソフトウェア開発力を測るベンチマークです。
ICML 2026 regularのSWE-Bench Proは、41リポジトリから1,865件の課題を集め、AIエージェントの実務的なソフトウェア開発力を測るベンチマークです。
何を測る論文?
SWE-Bench Proは、AIコーディングエージェントを現実の長い開発課題で評価するICML 2026 regular論文です。
具体的な数字
41リポジトリから1,865件を集め、平均107行・4ファイルにまたがる修正を含みます。主要エージェントの成績は公開課題で45%未満、非公開課題で20%未満とされています。
自分にどう関係する?
AI開発支援の評価では、短い修正だけでなく複数ファイルにまたがる仕事での強さを見る必要があります。
PR
AIをもっと深く学べる本
ニュースに出てきたAIやカテゴリに近い教材を優先しています。
- 検索AI楽天で見る ↗対話型検索エンジンPerplexity仕事術出典つき検索と調査を仕事で使いたい人向けPerplexityで調査・要約・比較を進めるための仕事術。検索リサーチカテゴリと相性が高い教材です。
- 検索AI楽天で見る ↗はじめての生成AI Perplexity「超」活用術Perplexityを初めて使う人向けPerplexityの検索・要約・出典確認を、初学者向けに確認できる入門書。
- 調査AI楽天で見る ↗Claude・Perplexity・Glasp・NotebookLM使いこなし術読む・調べる・まとめる作業をAIで短縮したい人向けClaude、Perplexity、Glasp、NotebookLMを横断して、情報収集から要約までを学べる実務向け教材。
広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。
why care
自分に関係ある?
コーディングAIの宣伝スコアを見る時、簡単なベンチだけでなく実務に近い長い課題での成績を確認する必要があります。