研究論文(arXiv)検索・リサーチ確認済み

arXiv論文:PC操作AIを長時間タスクで測るOSWorld 2.0、最高モデルでも完了率20.6%

arXivに6月28日投稿のOSWorld 2.0は、パソコン操作AIに108件の長時間ワークフローを解かせるベンチマークです。人間なら中央値1.6時間の作業で、Claude Opus 4.8でも完了率20.6%にとどまりました。

  • 2026-06-28
  • 最終確認日 2026-07-01

arXivに6月28日投稿のOSWorld 2.0は、パソコン操作AIに108件の長時間ワークフローを解かせるベンチマークです。人間なら中央値1.6時間の作業で、Claude Opus 4.8でも完了率20.6%にとどまりました。

論文のポイント

OSWorld 2.0は、PC操作AIに108件の長時間ワークフローを解かせ、現実の作業に近い弱点を測ります。

結果
作業数108件の長時間ワークフロー
人間時間中央値で約1.6時間
最高完了率20.6%

使う時の注意

AIに任せても、途中で制約や新情報を確認し、最後は人間が結果を点検する必要があります。

PR

AIをもっと深く学べる本

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。

why care

自分に関係ある?

PC操作AIは便利ですが、長時間の実務では確認漏れが課題です。自動化しても途中確認と最終レビューが必要です。

source

出典

提供状況や価格は変わるため、最終判断は公式情報で確認します。

arXivを開く