研究論文(arXiv)検索・リサーチ確認済み
arXiv論文:PC操作AIを長時間タスクで測るOSWorld 2.0、最高モデルでも完了率20.6%
arXivに6月28日投稿のOSWorld 2.0は、パソコン操作AIに108件の長時間ワークフローを解かせるベンチマークです。人間なら中央値1.6時間の作業で、Claude Opus 4.8でも完了率20.6%にとどまりました。
arXivに6月28日投稿のOSWorld 2.0は、パソコン操作AIに108件の長時間ワークフローを解かせるベンチマークです。人間なら中央値1.6時間の作業で、Claude Opus 4.8でも完了率20.6%にとどまりました。
論文のポイント
OSWorld 2.0は、PC操作AIに108件の長時間ワークフローを解かせ、現実の作業に近い弱点を測ります。
作業数108件の長時間ワークフロー
人間時間中央値で約1.6時間
最高完了率20.6%
使う時の注意
AIに任せても、途中で制約や新情報を確認し、最後は人間が結果を点検する必要があります。
PR
AIをもっと深く学べる本
ニュースに出てきたAIやカテゴリに近い教材を優先しています。
- 検索AI楽天で見る ↗対話型検索エンジンPerplexity仕事術出典つき検索と調査を仕事で使いたい人向けPerplexityで調査・要約・比較を進めるための仕事術。検索リサーチカテゴリと相性が高い教材です。
- 検索AI楽天で見る ↗はじめての生成AI Perplexity「超」活用術Perplexityを初めて使う人向けPerplexityの検索・要約・出典確認を、初学者向けに確認できる入門書。
- 調査AI楽天で見る ↗Claude・Perplexity・Glasp・NotebookLM使いこなし術読む・調べる・まとめる作業をAIで短縮したい人向けClaude、Perplexity、Glasp、NotebookLMを横断して、情報収集から要約までを学べる実務向け教材。
広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。
why care
自分に関係ある?
PC操作AIは便利ですが、長時間の実務では確認漏れが課題です。自動化しても途中確認と最終レビューが必要です。