研究論文(arXiv)検索・リサーチ確認済み

arXiv論文:ターミナル操作AIを実務で測るTUA-Bench、文書編集やメール管理まで120タスク

TUA-Benchは、ターミナルで動くAIエージェントをプログラミング以外の一般作業まで含めて評価するベンチマークです。120タスクを用意し、Claude Code+Opus 4.8最大推論の総合成績は65.8%でした。

  • 2026-06-26
  • 最終確認日 2026-07-01

TUA-Benchは、ターミナルで動くAIエージェントをプログラミング以外の一般作業まで含めて評価するベンチマークです。120タスクを用意し、Claude Code+Opus 4.8最大推論の総合成績は65.8%でした。

何を測る?

TUA-Benchは、ターミナル操作AIをプログラミング以外の一般作業や科学・工学作業でも評価します。

ベンチマーク概要
タスク120件、5作業群
対象文書編集、メール管理、Web検索など
最高成績Claude Code+Opus 4.8で65.8%

どう使う?

AIにコマンド作業を任せる時は、実行前後の確認と、危険な操作を止めるルールが必要です。

PR

AIをもっと深く学べる本

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。

why care

自分に関係ある?

ターミナル操作AIは日常作業にも広がっていますが、ファイル操作やメール管理では誤操作防止の確認が重要です。

source

出典

提供状況や価格は変わるため、最終判断は公式情報で確認します。

arXivを開く