研究ベンチマーク（OpenAI）検索・リサーチ確認済み

OpenAI研究：生命科学AIの判断力を測るGeneBench-Pro、GPT-5.6 Solでも最高31.5%にとどまる

OpenAIは6月30日、計算生物学の難しい判断をAIエージェントに解かせる研究ベンチマークGeneBench-Proを発表しました。129問を用意し、最強モデルでもPro設定で31.5%と、人間専門家の仕事にはまだ届かない結果です。

何を測る研究？

GeneBench-Proは、計算生物学で分析方針を選び、ノイズや前提を見抜くAIエージェントの判断力を測ります。

数字で見る

問題数10領域・129問

最高成績GPT-5.6 Sol Proで31.5%

難度人間専門家で20〜40時間級

AIは研究補助として有望ですが、医療や生命科学の最終判断には専門家の確認が欠かせません。

この記事が役立ったら押してください

ニュースに出てきたAIやカテゴリに近い教材を優先しています。

広告（アフィリエイト）リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。

why care

科学研究のAI活用は進んでいますが、専門判断はまだ人間の確認が必要です。研究補助としての使い方が現実的です。

source

提供状況や価格は変わるため、最終判断は公式情報で確認します。