研究ベンチマーク(OpenAI)検索・リサーチ確認済み
OpenAI研究:生命科学AIの判断力を測るGeneBench-Pro、GPT-5.6 Solでも最高31.5%にとどまる
OpenAIは6月30日、計算生物学の難しい判断をAIエージェントに解かせる研究ベンチマークGeneBench-Proを発表しました。129問を用意し、最強モデルでもPro設定で31.5%と、人間専門家の仕事にはまだ届かない結果です。
OpenAIは6月30日、計算生物学の難しい判断をAIエージェントに解かせる研究ベンチマークGeneBench-Proを発表しました。129問を用意し、最強モデルでもPro設定で31.5%と、人間専門家の仕事にはまだ届かない結果です。
何を測る研究?
GeneBench-Proは、計算生物学で分析方針を選び、ノイズや前提を見抜くAIエージェントの判断力を測ります。
問題数10領域・129問
最高成績GPT-5.6 Sol Proで31.5%
難度人間専門家で20〜40時間級
どう受け止める?
AIは研究補助として有望ですが、医療や生命科学の最終判断には専門家の確認が欠かせません。
PR
AIをもっと深く学べる本
ニュースに出てきたAIやカテゴリに近い教材を優先しています。
- 検索AI楽天で見る ↗対話型検索エンジンPerplexity仕事術出典つき検索と調査を仕事で使いたい人向けPerplexityで調査・要約・比較を進めるための仕事術。検索リサーチカテゴリと相性が高い教材です。
- 検索AI楽天で見る ↗はじめての生成AI Perplexity「超」活用術Perplexityを初めて使う人向けPerplexityの検索・要約・出典確認を、初学者向けに確認できる入門書。
- 調査AI楽天で見る ↗Claude・Perplexity・Glasp・NotebookLM使いこなし術読む・調べる・まとめる作業をAIで短縮したい人向けClaude、Perplexity、Glasp、NotebookLMを横断して、情報収集から要約までを学べる実務向け教材。
広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。
why care
自分に関係ある?
科学研究のAI活用は進んでいますが、専門判断はまだ人間の確認が必要です。研究補助としての使い方が現実的です。