研究論文(arXiv)検索・リサーチ確認済み
arXiv論文:AIがソースなしでプログラムを再実装するMirrorCode、最強モデルは25本中56%相当
MirrorCodeは、AIエージェントに既存プログラムの振る舞いだけを見せ、ソースコードなしで同じ機能を再実装させる長期コーディングベンチマークです。Unix工具、暗号、圧縮など25本を対象に、最強モデルは56%を記録しました。
MirrorCodeは、AIエージェントに既存プログラムの振る舞いだけを見せ、ソースコードなしで同じ機能を再実装させる長期コーディングベンチマークです。Unix工具、暗号、圧縮など25本を対象に、最強モデルは56%を記録しました。
MirrorCodeとは?
AIが既存プログラムの振る舞いだけを見て、ソースなしで同じ機能を再実装できるかを測るベンチマークです。
対象25本のソフトウェア
最高成績全体で56%
費用例大規模1試行で2,600ドル・19日
注意点
大きな開発を任せるほど、検証テスト、費用上限、著作権やライセンス確認が欠かせません。
PR
AIをもっと深く学べる本
ニュースに出てきたAIやカテゴリに近い教材を優先しています。
- 検索AI楽天で見る ↗対話型検索エンジンPerplexity仕事術出典つき検索と調査を仕事で使いたい人向けPerplexityで調査・要約・比較を進めるための仕事術。検索リサーチカテゴリと相性が高い教材です。
- 検索AI楽天で見る ↗はじめての生成AI Perplexity「超」活用術Perplexityを初めて使う人向けPerplexityの検索・要約・出典確認を、初学者向けに確認できる入門書。
- 調査AI楽天で見る ↗Claude・Perplexity・Glasp・NotebookLM使いこなし術読む・調べる・まとめる作業をAIで短縮したい人向けClaude、Perplexity、Glasp、NotebookLMを横断して、情報収集から要約までを学べる実務向け教材。
広告(アフィリエイト)リンクを含みます。最新の内容・料金・条件は、各サービスの公式ページでご確認ください。
why care
自分に関係ある?
AI開発の能力は伸びていますが、大規模再実装には費用、検証、権利確認が必要です。仕様とテストの重要性が増します。