OpenAIは、Paradigmと共同で新たなベンチマーク「EVMbench」を発表しました。このツールは、ブロックチェーン上のスマートコントラクトに対するAIエージェントの脆弱性検出、修正、悪用能力を評価することを目的としています。現在、スマートコントラクトは1000億ドル(約15兆5000億円)の暗号資産を保護しており、AIによる脆弱性の定量的把握がサイバーリスク管理において重要性を増しています。
EVMbenchの概要
EVMbenchは、40件の監査から厳選された120件の高重大度脆弱性を基に構築されており、以下の3つのモードでAIエージェントの能力を評価します。
- 検出モード: スマートコントラクトのリポジトリを監査し、既知の脆弱性をどれだけ発見できるかを評価。
- 修正モード: 脆弱なコードを修正し、機能を維持しながら悪用可能性を排除できるかを検証。
- 悪用モード: サンドボックス環境で実際に攻撃を実行し、資金を引き出す能力を評価。
最新のモデルであるGPT-5.3-Codexは、悪用モードで72.2%のスコアを記録し、半年前のGPT-5の31.9%から大幅に向上しました。しかし、検出や修正モードでは依然として多くの脆弱性がAIにとって難題であることが明らかになっています。
今後の課題と取り組み
EVMbenchは現実世界のすべての難しさを再現するものではなく、特に広範に利用されるコントラクトに対する厳格な審査が不足しています。また、AIが人間未発見の真の脆弱性を見つけた場合の評価方法が未整備という課題もあります。
OpenAIは、AIが攻撃者と防御者の両方に変革をもたらすと指摘し、EVMbenchをAI支援監査の導入を促す呼びかけとして位置づけています。さらに、サイバーセキュリティ助成プログラムを通じて、オープンソースプロジェクトへの無償コードスキャン提供や、1,000万ドル相当のAPIクレジットを提供する方針を示しています。
このように、EVMbenchはAIとブロックチェーンのセキュリティを強化するための重要なステップとなることが期待されています。

![]() |


