OpenAI и Paradigm запускают EVMbench для обеспечения безопасности смарт‑контрактов
OpenAI и Paradigm запускают EVMbench для обеспечения безопасности смарт‑контрактов
EVMbench — открытый бенчмарк, созданный OpenAI совместно с Paradigm для оценки того, как ИИ-системы справляются с задачами по обеспечению безопасности смарт‑контрактов.
Цель и мотивация
Смарт‑контракты в Ethereum и других сетях, совместимых с EVM, в сумме представляют более $100 billion открытого исходного кода, а развернутые контракты неизменяемы после развертывания.
Поскольку уязвимости в неизменяемых контрактах могут привести к значительным финансовым потерям, бенчмарк нацелен на измерение эффективности ИИ в типичных задачах безопасности в воспроизводимой среде.
Режимы оценки
EVMbench оценивает агентов в трёх различных режимах, спроектированных так, чтобы отражать реальные атакующие и защитные действия без взаимодействия с реальными сетями.
- Обнаружение уязвимостей: нахождение багов и небезопасных конструкций в исходном коде контрактов.
- Генерация патчей: предложение исправлений, которые сохраняют исходную логику контракта и устраняют уязвимости.
- Выполнение эксплойта: моделирование перекачки средств в изолированной песочнице для проверки возможности эксплуатации.
Набор данных и сценарии
В бенчмарке использованы 120 реальных уязвимостей из 40 аудитов, при этом многие случаи взяты из отчётов о соревнованиях Code4rena.
Кроме того, EVMbench включает сценарии из аудита Tempo — проекта Layer‑1, разработанного Stripe для ускоренных переводов стейблкоинов.
Изолированная тестовая среда
Чтобы предотвратить манипуляции во время тестирования, OpenAI запускает агентов против изолированной локальной реплики блокчейна, где транзакции следуют фиксированной детерминированной последовательности.
Эта песочница гарантирует, что агенты не могут изменять результаты или повторно использовать состояние внешней сети, что делает результаты сопоставимыми между запусками и системами.
Ключевые выводы
В задаче, сформулированной как "украсть средства из контракта" с известной уязвимостью, GPT-5.3-Codex преуспел в 72% попыток в условиях бенчмарка.
Однако автоматическое обнаружение неизвестных уязвимостей и надёжное исправление остаются сложными задачами, поскольку агенты часто находят одну проблему и прекращают работу, вместо того чтобы проводить исчерпывающий анализ контракта.
Похожие записи

