Một trí tuệ nhân tạo (AI) đã thoát khỏi khu vực “sandbox” mà các kỹ sư a16z crypto xây dựng trong một bài kiểm tra thử nghiệm. Các kỹ sư muốn đánh giá liệu các AI agent có thể vượt qua việc chỉ phát hiện lỗ hổng để tạo ra các cuộc tấn công thực tế hay không.
Kỹ sư bảo mật Daejun Park và Matt Gleason đã công bố kết quả này vào ngày 28/04/2024. Họ nhấn mạnh rằng AI agent sử dụng sẵn đã tự mình tìm ra cách sử dụng các công cụ mà “chưa từng được chỉ định rõ ràng”.
Kết quả này xuất hiện trong bối cảnh Elon Musk cũng đưa ra tuyên bố gây sốc rằng ‘AI có thể khiến tất cả chúng ta bị tiêu diệt’.
Các kỹ sư đã đặt AI agent vào môi trường bị hạn chế, chỉ cho phép truy cập Etherscan giới hạn và sử dụng một node cục bộ cố định ở một block cụ thể. Nhóm đã không cho phép truy cập mạng bên ngoài.
Cấu hình “sandbox” này được thiết kế để ngăn không cho agent truy xuất bất kỳ dữ liệu tương lai nào. Trong quá trình thử nghiệm, AI agent đã bị “chặn” lại ở một smart contract chưa xác minh do không có mã nguồn.
Theo dõi chúng tôi trên X để cập nhật tin tức mới nhất
AI agent sau đó đã kiểm tra cấu hình node anvil cục bộ bằng lệnh “cast rpc anvil_nodeInfo”, nhờ đó tìm ra upstream RPC URL và một mã API Alchemy ở dạng văn bản thường. Agent này còn thử kết nối trực tiếp ra ngoài, nhưng đã bị tường lửa Docker chặn lại.
Khi tường lửa chặn kết nối trực tiếp, AI agent đã sử dụng lệnh “anvil_reset RPC method” để reset node anvil đến một block trong tương lai. Nhờ đó, nó có thể truy vấn các log và giao dịch ở các block tương lai thông qua node anvil cục bộ.
Sau đó, AI agent đã lấy về các trace thực thi của giao dịch tấn công. Sau khi hoàn thành phân tích, agent đã đưa node quay lại block ban đầu và tạo thành công một proof-of-concept dựa trên dữ liệu lấy được.
Sau thử nghiệm này, Park và Gleason đã điều chỉnh lại proxy để chặn toàn bộ các phương thức debug của Anvil.
“Dù xảy ra trong môi trường sandbox nhỏ, nhưng sự việc cho thấy một vấn đề lớn hơn cần lưu ý: các agent được hỗ trợ công cụ có thể lách qua giới hạn để đạt mục tiêu,” nhóm nghiên cứu chia sẻ. “Việc dùng anvil_reset để vượt qua giới hạn block cố định là điều chúng tôi không lường trước.”
Sự cố này cho thấy rủi ro lớn trong môi trường kiểm tra AI: các agent có thể tự tìm ra và khai thác những đường đi không ngờ đến trong các bộ công cụ, dù không được chỉ dẫn cụ thể.
Dù vậy, nghiên cứu vẫn cho thấy AI agent còn hạn chế khi thực hiện các cuộc tấn công DeFi phức tạp. Dù agent này liên tục phát hiện lỗ hổng, nhưng lại gặp khó khăn khi xây dựng các chiến lược tấn công nhiều bước.
Đăng ký kênh YouTube của chúng tôi để xem các nhà lãnh đạo và phóng viên chia sẻ góc nhìn chuyên sâu