DeepSeek-R1, mô hình AI chủ lực chuyên về lập luận của phòng thí nghiệm DeepSeek tại Trung Quốc, ghi nhận tỷ lệ “ảo giác” (sinh ra thông tin không có thật) lên tới 14.3% theo chuẩn đánh giá HHEM 2.1 của Vectara. Con số này cao gần gấp bốn lần so với mô hình trước đó là DeepSeek-V3 (không thiên về lập luận) với tỷ lệ chỉ 3.9%.
Khoảng cách lớn này khiến cộng đồng tiền mã hóa phải đặt ra nhiều câu hỏi lớn. Hiện nay, ngày càng có nhiều token AI agent phụ thuộc vào các mô hình LLM có khả năng lập luận cho việc giao dịch tự động, phát tín hiệu và thực thi giao dịch trên chuỗi.
Vectara đã kiểm thử cả hai mô hình DeepSeek với bộ đánh giá HHEM 2.1 do chính họ phát triển để đo tỷ lệ ảo giác. Ngoài ra, đội ngũ còn kiểm tra lại bằng phương pháp FACTS của Google. Kết quả cho thấy R1 tạo ra nhiều phát ngôn sai và không đủ bằng chứng hơn V3 trong tất cả các cấu hình thử nghiệm.
Lý do không chỉ nằm ở độ sâu suy luận. Các nhà phân tích của Vectara phát hiện R1 thường “bổ sung quá mức”, tức là tự động thêm thông tin không có trong nội dung gốc.
Những chi tiết bổ sung này đôi khi bản thân nó đúng, nhưng vì không xuất hiện trong dữ liệu nguồn nên vẫn bị coi là ảo giác. Cách làm này vô tình đưa thông tin tự bịa vào những câu trả lời tưởng như hợp lý và đúng đắn.
Vectara đã đưa nhận định này ra công khai trên nền tảng X.
“DeepSeek-R1 có tỷ lệ ảo giác là 14.3%, gần gấp bốn lần so với DeepSeek-V3”, Vectara nhấn mạnh trong một bài đăng.
Hiện tượng này không chỉ xảy ra ở DeepSeek. Nhiều bên theo dõi cho biết các mô hình học máy thiên về lập luận của phòng thí nghiệm khác cũng có tỷ lệ “đánh đổi” tương tự. Việc huấn luyện thêm qua học tăng cường (reinforcement learning) để phát triển khả năng chuỗi suy nghĩ (chain-of-thought) cũng thúc đẩy mô hình sinh ra câu trả lời táo bạo, tự tin hơn.
Thị trường tiền mã hóa hiện đã có hàng trăm token AI agent, nổi bật như Virtuals Protocol (VIRTUAL), ai16z (AI16Z), và aixbt (AIXBT).
Toàn bộ ngành hàng này đã tăng trưởng khoảng 39.4% trong vòng 30 ngày gần đây. Riêng Virtuals đã vượt mốc vốn hóa thị trường 576 triệu USD.
Hầu hết các AI agent này đều tích hợp mô hình ngôn ngữ lớn (LLM) vào các công cụ tự động hóa, cho phép agent đăng bài lên mạng xã hội, thực hiện giao dịch, tạo token hoặc đưa ra nhận định thị trường.
Nếu AI nền tảng tự “bịa” ra giá, quan hệ hợp tác hoặc địa chỉ hợp đồng, thì hậu quả có thể xảy ra trực tiếp trên blockchain.
Một phân tích của BeInCrypto về AIXBT cho thấy agent này từng quảng bá cho 416 token với lợi nhuận trung bình 19%. Tuy nhiên, cũng chính cách hoạt động này có thể khiến người theo dõi gặp rủi ro nếu model sai lệch.
Mức độ rủi ro tăng lên cùng với sự tự động hóa của agent. Những agent chỉ đọc dữ liệu và tóm tắt cảm xúc thị trường sẽ ít nguy hiểm hơn so với các agent nắm giữ kho quỹ.
Các mô hình thiên về lập luận ngày càng được ưa chuộng cho những AI agent thực hiện nhiều hành động phức tạp liên tiếp. Tuy nhiên, chính ở kịch bản sử dụng này, tỷ lệ 14.3% do Vectara chỉ ra lại gây ra rủi ro nghiêm trọng nhất.
Một sự thật ảo giác ở đầu chuỗi suy nghĩ của agent có thể lan truyền, ảnh hưởng tới mọi quyết định tiếp theo.
Yann LeCun, nhà khoa học trưởng của Meta về AI, từ lâu đã nhấn mạnh rằng các mô hình LLM tự hồi quy không thể loại bỏ hoàn toàn hiện tượng ảo giác. Theo ông, bản thân kiến trúc này không có khả năng nhận thức sâu về thế giới thực.
Việc huấn luyện tăng cường dựa trên chuỗi suy luận (chain-of-thought) có thể che lấp phần nào lỗi này ở các lĩnh vực hẹp như toán học, lập trình. Tuy nhiên, nguyên nhân cốt lõi vẫn còn đó và chưa được giải quyết triệt để.
Một số phòng thí nghiệm AI tiên tiến khác lại không đồng tình. Họ cho rằng ngành đã ghi nhận những bước tiến rõ rệt trong việc giảm tỷ lệ ảo giác thông qua tăng cường khả năng truy xuất dữ kiện, tinh chỉnh hậu huấn luyện và bổ sung các mô hình xác thực. Tuy nhiên, báo cáo thực tế của lập trình viên thường phản ánh đúng những gì bảng xếp hạng đưa ra.
Nhà nghiên cứu AI xlr8harder, chia sẻ trên X về buổi kiểm thử với R1, đã tổng kết trải nghiệm thường nhật như sau:
“DeepSeek R1 có cái nhìn về chuỗi suy nghĩ của mình mang tính chắp vá… nên nó thường xuyên ‘tung hỏa mù’ tôi bằng những thông tin ảo giác,” theo chia sẻ của xlr8harder.
Với các nhà phát triển AI agent trong crypto, vấn đề quan trọng là làm sao quản trị rủi ro chứ không phải tranh cãi về triết lý kiến trúc. Thiết kế agent theo hướng kiểm chứng lại mọi thông tin từ mô hình thông qua một bước xác thực có thể giúp hạn chế sai sót.
Tương tự, các agent sử dụng mô hình đơn giản, bảo thủ hơn cho các quyết định tài chính có thể đem lại kết quả an toàn hơn.
Những vòng đánh giá tiếp theo cùng sự xuất hiện của phiên bản sau R1 sẽ cho thấy liệu sự đánh đổi giữa khả năng lập luận và độ chính xác có đang dần được thu hẹp hay không.
Hiện tại, khoảng cách 14.3% so với 3.9% là một chi tiết vận hành đáng để các nhà phát triển và nhà đầu tư nhỏ lẻ theo dõi. Nó có thể là yếu tố then chốt phân biệt giữa các token AI agent cung cấp sản phẩm thực tế và những token chỉ hứa hẹn trên lý thuyết.