DeepSeek-R1 tạo ra thông tin sai lệch gấp 4 lần so với V3, dấy lên lo ngại về các token AI agent trong lĩnh vực crypto

Nguồn Beincrypto

DeepSeek-R1, mô hình AI chủ lực chuyên về lập luận của phòng thí nghiệm DeepSeek tại Trung Quốc, ghi nhận tỷ lệ “ảo giác” (sinh ra thông tin không có thật) lên tới 14.3% theo chuẩn đánh giá HHEM 2.1 của Vectara. Con số này cao gần gấp bốn lần so với mô hình trước đó là DeepSeek-V3 (không thiên về lập luận) với tỷ lệ chỉ 3.9%.

Khoảng cách lớn này khiến cộng đồng tiền mã hóa phải đặt ra nhiều câu hỏi lớn. Hiện nay, ngày càng có nhiều token AI agent phụ thuộc vào các mô hình LLM có khả năng lập luận cho việc giao dịch tự động, phát tín hiệu và thực thi giao dịch trên chuỗi.

Dữ liệu từ Vectara cho thấy R1 “bổ sung quá mức” khiến tăng tỷ lệ thông tin sai

Vectara đã kiểm thử cả hai mô hình DeepSeek với bộ đánh giá HHEM 2.1 do chính họ phát triển để đo tỷ lệ ảo giác. Ngoài ra, đội ngũ còn kiểm tra lại bằng phương pháp FACTS của Google. Kết quả cho thấy R1 tạo ra nhiều phát ngôn sai và không đủ bằng chứng hơn V3 trong tất cả các cấu hình thử nghiệm.

Lý do không chỉ nằm ở độ sâu suy luận. Các nhà phân tích của Vectara phát hiện R1 thường “bổ sung quá mức”, tức là tự động thêm thông tin không có trong nội dung gốc.

Những chi tiết bổ sung này đôi khi bản thân nó đúng, nhưng vì không xuất hiện trong dữ liệu nguồn nên vẫn bị coi là ảo giác. Cách làm này vô tình đưa thông tin tự bịa vào những câu trả lời tưởng như hợp lý và đúng đắn.

Vectara đã đưa nhận định này ra công khai trên nền tảng X.

“DeepSeek-R1 có tỷ lệ ảo giác là 14.3%, gần gấp bốn lần so với DeepSeek-V3”, Vectara nhấn mạnh trong một bài đăng.

Hiện tượng này không chỉ xảy ra ở DeepSeek. Nhiều bên theo dõi cho biết các mô hình học máy thiên về lập luận của phòng thí nghiệm khác cũng có tỷ lệ “đánh đổi” tương tự. Việc huấn luyện thêm qua học tăng cường (reinforcement learning) để phát triển khả năng chuỗi suy nghĩ (chain-of-thought) cũng thúc đẩy mô hình sinh ra câu trả lời táo bạo, tự tin hơn.

Tại sao các token AI trong crypto đang phải đối mặt với sự đánh đổi này

Thị trường tiền mã hóa hiện đã có hàng trăm token AI agent, nổi bật như Virtuals Protocol (VIRTUAL), ai16z (AI16Z), và aixbt (AIXBT).

Toàn bộ ngành hàng này đã tăng trưởng khoảng 39.4% trong vòng 30 ngày gần đây. Riêng Virtuals đã vượt mốc vốn hóa thị trường 576 triệu USD.

Hiệu suất giá Virtuals Protocol (VIRTUAL)Hiệu suất giá Virtuals Protocol (VIRTUAL). Nguồn: Coingecko

Hầu hết các AI agent này đều tích hợp mô hình ngôn ngữ lớn (LLM) vào các công cụ tự động hóa, cho phép agent đăng bài lên mạng xã hội, thực hiện giao dịch, tạo token hoặc đưa ra nhận định thị trường.

Nếu AI nền tảng tự “bịa” ra giá, quan hệ hợp tác hoặc địa chỉ hợp đồng, thì hậu quả có thể xảy ra trực tiếp trên blockchain.

Một phân tích của BeInCrypto về AIXBT cho thấy agent này từng quảng bá cho 416 token với lợi nhuận trung bình 19%. Tuy nhiên, cũng chính cách hoạt động này có thể khiến người theo dõi gặp rủi ro nếu model sai lệch.

Mức độ rủi ro tăng lên cùng với sự tự động hóa của agent. Những agent chỉ đọc dữ liệu và tóm tắt cảm xúc thị trường sẽ ít nguy hiểm hơn so với các agent nắm giữ kho quỹ.

Các mô hình thiên về lập luận ngày càng được ưa chuộng cho những AI agent thực hiện nhiều hành động phức tạp liên tiếp. Tuy nhiên, chính ở kịch bản sử dụng này, tỷ lệ 14.3% do Vectara chỉ ra lại gây ra rủi ro nghiêm trọng nhất.

Một sự thật ảo giác ở đầu chuỗi suy nghĩ của agent có thể lan truyền, ảnh hưởng tới mọi quyết định tiếp theo.

LeCun cho rằng vấn đề thuộc về kiến trúc của mô hình

Yann LeCun, nhà khoa học trưởng của Meta về AI, từ lâu đã nhấn mạnh rằng các mô hình LLM tự hồi quy không thể loại bỏ hoàn toàn hiện tượng ảo giác. Theo ông, bản thân kiến trúc này không có khả năng nhận thức sâu về thế giới thực.

Việc huấn luyện tăng cường dựa trên chuỗi suy luận (chain-of-thought) có thể che lấp phần nào lỗi này ở các lĩnh vực hẹp như toán học, lập trình. Tuy nhiên, nguyên nhân cốt lõi vẫn còn đó và chưa được giải quyết triệt để.

Một số phòng thí nghiệm AI tiên tiến khác lại không đồng tình. Họ cho rằng ngành đã ghi nhận những bước tiến rõ rệt trong việc giảm tỷ lệ ảo giác thông qua tăng cường khả năng truy xuất dữ kiện, tinh chỉnh hậu huấn luyện và bổ sung các mô hình xác thực. Tuy nhiên, báo cáo thực tế của lập trình viên thường phản ánh đúng những gì bảng xếp hạng đưa ra.

Nhà nghiên cứu AI xlr8harder, chia sẻ trên X về buổi kiểm thử với R1, đã tổng kết trải nghiệm thường nhật như sau:

“DeepSeek R1 có cái nhìn về chuỗi suy nghĩ của mình mang tính chắp vá… nên nó thường xuyên ‘tung hỏa mù’ tôi bằng những thông tin ảo giác,” theo chia sẻ của xlr8harder.

Với các nhà phát triển AI agent trong crypto, vấn đề quan trọng là làm sao quản trị rủi ro chứ không phải tranh cãi về triết lý kiến trúc. Thiết kế agent theo hướng kiểm chứng lại mọi thông tin từ mô hình thông qua một bước xác thực có thể giúp hạn chế sai sót.

Tương tự, các agent sử dụng mô hình đơn giản, bảo thủ hơn cho các quyết định tài chính có thể đem lại kết quả an toàn hơn.

Những vòng đánh giá tiếp theo cùng sự xuất hiện của phiên bản sau R1 sẽ cho thấy liệu sự đánh đổi giữa khả năng lập luận và độ chính xác có đang dần được thu hẹp hay không.

Hiện tại, khoảng cách 14.3% so với 3.9% là một chi tiết vận hành đáng để các nhà phát triển và nhà đầu tư nhỏ lẻ theo dõi. Nó có thể là yếu tố then chốt phân biệt giữa các token AI agent cung cấp sản phẩm thực tế và những token chỉ hứa hẹn trên lý thuyết.

Tuyên bố miễn trừ trách nhiệm: Chỉ dành cho mục đích thông tin. Hiệu suất trong quá khứ không đảm bảo cho kết quả trong tương lai.
placeholder
Dự báo giá bạc: XAG/USD tăng lên mức gần 81,00$ bất chấp triển vọng thận trọng của FedGiá bạc (XAG/USD) kéo dài chuỗi ngày tăng thứ tư liên tiếp, giao dịch quanh mức 80,70$/ounce troy trong giờ châu Á vào thứ Hai
Tác giả  FXStreet
14 giờ trước
Giá bạc (XAG/USD) kéo dài chuỗi ngày tăng thứ tư liên tiếp, giao dịch quanh mức 80,70$/ounce troy trong giờ châu Á vào thứ Hai
placeholder
Vàng giảm mạnh xuống dưới 4.700$ sau khi Trump bác bỏ đề xuất hòa bình với IranGiá vàng (XAU/USD) giảm xuống khoảng 4.690$ trong phiên giao dịch đầu ngày thứ Hai ở châu Á. Kim loại quý thu hút một số người bán sau khi Tổng thống Mỹ Donald Trump từ chối đề nghị hòa bình mới nhất của Iran nhằm chấm dứt cuộc xung đột kéo dài 10 tuần làm tắc nghẽn Eo biển Hormuz, làm dấy lên lo ngại về lạm phát.
Tác giả  FXStreet
20 giờ trước
Giá vàng (XAU/USD) giảm xuống khoảng 4.690$ trong phiên giao dịch đầu ngày thứ Hai ở châu Á. Kim loại quý thu hút một số người bán sau khi Tổng thống Mỹ Donald Trump từ chối đề nghị hòa bình mới nhất của Iran nhằm chấm dứt cuộc xung đột kéo dài 10 tuần làm tắc nghẽn Eo biển Hormuz, làm dấy lên lo ngại về lạm phát.
placeholder
Ethereum Price Forecast: ETH recovers $2,300 despite sustained whale selling pressureEthereum (ETH) has erased gains recorded earlier in the week and is hovering near $2,300 at the time of writing on Friday. The move follows sustained selling activity across key whale wallets.
Tác giả  FXStreet
5 tháng 09 ngày Thứ Bảy
Ethereum (ETH) has erased gains recorded earlier in the week and is hovering near $2,300 at the time of writing on Friday. The move follows sustained selling activity across key whale wallets.
placeholder
Dự báo giá bạc: XAG/USD tăng vọt lên gần 80,50$ trước dữ liệu Bảng lương phi nông nghiệp (NFP) của MỹGiá bạc (XAG/USD) tăng 2,6% lên gần 80,50$ trong phiên giao dịch đầu ngày châu Âu hôm thứ Sáu
Tác giả  FXStreet
5 tháng 08 ngày Thứ Sáu
Giá bạc (XAG/USD) tăng 2,6% lên gần 80,50$ trong phiên giao dịch đầu ngày châu Âu hôm thứ Sáu
placeholder
WTI giảm xuống gần 93,50$ sau khi Israel và Iran báo hiệu chấm dứt thù địchGiá dầu West Texas Intermediate (WTI) giảm sau khi ghi nhận mức tăng khiêm tốn vào ngày trước đó, giao dịch quanh mức 93,70$/thùng trong giờ châu Á vào thứ Sáu
Tác giả  FXStreet
5 tháng 08 ngày Thứ Sáu
Giá dầu West Texas Intermediate (WTI) giảm sau khi ghi nhận mức tăng khiêm tốn vào ngày trước đó, giao dịch quanh mức 93,70$/thùng trong giờ châu Á vào thứ Sáu
goTop
quote