Bài đăng BridgeBench lan truyền cho rằng Claude Opus 4.6 bị ‘nerf’, nhiều người chỉ trích đây là khoa học thiếu chính xác

Nguồn Beincrypto

BridgeMind AI cho rằng Claude Opus 4.6 của Anthropic đã bị giảm chất lượng một cách âm thầm sau khi kiểm tra lại bài kiểm tra về “hallucination”. Bài đăng gây sốt này đã vấp phải nhiều chỉ trích vì phương pháp kiểm tra thiếu chặt chẽ.

Thông tin trên đã tạo ra tranh luận sôi nổi về việc liệu các công ty AI có đang âm thầm hạ cấp các mô hình trả phí để tiết kiệm chi phí hay không.

BridgeMind nói số lần “hallucination” tăng 98%

BridgeMind, nhóm phát triển bài kiểm tra Benchmark BridgeBench cho lập trình viên, đăng tải thông tin cho rằng Claude Opus 4.6 đã tụt hạng từ vị trí thứ hai xuống thứ mười trên bảng xếp hạng tỉ lệ “hallucination” của họ. Độ chính xác được cho là đã giảm từ 83.3% xuống còn 68.3%.

“CLAUDE OPUS 4.6 ĐÃ BỊ NERF. BridgeBench vừa chứng minh điều này. Tuần trước, Claude Opus 4.6 đứng thứ 2 về độ chính xác (83.3%) trên bài kiểm tra Hallucination. Hôm nay, sau khi kiểm tra lại, Claude Opus 4.6 chỉ còn đứng thứ 10 với độ chính xác vỏn vẹn 68.3%,” họ viết.

Bài đăng này nhấn mạnh đây là “bằng chứng cho thấy khả năng suy luận bị suy giảm”. Tuy nhiên, nếu xem kỹ dữ liệu gốc thì câu chuyện lại khác.

Nhiều ý kiến cho rằng phương pháp so sánh bị sai cơ bản

Theo chuyên gia khoa học máy tính Paul Calcraft, kết luận trên là “một ví dụ điển hình về khoa học tệ”, khi mà cách kiểm định có nhiều điểm không hợp lý.

“Thực sự là một ví dụ tồi về khoa học. Hôm nay bạn kiểm tra Opus với 30 nhiệm vụ, trong khi điểm trước đó chỉ với *6* nhiệm vụ. Khi so sánh 6 nhiệm vụ trùng nhau: điểm số hôm nay là 85.4%, hôm trước là 87.6%. Sự thay đổi này chủ yếu do *1 lần* tạo lỗi, rất có thể chỉ là do ngẫu nhiên thống kê,” Calcraft bình luận.

Điểm cao trước đó chỉ dựa trên 6 nhiệm vụ kiểm tra. Lần kiểm tra lại mới nhất đã mở rộng lên 30 nhiệm vụ.

Khi so ở 6 nhiệm vụ trùng lặp, kết quả gần như không đổi, chỉ giảm nhẹ từ 87.6% xuống 85.4%.

Mức giảm nhỏ này thực ra chủ yếu do một lần duy nhất mô hình tạo ra đáp án sai trong một nhiệm vụ. Vì không kiểm tra nhiều lần, kết quả như vậy hoàn toàn nằm trong biên dao động thống kê thông thường của mô hình AI.

Các mô hình ngôn ngữ lớn không cho kết quả cố định, nên chỉ một đầu ra không tốt trong mẫu nhỏ cũng có thể làm thay đổi kết quả đáng kể.

Sự bất mãn rộng hơn đang tạo nên làn sóng tranh luận

Tuy vậy, bài đăng của BridgeMind vẫn đánh trúng tâm lý nghi ngờ. Kể từ khi ra mắt vào tháng 02/2026, Claude Opus 4.6 liên tục gặp phản ánh về chất lượng ngày càng giảm.

Nhiều lập trình viên phản ánh mô hình trả lời ngắn hơn, làm theo hướng dẫn kém hơn, và suy luận bị hạn chế nhất là giờ cao điểm.

Một phần nguyên nhân do thay đổi chủ động từ phía sản phẩm. Anthropic đã giới thiệu chức năng điều khiển tư duy (adaptive thinking controls) cho phép mô hình tự điều chỉnh nguồn lực để suy luận. Mức nỗ lực mặc định đã chuyển sang “trung bình”, chú trọng hiệu quả thay vì đào sâu tối đa.

Một nghiên cứu độc lập dựa trên 6,800 lượt sử dụng Claude Code cho thấy độ sâu suy luận giảm tới khoảng 67% vào cuối tháng 02.

Tỉ lệ mô hình đọc toàn bộ file trước khi sửa code giảm từ 6.6 xuống chỉ còn 2.0. Điều này cho thấy AI chỉ cố sửa code dù chưa thật sự kiểm tra kỹ file đó.

Điều này có ý nghĩa gì với người dùng AI?

Thực trạng này phản ánh căng thẳng đang lớn dần trong ngành AI. Sau khi ra mắt, các công ty tối ưu mô hình cho chi phí và quy mô; trong khi người dùng “nặng đô” lại mong muốn mô hình luôn hoạt động ở hiệu suất đỉnh cao. Sự khác biệt này đang làm suy giảm lòng tin của họ.

Dựa vào dữ liệu hiện có, thông tin từ BridgeBench chưa đủ chứng minh có chuyện giảm chất lượng chủ động. Bản so sánh giữa hai bài kiểm tra không đồng nhất, trong khi kết quả trùng lặp giữa các lần test lại gần như không sai biệt.

Dù vậy, sự bực bội của người dùng không phải không có lý do. Việc áp dụng kiểm soát hiệu suất và tối ưu dịch vụ đã làm thay đổi cách Claude Opus 4.6 vận hành thực tế. Với các lập trình viên cần đầu ra ổn định, điều này rất đáng quan tâm.

Tính đến ngày 13/04, Anthropic vẫn chưa có phản hồi chính thức về các cáo buộc từ BridgeBench.

Tuyên bố miễn trừ trách nhiệm: Chỉ dành cho mục đích thông tin. Hiệu suất trong quá khứ không đảm bảo cho kết quả trong tương lai.
placeholder
Vàng vẫn ảm đạm khi các rủi ro lạm phát giảm bớt kỳ vọng cắt giảm lãi suất của FedGiá vàng (XAU/USD) tiếp tục giảm trong phiên thứ hai liên tiếp, giao dịch quanh mức 5.150$ trong giờ châu Á vào thứ Năm. Giá vàng thỏi giảm khi giá dầu tăng cao làm gia tăng rủi ro lạm phát và giảm khả năng cắt giảm lãi suất của Cục Dự trữ Liên bang (Fed)
Tác giả  FXStreet
3 tháng 12 ngày Thứ Năm
Giá vàng (XAU/USD) tiếp tục giảm trong phiên thứ hai liên tiếp, giao dịch quanh mức 5.150$ trong giờ châu Á vào thứ Năm. Giá vàng thỏi giảm khi giá dầu tăng cao làm gia tăng rủi ro lạm phát và giảm khả năng cắt giảm lãi suất của Cục Dự trữ Liên bang (Fed)
placeholder
Phí bù rủi ro địa chính trị trở lại. Việc mở cửa trở lại Eo biển Hormuz đối mặt với những thay đổi, Bitcoin chật vật duy trì ngưỡng tâm lý 70,000Căng thẳng Trung Đông leo thang trước thềm các cuộc đàm phán khiến Bitcoin quay đầu giảm sau đợt tăng mạnh, trong đó ngưỡng 70.000 USD trở thành ranh giới phân định giữa phe bò và phe gấu
Tác giả  TradingKey
4 tháng 09 ngày Thứ Năm
Căng thẳng Trung Đông leo thang trước thềm các cuộc đàm phán khiến Bitcoin quay đầu giảm sau đợt tăng mạnh, trong đó ngưỡng 70.000 USD trở thành ranh giới phân định giữa phe bò và phe gấu
placeholder
WTI giữ vững trên mức 92,00$ khi Eo biển Hormuz vẫn đóng cửa; phe đầu cơ giá lên dường như do dựDầu thô Mỹ West Texas Intermediate (WTI) – giá dầu thô chuẩn của Mỹ – giao dịch với xu hướng tăng nhẹ trong phiên châu Á vào thứ Sáu, mặc dù thiếu sự thuyết phục tăng giá trong bối cảnh hy vọng về lệnh ngừng bắn của Iran ổn định tình hình.
Tác giả  FXStreet
4 tháng 10 ngày Thứ Sáu
Dầu thô Mỹ West Texas Intermediate (WTI) – giá dầu thô chuẩn của Mỹ – giao dịch với xu hướng tăng nhẹ trong phiên châu Á vào thứ Sáu, mặc dù thiếu sự thuyết phục tăng giá trong bối cảnh hy vọng về lệnh ngừng bắn của Iran ổn định tình hình.
placeholder
Dự báo giá bạc: XAG/USD giảm xuống dưới mức 73,00$ khi kỳ vọng cắt giảm lãi suất của Fed giảm do giá dầu tăng mạnhGiá bạc (XAG/USD) chấm dứt chuỗi tăng năm ngày liên tiếp, giảm hơn 2,5% và giao dịch quanh mức 73,80$/ounce troy trong giờ châu Á vào thứ Hai
Tác giả  FXStreet
12 giờ trước
Giá bạc (XAG/USD) chấm dứt chuỗi tăng năm ngày liên tiếp, giảm hơn 2,5% và giao dịch quanh mức 73,80$/ounce troy trong giờ châu Á vào thứ Hai
placeholder
Forex hôm nay: Nhu cầu trú ẩn an toàn trở lại khi đàm phán Mỹ-Iran đổ vỡDưới đây là những điều bạn cần biết vào thứ Hai, ngày 13 tháng 4
Tác giả  FXStreet
5 giờ trước
Dưới đây là những điều bạn cần biết vào thứ Hai, ngày 13 tháng 4
goTop
quote