OpenAI ra mắt GPT-5.5 vào ngày 23/04/2024 với tên mã “Spud”, giới thiệu đây là hệ thống mạnh mẽ nhất của hãng cho các công việc tự động và đa bước.
Sự kiện này diễn ra chỉ một tuần sau khi Anthropic trình làng Claude Opus 4.7, tạo nên cuộc đối đầu trực tiếp giữa hai dòng model AI tiên tiến nhất hiện nay.
GPT-5.5 được thiết kế để tự lên kế hoạch, thực hiện, kiểm tra và điều chỉnh trên nhiều công cụ mà không cần người dùng giám sát liên tục. OpenAI mô tả đây là “một loại trí tuệ mới phục vụ cho công việc thực tế và tăng sức mạnh cho các agent”.
Theo dõi chúng tôi trên X để cập nhật tin tức mới nhất
“Chúng tôi tin vào việc triển khai từng bước; mặc dù GPT-5.5 đã rất thông minh, nhưng chúng tôi kỳ vọng nó sẽ còn tiến bộ nhanh chóng. Việc ra mắt liên tục này là phần quan trọng trong chiến lược đảm bảo an toàn của chúng tôi; vì theo cách này, cả thế giới sẽ có thể phối hợp tốt hơn trong cuộc đua phát triển AI,” Sam Altman chia sẻ trong một bài viết.
Hiện tại, người dùng ChatGPT Plus, Pro, Business và Enterprise đã có thể sử dụng model mới này. Ngoài ra, còn có một phiên bản Pro mạnh mẽ hơn. API có giá khởi điểm từ 5 USD cho mỗi một triệu input token và 30 USD cho mỗi một triệu output token, với khả năng xử lý context lên tới một triệu token mỗi lần.
Kết quả thử nghiệm của chính OpenAI cho thấy GPT-5.5 vượt trội so với Claude Opus 4.7 ở nhiều tác vụ tự động. Cụ thể, nó đạt 82.7% đối với Terminal-Bench 2.0, trong khi Opus 4.7 chỉ đạt 69.4%.
Với FrontierMath Tiers 1 đến 3, GPT-5.5 đạt 51.7%, cao hơn mức 43.8% của đối thủ. Những thử nghiệm độc lập ban đầu cũng ghi nhận xu hướng tương tự ở các bài đánh giá lập trình và xử lý kiến thức.
Theo đánh giá độc lập, model của Anthropic vẫn giữ ưu thế ở lĩnh vực viết nghiên cứu, tư duy pháp lý – tài chính và sự nhất quán khi làm theo hướng dẫn.
Opus 4.7 còn được nâng cấp để hỗ trợ thị giác độ phân giải cao tới 3.75 megapixel, gấp hơn ba lần so với phiên bản trước đó.
Về khả năng sử dụng máy tính, khoảng cách giữa hai model gần như đã rút ngắn. GPT-5.5 đạt 78.7% trong bài kiểm tra OSWorld-Verified, trong khi Opus 4.7 đạt 78.0%.
Hai model này cũng luân phiên vượt lên nhau ở các bài kiểm tra duyệt web, với GPT-5.5 Pro dẫn đầu 90.1%, còn Opus 4.7 là 79.3%.
Việc ra mắt liên tiếp các sản phẩm cho thấy xu hướng cạnh tranh ngày càng gay gắt. OpenAI đã công bố nhiều phiên bản GPT-5.x trong năm nay, còn Anthropic liên tục nâng cấp dòng Claude qua nhiều bản phát hành liên tiếp.
Gemini 3.1 Pro của Google cũng đang tranh giành thị phần trong mảng doanh nghiệp.
Đối với lập trình viên, việc lựa chọn có thể phụ thuộc vào mục tiêu sử dụng. GPT-5.5 dường như phù hợp hơn cho tự động hóa agent và lập trình lâu dài.
Claude Opus 4.7 lại phù hợp với những quy trình cần phân tích chính xác. Việc các bài kiểm tra độc lập có xác nhận được số liệu do OpenAI công bố hay không sẽ rõ hơn trong vài ngày tới.
Đăng ký kênh YouTube của chúng tôi để xem các chuyên gia và nhà báo chia sẻ góc nhìn sâu sắc