Công nghệ

Claude Opus 4.8 tự bắt lỗi mã của mình nhiều gấp bốn lần

Susan Hill

Anthropic đã nâng cấp mô hình mạnh nhất của mình lên Claude Opus 4.8, và thay đổi chính không phải một bộ não lớn hơn mà là một bộ não thận trọng hơn. Công ty nói mô hình ít có khả năng hơn khoảng bốn lần so với phiên bản trước trong việc để lọt mà không ghi chú các lỗi trong chính đoạn mã nó viết, và sẵn lòng hơn khi chỉ ra những phần của một tác vụ mà nó không chắc. Với người giao việc thật cho một AI, dù là viết mã, chạy một phân tích hay điều khiển một máy tính, độ tin cậy ấy mới là tính năng thực sự đáng kể.

Điểm yếu của các tác nhân AI hiện nay không phải sự ngờ nghệch mà là sự tự tin. Chúng tạo ra kết quả trông như đã hoàn thiện và đọc trôi chảy trong khi lặng lẽ mang theo lỗi, và một hệ thống được thả tự chạy có xu hướng dựng bước kế tiếp trên sai lầm trước đó. Giao cho một tác nhân một tác vụ nhiều bước, một giả định sai duy nhất ở đầu có thể lan ra mọi thứ theo sau, khiến công việc đến nơi với vẻ trọn vẹn rồi hóa ra hỏng mà không ai thấy. Một mô hình phô bày sự nghi ngờ của chính nó, thay vì sơn phủ lên, thì dễ giám sát hơn, vì con người biết phải nhìn vào đâu.

Bằng chứng rõ nhất nằm ở mã. Anthropic cho biết Opus 4.8 để lọt ít hơn hẳn các lỗi trong đoạn mã nó tạo ra mà không đánh dấu, loại lỗi âm thầm nổi lên ở môi trường vận hành chứ không phải lúc rà soát. Công ty đầu tư Bridgewater Associates, một trong những bên thử nghiệm đầu tiên, nói mô hình tự mình chỉ ra vấn đề ở cả dữ liệu đầu vào lẫn kết quả của một phân tích, điều mà các hệ thống khác thường bỏ sót. Trong công việc tri thức và tài chính, lỗi nguy hiểm chính là lỗi không ai bắt kịp lúc.

Các con số benchmark củng cố khung nhìn mà không phải là cốt lõi. Opus 4.8 được cho là đạt 69,2 phần trăm trên SWE-Bench Pro, một bài kiểm tra dựng từ các tác vụ kỹ thuật phần mềm thực, vượt GPT-5.5 của OpenAI và Gemini 3.1 Pro của Google. Theo các phép đo của chính Anthropic, nó đánh bại mọi mô hình Opus trước đó trong một bài kiểm tra lập trình ở mọi mức nỗ lực và lập kết quả cao nhất công ty từng ghi nhận trong một bài kiểm tra suy luận pháp lý. Khoảng cách là thật nhưng hẹp, và chiến thắng benchmark dự báo kém cách một mô hình hành xử khi làm việc xám xịt cả ngày.

Mô hình đi kèm công cụ mới. Một tính năng ở bản xem trước nghiên cứu trong Claude Code, gọi là dynamic workflows, cho phép Opus lập kế hoạch cho một công việc lớn rồi chạy hàng trăm tác nhân con song song trong một phiên duy nhất, hướng đến các cuộc di trú trải hàng trăm nghìn dòng mã và lấy bộ kiểm thử sẵn có của dự án làm thước đo. Ngoài ra, một nút điều khiển mới trong Claude.ai và môi trường Cowork của công ty cho phép người dùng chỉnh mô hình bỏ ra bao nhiêu nỗ lực, và bao nhiêu token, cho một câu trả lời.

Những lưu ý nằm sát các tuyên bố. Phần lớn các bước tiến về độ tin cậy dựa vào chính các bài thử nội bộ của Anthropic, và một con số như ít hơn bốn lần là phép đo nội bộ, không phải được kiểm toán độc lập. Tính trung thực cũng khó kiểm chứng từ bên ngoài, vì một mô hình có thể tuyên bố nó không chắc mà vẫn sai, hoặc giương cờ vào đúng chỗ sai. Dynamic workflows chỉ đến dưới dạng bản xem trước, chưa phải tính năng hoàn chỉnh, và câu chuyện tốc độ kém hào phóng hơn nó nghe, bởi chế độ nhanh tốn gấp đôi mức giá tiêu chuẩn và chỉ được gọi là rẻ hơn so với giá cao cấp trước đây.

Với người cân nhắc chi phí, truy cập tiêu chuẩn giữ ở năm đô la cho mỗi triệu token đầu vào và hai mươi lăm cho mỗi triệu đầu ra, y như Opus trước. Chế độ nhanh chạy ở tốc độ khoảng hai phẩy năm lần với mười và năm mươi đô la cho mỗi triệu, khiến nút điều khiển nỗ lực mới vừa là công cụ ngân sách vừa là núm chất lượng. Claude Opus 4.8 đã có ngay từ bây giờ qua API dành cho nhà phát triển của Anthropic với tên claude-opus-4-8, và công ty nói nó được mở rộng khắp nơi trong cùng một ngày. Nó ra mắt hôm thứ Năm, khoảng sáu tuần sau Opus 4.7, một khoảng cách ngắn bất thường nối tiếp sự đón nhận hờ hững dành cho phiên bản đó và một loạt ra mắt cạnh tranh từ OpenAI và Google. Phép thử thật sự là liệu một mô hình được huấn luyện để hoài nghi chính mình có hữu ích hơn trong công việc hằng ngày so với một mô hình được huấn luyện để tỏa sáng trên bảng xếp hạng hay không, và phán quyết ấy sẽ đến từ những tác nhân mà người ta thực sự để cho chạy.

Thảo luận

Có 0 bình luận.