Claude Fable 5 ra mắt công khai sau khi tìm ra hơn 10.000 lỗ hổng

Suốt 27 năm, một lỗ hổng duy nhất nằm yên bên trong OpenBSD, một trong những hệ điều hành mà ngân hàng, tường lửa và các máy chủ phía sau những trang web thường ngày đều tin dùng. Bất kỳ ai tiếp cận được máy qua mạng đều có thể làm nó sập, và trong gần ba thập kỷ không ai phát hiện ra. Một mô hình của Anthropic tên là Mythos đã phát hiện. Giờ mô hình ấy có một gương mặt công khai: Anthropic đã phát hành Claude Fable 5, phiên bản đầu tiên của hệ thống mạnh nhất của hãng mà bất kỳ ai cũng có thể đăng ký để dùng.

Điều khiến Fable 5 đáng chú ý không phải một thứ hạng. Đó là việc mô hình bên dưới đọc phần mềm như một kiểm toán viên lão luyện đọc một hợp đồng, cho đến khi tìm ra đúng điều khoản làm sụp đổ mọi thứ. Trong một chương trình nghiên cứu mà Anthropic gọi là Project Glasswing, bản xem trước đã rà soát hơn một nghìn dự án mã nguồn mở, phần mã tự do và dùng chung vận hành phần lớn internet, và đánh dấu hơn 23.000 vấn đề. Hơn 10.000 trong số đó nghiêm trọng đến mức bị xếp vào loại cao hoặc nguy hiểm.

Chi tiết khiến ngay cả các nhà nghiên cứu của Anthropic phải bất an là không ai dạy mô hình làm điều này. Công ty cho biết khả năng tìm và khai thác điểm yếu chưa bao giờ là mục tiêu huấn luyện; nó tự xuất hiện khi mô hình lập luận tốt hơn về mã. FFmpeg là ví dụ rõ nhất. Một lỗ hổng đã ẩn suốt 16 năm trong phần mềm xử lý video đó, cỗ máy phía sau vô số ứng dụng phát trực tuyến và trình phát đa phương tiện, nằm trong một dòng mã mà các công cụ kiểm thử tự động đã kích hoạt năm triệu lần mà chưa từng nhận ra mối nguy. Mô hình đã nhận ra.

Với đa số người dùng, tất cả những điều này trông chẳng giống gì cả. Phần mềm mà Mythos rà soát là hạ tầng vô hình: bộ máy của trình duyệt, nhân của hệ điều hành, thư viện đa phương tiện nằm sâu trong một chiếc điện thoại. Nhưng chính sự vô hình mới là vấn đề. Các lỗ hổng được phơi bày tồn tại được lâu chính vì chúng nằm trong phần mã quá cũ, quá nhàm chán hoặc quá sâu để ai đó còn đọc lại. Một công cụ có thể đọc lại tất cả, không biết mệt, làm thay đổi cơ hội cho những người gìn giữ nền móng của internet, và nếu rơi vào tay xấu, cho cả những kẻ muốn tấn công chúng.

Những con số như vậy chỉ có ý nghĩa khi đặt cạnh một thước đo. Trên CyberGym, bài kiểm tra xem một mô hình có thể tái hiện một lỗ hổng bảo mật thật hay không, bộ máy Mythos bên trong Fable đạt 83,1 phần trăm so với 66,6 phần trăm của Claude Opus 4.6 trước đó, gần như khoảng cách giữa một chuyên viên phân tích trẻ có năng lực và một chuyên gia hiếm khi sai. Bước tiến không dừng ở bảo mật. Công ty phân tích Hex cho biết Fable là mô hình đầu tiên vượt 90 phần trăm trong bài kiểm tra nội bộ của họ, và những người dùng đầu tiên mô tả những bước nhảy tương tự trong phát triển phần mềm, phân tích dữ liệu và thiết kế giao diện.

Rồi đến khúc ngoặt. Bản Fable 5 công khai sẽ không làm đúng điều khiến nó đáng nể. Anthropic đã rào lại bốn lĩnh vực, gồm an ninh mạng, sinh học, hóa học và một kỹ thuật sao chép gọi là chưng cất, và khi một yêu cầu trôi vào những lĩnh vực đó, Fable lặng lẽ chuyển cuộc trò chuyện cho mô hình cũ hơn và an toàn hơn là Claude Opus 4.8. Công ty nói điều này hiếm khi xảy ra, dữ liệu ban đầu cho thấy ít nhất 95 phần trăm phiên làm việc chạy hoàn toàn trên chính Fable. Kết quả là một sản phẩm khác thường: mô hình mạnh nhất Anthropic từng phát hành, bị cố tình ngăn không cho dùng kỹ năng sắc bén nhất của nó.

Thiết kế đó để lại những câu hỏi mà buổi ra mắt chưa trả lời trọn vẹn. Một rào chắn lùi sang một bên 5 phần trăm số lần vẫn là một rào chắn có đường nối, và ranh giới giữa giải thích một phần mềm hoạt động ra sao và giải thích cách phá nó hiếm khi rạch ròi. Anthropic cho biết một chương trình săn lỗi nhận thưởng bên ngoài đã chạy hơn 1.000 giờ mà không tìm ra cách phổ quát nào để vượt qua các giới hạn, nhưng đó là số liệu của chính công ty, không có cơ quan quản lý bên ngoài nào kiểm chứng. Còn một chi phí mà phần lớn sẽ cảm nhận trước tiên: Fable 5 có giá 10 đô la cho mỗi triệu token đầu vào và 50 cho mỗi triệu token đầu ra, những đơn vị ước chừng mà một mô hình tính tiền cho việc đọc và viết, gấp đôi giá Opus 4.8. Và ai dùng nó cũng phải nhường lại một thứ lặng lẽ hơn, bởi Anthropic giờ giữ 30 ngày dữ liệu sử dụng ngay cả với khách hàng thường trả tiền để không lưu gì cả, gọi đó là biện pháp phòng vệ trước hành vi lạm dụng.

Hiện tại, quyền truy cập tùy thuộc vào cách bạn vốn dùng Claude. Lập trình viên có thể tiếp cận Fable 5 ngay qua giao diện lập trình của Anthropic, còn một phiên bản riêng tên Mythos 5 đã được trao cho một nhóm nhỏ các tổ chức được phê duyệt trước, bên cạnh một liên minh ngành gồm Apple, Google, Microsoft, Nvidia và Linux Foundation, tất cả đang vá những gì mô hình tìm ra trước khi kẻ tấn công kịp ra tay. Anthropic đã cam kết 100 triệu đô la tín dụng dùng mô hình và 4 triệu đô la quyên góp trực tiếp cho các nhóm bảo mật mã nguồn mở làm công việc sửa chữa đó.

Đợt triển khai rộng hơn theo một lịch trình. Người đăng ký các gói Pro, Max, Team và Enterprise theo chỗ ngồi của Anthropic được dùng Fable 5 không mất thêm phí đến hết ngày 22 tháng 6; từ ngày 23 tháng 6, việc sử dụng sẽ trừ vào tín dụng. Liệu các rào chắn có trụ vững khi hàng triệu người dùng mới thử nghiệm chúng hay không là phần còn bỏ ngỏ. Sự thật gây sửng sốt hơn thì không. Một cỗ máy giờ có thể đọc phần mã nằm dưới đời sống hiện đại và tìm ra những vết nứt đã lọt khỏi mắt mọi người suốt một thế hệ, và câu hỏi tiếp theo không còn là nó có làm được hay không, mà là ai có quyền yêu cầu nó làm.

Thẻ: an ninh mạng, Anthropic, tech-en1, mô hình AI, Project Glasswing, Claude Fable 5