Công nghệ

Claude Fable 5 hoạt động trở lại sau 18 ngày: Anthropic chặn kỹ thuật tấn công, không làm yếu mô hình

Adrian Kessler

Claude Fable 5, mô hình trí tuệ nhân tạo mạnh nhất Anthropic từng công bố công khai, hiện đã có mặt trở lại trên toàn thế giới. Sự trở lại này diễn ra sau mười tám ngày đình chỉ hoàn toàn, bắt đầu khi chính phủ Mỹ áp đặt các biện pháp kiểm soát xuất khẩu yêu cầu Anthropic xác minh quốc tịch người dùng theo thời gian thực. Không thể đáp ứng yêu cầu này ở quy mô toàn cầu của Claude, công ty đã chọn đình chỉ hoàn toàn thay vì tuân thủ một phần.

Kỹ thuật kích hoạt các biện pháp kiểm soát là một phương thức jailbreak cụ thể do các nhà nghiên cứu Amazon phát hiện. Phương thức này dùng Fable 5 để lập bản đồ lỗ hổng phần mềm theo những cách mà các hạn chế xuất khẩu của Mỹ cấm đối với một số công dân nước ngoài. Điều tra nội bộ tiết lộ điều làm phức tạp logic quản lý: các loại lỗ hổng tương tự có thể được xác định bằng các mô hình kém mạnh hơn nhiều, bao gồm Opus 4.8, GPT-5.5 và Kimi K2.7. Năng lực này không phải đặc trưng riêng của Fable 5.

Bản vá mở khóa kiểm soát xuất khẩu

Điều thay đổi là một bộ phân loại bảo mật mới được đào tạo chuyên biệt để chặn kỹ thuật Amazon đã ghi nhận. Anthropic cho biết bộ phân loại chặn phương thức đã tiết lộ trong hơn 99 phần trăm trường hợp. Đây không phải bảo đảm hoàn toàn trước các jailbreak trong tương lai mà là bản vá nhắm vào lỗ hổng đã biết. Bộ phân loại hoạt động ở lớp đầu vào, chuyển hướng các yêu cầu khớp với mẫu đã ghi nhận trước khi mô hình xử lý chúng.

Hàm ý rộng hơn liên quan đến cách quản lý AI có thể phát triển. Các biện pháp kiểm soát xuất khẩu được áp dụng với Fable 5 không phải vì mô hình là tác nhân duy nhất gây ra thiệt hại, mà vì một kỹ thuật đã biết khai thác nó. Chúng được dỡ bỏ không phải vì khung pháp lý giải quyết được câu hỏi đó, mà vì một bộ phân loại đã đóng kẽ hở đã ghi nhận. Anthropic cùng Amazon, MicrosoftGoogle đang xây dựng khung đánh giá mức độ nghiêm trọng của jailbreak AI theo bốn tiêu chí: mức tăng năng lực, phạm vi tăng đó, dễ vũ khí hóa và khả năng phát hiện. Khung này chưa tồn tại như một tiêu chuẩn công khai.

Mô hình làm gì và chi phí bao nhiêu

Bản thân mô hình không thay đổi. Fable 5 được xây dựng cho lý luận tầm xa đòi hỏi cao và công việc tác nhân — các nhiệm vụ cần lập kế hoạch, thực thi và điều chỉnh hướng qua các chuỗi dài mà không cần phê duyệt của con người ở mỗi bước. Cửa sổ ngữ cảnh là một triệu token, cũng là giá trị mặc định. Đầu ra tối đa mỗi phản hồi là 128.000 token. Tư duy luôn hoạt động và được trả về dưới dạng tóm tắt có thể đọc thay vì chuỗi suy luận thô.

Quyền truy cập đi kèm các điều khoản không tồn tại trước khi đình chỉ. Fable 5 hiện yêu cầu lưu giữ dữ liệu 30 ngày — không khả dụng theo các thỏa thuận không lưu giữ dữ liệu. Điều này ảnh hưởng trực tiếp đến các tổ chức y tế, pháp lý và chính phủ nơi thỏa thuận không lưu trữ thường là yêu cầu cơ bản để áp dụng công cụ AI. Giá cao hơn cấp Opus: mười đô la mỗi triệu token đầu vào, năm mươi mỗi triệu token đầu ra. Các yêu cầu kích hoạt bộ phân loại bảo mật có thể được phục vụ bởi mô hình dự phòng thay vì bị từ chối, và liệu sự thay thế đó có hiển thị với người dùng cuối hay không phụ thuộc vào cách mỗi nhà vận hành cấu hình dịch vụ của mình.

Tính khả dụng

Fable 5 có mô hình anh em là Claude Mythos 5, với cùng năng lực cơ bản và cùng giá, nhưng có các chức năng an ninh mạng tấn công mà Fable 5 không có. Mythos 5 có sẵn qua Project Glasswing. Hai mô hình không trở lại cùng lúc: quyền truy cập Mythos 5 đã được khôi phục cho một số tổ chức Mỹ một tuần trước khi Fable 5 trở lại toàn cầu.

Fable 5 hiện có trên nền tảng Claude, Claude.ai, Claude Code và Claude Cowork. Với các gói Pro, Max, Team và một số Enterprise, mô hình được bao gồm tới 50 phần trăm giới hạn sử dụng hàng tuần đến ngày 7 tháng 7, sau đó chuyển sang định giá tín dụng sử dụng. Quyền truy cập qua AWS, Google Cloud và Microsoft Foundry đang được khôi phục theo từng giai đoạn. Khung sẽ quy định phản ứng khi kỹ thuật vượt qua tiếp theo xuất hiện vẫn đang được xây dựng.

Thẻ: , , , , ,

Thảo luận

Có 0 bình luận.