Công nghệ

Kém Opus 4.6 hai điểm, rẻ hơn năm lần: Gemini 3.5 Flash viết lại phép tính

Susan Hill

Google đã phát hành Gemini 3.5 Flash vào thứ Hai với giá 1,50 đô-la cho mỗi triệu token đầu vào và 9 đô-la cho mỗi triệu token đầu ra. Mô hình mới duy trì hơn 280 token đầu ra mỗi giây, giữ cùng cửa sổ ngữ cảnh một triệu token như thế hệ trước và đứng ở mức 55 điểm trên Artificial Analysis Intelligence Index, cao hơn Gemini 3 Flash chín điểm. Sáng thứ Ba, một chủ đề trên r/Anthropic đã đặt biểu đồ ngay cạnh Claude Opus 4.6 và đặt câu hỏi mà thị trường đã đi vòng quanh suốt sáu tháng: từ thời điểm nào thì lợi thế hai điểm benchmark thôi xứng với mức giá gấp năm lần?

Intelligence Index gộp một rổ đánh giá công khai — suy luận, kiến thức, lập trình, toán học và hoàn thành tác vụ agent — thành một điểm duy nhất từ 1 đến 100. Claude Opus 4.6 ở chế độ suy luận thích ứng nằm ở 57. Gemini 3.5 Flash, ra mắt ngày 19 tháng 5, nằm ở 55. Bước nhảy chín điểm giữa hai phiên bản là bước tiến lớn nhất Flash từng ghi nhận trong một thế hệ duy nhất, đủ để mô hình mới ngang ngửa Sonnet thế hệ trước của Anthropic về trí thông minh thô với chỉ một phần chi phí của Sonnet.

Cách diễn đạt «thông minh hơn» mà chủ đề Reddit dùng phóng đại khoảng cách theo hướng có lợi cho Flash. Trên Intelligence Index thuần túy, Opus 4.6 vẫn dẫn trước hai điểm. Biểu đồ làm vỡ chủ đề không phải Intelligence Index đứng riêng. Đó là góc nhìn hiệu suất-trí tuệ so với chi phí, nơi trục đảm nhiệm vai trò khác và nơi Flash 3.5 không chỉ đánh bại Opus 4.6. Nó nằm trong một hạng mà không ai khác ở gần.

Opus 4.6 tính khoảng 6,25 đô-la cho mỗi triệu token đầu vào và 25 đô-la cho mỗi triệu token đầu ra. Flash tính 1,50 và 9. Với một tải chat trọng số hai-một nghiêng về đầu ra, tỷ lệ giá thực tế gần 4,5x hơn là con số «năm lần» tròn trịa mà tiêu đề chủ đề chốt. Cách làm tròn là trung thực. Tốc độ làm bức tranh xấu thêm cho chiến hạm: Flash 3.5 duy trì hơn 280 token đầu ra mỗi giây, trong khi Opus 4.6 ở chế độ suy luận nỗ lực tối đa chạy khoảng một phần mười tốc độ ấy trên cùng bộ test. Với các sản phẩm mà người dùng chăm chăm nhìn con trỏ — trợ lý lập trình, agent hỗ trợ, bất kỳ luồng tương tác nào —, độ trễ là một tính năng mà giá không mua lại được.

Một năm trước, lý do mua mô hình đắt nhất gói gọn trong một dòng. Bước nhảy chất lượng lên cấp tiếp theo đủ lớn để chênh lệch giá là một lỗi làm tròn so với giá trị được giao. Biểu đồ chủ đề dán vào là một biểu đồ khác. Chi phí biên của hai điểm thông minh cuối cùng đã trở thành toàn bộ quyết định giá cho tải production, và lỗi làm tròn giờ rơi gần 4,75 đô-la trong mỗi sáu đô-la chi.

Có một lý do sạch để giữ Opus 4.6 trong stack. Suy luận ngữ cảnh dài qua hàng trăm trang, vòng lặp agent nơi lỗi cộng dồn theo từng bước, phân tích tài liệu nơi khoảng cách hai điểm trên điểm tổng giấu đi ưu thế đặc thù lớn hơn nhiều. Opus vẫn là mô hình mà kỹ sư tìm đến khi chế độ lỗi là «câu trả lời sai», không phải «câu trả lời đến muộn». Tỷ lệ tải production trông giống như vậy đang co lại. Nó không phải bằng không, và đó chính là dải mà 25 đô-la trên một triệu kiếm được lương của nó.

Các lượt chat đẩy phần lớn token có thể tính tiền — soạn thảo, tóm tắt, phân loại, dịch thuật, tự hoàn thành mã, suy luận hướng khách hàng — đều nằm trong tầm với của Flash. Câu hỏi các đội kỹ thuật đặt ra mỗi quý không còn là «mô hình nào tốt nhất». Là «mô hình nào trả nhiều nhất trên mỗi đô-la ở độ trễ chấp nhận được». Câu hỏi thứ hai đó, Flash giờ thắng bằng một biên độ không đòi hỏi tinh tế để diễn giải.

Cách diễn đạt phụ trong chủ đề, rằng «khắp nơi có sự đồng thuận Opus 4.6 tốt hơn 4.7», xứng đáng được xử lý nhẹ tay hơn. Đó là giai thoại. Hai phiên bản Opus gần đây nhất của Anthropic nhận đánh giá chia rẽ trên các bài đánh giá lập trình và độ chặt chẽ trong dùng công cụ, với các đội báo cáo hồi quy ở vòng lặp agent dài trên 4.7 và đội khác báo cáo thắng sạch trên tải y hệt. Cả hai quan sát có thể đúng cùng lúc khi hành vi được tinh chỉnh trên nhiều trục giữa các bản nhỏ. Hai mô hình cũng cách nhau dưới một điểm trên chỉ số công khai, nên sự chia rẽ trong cộng đồng nhìn giống một tranh luận về khẩu vị hơn là về năng lực. Điều không phải bàn cãi là giá của bất kỳ Opus nào cũng không nhúc nhích.

Tín hiệu sâu hơn trong cuộc đối thoại Reddit là điều người dùng không tranh luận. Không ai trong chủ đề bảo vệ giá Opus trên nguyên tắc chung. Những lập luận bảo vệ xuất hiện là theo từng tải. «Opus vẫn thắng trong vòng lặp agent của tôi». «Opus ở lại trong pipeline rà soát tài liệu của chúng tôi». Đó là thật, nhưng đó là bảo vệ theo tải, không phải bảo vệ chiến hạm. Một chiến hạm phải thắng trên phổ, không phải trên một làn cụ thể.

Hai điểm chênh lệch thông minh. Giá gấp năm. Tốc độ gấp sáu theo chiều ngược lại. Cửa sổ ngữ cảnh một triệu token ở 1,50 đô-la cho mỗi triệu đầu vào. Đầu vào đa phương thức, Elo tác vụ agent trên 1650, giảm chín mươi phần trăm cho đầu vào cache. Câu trả lời của Anthropic trong quý tới sẽ kể câu chuyện riêng. Khó viết hơn, vào tháng Năm 2026, là lập luận mà một người bán hàng phải mang vào trong một cuộc họp với khách hàng.

Thảo luận

Có 0 bình luận.