Ollama 0.22.1 chạy tool calling của Gemma 4 trên laptop mà không cần API key

Ollama 0.22.1 đưa ra một bộ render Gemma 4 đã cập nhật, cuối cùng cũng hỗ trợ hai khả năng có ý nghĩa thực sự với công việc AI cục bộ nghiêm túc: chế độ tư duy tường minh và gọi hàm, tức tool calling. Tool calling để cho mô hình tự quyết định khi nào gọi một hàm ngoài — mở một trang web, truy vấn một cơ sở dữ liệu, chạy một phép tính — rồi nhập kết quả trở lại vào lập luận của chính nó. Chế độ tư duy phơi bày các bước trung gian của mô hình để một ứng dụng có thể bắt lấy và xử lý. Cả hai cho đến nay đều là tính năng mà các API đám mây lớn thu phí. Cả hai bây giờ chạy cục bộ trên Gemma 4 mà không có dịch vụ ngoài nào can dự.

Lý do tin này nặng hơn một lần ra mắt mô hình khác là phép tính phần cứng. Họ Gemma 4 mà Google công bố theo giấy phép Apache-2.0 phủ bốn kích cỡ: E2B, E4B, 26B A4B và 31B. Các biến thể nhỏ chạy được trên một chiếc laptop mới với đồ họa tích hợp và mười hai đến mười sáu gigabyte RAM. Các phiên bản 26B A4B và 31B đòi GPU rời cho máy bàn, nhưng vẫn nằm rõ trong địa hạt tiêu dùng. Cùng một kiến trúc trước đây bắt phải ký hợp đồng API trả phí hay dựng một máy chủ tại nhà bốn chữ số, bây giờ trở thành cài đặt một chiều thứ Bảy đối với bất cứ ai có một cỗ máy tương đối hiện đại.

Hệ quả thực tế cho những người không lập trình là cả một lớp ứng dụng agent — loại đọc hộp thư, soạn thư trả lời, tải tài liệu, điền biểu mẫu, tóm tắt cuộc họp — không còn phải gửi những dữ liệu đó đến một máy chủ của bên thứ ba. Người dùng coi trọng quyền riêng tư mà muốn có tự động hóa agent thật sự đến nay có hai lựa chọn: tin vào chính sách dữ liệu của một nhà cung cấp đám mây, hoặc chạy cục bộ một mô hình yếu hơn nhiều mà không có tool calling. Phần ở giữa là một lỗ hổng, và Ollama 0.22.1 lấp lỗ hổng đó cho hạng cân Gemma 4.

Cách đọc hoài nghi là Ollama và Gemma 4 không phải tương đương của tuyến đầu trên đám mây. Một mô hình 31B chạy cục bộ chưa với tới Claude của Anthropic hay GPT-5 của OpenAI trong các lập luận phức tạp. Độ chính xác của tool calling trên các chuỗi dài rõ ràng tệ hơn ở các biến thể nhỏ. Đầu vào đa phương thức chạy được, chỉ là chậm hơn. Và gánh tích hợp đè lên người dùng: chưa có ai dựng được một ứng dụng agent Gemma 4 cộng Ollama đủ trau chuốt để đấu với một luồng SaaS hoàn chỉnh. Trần phần cứng và độ hoàn thiện của phần mềm vẫn là hai khoảng trống thật.

Phiên bản này hiện đã có sẵn qua bộ cài chuẩn của Ollama cho macOS, Linux và Windows. Trọng số Gemma 4 được lưu trong thư viện mô hình của Ollama dưới không gian tên gemma4, và thay đổi runtime trong 0.22.1 áp dụng tự động cho bất kỳ kích cỡ nào ngay khi được tải về.