Google gần đây đã ra mắt một tính năng mới có tên gọi “caching ngầm” (implicit caching), cung cấp cho các nhà phát triển một mô hình thuận tiện hơn và chi phí thấp hơn mà không cần thiết lập thêm. Tính năng này áp dụng cho Gemini API, tiết kiệm tới 75% chi phí khi truyền tải “bối cảnh lặp lại”. Hỗ trợ cho các mô hình Gemini 2.5 Pro và 2.5 Flash, cung cấp công cụ nhẹ nhàng hơn cho các nhà phát triển đang đối mặt với áp lực chi phí.
So với “caching rõ ràng” (explicit caching) trước đây, caching ngầm không yêu cầu các nhà phát triển phải định nghĩa thủ công các gợi ý thường dùng, tiết kiệm quy trình thiết lập phức tạp và tránh các khoản chi phí API không mong muốn. Caching ngầm được tự động kích hoạt trong mô hình Gemini 2.5, khi yêu cầu kích hoạt cache và đạt hiệu quả tiết kiệm chi phí cao hơn.
Theo tài liệu của các nhà phát triển Google, ngưỡng kích hoạt cho caching ngầm là: mô hình 2.5 Flash cần ít nhất 1,024 token, mô hình 2.5 Pro cần 2,048 token, ngưỡng này khá thấp. Google khuyến nghị các nhà phát triển đặt bối cảnh lặp lại ở đầu yêu cầu, và thay đổi nội dung ở cuối, để nâng cao tỷ lệ trúng cache.
Dù Google rất tự tin vào caching ngầm, nhưng tính năng này vẫn chưa được xác minh bởi các nhà phát triển, phản hồi từ người dùng sớm sẽ rất quan trọng. Trong thị trường AI cạnh tranh khốc liệt, đổi mới này có thể giúp Google thu hút thêm nhiều nhà phát triển hơn.
(Hình ảnh: Google)