NVIDIA Đưa AI Đến Gần Hơn Với Thiết Bị Biên và Trên Thiết Bị Với Gemma 4
NVIDIA Đưa AI Đến Gần Hơn Với Thiết Bị Biên và Trên Thiết Bị Với Gemma 4


NVIDIA đã mở rộng hệ sinh thái AI của mình với việc ra mắt các mô hình đa phương thức và đa ngôn ngữ Gemma 4 mới nhất, được thiết kế để triển khai linh hoạt từ trung tâm dữ liệu đến các thiết bị biên, đáp ứng nhu cầu phát triển AI cục bộ, bảo mật tại chỗ, hiệu quả chi phí và các trường hợp sử dụng nhạy cảm về độ trễ.
Gemma 4: Mở Rộng Khả Năng Triển Khai AI Từ Trung Tâm Dữ Liệu Đến Thiết Bị Biên
Hệ sinh thái Gemma tiếp tục được mở rộng với sự ra mắt của các mô hình đa phương thức và đa ngôn ngữ Gemma 4 mới nhất. Các mô hình này được thiết kế để mở rộng quy mô trên toàn bộ các loại hình triển khai, từ NVIDIA Blackwell trong trung tâm dữ liệu đến Jetson tại biên. Chúng phù hợp để đáp ứng nhu cầu ngày càng tăng về triển khai cục bộ cho phát triển và tạo mẫu AI, các yêu cầu bảo mật tại chỗ, hiệu quả chi phí và các trường hợp sử dụng nhạy cảm về độ trễ. Thế hệ mới nhất này cải thiện cả hiệu quả và độ chính xác, làm cho các mô hình đa năng này rất phù hợp cho nhiều tác vụ phổ biến.
Gói Gemma 4 bao gồm bốn mô hình, trong đó có mô hình MoE (Mixture-of-Experts) đầu tiên của Gemma, tất cả đều có thể chạy trên một GPU NVIDIA H100 duy nhất và hỗ trợ hơn 140 ngôn ngữ. Các biến thể 31B và 26B A4B là các mô hình suy luận hiệu suất cao, phù hợp cho cả môi trường cục bộ và trung tâm dữ liệu. E4B và E2B là phiên bản mới nhất của các mô hình được thiết kế cho thiết bị và di động, lần đầu tiên ra mắt với Gemma 3n. Mỗi mô hình hiện có sẵn trên Hugging Face với các checkpoint BF16, và một checkpoint lượng tử hóa NVFP4 cho Gemma-4-31B có sẵn thông qua NVIDIA Model Optimizer dành cho các nhà phát triển NVIDIA Blackwell sử dụng vLLM. NVFP4 cho phép độ chính xác 4-bit trong khi vẫn duy trì độ chính xác gần như tương đương với 8-bit, giúp tăng hiệu suất trên mỗi watt và giảm chi phí trên mỗi token.
Tối Ưu Hóa Triển Khai AI Với Hệ Sinh Thái NVIDIA
Khi các quy trình làm việc và tác nhân AI ngày càng được tích hợp vào các ứng dụng hàng ngày, khả năng chạy các mô hình này ngoài môi trường trung tâm dữ liệu truyền thống trở nên cực kỳ quan trọng. Bộ hệ thống máy khách và biên của NVIDIA, từ GPU RTX và DGX Spark đến Jetson Nano, cung cấp cho các nhà phát triển sự linh hoạt để quản lý chi phí và độ trễ, đồng thời hỗ trợ các yêu cầu bảo mật cho các ngành công nghiệp được quản lý chặt chẽ như y tế và tài chính. NVIDIA đã hợp tác với vLLM, Ollama và llama.cpp để cung cấp trải nghiệm triển khai cục bộ tốt nhất cho từng mô hình Gemma 4. Unsloth cũng cung cấp hỗ trợ ngay từ ngày đầu với các mô hình được tối ưu hóa và lượng tử hóa để triển khai cục bộ hiệu quả thông qua Unsloth Studio. Các nhà phát triển có thể tìm hiểu cách bắt đầu với Gemma 4 trên GPU RTX và DGX Spark thông qua bài đăng trên blog RTX AI Garage.
Các nhà phát triển và những người đam mê AI sẽ được hưởng lợi từ siêu chip GB10 Grace Blackwell kết hợp với 128 GB bộ nhớ hợp nhất trong DGX Spark, cung cấp các tài nguyên cần thiết để chạy Gemma 4 31B với trọng số mô hình BF16. Kết hợp với DGX Linux OS và toàn bộ ngăn xếp phần mềm NVIDIA, các nhà phát triển có thể tạo mẫu và xây dựng các quy trình làm việc AI tác nhân một cách hiệu quả với Gemma 4, đồng thời duy trì việc thực thi riêng tư và an toàn trên thiết bị. Công cụ suy luận vLLM được thiết kế để chạy các LLM một cách hiệu quả, tối đa hóa thông lượng trong khi giảm thiểu việc sử dụng bộ nhớ. Sử dụng vLLM phục vụ LLM thông lượng cao trên DGX Spark cung cấp một nền tảng hiệu suất cao cho các mô hình Gemma 4 lớn nhất; hướng dẫn vLLM for Inference DGX Spark cung cấp chi tiết để chạy vLLM với Gemma 4 trên DGX Spark của bạn. Hoặc bạn có thể bắt đầu với Gemma 4 bằng Ollama hoặc llama.cpp. Người dùng có thể tinh chỉnh thêm các mô hình trên DGX Spark với NeMo Automodel.
Gemma 4: Nâng Tầm AI Vật Lý và Hệ Thống Robot
Các tác nhân AI vật lý hiện đại đang phát triển nhanh chóng với các mô hình Gemma 4 tích hợp khả năng âm thanh, nhận thức đa phương thức và suy luận sâu. Các mô hình tiên tiến này cho phép các hệ thống robot vượt ra ngoài việc thực hiện các tác vụ đơn giản, cho phép chúng hiểu lời nói, diễn giải ngữ cảnh hình ảnh và suy luận thông minh trước khi hành động.
Trên NVIDIA Jetson, các nhà phát triển có thể chạy suy luận Gemma 4 tại biên bằng cách sử dụng llama.cpp và vLLM. Jetson Orin Nano hỗ trợ các biến thể Gemma 4 e2b và e4b, cho phép suy luận đa phương thức trên các hệ thống nhỏ, nhúng và hạn chế về năng lượng, với cùng một họ mô hình mở rộng trên nền tảng Jetson lên đến Jetson Thor. Điều này hỗ trợ triển khai có thể mở rộng trên các trường hợp sử dụng robot, máy móc thông minh và tự động hóa công nghiệp phụ thuộc vào hiệu suất độ trễ thấp và trí tuệ trên thiết bị. Các nhà phát triển Jetson có thể xem hướng dẫn và tải xuống container để bắt đầu từ Jetson AI Lab.
Nguon tham khao
Bringing AI Closer to the Edge and On-Device with Gemma 4 | NVIDIA Technical Blog – developer.nvidia.com
Gemma 4: Bringing AI Closer to the Edge and On-Device
NVIDIA has expanded its AI ecosystem with the launch of the latest Gemma 4 multimodal and multilingual models, designed for scalable deployment from NVIDIA Blackwell in the data center to Jetson at the edge. These models address the growing demand for local AI development, secure on-prem requirements, cost efficiency, and latency-sensitive use cases, improving both efficiency and accuracy for a wide range of common tasks.
The Gemma 4 bundle includes four models, featuring Gemma’s first MoE model, all capable of running on a single NVIDIA H100 GPU and supporting over 140 languages. The 31B and 26B A4B variants are high-performing reasoning models for both local and data center environments, while E4B and E2B are new on-device and mobile-designed models. Available on Hugging Face with BF16 checkpoints, Gemma-4-31B also offers an NVFP4 quantized checkpoint via NVIDIA Model Optimizer for Blackwell developers using vLLM. NVFP4 enables 4-bit precision with near 8-bit accuracy, boosting performance per watt and lowering cost per token.
Optimizing AI Deployment with the NVIDIA Ecosystem
Running AI models beyond traditional data centers is crucial as AI workflows integrate into everyday applications. NVIDIA’s client and edge systems, including RTX GPUs, DGX Spark, and Jetson Nano, offer developers flexibility in managing cost, latency, and security for regulated industries. NVIDIA collaborated with vLLM, Ollama, and llama.cpp for optimal local deployment, with Unsloth also providing day-one support. Developers can leverage the GB10 Grace Blackwell Superchip with 128 GB of unified memory in DGX Spark to run Gemma 4 31B, enabling private and secure on-device execution for agentic AI workflows with the full NVIDIA software stack. The vLLM inference engine on DGX Spark provides high-throughput for large Gemma 4 models, and fine-tuning is possible with NeMo Automodel.
Gemma 4: Advancing Physical AI Agents and Robotics
Modern physical AI agents are rapidly evolving with Gemma 4 models, which integrate audio, multimodal perception, and deep reasoning. These advanced capabilities allow robotics systems to move beyond simple tasks, enabling them to understand speech, interpret visual context, and reason intelligently before acting.
On NVIDIA Jetson, developers can perform Gemma 4 inference at the edge using llama.cpp and vLLM. Jetson Orin Nano supports the Gemma 4 e2b and e4b variants, facilitating multimodal inference on small, embedded, and power-constrained systems. This model family scales across the Jetson platform up to Jetson Thor, supporting robotics, smart machines, and industrial automation use cases that demand low-latency performance and on-device intelligence. Jetson developers can access tutorials and containers from the Jetson AI Lab to get started.
Reference
Bringing AI Closer to the Edge and On-Device with Gemma 4 | NVIDIA Technical Blog – developer.nvidia.com

