Tối ưu hóa tác vụ và tác nhân AI tự hành với NVIDIA DGX Spark
Tối ưu hóa tác vụ và tác nhân AI tự hành với NVIDIA DGX Spark
NVIDIA DGX Spark mở ra khả năng xử lý hiệu quả các quy trình làm việc của tác nhân AI tự hành, hỗ trợ cửa sổ ngữ cảnh lớn, độ đồng thời cao và mô hình đa tác nhân thông qua siêu chip Grace Blackwell cùng các framework tiên tiến.
Tối ưu hóa tác vụ và tác nhân AI tự hành với NVIDIA DGX Spark
NVIDIA DGX Spark cho phép thực thi hiệu quả các quy trình làm việc của tác nhân AI tự hành, hỗ trợ cửa sổ ngữ cảnh lớn, độ đồng thời cao và tải đa tác nhân thông qua siêu chip Grace Blackwell cùng các framework như NVIDIA TensorRT LLM, vLLM và SGLang. Khả năng mở rộng hiện đã được hỗ trợ lên đến bốn nút DGX Spark với giao tiếp RoCE độ trễ thấp, cho phép tinh chỉnh và suy luận trên các mô hình lên đến 700 tỷ tham số. Hiệu suất gần tuyến tính có thể đạt được trong cả hai kịch bản học tăng cường và tinh chỉnh phân tán khi giao tiếp giữa các nút được tối thiểu hóa.


Các tác nhân AI tự hành đang thúc đẩy làn sóng đổi mới tiếp theo. Chúng thường phải quản lý các tác vụ chạy dài, sử dụng đồng thời nhiều kênh giao tiếp và quy trình con để khám phá phương án, kiểm tra giải pháp và tạo ra kết quả tối ưu. Điều này đặt ra yêu cầu cực kỳ khắt khe về sức mạnh tính toán cục bộ. NVIDIA DGX Spark cung cấp hiệu năng cần thiết để các tác nhân này thực thi các quy trình phức tạp một cách hiệu quả và tại chỗ. Với NVIDIA NemoClaw (một phần của NVIDIA Agent Toolkit), người dùng có thể cài đặt môi trường runtime OpenShell an toàn để chạy các tác nhân tự hành và các mô hình mã nguồn mở như Nemotron.
Suy luận cho tác nhân AI tự hành
Công cụ tác nhân thường cần xử lý các cửa sổ ngữ cảnh khổng lồ. Ví dụ, OpenClaw yêu cầu ngữ cảnh lớn để hiểu yêu cầu, môi trường và lập kế hoạch giải quyết vấn đề. Tốc độ xử lý prompt (prefill) đóng vai trò như giai đoạn đọc hiểu trong suy luận và dễ trở thành nút cổ chai nếu GPU chậm. Các tác nhân tự hành thường xử lý ngữ cảnh từ 30K đến 120K token (100K token tương đương độ dài của cuốn Harry Potter), với một số tác vụ phức tạp lên đến 250K token.
Trên NVIDIA DGX Spark, hiệu năng suy luận với ngữ cảnh 128K token đầu vào và 1K token đầu ra cho thấy thời gian trễ cuối cùng (end-to-end) dao động từ 73 đến 99 giây tùy mô hình. Cụ thể, Nemotron 3 Super 120B đạt thông lượng xử lý prompt khoảng 2.855 token/giây, trong khi Qwen3.5 35B và Qwen3 Coder Next 80B đạt lần lượt 3.080 và 2.390 token/giây. Tốc độ tạo token cũng duy trì ở mức ổn định từ 18 đến 35,75 token/giây.


Khi chuyển từ một tác nhân phụ sang nhiều tác nhân phụ, hệ thống cần mở rộng độ đồng thời mà không làm giảm hiệu năng đáng kể. Nhờ siêu chip Grace Blackwell, GPU có thể song song hóa nhiều tác nhân phụ cùng lúc. Với sự hỗ trợ của các framework tối ưu độ đồng thời như TensorRT LLM, vLLM và SGLang, DGX Spark xử lý mượt mà các tải đa tác nhân. Trong tác vụ 32K token đầu vào và 1K token đầu ra, việc hoàn thành gấp 4 lần số lượng tác vụ chỉ tốn thêm 2,6 lần thời gian, đồng thời thông lượng xử lý prompt tăng khoảng 3 lần.
Mở rộng suy luận và tinh chỉnh trên tối đa 4 nút DGX Spark
Các mô hình lớn và nhiều tác nhân phụ đòi hỏi bộ nhớ lớn hơn để tải và thực thi. DGX Spark hiện đã hỗ trợ mở rộng lên đến 4 nút, tăng tổng bộ nhớ từ 128 GB lên 512 GB. Hệ thống hỗ trợ nhiều cấu hình topology thông qua giao tiếp RoCE độ trễ thấp của NIC ConnectX-7:
- 1 nút: Lý tưởng cho suy luận ngữ cảnh lớn, độ trễ thấp, tinh chỉnh mô hình đến 120B tham số.
- 2 nút: Cân bằng cho tinh chỉnh nhanh hơn và suy luận mô hình đến 400B tham số.
- 3 nút dạng vòng: Tối ưu cho tinh chỉnh mô hình lớn hoặc tác vụ huấn luyện nhỏ.
- 4 nút kết nối switch RoCE 200 GbE: Máy chủ suy luận tại chỗ lý tưởng cho mô hình tiên tiến đến 700B tham số và hoạt động nhà máy AI.
Suy luận có thể mở rộng tuyến tính khi giao tiếp giữa các nút tối thiểu. Nếu công việc độc lập trên mỗi GPU, kết quả chỉ được tổng hợp ở cuối, cho phép các nút chạy song song với độ trễ đồng bộ hóa thấp. Ví dụ, tải học tăng cường (RL) trong NVIDIA Isaac Lab có thể chạy nhiều mô phỏng độc lập trên từng nút, thu thập kết quả cùng lúc và đạt hiệu suất gần tuyến tính. Ngược lại, suy luận LLM yêu cầu đồng bộ hóa liên tục giữa các nút theo từng lớp, dẫn đến overhead giao tiếp lớn và hạn chế khả năng mở rộng khi thêm nút.
Song song hóa cho tác nhân AI: Suy luận quy mô lớn
Song song hóa tensor (Tensor Parallelism) cho phép chia sẻ suy luận hiệu quả qua nhiều nút, tối thiểu hóa overhead giao tiếp. Việc mở rộng từ 2 lên 4 nút DGX Spark mang lại khả năng song song hóa xuất sắc, giúp thời gian trên mỗi token đầu ra (TPOT) giảm gần tuyến tính (~2x với TP2 và ~4x với TP4). Ví dụ, với mô hình Llama 3.3 70B Instruct NVFP4, thời gian TTFT giảm từ 33.415 ms (1 nút) xuống 15.552 ms (4 nút), và TPOT giảm từ 269 ms xuống 72 ms. Các mô hình phổ biến như Qwen3.5 397B, GLM 5 và MiniMax M2.5 230B cũng hưởng lợi đáng kể từ việc xếp chồng nhiều đơn vị DGX Spark để tăng bộ nhớ khả dụng.
Tinh chỉnh gần tuyến tính
Các tác vụ tinh chỉnh có thể được song song hóa đáng kể với hiệu suất gần tuyến tính khi mô hình vừa trên một GPU, giảm overhead giao tiếp chỉ còn đồng bộ hóa gradient ở cuối mỗi bước. Tải RL trong Isaac Lab hoặc Nanochat tận dụng điều này. Isaac Lab có thể chứa nhiều bản sao môi trường trên mỗi nút, đồng bộ hóa qua các nút để đạt tốc độ tăng tuyến tính. Với 4 nút, FPS tăng từ 630 lên 2.520, trong khi thời gian thu thập dữ liệu giảm từ 12,1 s xuống 10,4 s. Tương tự, tinh chỉnh Nanochat đạt thông lượng token tăng từ ~18.400 lên ~74.600 token/giây khi mở rộng lên 4 nút. Khi sử dụng song song dữ liệu phân tán (DDP), mỗi nút có thể lưu trữ toàn bộ mô hình và giao tiếp một lần mỗi bước, mang lại tốc độ tăng 3x với 3 nút.
Phát triển trên DGX Spark, triển khai lên đám mây
Giải pháp đám mây trở nên cần thiết khi chuyển từ nguyên mẫu sang triển khai sản xuất quy mô lớn. Tile IR và cuTile Python cho phép di chuyển kernel mượt mà từ môi trường phát triển DGX Spark sang GPU trung tâm dữ liệu NVIDIA Blackwell trên đám mây với tối thiểu thay đổi mã nguồn. Thông qua TileGym, nhà phát triển có thể viết kernel một lần bằng cuTile Python DSL, kiểm tra trên DGX Spark, sau đó triển khai lên NVIDIA Blackwell B300/B200, Hopper hoặc Ampere. TileGym cũng cung cấp các kernel transformer được tối ưu hóa sẵn để thay thế trực tiếp.
Hiệu năng suy luận đầu cuối và cấu hình nền tảng
Benchmarks suy luận Qwen2 7B sử dụng kernel cuTile trên cả hai nền tảng xác nhận khả năng di chuyển hiệu năng đa kiến trúc. DGX Spark (SM 12.1, bộ nhớ LPDDR5X thống nhất, băng thông 273 GB/s) và B200 đám mây (SM 10.0, HBM3e, băng thông ~8 TB/s) có đặc điểm phần cứng khác biệt. Mặc dù mã nguồn kernel giống nhau, hiệu năng tối ưu đạt được nhờ cấu hình theo nền tảng (Tile và Occupancy). Ví dụ, kernel FMHA sử dụng TILE_M/N 64/64 với Occupancy 2 trên DGX Spark để tận dụng 48 SM và bộ nhớ thống nhất, trong khi B200 dùng TILE 256/128 (Occupancy 1) để tối đa hóa băng thông HBM3e, hoặc 128/128 (Occupancy 2) để cân bằng song song hóa.


Phân tích Roofline và tối ưu hóa
Phân tích Roofline trong NVIDIA Nsight Compute là khung hiệu năng trực quan mạnh mẽ, giúp xác định mức độ tận dụng phần cứng. Dữ liệu cho thấy kernel đạt hiệu suất cao hơn trên B200, với điểm dữ liệu xanh dương gần đường roofline bộ nhớ hơn so với điểm xanh lá trên DGX Spark. Điều này chỉ ra tiềm năng tối ưu hóa thêm cho DGX Spark, và các cải tiến thuật toán/bộ nhớ trên Spark sẽ tự động có lợi cho GPU B200 đám mây. Phân tích trục hoành cho thấy B200 đạt cường độ số học phần cứng (Hardware Arithmetic Intensity) vượt trội nhờ bộ nhớ cache lớn hơn và kiến trúc phần mềm khai thác hiệu quả tài nguyên này.
Việc kernel Tile IR di chuyển sang phải trên biểu đồ chứng tỏ khả năng di chuyển kernel thành công sang hệ thống cache mở rộng của B200. Các tối ưu hóa tương lai nhằm tăng cường độ số học trên Spark sẽ tạo ra lợi ích hiệu năng tích lũy khi chạy trên các GPU đám mây khác nhau. Trong tương lai, cuTile sẽ hỗ trợ tự động tinh chỉnh đa nền tảng, tự động khám phá kích thước tile và cài đặt occupancy tối ưu cho từng kiến trúc, cho phép di chuyển hiệu năng trong suốt mà không cần cấu hình thủ công.
Kết luận
Khi hệ thống AI ngày càng phức tạp, NVIDIA DGX Spark cung cấp môi trường thực thi linh hoạt, đa topology cần thiết để triển khai chúng một cách hiệu quả. Từ suy luận đa tác nhân, phục vụ mô hình hàng nghìn tỷ tham số, đến tinh chỉnh và pipeline đa đám mây Tile IR, DGX Spark mang lại cả khả năng mở rộng và hiệu suất. Đây là nền tảng thống nhất giúp doanh nghiệp triển khai và mở rộng tải AI mà không cần viết lại cơ sở hạ tầng cho mỗi mô hình hoặc runtime. Người dùng có thể bắt đầu với các playbook kết nối 3 nút DGX Spark dạng vòng hoặc kết nối nhiều nút qua switch.
Nguồn: developer.nvidia.com
Scaling Autonomous AI Agents and Workloads with NVIDIA DGX Spark
NVIDIA DGX Spark enables efficient execution of autonomous AI agent workflows, supporting large context windows, high concurrency, and multiagent workloads via the Grace Blackwell Superchip and frameworks like TensorRT LLM, vLLM, and SGLang. Scaling now supports up to four DGX Spark nodes with low-latency RoCE communication, enabling fine-tuning and inference on models up to 700B parameters. Near-linear performance scaling is achievable in reinforcement learning and distributed fine-tuning when inter-node communication is minimized.
Autonomous AI agents drive the next wave of innovation, managing long-running tasks across multiple channels. DGX Spark provides the local compute power needed for these complex workflows. With NVIDIA NemoClaw and the secure OpenShell runtime, developers can safely deploy open-source models like Nemotron.
Inference for Autonomous AI Agents
Agentic tools require massive context windows, often ranging from 30K to 120K tokens, with complex tasks reaching 250K. Prompt processing throughput is critical to avoid bottlenecks. On DGX Spark, models like Nemotron 3 Super 120B, Qwen3.5 35B, and Qwen3 Coder Next 80B demonstrate strong prompt processing and token generation throughput. The Grace Blackwell Superchip parallelizes multiple subagents efficiently. Frameworks like vLLM and SGLang ensure smooth multiagent workloads, with throughput increasing significantly as concurrency scales.
Scaling Inference and Fine-Tuning Across Four Nodes
DGX Spark now supports scaling to four nodes, increasing available memory to 512 GB. Supported topologies include single-node setups for low-latency inference, two-node configurations for models up to 400B, three-node rings for fine-tuning, and four-node switch-connected setups for models up to 700B. Inference scales linearly when workloads are independent, as seen in NVIDIA Isaac Lab reinforcement learning tasks. Conversely, layer-by-layer LLM inference requires continuous synchronization, introducing communication overhead that limits scaling efficiency.
Parallelism and Near-Linear Fine-Tuning
Tensor parallelism enables efficient inference sharing across nodes. Scaling from two to four nodes reduces time per output token (TPOT) by approximately 4x. Models like Qwen3.5 397B and MiniMax M2.5 230B benefit significantly from stacked DGX Spark units. Fine-tuning workloads also achieve near-linear scaling when models fit on a single GPU, minimizing communication to gradient synchronization. NVIDIA Isaac Lab and Nanochat demonstrate this, with FPS and token throughput scaling proportionally across one to four nodes.
Cross-Architecture Workflows and Performance
Tile IR and cuTile Python enable seamless kernel portability from DGX Spark development to cloud deployment on NVIDIA Blackwell data center GPUs. Using TileGym, developers write kernels once, test locally, and deploy to B300/B200, Hopper, or Ampere with minimal code changes. Benchmarks of Qwen2 7B inference confirm cross-architecture performance portability.
While kernel source code remains identical, optimal performance requires platform-specific Tile and Occupancy configurations. Roofline analysis in NVIDIA Nsight Compute shows that Tile IR kernels scale effectively relative to each GPU’s theoretical peak. The B200 achieves higher hardware utilization and arithmetic intensity, but optimizations developed for DGX Spark inherently benefit cloud GPUs. Future cuTile releases will introduce automated cross-platform autotuning, eliminating manual configuration.
Conclusion
NVIDIA DGX Spark delivers a flexible, multitopology execution environment for sophisticated AI systems. From multiagent inference to trillion-parameter serving and cross-cloud pipelines, it provides a unified platform for enterprises to scale AI workloads efficiently without rewriting infrastructure. Developers can explore ring topologies and switch-connected configurations to maximize performance.

