Chuyển đổi Video Thành Thông Tin Hành Động Có Thể Tìm Kiếm Tức Thì Với AI Agents và Skills

Chuyển đổi Video Thành Thông Tin Hành Động Có Thể Tìm Kiếm Tức Thì Với AI Agents và Skills



NVIDIA Metropolis Blueprint cho Tìm kiếm và Tóm tắt Video (VSS) giúp doanh nghiệp biến hàng triệu luồng video thành thông tin thực tế, có thể tìm kiếm và ra quyết định ngay lập tức thông qua các AI agent và kỹ năng tự động hóa.

Giới thiệu về VSS

Trong kỷ nguyên dữ liệu, các tổ chức ngày càng phụ thuộc vào video để nắm bắt thông tin quan trọng, nhưng việc trích xuất thông tin thực tế từ lượng dữ liệu khổng lồ vẫn là một thách thức. NVIDIA Metropolis Blueprint cho Tìm kiếm và Tóm tắt Video (VSS) khắc phục vấn đề này bằng cách chuyển đổi hàng triệu luồng video trực tiếp hoặc hàng giờ video ghi hình thành thông tin có thể tìm kiếm và hành động ngay lập tức.

VSS cung cấp kiến trúc tham chiếu để xây dựng các AI agent phân tích video có khả năng nhận thức, suy luận và hành động theo thời gian thực trên khối lượng lớn dữ liệu video. Hệ thống sử dụng các microservice dựa trên tăng tốc đồ họa, mô hình ngôn ngữ thị giác (VLM), mô hình ngôn ngữ lớn (LLM) và bộ truy xuất dữ liệu để hỗ trợ tìm kiếm thông minh, báo cáo tự động và phân tích video theo thời gian thực.

Kiến trúc VSS bao gồm các microservice, cơ sở dữ liệu và agent phân tích video
Kiến trúc VSS bao gồm các microservice, cơ sở dữ liệu và agent phân tích video

Phiên bản mới nhất của VSS giới thiệu thiết kế mô-đun, khả năng tìm kiếm hợp nhất (fusion search) tiên tiến và bộ kỹ năng (skills) giúp tích hợp dễ dàng với các autonomous agent. Bài viết này sẽ hướng dẫn cách sử dụng kỹ năng VSS với các coding agent để tự động hóa việc triển khai và tích hợp vào ứng dụng tùy chỉnh, đồng thời đi sâu vào công nghệ đằng sau VSS 3.

Xây dựng AI agent phân tích video với kỹ năng VSS và coding agent

Trước đây, nhà phát triển phải cấu hình, triển khai và tích hợp thủ công bộ microservice phong phú của VSS để xây dựng ứng dụng phân tích video. Ngày nay, bạn có thể sử dụng coding agent được tăng cường với kỹ năng VSS để tự động hóa toàn bộ quy trình triển khai và tích hợp thông qua giao diện chat đơn giản.

Kỹ năng VSS được lưu trữ trên kho lưu trữ GitHub của VSS và tuân theo thông số kỹ năng agent, cho phép tương thích với nhiều loại agent khác nhau. Điều kiện tiên quyết là hệ thống phải được cài đặt để chạy VSS và một agent tương thích như Codex, Claude Code, OpenClaw hoặc NemoClaw.

Cài đặt các yêu cầu tiên quyết cho VSS

Bước đầu tiên là chuẩn bị hệ thống chạy VSS. Cách đơn giản nhất là sử dụng NVIDIA Brev Launchable cho VSS. Truy cập trang tài liệu VSS Launchable, nhấn nút “Launch Blueprint” và “Deploy Launchable”. Sau khi triển khai, nhấn “Open Notebook” và điều hướng đến notebook /video-search-and-summarization/scripts/deploy_vss_launchable.ipynb. Dán khóa NGC_CLI_API_KEY từ NGC vào ô đầu tiên và chạy toàn bộ notebook, bao gồm cả phần tear-down. Điều này đảm bảo hệ thống được thiết lập đầy đủ cho VSS.

Trang NVIDIA Brev Launchable để sử dụng Brev CLI
Trang NVIDIA Brev Launchable để sử dụng Brev CLI

Sau khi notebook chạy xong, cài đặt Brev CLI trên hệ thống chủ, khởi động VSCode và kết nối từ xa đến Brev Instance theo hướng dẫn SSH. Sau khi cấu hình truy cập từ xa, bạn có thể cài đặt extension Codex trong VSCode để sử dụng làm coding agent.

Triển khai VSS với Codex

Trong VSCode, tìm và cài đặt extension Codex. Sau đó, yêu cầu Codex tự cài đặt kỹ năng VSS bằng cách cung cấp đường dẫn đến kho GitHub của VSS. Bạn có thể sử dụng lệnh sau:

Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory: Claude Code: ~/.claude/skills/<name>/ Codex: ~/.codex/skills/<name>/ Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/ Symlink each skill folder rather than copying so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.
Phản hồi của Codex xác nhận khả năng truy cập kỹ năng VSS
Phản hồi của Codex xác nhận khả năng truy cập kỹ năng VSS

Agent sẽ xác nhận rằng nó có thể truy cập các kỹ năng VSS. Khi đã sẵn sàng, bạn có thể dùng Codex để triển khai các thành phần và profile của VSS. Codex sẽ tự động lập kế hoạch triển khai, cấu hình biến môi trường và khởi động các container cần thiết để bật tính năng tìm kiếm VSS.

Codex triển khai thành công profile tìm kiếm VSS
Codex triển khai thành công profile tìm kiếm VSS

Tìm kiếm video với VSS và OpenClaw

Khi profile tìm kiếm đang chạy, bạn có thể cài đặt và cấu hình OpenClaw để hoạt động như một autonomous agent phân tích video. Cài đặt OpenClaw trên hệ thống Brev theo hướng dẫn chuẩn và chạy script cài đặt được khuyến nghị. Sau khi cấu hình ban đầu, hatch agent và cung cấp ngữ cảnh rằng nó sẽ hoạt động như một agent xây dựng ứng dụng phân tích video sử dụng VSS.

Hatch OpenClaw với ngữ cảnh về VSS
Hatch OpenClaw với ngữ cảnh về VSS

Để cung cấp kỹ năng VSS cho OpenClaw, bạn có thể sao chép thủ công vào workspace của OpenClaw:

mkdir ~/.openclaw/workspace/skills
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills

Mở giao diện OpenClaw bằng lệnh openclaw dashboard trong terminal. Sau khi mở, xác nhận OpenClaw đã truy cập được kỹ năng VSS.

OpenClaw xác nhận kỹ năng VSS
OpenClaw xác nhận kỹ năng VSS

Bây giờ, bạn có thể yêu cầu OpenClaw sử dụng profile tìm kiếm VSS để phân tích lượng lớn dữ liệu video. Ví dụ: phân tích 3 video kho hàng 10 phút để kiểm tra việc sử dụng thang và xác nhận công nhân đội mũ bảo hiểm và mặc áo phản quang. Sử dụng prompt:

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

OpenClaw sẽ tự động xác định kỹ năng và công cụ cần thiết, sử dụng kỹ năng VSS để tải video lên VIOS, ingest qua microservice embedding để tạo chỉ mục tìm kiếm, sau đó dùng fusion search để tìm đoạn video công nhân leo thang đội mũ bảo hiểm và mặc áo phản quang.

Kết quả OpenClaw sử dụng profile tìm kiếm VSS để xác nhận an toàn khi leo thang
Kết quả OpenClaw sử dụng profile tìm kiếm VSS để xác nhận an toàn khi leo thang

Hoàn tất, OpenClaw trả về báo cáo tóm tắt về tất cả lần sử dụng thang cùng ảnh chụp màn hình từ video. Ví dụ này minh họa cách dùng Codex để triển khai và OpenClaw để phân tích video với kỹ năng VSS.

Video thông minh hơn: Từ cảnh báo sang tìm kiếm

Tìm kiếm video quy mô lớn vẫn là một trong những thách thức lớn nhất trong truy xuất thông tin hiện đại. Truy vấn của người dùng thường phức tạp và mơ hồ, việc nắm bắt toàn bộ ý nghĩa ngữ nghĩa trong một embedding duy nhất là không đủ, đặc biệt khi đối tượng và sự kiện có nhiều thuộc tính lớp.

Tìm kiếm video theo thuộc tính, sự kiện và hành động bằng ngôn ngữ tự nhiên
Tìm kiếm video theo thuộc tính, sự kiện và hành động bằng ngôn ngữ tự nhiên

Để khắc phục, kiến trúc tìm kiếm cần hai khả năng cốt lõi:

  • Trích xuất và truy xuất embedding đa loại, kết hợp lọc độ liên quan và loại bỏ trùng lặp ngữ nghĩa.
  • Điều phối tìm kiếm dựa trên suy luận agent; phân rã truy vấn phức tạp thành các truy vấn con, áp dụng chiến lược truy xuất dựa trên suy luận ở mỗi bước và chạy vòng lặp xác minh/phản chiếu để tinh chỉnh kết quả.

Kiến trúc tìm kiếm sử dụng RTVI-CV với embedding và microservice RTVI-embedding để ingest video và trích xuất đặc trưng. Agent VSS sau đó dùng dữ liệu đặc trưng và công cụ nhận thức thị giác để thực hiện tìm kiếm lặp, tạo kế hoạch và truy xuất kết quả nhằm xác định đối tượng hoặc sự kiện cụ thể trên timeline video.

Quy trình tìm kiếm embedding đa loại
Quy trình tìm kiếm embedding đa loại

Kiến trúc mô-đun mang lại tính linh hoạt và hiệu suất cao

VSS được thiết kế dựa trên hệ thống profile nhà phát triển sử dụng docker-compose: Một base agent có thể triển khai trong dưới 5 phút, các workflow bổ sung được lớp chồng lên khi cần.

Profile Khả năng cốt lõi
Base / Q&A Hỏi đáp và tạo báo cáo dựa trên VLM cho clip ngắn
Alert Verification Xác minh cảnh báo: pipeline CV + Behavior Analytics + xác minh VLM
Real-Time VLM Alerts Cảnh báo VLM liên tục: phát hiện bất thường VLM trên luồng trực tiếp
Search Tìm kiếm embedding đa loại theo agent trên kho lưu trữ video
Video Summarization Tóm tắt theo chunk cho bản ghi dài

Mỗi workflow hỗ trợ nhiều loại GPU với các cấu hình khác nhau. Dưới đây là các chỉ số hiệu năng cho workflow tìm kiếm agent trên cấu hình GPU đơn:

GPU Luồng đồng thời tối đa Độ trễ ingest (s) Độ trễ truy xuất (s)
1x H100 33 0.079 2.24
1x RTX PRO 6000 51 0.101 1.87

Với workflow xác minh cảnh báo, độ trễ xác minh được đo lường cùng số luồng đồng thời tối đa (sử dụng RT-DETR làm detector và Cosmos Reason 2 làm VLM verifier, trung bình 1 sự kiện cảnh báo/phút):

GPU Luồng đồng thời tối đa Độ trễ xác minh (s)
1x DGX Spark 1 0.89
1x AGX Thor 14 0.89
1x H100 147 1.01
1x RTX PRO 6000 87 0.82

Microservice tóm tắt video dài (LVS) tạo tóm tắt nhanh cho hàng giờ video. Việc mở rộng LVS sang nhiều GPU có thể giảm đáng kể thời gian tóm tắt.

Thời gian tóm tắt video 1 giờ bằng microservice LVS trên các cấu hình GPU
Thời gian tóm tắt video 1 giờ bằng microservice LVS trên các cấu hình GPU

Bắt đầu với kỹ năng VSS

Kỹ năng VSS cho phép nhà phát triển chuyển đổi video thành dữ liệu có thể tìm kiếm và ý nghĩa bằng ngôn ngữ tự nhiên, giúp khám phá thông tin, tạo tóm tắt và xây dựng ứng dụng thông minh hơn. Để tìm hiểu sâu hơn về VSS, hãy xem tài liệu chính thức. Khám phá tất cả kỹ năng VSS trên GitHub. Đối với câu hỏi kỹ thuật, tham gia diễn đàn của chúng tôi.

Nguồn: developer.nvidia.com

Bài gốc

Introduction to VSS

In today’s data-driven landscape, organizations increasingly rely on video to capture critical information, yet extracting real-time insights from massive footage remains challenging. NVIDIA Metropolis Blueprint for Video Search and Summarization (VSS) solves this by transforming millions of live streams or recorded hours into instantly searchable, actionable intelligence.

VSS provides a reference architecture for building video analytics AI agents that perceive, reason, and act in real-time. It leverages accelerated vision-based microservices, vision-language models (VLMs), large language models (LLMs), and retrievers to enable agentic search, automated reporting, and real-time video intelligence.

VSS architecture composed of microservices, databases, and agents
VSS architecture composed of microservices, databases, and agents

The latest VSS version introduces a modular design, advanced fusion search capabilities, and a set of skills for seamless integration with autonomous agents. This guide demonstrates how to use VSS skills with coding agents to automate deployment and integration, followed by a deep dive into the technology powering VSS 3.

Build a Video AI Agent with VSS Skills and Coding Agents

Previously, developers manually configured and deployed VSS microservices to build video analytics applications. Today, coding agents augmented with VSS skills can automate deployment, usage, and integration through a simple agentic chat interface.

VSS skills are hosted on the VSS GitHub Repository and follow the agent skills specification, ensuring compatibility with agents like Codex, Claude Code, OpenClaw, or NemoClaw. A prerequisite is a system configured to run VSS alongside a compatible agent.

Setting Up VSS Prerequisites

The easiest way to prepare a system is using NVIDIA Brev Launchable for VSS. Navigate to the VSS Launchable documentation, click “Launch Blueprint” and “Deploy Launchable”. Once deployed, open the notebook at /video-search-and-summarization/scripts/deploy_vss_launchable.ipynb, paste your NGC_CLI_API_KEY, and execute the entire notebook including the tear-down section to ensure full setup.

NVIDIA Brev Launchable page for using the Brev CLI
NVIDIA Brev Launchable page for using the Brev CLI

After the notebook completes, install the Brev CLI on your host, launch VSCode, and remotely connect to your Brev Instance via SSH. Once remote access is configured, install the Codex extension in VSCode to use as your coding agent.

Deploying VSS with Codex

In VSCode, search for and install the Codex extension. Then, instruct Codex to self-install VSS skills by providing the path to the VSS GitHub repository using the following prompt:

Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory: Claude Code: ~/.claude/skills/<name>/ Codex: ~/.codex/skills/<name>/ Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/ Symlink each skill folder rather than copying so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.
Codex's response to verify VSS skill availability
Codex’s response to verify VSS skill availability

Once the agent confirms skill availability, use Codex to deploy VSS components and profiles. Codex will plan the deployment, configure environment variables, and launch the necessary containers to enable VSS Search.

Codex successfully deploys the VSS search profile
Codex successfully deploys the VSS search profile

Searching Videos with VSS and OpenClaw

With the search profile running, install and configure OpenClaw as an autonomous agent for video analysis. Follow the standard OpenClaw installation instructions on the Brev instance and run the recommended installer script. After initial configuration, hatch the agent and provide context that it will build video analytics applications using VSS.

Hatching OpenClaw with context about VSS
Hatching OpenClaw with context about VSS

Provide OpenClaw with VSS skills by copying them into the workspace:

mkdir ~/.openclaw/workspace/skills
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills

Open the OpenClaw UI via the openclaw dashboard command and verify skill access. You can then instruct OpenClaw to analyze large video volumes. For example, analyze three 10-minute warehouse videos to verify ladder usage and check for hardhats and safety vests using this prompt:

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

OpenClaw will autonomously determine the required skills, upload videos to VIOS, ingest them through embedding microservices to generate searchable indexes, and use fusion search to locate clips matching the criteria.

OpenClaw verifying VSS skills
OpenClaw verifying VSS skills
OpenClaw results using the VSS search profile to verify safe ladder usage
OpenClaw results using the VSS search profile to verify safe ladder usage

Upon completion, OpenClaw returns a concise report of all ladder usage instances along with video screenshots.

Smarter Video: From Alerts to Search

Large-scale video search remains a major frontier in information retrieval. User queries are often complex and ambiguous, making single visual embeddings insufficient for capturing multi-layered attributes of objects and events.

Agentic video search by attributes, events, and actions using natural language
Agentic video search by attributes, events, and actions using natural language

Addressing these limitations requires a sophisticated architecture built on two core capabilities:

  • Multi-type embedding extraction and retrieval, combined with relevance filtering and semantic deduplication.
  • Search orchestration driven by agentic reasoning; decomposing complex queries into tractable sub-queries, applying reasoning-based retrieval strategies, and running iterative verification loops.

The architecture uses RTVI-CV with embedding and RTVI-embedding microservices to ingest video and extract features. The VSS agent then performs deep, iterative searches using vision-aware tools to locate specific objects or events on the video timeline.

Process of multi-embedding search
Process of multi-embedding search

Modular Architecture Brings High Flexibility and Performance

VSS is designed around a docker-compose based modular developer profile system. A base agent deploys in under five minutes, with additional workflows layered as needed.

Profile Core Capability
Base / Q&A VLM-based Q&A and report generation on short clips
Alert Verification Alert verification: CV pipeline + Behavior Analytics + VLM verification
Real-Time VLM Alerts Continuous VLM anomaly detection on live streams
Search Agentic multi-embedding search across video archives
Video Summarization Chunked summarization of extended recordings

Each workflow supports various GPU configurations. Key performance metrics for the agentic search workflow on single GPU setups include:

GPU Max Concurrent Streams Max Ingestion Latency (s) Retrieval Latency (s)
1x H100 33 0.079 2.24
1x RTX PRO 6000 51 0.101 1.87

For the alert verification workflow (using RT-DETR and Cosmos Reason 2 VLM verifier, averaging 1 alert event per minute):

GPU Max Concurrent Streams Verification Latency (s)
1x DGX Spark 1 0.89
1x AGX Thor 14 0.89
1x H100 147 1.01
1x RTX PRO 6000 87 0.82

The long video summarization microservice rapidly generates summaries for hours of footage. Scaling the LVS microservice across multiple GPUs significantly reduces summarization time.

Time to summarize a 1-hour video using the long video summarization microservice on a variety of GPU topologies
Time to summarize a 1-hour video using the long video summarization microservice on a variety of GPU topologies

Get Started with VSS Skills

VSS skills enable developers to transform video into searchable, meaningful data using natural language, simplifying insight discovery, summary generation, and smarter application development. For deeper technical details, consult the official documentation. Explore all VSS skills on GitHub. For technical questions, visit our developer forum.

Source: developer.nvidia.com

Original source