Chapter 1: AI Agent là gì?
Agent không chỉ là AI biết trả lời, mà là hệ thống có thể hiểu mục tiêu, tự suy luận, lập kế hoạch và hành động bằng tools, skills, memory và runtime. Bài viết này giúp bạn hiểu đúng Agent, workflow, skills và xu hướng mới như OpenClaw.
I. Cách hiểu đơn giản
Nếu dịch thô, agent thường được gọi là tác nhân hoặc tác tử. Vì vậy, AI Agent có thể hiểu theo nghĩa đen là tác nhân AI.
Nhưng nếu chỉ dừng ở cách dịch đó thì chưa đủ để hiểu bản chất của Agent.
Agent là một hệ thống sử dụng mô hình AI, thường là LLM, làm bộ não để hiểu ngôn ngữ tự nhiên, tự suy luận lập kế hoạch, và sử dụng các công cụ ngoại vi (Tools) để tác động vào môi trường nhằm hoàn thành mục tiêu người dùng giao phó.
Agent không chỉ nói như chatbot thông thường, mà nó còn có khả năng hành động (Agency). Một chatbot thông thường chủ yếu trả lời. Một Agent thì ngoài trả lời ra, nó còn có thể làm việc.
Điểm cốt lõi nằm ở việc agent có khả năng hành động để tiến gần đến kết quả mà người dùng muốn.
II. Ví dụ về Quản gia Alfred
Hãy tưởng tượng bạn có một quản gia tên là Alfred.
Bạn nói với Alfred: "Alfred, cho tôi một tách cà phê".
Lúc này Alfred sẽ xử lý thông tin theo trình tự sau:
- Hiểu: Alfred (Agent) hiểu ngôn ngữ tự nhiên của bạn. Ông ấy biết bạn đang muốn có một tách cà phê, không phải muốn nghe giải thích về cà phê.
- Suy luận & Lập kế hoạch: Alfred tự nghĩ ra chuỗi bước cần làm: vào bếp, kiểm tra có cà phê không, dùng máy pha cà phê, pha xong thì rót ra cốc, có thể cân nhắc thêm đường hoặc không, và mang cà phê ra cho bạn.
- Hành động: Ông ấy thực sự dùng công cụ, ở đây là máy pha cà phê, cốc, đường, thìa.
- Kết quả: Cuối cùng, Alfred mang cà phê tới cho bạn.
Đó chính là logic cốt lõi của một AI Agent: Hiểu mục tiêu → suy luận → lập kế hoạch → dùng công cụ → tạo ra kết quả.
Xem thêm: Agent Interface vs. User Interface
III. Bản chất thực sự của Agent
Nếu bạn thuê một nhân viên hoặc một agency để làm marketing, bạn không thuê họ chỉ để trả lời câu hỏi. Bạn thuê họ vì họ có thể đáp ứng được các vấn đề chuyên môn:
- hiểu yêu cầu kinh doanh
- phân tích tình huống
- chọn cách làm phù hợp
- dùng các công cụ cần thiết
- và tạo ra kết quả thực tế
AI Agent cũng tương tự. Bạn đang xây cho nó một vai trò có thể làm việc. Vì vậy, khi nói về Agent, chúng ta nên nghĩ theo hướng: Agent không chỉ là AI biết nói. Agent là AI được trang bị để làm việc.
IV. Cấu tạo của một Agent đơn giản
Một Agent đơn giản được cấu thành từ 2 phần chính:
Bộ não (The Brain): Thường là các Mô hình Ngôn ngữ Lớn - LLM (như GPT, Claude, Gemini). Bộ não chịu trách nhiệm suy nghĩ, lập kế hoạch và ra quyết định.
Cơ thể (The Body/Capabilities & Tools): Đây là những công cụ mà bạn trang bị cho Agent. Giống như con người không được chắp cánh thì không thể có ước mơ (bay được), một Agent chỉ có thể làm những hành động tương ứng với công cụ nó được cấp (ví dụ: cấp tool tìm kiếm web thì nó mới biết dùng Google Search để tìm kiếm).
Agent = LLM (Brain) + Tools (Body).
V. Mức độ tự chủ của AI Agent
Không phải AI nào cũng là Agent. Chúng ta có thể hình dung theo một phổ tăng dần sau:
☆☆☆ Simple processor: Chỉ trả lời câu hỏi đơn thuần hoặc xử lý một input thành một output (Bot chat bình thường).
★☆☆ Router: AI quyết định rẽ nhánh (Nếu A thì làm B, nếu C thì làm D).
★★☆ Tool caller: AI biết chọn và gọi một hàm/công cụ cụ thể để chạy. Cần tra cứu thì gọi web search, cần tính toán thì gọi calculator.
★★★ Multi-step Agent: AI tự điều khiển vòng lặp nhiều bước: làm bước 1, thấy chưa đủ dữ liệu thì làm bước 2, thấy có lỗi thì retry, thấy đã đạt mục tiêu thì tự dừng.
★★★ Multi-Agent: Một agent chính có thể kích hoạt hoặc điều phối các agent con để chia việc và phối hợp làm việc.
Đây là mô hình ngày càng phổ biến trong các hệ agent nâng cao. Anthropic đã chia sẻ cách họ xây hệ Research bằng một lead agent điều phối nhiều subagent để song song khám phá các hướng khác nhau rồi tổng hợp kết quả lại.
VI. Workflow khác gì Agent thực thụ?
Một cách phân biệt thực tếgiữa Workflow và Agent như sau:
Workflow: đường đi đã được lập trình sẵn, AI chỉ điền nội dung vào từng bước và tạo ra output theo template. Nếu bạn nào từng dùng n8n trong 1 năm đổ lại thì sẽ hiểu rõ khái niệm này. Workflow là vạch ra con đường tuyến tính để thực hiện 1 task nào đó cụ thể. LLM có thể tham gia trong từng bước, nhưng trình tự chính đã được con người định nghĩa trước.
Agent: AI có quyền tự quyết định cần làm bước nào tiếp theo, dùng công cụ nào, thử lại khi thất bại, và dừng khi thấy đã đạt mục tiêu.
Anthropic phân biệt khá rõ giữa agentic workflows và agents. Workflow thường đáng tin cậy hơn cho task ổn định, còn agent phù hợp hơn khi bài toán mở, phức tạp, và khó mô tả trước toàn bộ đường đi.
Vì vậy, bạn có thể thiết kế workflow có gắn LLM hoặc làm Agent thực thụ có mức tự chủ cao hơn, nhưng đồng thời cũng khó kiểm soát hơn.
VII. Làm sao AI có thể hành động được?
Chúng ta đều biết bản thân LLM chỉ có thể tạo ra văn bản. Vậy sao nó vẽ được tranh, tạo ảnh, duyệt web, đọc file, chạy code, gửi email, thao tác máy tính?
Câu trả lời: Lập trình viên cung cấp cho nó các Tools (Công cụ). Khi LLM thấy cần vẽ tranh/tạo ảnh, thay vì nhả ra chữ, nó sẽ nhả ra một đoạn mã/lệnh để kích hoạt cái Tool vẽ tranh/tạo ảnh đó.
Lưu ý quan trọng: Hành động (Action) khác với Công cụ (Tool). Một Hành động (ví dụ: gửi báo cáo) có thể cần dùng đến nhiều Công cụ khác nhau (Công cụ 1: Lấy dữ liệu Excel -> Công cụ 2: Viết email -> Công cụ 3: Bấm gửi).
Các model GPT, Claude, Gemini hiện nay tuần túy chỉ là bộ não. Giao diện ChatGPT, Gemini, Claude mà bạn dùng hàng ngày, khi được OpenAI, Google, Anthorpic tích hợp thêm nhiều công cụ Duyệt web hoặc Viết code thì toàn bộ hệ thống đó mới được gọi là một Agent. Bộ não không thể tự làm gì nếu thiếu công cụ.
Khi mô hình nhận ra rằng để hoàn thành mục tiêu, nó cần dùng một công cụ nào đó, nó sẽ phát ra lời gọi công cụ theo format mà hệ thống đã định nghĩa. Hệ thống bên ngoài sẽ thực thi công cụ đó rồi trả kết quả lại cho mô hình. Đây chính là cơ chế tool use mà Anthropic mô tả trong tài liệu xây agent hiệu quả.
VIII. Agent thế hệ mới khác chatbot có tool ở điểm nào?
Những Agent mới nổi gần đây như OpenClaw thấy Agent đang tiến hóa vượt ra khỏi khái niệm chatbot biết gọi tool.
Agent = Brain (LLM) + Tools + Skills + Memory + Runtime + Permissions + Interface
Chúng thường có thêm:
- Skill: Nếu tools là đồ nghề, thì skills là tay nghề.
- Memory: nhớ thông tin, trạng thái, mục tiêu đang dang dở
- Runtime loop: tự làm nhiều bước liên tiếp thay vì chờ người dùng nhắc từng bước
- Permissions: được cấp quyền truy cập email, lịch, file, app, trình duyệt
- Interface layer: có thể hoạt động qua chat app, desktop, web, hoặc mobile
- Computer use: thao tác trực tiếp trên giao diện máy tính/app như người dùng
- Multi-agent orchestration: một agent chính điều phối nhiều agent con để xử lý song song
Vì vậy, Agent hiện đại nên được hiểu là một hệ thống hành động có điều phối, chứ không chỉ là một mô hình biết trả lời.
OpenClaw đáng chú ý không phải vì nó đưa ra một định nghĩa hoàn toàn mới về agent, mà vì nó làm rõ một hướng tiến hóa rất quan trọng.
Chúng được thiết kế như một personal AI assistant chạy trên thiết bị của người dùng, có thể làm việc qua nhiều kênh chat, duy trì trạng thái, dùng kỹ năng/công cụ, và thực sự thực thi các việc như xử lý inbox, lịch, hay các workflow thường ngày. Điều này cho thấy khái niệm Agent đang dịch chuyển từ khái niệm AI biết trả lời/AI biết dùng tool để trả lời sang AI biết vận hành công việc.
Một hướng khác lớn hiện nay là computer-use agent hoặc GUI agent. Tức là agent có thể: nhìn giao diện, hiểu đang có gì trên màn hình, thực hiện click, nhập liệu, chuyển app, làm việc trên trình duyệt hoặc desktop giống như người.
IX. Skills là gì và vì sao chúng quan trọng?
Nếu tools là các công cụ mà agent được cấp để hành động, thì skills là các gói hướng dẫn giúp agent biết khi nào nên dùng công cụ nào, dùng theo trình tự nào, cần chú ý điều gì, và thế nào là kết quả tốt.
Tools là đồ nghề. Skills là tay nghề.
Đây là lý do Claude Code hay OpenClaw đều đầu tư mạnh vào lớp skill. Một bên dùng skill để đóng gói expertise cho workflow và coding tasks, một bên dùng skill như một lớp năng lực chuyên môn mở rộng cho trợ lý cá nhân đa kênh.
Ưu điểm của skills
Skills có nhiều lợi ích rất thực tế:
- giúp agent tái sử dụng kinh nghiệm thay vì nghĩ lại từ đầu
- tăng độ ổn định và chất lượng đầu ra
- giảm việc người dùng phải nhắc lại quy trình dài dòng (và đôi khi nhàm chán)
- giúp agent chuyên môn hóa theo từng domain
- dễ chuẩn hóa và chia sẻ trong team hoặc ecosystem
Nhược điểm của skills
Nhưng skills không phải lúc nào cũng là thuốc tiên:
- skill dễ lỗi thời khi tool, API hoặc nghiệp vụ thay đổi
- skill viết quá dài sẽ làm agent rối và tốn ngữ cảnh (tốn token làm đội chi phí sử dụng)
- skill cứng nhắc có thể làm agent thiếu linh hoạt
- nhiều skill chồng chéo sẽ khiến agent chọn sai hướng thực thi, vì có thể bạn gọi skill A rồi gọi tiếp skill B nhưng skill B lại có mô tả 1 phần năng lực của skill A nhưng lại khác ngữ cảnh.
Tư duy thiết kế skills
Về cơ bản thì skill chính là prompt. Nhưng tư duy thiết kế skill không phải là viết một đoạn prompt thật dài. Đây là quá trình đóng gói một cách làm có thể tái sử dụng được.
Một skill tốt cần trả lời rõ các khía cạnh sau:
- skill này dùng để làm gì
- dùng khi nào
- không dùng khi nào
- cần input gì
- nên dùng tools nào
- các bước thực hiện ra sao
- output tốt trông như thế nào
Vì vậy, khi thiết kế agent, ngoài brain và tools, bạn cũng nên nghĩ đến skills như một lớp rất quan trọng. Nếu tools quyết định agent có thể làm gì, thì skills quyết định agent làm việc đó giỏi đến đâu.
X. Giới hạn của Agent, càng tự chủ càng không có nghĩa là càng tốt
Agent càng tự chủ cao thì càng khó kiểm soát, càng khó đánh giá, càng dễ tốn token và tài nguyên, càng tăng rủi ro hành động sai, càng cần permission, sandbox, logging, và cơ chế xác nhận.
Anthropic chia sẻ rằng multi-agent của họ giúp xử lý chủ đề phức tạp tốt hơn, nhưng cũng làm chi phí tăng mạnh, có thể dùng nhiều token hơn rất đáng kể so với chat thông thường. Họ cũng liên tục nhấn mạnh rằng evaluation cho AI agent vẫn là một lĩnh vực còn rất non trẻ và đang thay đổi nhanh.
Vì vậy, trong thực tế, chúng ta ứng dụng như thế nào cho phù hợp?
Có bài toán chỉ cần workflow, có bài toán chỉ cần chatbot biết gọi tool, và chỉ một số bài toán thật sự cần full agent hoặc multi-agent.
Tư duy thiết kế tốt không phải là làm 1 con agent tự chủ nhất. Tư duy thiết kế tốt là chọn mức tự chủ phù hợp nhất.
XI. Tư duy thiết kế Agent
Tư duy thiết kế Agent không nằm ở việc luyện cho AI thông minh hơn (đó là việc của người /tổ chức làm ra LLM), mà nằm ở việc bạn thiết kế hệ thống thực thi xung quanh các mô hình LLM.
Vì vậy, khi thiết kế agent, không nên chỉ nghĩ có tool gì hay là cần càng nhiều tools càng tốt, mà phải nghĩ đến 3 khía cạnh sau:
- Agent đang được giao loại mục tiêu nào?
- Agent cần những công cụ nào?
- Mô tả cách dùng tools có rõ ràng không? Anthropic nhấn mạnh rằng mô tả cách dùng tool phải được đầu tư kỹ gần như prompt chính, vì chất lượng tool ảnh hưởng trực tiếp đến độ chính xác khi model gọi tool.
- Skill nào nên tồn tại?
- Agent được phép làm gì mà không cần hỏi lại?
- Cần memory kiểu gì? (theo phiên làm việc - sessin, nhớ lâu dài, nhớ task đang dang dở)
- Nếu thất bại thì sao? (retry, đổi tools, xin người dùng xác nhận, dừng và báo lỗi)
- Có cần multi-agent không? Chỉ nên dùng khi task đủ phức tạp, đủ giá trị, và thật sự có lợi khi chia nhỏ công việc.
- Interface nào phù hợp nhất? Có task hợp với chat, có task hợp với dashboard, có task hợp với một agent chạy nền.
Vì vậy, thiết kế Agent thực chất là thiết kế một hệ thống làm việc bằng AI, chứ không chỉ là viết prompt cho LLM.
Comments ()