Case Study: Cách Tôi Dùng AI Agent Quản Lý Toàn Bộ Hạ Tầng

Vấn đề: Quản lý hạ tầng AI một mình

Khi bắt đầu xây dựng HimiTek, tôi đối mặt với một thực tế: một người phải quản lý toàn bộ hạ tầng công nghệ — từ VPS, model routing, monitoring, deployment, đến content marketing và security. Thuê nhân viên chưa phải lúc. Outsource thì mất kiểm soát.

Giải pháp: biến AI Agent thành đồng nghiệp. Không phải chatbot hỏi-đáp, mà là một hệ thống đa tầng có trí nhớ, có kỹ năng chuyên biệt, có quy trình tự động — chạy 24/7 trên server riêng.

Bài viết này chia sẻ kiến trúc thực tế đang chạy production — abstracted vừa đủ để bạn học được methodology, mà không lộ chi tiết bảo mật.

Kiến trúc tổng thể

Hệ thống gồm 5 thành phần core, chạy trên một Cloud VPS:

┌─────────────────────────────────────────────────┐
│              Cloud VPS (Linux ARM64)              │
│                                                   │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐       │
│  │    AI    │  │   LLM    │  │   LLM    │       │
│  │ Gateway  │  │ Proxy A  │  │ Proxy B  │       │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘       │
│       │        ┌────┴─────────────┴────┐         │
│       │        │  Multi-Model Balancer  │         │
│       │        └────────────────────────┘         │
│       │                                            │
│  ┌────┴──────────────────────────────────┐       │
│  │       10+ Custom Skills                │       │
│  │  + Automated Workflows                │       │
│  │  + Knowledge Base (Cloud Sync)        │       │
│  └────────────────────────────────────────┘       │
│                                                    │
│  Output: 📱 Messaging · 🌐 Website · 📊 Dashboard│
└────────────────────────────────────────────────────┘

Thành phần 1: AI Gateway — Bộ não trung tâm

AI Gateway hoạt động như một daemon luôn trực trên server. Nó không phải chatbot — nó là một tiến trình nền có khả năng:

Nhận lệnh từ messaging app hoặc từ cron jobs tự động
Truy cập file system — đọc/ghi config, log, và knowledge base
Chạy lệnh Shell — thực thi commands trên VPS
Điều khiển browser — tự động hóa web tasks (đăng bài, scraping)
Ghi nhớ dài hạn — thông qua structured markdown files

💡 Điểm khác biệt so với chatbot

Khi tôi ngủ, Agent vẫn chạy. Nó có thể tự kiểm tra health của các service lúc 3 giờ sáng, phát hiện proxy bị treo, tự restart, rồi gửi báo cáo qua messaging app sáng hôm sau. Đó là khác biệt cốt lõi giữa tool và employee.

Thành phần 2: LLM Proxy — Multi-Model Routing

Đây là layer thông minh nhất trong stack. LLM Proxy hoạt động như một reverse proxy cho các LLM API, cho phép:

Dual-Instance Failover

Tôi chạy 2 instance proxy song song, mỗi instance kết nối một tài khoản LLM khác nhau:

# LLM Proxy Config — Multi-Account Failover (simplified)
model_list:
  - model_name: primary-model
    litellm_params:
      model: provider/model-name

router_settings:
  num_retries: 3        # Retry khi fail
  retry_after: 5        # Đợi 5s giữa retries
  timeout: 120          # Timeout 2 phút

Tại sao cần 2 instance? Khi account A hết quota hoặc bị rate limit, hệ thống tự chuyển sang account B — không downtime, không cần can thiệp thủ công.

Multi-Model Load Balancer

Phía trước LLM Proxy còn có một load balancer chạy trên Docker — phân phối request tới model phù hợp nhất dựa trên loại task (reasoning vs creative vs code).

Thành phần 3: 10+ Custom Skills — Bộ kỹ năng chuyên biệt

Agent không phải "biết tất cả" — nó có các kỹ năng chuyên biệt được thiết kế cho từng domain. Một số nhóm skills tiêu biểu:

🧠 Nhóm Tư duy — Brainstorming, research chuyên sâu, viết implementation plans
🧪 Nhóm Engineering — Systematic debugging, code review, performance analysis
🔒 Nhóm Bảo mật — Security audit, tech debt analysis, compliance check
💾 Nhóm Memory — Quản lý bộ nhớ dài hạn, nén context, chống degradation
🎨 Nhóm Output — Web design, dashboard testing, verification gates
🔧 Nhóm Ops — Deployment runbook, service recovery, monitoring

💡 Thiết kế skill theo nguyên tắc Unix

Mỗi skill chỉ làm một việc, làm tốt. Skills không gọi lẫn nhau — Agent tự phối hợp chúng dựa trên context. Ví dụ: khi debug, Agent sẽ kết hợp skill debugging + performance metrics + verification gate.

Thành phần 4: Automated Workflows

Workflows là các quy trình end-to-end mà Agent hoặc tôi trigger bằng slash command:

/health-check — Kiểm tra trạng thái tất cả services chỉ với 1 lệnh
/deploy — Restart hoặc cập nhật service instances trên VPS
/publish — Sửa code local → auto deploy lên hosting
/git-push — Commit và push code lên repository

Ví dụ /health-check thực hiện kiểm tra tự động toàn bộ stack:

# Output mẫu (đã sanitize)
AI Gateway       → HTTP 200 ✓
LLM Proxy A      → Healthy ✓
LLM Proxy B      → Healthy ✓
Load Balancer    → Docker running ✓
Local LLM        → API responding ✓

DISK:    Healthy
MEMORY:  Healthy
UPTIME:  30+ days

Thành phần 5: Knowledge Base + Memory

Agent không hữu ích nếu mỗi lần mở lại phải giải thích từ đầu. Hệ thống memory gồm:

Knowledge Items — Kiến thức đã curated về architecture, deployment, và domain expertise
Conversation Logs — Lịch sử đầy đủ mọi phiên làm việc
Research Archive — Bài phân tích/nghiên cứu tích lũy qua thời gian
Note-taking System — Sync qua cloud, Agent có thể đọc/ghi trực tiếp

Kết quả: Agent hiểu context của tôi ngay từ câu đầu tiên mỗi phiên mới — biết tôi đang làm gì, dùng stack gì, quy ước gì.

Kết quả thực tế: ROI đo được

Sau 4 tuần vận hành hệ thống này:

Tiết kiệm 3-4 tiếng/ngày cho DevOps & monitoring (trước đây phải SSH thủ công, check từng service)
Zero-downtime deployment — Agent tự detect issue và restart trước khi tôi biết
Content pipeline — Từ 0 lên 4 bài blog chuyên sâu chỉ trong 1 ngày (bạn đang đọc output của nó)
Security posture — Audit tự động phát hiện 3 cấu hình sai trong tuần đầu
Chi phí vận hành — Cloud VPS free tier + LLM subscription = chi phí cực thấp cho toàn bộ hạ tầng AI

⚠️ Điều AI Agent KHÔNG thay thế được

Agent không thay thế judgment. Nó giỏi execute, monitor, và alert — nhưng quyết định chiến lược, đánh giá rủi ro kinh doanh, và quan hệ khách hàng vẫn cần con người. Tôi dùng nó như "CTO ảo" thực thi — không phải "CEO ảo" ra quyết định.

Bài học rút ra

1. Bắt đầu với infrastructure, không phải flashy features

Nhiều người hào hứng dùng AI Agent để viết content, scrape data. Nhưng nếu Agent không stable, không có memory, không có monitoring — thì mọi thứ sẽ sập sau 1 tuần. Tôi đầu tư 70% thời gian đầu vào infra: server hardening, key rotation, health check workflow.

2. Skills nhỏ, composable

Đừng tạo 1 "super skill" làm tất cả. 10+ skills nhỏ tổ hợp linh hoạt hơn 3 skills lớn. Agent tự biết khi nào kết hợp cái gì.

3. Workflows chính là version-controlled SOPs

Mỗi workflow là một file Markdown mô tả quy trình. Git track mọi thay đổi. Nếu Agent thực hiện sai, tôi đọc workflow để debug — không phải đoán.

4. Memory 3 tầng là bắt buộc

Long-term (MEMORY.md) + Working (conversation logs) + Project-level (knowledge items) — thiếu bất kỳ tầng nào, Agent sẽ hoặc quên quá nhiều, hoặc tốn token quá nhiều.

Áp dụng cho doanh nghiệp của bạn

Kiến trúc này không chỉ dành cho "tech founder". Bất kỳ doanh nghiệp nào có:

Nhiều hệ thống cần monitor (ERP, CRM, website, email)
Quy trình lặp đi lặp lại hàng ngày (báo cáo, data entry, follow-up)
Nhu cầu compliance (Luật AI, ISO, xuất khẩu)
Ngân sách hạn chế để thuê đội ngũ DevOps/Marketing

...đều có thể áp dụng mô hình tương tự. Sự khác biệt nằm ở skills và workflows — thay vì kỹ năng DevOps, bạn tạo kỹ năng "Theo dõi đơn hàng", "Phân tích review khách hàng", "Cập nhật inventory".

Case Study: Cách Tôi Dùng AI Agent Quản Lý Toàn Bộ Hạ Tầng AI