Vấn đề: Quản lý hạ tầng AI một mình
Khi bắt đầu xây dựng HimiTek, tôi đối mặt với một thực tế: một người phải quản lý toàn bộ hạ tầng công nghệ — từ VPS, model routing, monitoring, deployment, đến content marketing và security. Thuê nhân viên chưa phải lúc. Outsource thì mất kiểm soát.
Giải pháp: biến AI Agent thành đồng nghiệp. Không phải chatbot hỏi-đáp, mà là một hệ thống đa tầng có trí nhớ, có kỹ năng chuyên biệt, có quy trình tự động — chạy 24/7 trên server riêng.
Bài viết này chia sẻ kiến trúc thực tế đang chạy production — abstracted vừa đủ để bạn học được methodology, mà không lộ chi tiết bảo mật.
Kiến trúc tổng thể
Hệ thống gồm 5 thành phần core, chạy trên một Cloud VPS:
┌─────────────────────────────────────────────────┐
│ Cloud VPS (Linux ARM64) │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ AI │ │ LLM │ │ LLM │ │
│ │ Gateway │ │ Proxy A │ │ Proxy B │ │
│ └────┬─────┘ └────┬─────┘ └────┬─────┘ │
│ │ ┌────┴─────────────┴────┐ │
│ │ │ Multi-Model Balancer │ │
│ │ └────────────────────────┘ │
│ │ │
│ ┌────┴──────────────────────────────────┐ │
│ │ 10+ Custom Skills │ │
│ │ + Automated Workflows │ │
│ │ + Knowledge Base (Cloud Sync) │ │
│ └────────────────────────────────────────┘ │
│ │
│ Output: 📱 Messaging · 🌐 Website · 📊 Dashboard│
└────────────────────────────────────────────────────┘
Thành phần 1: AI Gateway — Bộ não trung tâm
AI Gateway hoạt động như một daemon luôn trực trên server. Nó không phải chatbot — nó là một tiến trình nền có khả năng:
- Nhận lệnh từ messaging app hoặc từ cron jobs tự động
- Truy cập file system — đọc/ghi config, log, và knowledge base
- Chạy lệnh Shell — thực thi commands trên VPS
- Điều khiển browser — tự động hóa web tasks (đăng bài, scraping)
- Ghi nhớ dài hạn — thông qua structured markdown files
Khi tôi ngủ, Agent vẫn chạy. Nó có thể tự kiểm tra health của các service lúc 3 giờ sáng, phát hiện proxy bị treo, tự restart, rồi gửi báo cáo qua messaging app sáng hôm sau. Đó là khác biệt cốt lõi giữa tool và employee.
Thành phần 2: LLM Proxy — Multi-Model Routing
Đây là layer thông minh nhất trong stack. LLM Proxy hoạt động như một reverse proxy cho các LLM API, cho phép:
Dual-Instance Failover
Tôi chạy 2 instance proxy song song, mỗi instance kết nối một tài khoản LLM khác nhau:
# LLM Proxy Config — Multi-Account Failover (simplified)
model_list:
- model_name: primary-model
litellm_params:
model: provider/model-name
router_settings:
num_retries: 3 # Retry khi fail
retry_after: 5 # Đợi 5s giữa retries
timeout: 120 # Timeout 2 phút
Tại sao cần 2 instance? Khi account A hết quota hoặc bị rate limit, hệ thống tự chuyển sang account B — không downtime, không cần can thiệp thủ công.
Multi-Model Load Balancer
Phía trước LLM Proxy còn có một load balancer chạy trên Docker — phân phối request tới model phù hợp nhất dựa trên loại task (reasoning vs creative vs code).
Thành phần 3: 10+ Custom Skills — Bộ kỹ năng chuyên biệt
Agent không phải "biết tất cả" — nó có các kỹ năng chuyên biệt được thiết kế cho từng domain. Một số nhóm skills tiêu biểu:
- 🧠 Nhóm Tư duy — Brainstorming, research chuyên sâu, viết implementation plans
- 🧪 Nhóm Engineering — Systematic debugging, code review, performance analysis
- 🔒 Nhóm Bảo mật — Security audit, tech debt analysis, compliance check
- 💾 Nhóm Memory — Quản lý bộ nhớ dài hạn, nén context, chống degradation
- 🎨 Nhóm Output — Web design, dashboard testing, verification gates
- 🔧 Nhóm Ops — Deployment runbook, service recovery, monitoring
Mỗi skill chỉ làm một việc, làm tốt. Skills không gọi lẫn nhau — Agent tự phối hợp chúng dựa trên context. Ví dụ: khi debug, Agent sẽ kết hợp skill debugging + performance metrics + verification gate.
Thành phần 4: Automated Workflows
Workflows là các quy trình end-to-end mà Agent hoặc tôi trigger bằng slash command:
- /health-check — Kiểm tra trạng thái tất cả services chỉ với 1 lệnh
- /deploy — Restart hoặc cập nhật service instances trên VPS
- /publish — Sửa code local → auto deploy lên hosting
- /git-push — Commit và push code lên repository
Ví dụ /health-check thực hiện kiểm tra tự động toàn bộ stack:
# Output mẫu (đã sanitize)
AI Gateway → HTTP 200 ✓
LLM Proxy A → Healthy ✓
LLM Proxy B → Healthy ✓
Load Balancer → Docker running ✓
Local LLM → API responding ✓
DISK: Healthy
MEMORY: Healthy
UPTIME: 30+ days
Thành phần 5: Knowledge Base + Memory
Agent không hữu ích nếu mỗi lần mở lại phải giải thích từ đầu. Hệ thống memory gồm:
- Knowledge Items — Kiến thức đã curated về architecture, deployment, và domain expertise
- Conversation Logs — Lịch sử đầy đủ mọi phiên làm việc
- Research Archive — Bài phân tích/nghiên cứu tích lũy qua thời gian
- Note-taking System — Sync qua cloud, Agent có thể đọc/ghi trực tiếp
Kết quả: Agent hiểu context của tôi ngay từ câu đầu tiên mỗi phiên mới — biết tôi đang làm gì, dùng stack gì, quy ước gì.
Kết quả thực tế: ROI đo được
Sau 4 tuần vận hành hệ thống này:
- Tiết kiệm 3-4 tiếng/ngày cho DevOps & monitoring (trước đây phải SSH thủ công, check từng service)
- Zero-downtime deployment — Agent tự detect issue và restart trước khi tôi biết
- Content pipeline — Từ 0 lên 4 bài blog chuyên sâu chỉ trong 1 ngày (bạn đang đọc output của nó)
- Security posture — Audit tự động phát hiện 3 cấu hình sai trong tuần đầu
- Chi phí vận hành — Cloud VPS free tier + LLM subscription = chi phí cực thấp cho toàn bộ hạ tầng AI
Agent không thay thế judgment. Nó giỏi execute, monitor, và alert — nhưng quyết định chiến lược, đánh giá rủi ro kinh doanh, và quan hệ khách hàng vẫn cần con người. Tôi dùng nó như "CTO ảo" thực thi — không phải "CEO ảo" ra quyết định.
Bài học rút ra
1. Bắt đầu với infrastructure, không phải flashy features
Nhiều người hào hứng dùng AI Agent để viết content, scrape data. Nhưng nếu Agent không stable, không có memory, không có monitoring — thì mọi thứ sẽ sập sau 1 tuần. Tôi đầu tư 70% thời gian đầu vào infra: server hardening, key rotation, health check workflow.
2. Skills nhỏ, composable
Đừng tạo 1 "super skill" làm tất cả. 10+ skills nhỏ tổ hợp linh hoạt hơn 3 skills lớn. Agent tự biết khi nào kết hợp cái gì.
3. Workflows chính là version-controlled SOPs
Mỗi workflow là một file Markdown mô tả quy trình. Git track mọi thay đổi. Nếu Agent thực hiện sai, tôi đọc workflow để debug — không phải đoán.
4. Memory 3 tầng là bắt buộc
Long-term (MEMORY.md) + Working (conversation logs) + Project-level (knowledge items) — thiếu bất kỳ tầng nào, Agent sẽ hoặc quên quá nhiều, hoặc tốn token quá nhiều.
Áp dụng cho doanh nghiệp của bạn
Kiến trúc này không chỉ dành cho "tech founder". Bất kỳ doanh nghiệp nào có:
- Nhiều hệ thống cần monitor (ERP, CRM, website, email)
- Quy trình lặp đi lặp lại hàng ngày (báo cáo, data entry, follow-up)
- Nhu cầu compliance (Luật AI, ISO, xuất khẩu)
- Ngân sách hạn chế để thuê đội ngũ DevOps/Marketing
...đều có thể áp dụng mô hình tương tự. Sự khác biệt nằm ở skills và workflows — thay vì kỹ năng DevOps, bạn tạo kỹ năng "Theo dõi đơn hàng", "Phân tích review khách hàng", "Cập nhật inventory".
Bài viết liên quan
- AI Agent Trong Doanh Nghiệp: Xu Hướng Tự Động Hóa Không Thể Bỏ Qua 2026
- Blockchain Truy Xuất Nguồn Gốc: Từ Quy Định Đến Triển Khai Thực Tế
- Luật AI Việt Nam: 5 Điều Doanh Nghiệp Cần Làm Ngay Trước Hạn 03/2027
Muốn xây dựng AI Agent cho doanh nghiệp?
HimiTek setup hệ thống AI Agent từ A-Z: hạ tầng, skills, workflows, training — cùng đảm bảo tuân thủ Luật AI từ ngày đầu.
Đặt lịch tư vấn miễn phí →