AI chạy local vừa rẻ hơn cloud — toán cho SME Việt

Tuần này có một cột mốc thầm lặng nhưng đáng để các founder Việt dừng lại 5 phút đọc kỹ: một mô hình AI 35 tỷ tham số (Qwen 3.5) hiện chạy được 40+ token/giây trên một card đồ hoạ giá 300 đô — tức RTX 5060 Ti, loại GPU tầm "tay chơi" chứ không phải máy chủ doanh nghiệp.

Nghe có vẻ chuyện công nghệ xa xôi. Nhưng đối với SME Việt đang trả 50–200 đô mỗi tháng cho OpenAI hoặc Anthropic API, cột mốc này đổi luôn bài toán đầu tư AI.

Cột mốc đáng chú ý

6 tháng trước, để chạy mô hình kích thước này tại chỗ (local) bạn cần GPU server vài chục nghìn đô. Hôm nay, chỉ cần một bo máy phổ thông và một card 300 đô. Lý do: thế hệ mô hình "Mixture of Experts" mới chỉ kích hoạt một phần tham số mỗi lần inference — tức compute thật sự cần thiết nhỏ hơn nhiều so với con số 35 tỷ tham số trên giấy.

Ý nghĩa là: tốc độ 40+ token/giây đã vượt qua ngưỡng "cảm thấy nhanh" với người dùng. Người đọc trung bình xử lý ~4 token/giây. Tức:

Hội thoại với AI cảm giác như nhắn tin với người thật
Code autocomplete real-time, không có cảm giác lag
Xử lý văn bản hàng loạt — chạy qua đêm là sáng có kết quả

Đây là điểm mà cloud API không còn "rõ ràng tốt hơn" cho phần lớn use case.

Toán thực tế cho founder Việt

Giả sử bạn đang chạy 1 nhân viên AI (chatbot CSKH, tự động hoá inbox, hoặc viết content) — workload tầm 1.000 lượt gọi API mỗi ngày.

	Cloud API	Local AI (RTX 5060 Ti)
Chi phí ban đầu	0đ	~7,5tr (GPU) + ~7tr (PC)
Phí hàng tháng	~2,5–7,5tr	~150k điện
Break-even	—	2–4 tháng
Sau break-even	Vẫn trả tiền mỗi tháng	Inference miễn phí mãi mãi

Sau 12 tháng, lựa chọn local rẻ hơn cloud từ 20–60 triệu cho một workload cỡ trung. Với đội 5 nhân viên AI thì chênh lệch này nhân lên gấp 5.

Caveat quan trọng: local AI chỉ thắng ở use case ổn định, predictable. Nếu workload spike đột ngột (ví dụ campaign marketing đẩy traffic gấp 10), cloud API đàn hồi tốt hơn vì bạn không phải mua thêm máy.

Tại OpenClo bên em chọn cách thứ ba

Khi tư vấn cho khách hàng SME, bên em không recommend "chỉ cloud" hay "chỉ local". Đó là lý do trang thuê nhân viên AI có 3 lựa chọn văn phòng:

Văn phòng chia sẻ (miễn phí, ≤ 2 nhân viên AI) — thử nhanh, không cam kết
Máy chủ ảo / VPS (~600k/tháng/gói) — co giãn linh hoạt, dùng khi workload biến động hoặc đội đang scale
Máy thật tại công ty (~15tr mua một lần, chạy được tới 3 gói sức mạnh) — đầu tư một lần, dữ liệu nằm trong văn phòng, sau 6–12 tháng là hoàn vốn so với VPS

Khách thường bắt đầu ở văn phòng chia sẻ để test, lên VPS khi đội đông hơn 2 nhân viên AI, rồi cuối cùng chuyển sang máy thật khi đã chắc chắn về use case dài hạn. Lúc đó, math ở phần trên trở nên rất rõ ràng.

Một mảng cần để ý: chip war Mỹ–Trung

Tin liên quan tuần này: DeepSeek vừa mở quyền truy cập sớm V4 cho Huawei trong khi tạm chặn Nvidia và AMD. Nếu xu hướng này tiếp tục, các phòng lab AI Trung Quốc sẽ tối ưu cho chip Trung Quốc, phòng lab phương Tây tối ưu cho Nvidia.

Hệ quả với SME Việt: chất lượng mô hình local có thể bắt đầu phân hoá theo phần cứng bạn sở hữu. Ngắn hạn không ảnh hưởng (cả hai bên đều phát hành mô hình open-source mạnh). Trung hạn thì khi mua máy mới (2026–2027), nên cân nhắc cả nguồn mô hình bạn định dùng.

Khuyến nghị thực tế

Đang đốt > 3 triệu/tháng tiền API: xem nghiêm túc phương án "máy thật tại VP". Break-even nằm trong 6 tháng.
< 1 triệu/tháng tiền API: ở lại cloud / VPS, chưa cần đầu tư máy.
Chưa biết workload: chọn văn phòng chia sẻ miễn phí của OpenClo, chạy 2–4 tuần để có dữ liệu thật trước khi quyết định.

Câu hỏi cho founder: bạn đang đốt bao nhiêu/tháng cho cloud AI? Và đó có phải khoản chi phí cố định bạn sẵn sàng trả 5 năm tới?

AI chạy local vừa rẻ hơn cloud — và đây là toán cho SME Việt

Cột mốc đáng chú ý

Toán thực tế cho founder Việt

Tại OpenClo bên em chọn cách thứ ba

Một mảng cần để ý: chip war Mỹ–Trung

Khuyến nghị thực tế

Bạn muốn tính chi phí cụ thể cho doanh nghiệp mình?

Nguồn tham khảo

Bài viết liên quan