Khi xây dựng Summarize — công cụ tóm tắt văn bản thứ 9 trong bộ Craft — chúng tôi cần trả lời một câu hỏi: engine nào thực sự hoạt động tốt cho cả tiếng Anh và tiếng Việt?
Thay vì tin vào benchmark trên giấy (ROUGE score), chúng tôi test thực tế với 4 bài báo dài: 2 tiếng Anh (quy định AI, năng lượng hạt nhân) và 2 tiếng Việt (kinh tế VN, bán dẫn VN). Dưới đây là kết quả thực tế — điểm mạnh và hạn chế của từng engine.
5 engine được thử nghiệm
| Engine | Loại | Kích thước | Chi phí |
|---|---|---|---|
| DeepSeek V4 Flash | API (AI) | 0 (cloud) | $0.27/1000 lần |
| DistilBART-6-6 | ONNX local | 284 MB | Miễn phí |
| ViT5-base | ONNX local | 900 MB | Miễn phí |
| mT5-small | ONNX local | 300 MB | Miễn phí |
| TextRank | Pure JS | 0 | Miễn phí |
Tốc độ
| Engine | Tiếng Anh | Tiếng Việt | Ghi chú |
|---|---|---|---|
| TextRank | 1ms | 1ms | Trích xuất, không AI |
| mT5-small | 166ms | 155ms | Nhanh, cần fine-tune |
| ViT5-base | — | 470ms | Chỉ tiếng Việt |
| DistilBART-6-6 | 870ms | — | Chỉ tiếng Anh |
| DeepSeek V4 Flash | 17.6s | 7.2s | Qua API, phụ thuộc mạng |
Chất lượng — kết quả thực tế
Tiếng Việt: Kinh tế Việt Nam 2026
DeepSeek V4 Flash ✅ TỐT NHẤT
• GDP nửa đầu 2026 tăng 7,2%, vượt mục tiêu.
• Xuất khẩu đạt 210 tỷ USD; điện tử, bán dẫn đóng góp 45 tỷ USD (+28%).
• FDI đạt 18,5 tỷ USD; Samsung, Intel, NVIDIA mở rộng đầu tư.
• Lạm phát 4,5%; BĐS giảm 10-15%; VND mất 3%.
• Mục tiêu cả năm: tăng trưởng 7,5-8%.
ViT5-base ⚠️ NỘI DUNG NGOÀI NGUỒN
0-7, Cục trưởng Cục Phát triển Nam Bộ ( Bộ Công thương ) Nguyễn Văn Đức cho biết, tăng trưởng kinh tế có những diễn biến tích cực...
⚠️ "Cục trưởng Nguyễn Văn Đức" không có trong bài gốc — model tạo thêm nội dung ngoài nguồn. Đây là hạn chế chung của các model nhỏ khi xử lý tiếng Việt, và VietAI đang tiếp tục cải thiện.
mT5-small ⚠️ CẦN FINE-TUNE
<extra_id_0> lớn. /.. /... /......
mT5-small là model gốc chưa được fine-tune cho tóm tắt — cần thêm bước huấn luyện chuyên biệt để phát huy tiềm năng.
Tiếng Anh: AI Regulation 2026
DeepSeek V4 Flash ✅ TỐT NHẤT
• EU AI Act bans unacceptable-risk AI; high-risk needs conformity assessments; fines up to €35M / 7% turnover
• Compliance costs $50-100M per major tech company; startup consolidation wave
• Transatlantic divide: US voluntary, China own framework
• OECD proposes mutual recognition; early-stage negotiations
DistilBART-6-6 ✅ TỐT
The European Union's Artificial Intelligence Act took full effect in February 2026. The regulation establishes a risk-based framework that classifies AI applications into four tiers. Companies face fines of up to 35 million euros or 7 percent of global annual turnover.
mT5-small ⚠️ CẦN FINE-TUNE
<extra_id_0> to the Artificial Intelligence Act. Artificial Intelligence.com/.
Bảng xếp hạng chất lượng
| Engine | Tiếng Anh | Tiếng Việt | Kết luận |
|---|---|---|---|
| DeepSeek V4 Flash | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Tốt nhất cả hai ngôn ngữ |
| DistilBART-6-6 | ⭐⭐⭐⭐ | — (Chỉ EN) | Tốt cho English offline |
| TextRank | ⭐⭐⭐ | ⭐⭐⭐ | Fallback nhanh, mọi ngôn ngữ |
| ViT5-base | — (Chỉ VI) | ⭐⭐ | Tiềm năng, cần cải thiện |
| mT5-small | ⭐ | ⭐ | Cần fine-tune chuyên biệt |
Chi phí
DeepSeek V4 Flash chỉ tốn ~$10/năm nếu chạy 100 lần tóm tắt/ngày. Các engine local hoàn toàn miễn phí nhưng chất lượng kém hơn đáng kể.
Kết luận
Chuỗi engine tự động: DeepSeek → DistilBART → TextRank
- DeepSeek V4 Flash — mặc định khi có internet. Tốt nhất cho cả VI+EN.
- DistilBART-6-6 — fallback offline cho tiếng Anh, ~1 giây.
- TextRank — fallback nhanh nhất cho mọi ngôn ngữ khi cả hai không khả dụng.
ViT5-base và mT5-small vẫn có thể chọn thủ công — chúng có tiềm năng và sẽ tốt hơn khi được fine-tune chuyên biệt trong tương lai.