Công cụ tóm tắt AI nào tốt nhất cho tiếng Việt?

Trong benchmark của chúng tôi, DeepSeek V4 Flash là lựa chọn duy nhất tạo bản tóm tắt tiếng Việt chính xác và đáng tin. ViT5-base bịa đặt thông tin còn mT5-small trả về token hỏng, nên cả hai đều không phù hợp cho mục đích sản xuất.

ViT5 có dùng được để tóm tắt không?

Trong test của chúng tôi, ViT5-base đã bịa ra một quan chức chính phủ không có thật trong bài gốc. Đây là lỗi hallucination nghiêm trọng. Chúng tôi không khuyến nghị dùng ViT5-base cho tóm tắt sản xuất nếu chưa được fine-tune kỹ và kiểm chứng lại.

Chi phí tóm tắt AI là bao nhiêu?

DeepSeek V4 Flash tốn khoảng $0.27 cho 1000 lần gọi, tức ~$10/năm nếu tóm tắt 100 lần mỗi ngày (benchmark nội bộ ERPFit). Các engine local như DistilBART và TextRank hoàn toàn miễn phí nhưng chỉ phù hợp với tiếng Anh hoặc làm fallback.

Vì sao không dùng điểm ROUGE để đánh giá?

ROUGE đo độ trùng n-gram nhưng không phát hiện được bịa đặt. Output ViT5 đạt ROUGE-1 khoảng 0,31 — nghe ổn — nhưng lại chứa một quan chức không có thật. Một bản tóm tắt sai sự thật còn tệ hơn không có, nên chúng tôi chấm thủ công đối chiếu từng câu với nguồn.

Tôi thử công cụ tóm tắt ở đâu?

Bạn có thể dùng thử miễn phí tại summarize.erpfit.com. Công cụ tự động chọn engine tốt nhất (DeepSeek khi online, DistilBART hoặc TextRank khi offline). Xem thêm cả bộ công cụ tại trang Craft.

Benchmark 5 công cụ tóm tắt AI: kết quả thực tế

Khi xây dựng Summarize — công cụ tóm tắt văn bản thứ 9 trong bộ Craft — chúng tôi cần trả lời một câu hỏi: engine nào thực sự hoạt động tốt cho cả tiếng Anh và tiếng Việt?

Thay vì tin vào điểm số trên giấy, chúng tôi test thực tế với 4 bài báo dài. Kết luận thẳng thắn: DeepSeek thắng tuyệt đối, còn ViT5 và mT5 lỗi nặng trên tiếng Việt — một model bịa ra quan chức không có thật, một model trả về token hỏng. Đây không phải "tiềm năng cần cải thiện", mà là lỗi thật. Theo nguyên tắc benchmark trung thực của chúng tôi, thất bại phải được gọi đúng tên.

5 engine được thử nghiệm

Engine	Loại	Kích thước	Chi phí
DeepSeek V4 Flash	API (AI)	0 (cloud)	$0.27/1000 lần
DistilBART-6-6	ONNX local	284 MB	Miễn phí
ViT5-base (VietAI)	ONNX local	900 MB	Miễn phí
mT5-small	ONNX local	300 MB	Miễn phí
TextRank	Pure JS	0	Miễn phí

Phương pháp thử nghiệm

Chúng tôi dùng 4 bài báo dài thật, mỗi bài 800-1.200 từ: 2 tiếng Anh (quy định EU AI Act, năng lượng nhiệt hạch) và 2 tiếng Việt (kinh tế Việt Nam 2026, ngành bán dẫn Việt Nam). Mỗi engine xử lý cùng một input, không chỉnh sửa prompt riêng.

Tốc độ đo trên máy dev (Apple M-series, Vulkan qua MoltenVK) với engine local chạy ONNX Runtime, lấy trung bình 3 lần chạy sau khi warm-up (benchmark nội bộ ERPFit). DeepSeek đo end-to-end qua API nên phụ thuộc mạng. Chất lượng được chấm thủ công bằng cách đối chiếu từng câu output với bài gốc để phát hiện bịa đặt và token hỏng.

Vì sao bỏ qua ROUGE?

ROUGE đo độ trùng lặp n-gram giữa output và bản tóm tắt tham chiếu. Vấn đề: nó không phát hiện được bịa đặt. Output ViT5 dưới đây đạt ROUGE-1 khoảng 0,31 — nghe có vẻ ổn — nhưng lại chứa một quan chức không có thật. Một điểm số "trung bình" che giấu một lỗi nghiêm trọng. Với người dùng cuối, một bản tóm tắt sai sự thật còn tệ hơn không có tóm tắt.

Tốc độ

Engine	Tiếng Anh	Tiếng Việt	Ghi chú
TextRank	1ms	1ms	Trích xuất, không AI
mT5-small	166ms	155ms	Nhanh nhưng output hỏng
ViT5-base	—	470ms	Chỉ tiếng Việt
DistilBART-6-6	870ms	—	Chỉ tiếng Anh
DeepSeek V4 Flash	17.6s	7.2s	Qua API, phụ thuộc mạng

Tốc độ là benchmark nội bộ ERPFit. Lưu ý: tốc độ vô nghĩa nếu output sai. mT5 nhanh nhất trong nhóm AI nhưng trả về rác.

Chất lượng — kết quả thực tế

Tiếng Việt: Kinh tế Việt Nam 2026

DeepSeek V4 Flash ✅ TỐT NHẤT

• GDP nửa đầu 2026 tăng 7,2%, vượt mục tiêu.
• Xuất khẩu đạt 210 tỷ USD; điện tử, bán dẫn đóng góp 45 tỷ USD (+28%).
• FDI đạt 18,5 tỷ USD; Samsung, Intel, NVIDIA mở rộng đầu tư.
• Lạm phát 4,5%; BĐS giảm 10-15%; VND mất 3%.
• Mục tiêu cả năm: tăng trưởng 7,5-8%.

ViT5-base ❌ BỊA ĐẶT (HALLUCINATION)

0-7, Cục trưởng Cục Phát triển Nam Bộ ( Bộ Công thương ) Nguyễn Văn Đức cho biết, tăng trưởng kinh tế có những diễn biến tích cực...

❌ "Cục trưởng Nguyễn Văn Đức" không hề tồn tại trong bài gốc. Model đã bịa ra một quan chức chính phủ có tên, có chức danh, có cơ quan — toàn bộ là sai sự thật. Đây là lỗi bịa đặt (hallucination), loại lỗi nguy hiểm nhất với công cụ tóm tắt, vì nó tạo ra thông tin giả nghe rất thuyết phục. Với tiếng Việt, ViT5-base không đáng tin cho mục đích sản xuất.

mT5-small ❌ OUTPUT HỎNG

<extra_id_0> lớn. /.. /... /......

❌ Đây không phải bản tóm tắt. mT5-small trả về token sentinel <extra_id_0> còn sót từ giai đoạn pre-training cùng các dấu chấm vô nghĩa. Output này hoàn toàn không dùng được — model thất bại ở tác vụ tóm tắt tiếng Việt.

Tiếng Việt: Ngành bán dẫn Việt Nam

Kết quả lặp lại y hệt: DeepSeek tạo bản tóm tắt mạch lạc về chuỗi cung ứng và đầu tư FDI vào bán dẫn. ViT5-base tiếp tục chèn cụm từ ngoài nguồn, còn mT5-small lại trả về chuỗi <extra_id_0> hỏng. Không phải sự cố ngẫu nhiên — đây là lỗi có hệ thống của hai model nhỏ trên tiếng Việt.

Tiếng Anh: AI Regulation 2026

DeepSeek V4 Flash ✅ TỐT NHẤT

• EU AI Act bans unacceptable-risk AI; high-risk needs conformity assessments; fines up to €35M / 7% turnover
• Compliance costs $50-100M per major tech company; startup consolidation wave
• Transatlantic divide: US voluntary, China own framework
• OECD proposes mutual recognition; early-stage negotiations

DistilBART-6-6 ✅ TỐT

The European Union's Artificial Intelligence Act took full effect in February 2026. The regulation establishes a risk-based framework that classifies AI applications into four tiers. Companies face fines of up to 35 million euros or 7 percent of global annual turnover.

mT5-small ❌ OUTPUT HỎNG

<extra_id_0> to the Artificial Intelligence Act. Artificial Intelligence.com/.

❌ Cùng lỗi như tiếng Việt: token sentinel rò rỉ và văn bản đứt gãy. mT5-small không dùng được cho tóm tắt ở cả hai ngôn ngữ.

Tiếng Anh: Năng lượng nhiệt hạch

DeepSeek và DistilBART đều xử lý tốt bài về tiến bộ năng lượng nhiệt hạch, tóm tắt được mốc thời gian thương mại hóa và các con số đầu tư. mT5-small lại tiếp tục rò rỉ token. TextRank trích đúng câu nhưng không cô đọng được ý.

Bảng xếp hạng chất lượng

Engine	Tiếng Anh	Tiếng Việt	Kết luận
DeepSeek V4 Flash	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Tốt nhất cả hai ngôn ngữ
DistilBART-6-6	⭐⭐⭐⭐	— (Chỉ EN)	Tốt cho English offline
TextRank	⭐⭐⭐	⭐⭐⭐	Fallback nhanh, mọi ngôn ngữ
ViT5-base	— (Chỉ VI)	⭐	Bịa đặt thông tin — không tin cậy
mT5-small	⭐	⭐	Output token hỏng — không dùng được

Chi phí

DeepSeek V4 Flash chỉ tốn ~$10/năm nếu chạy 100 lần tóm tắt/ngày, ở mức $0.27/1000 lần (benchmark nội bộ ERPFit). Các engine local hoàn toàn miễn phí, nhưng với tiếng Việt thì DeepSeek không chỉ tốt hơn — nó là lựa chọn duy nhất cho ra kết quả đáng tin. Chi tiết về cách chúng tôi tối ưu chi phí AI có trong bài tích hợp AI cho doanh nghiệp.

Kết luận

Chuỗi engine tự động: DeepSeek → DistilBART → TextRank

DeepSeek V4 Flash — mặc định khi có internet. Tốt nhất cho cả VI+EN.
DistilBART-6-6 — fallback offline cho tiếng Anh, ~1 giây.
TextRank — fallback nhanh nhất cho mọi ngôn ngữ khi cả hai không khả dụng.

Chúng tôi cố tình loại ViT5-base và mT5-small khỏi chuỗi tự động cho tiếng Việt. ViT5 bịa đặt thông tin và mT5 trả về token hỏng — cả hai đều quá rủi ro để dùng mặc định. Người dùng vẫn có thể chọn thủ công, nhưng chúng tôi sẽ không che giấu việc chúng đã thất bại trong test này.

Cách tiếp cận thẳng thắn này cũng được áp dụng trong các benchmark khác, ví dụ benchmark nén PDF.

→ Thử ngay tại summarize.erpfit.com