🔒 Dữ liệu bản miễn phí có thể được dùng để cải thiện AI. Nâng cấp Pro để bảo mật tuyệt đối

Thêm Gemini TTS vào app và lỗ ngay trong 24 giờ – bài học xương máu về AI billing

Thêm Gemini TTS vào app và lỗ ngay trong 24 giờ – bài học xương máu về AI billing

2026-02-02 13:00 | 8 phút đọc | 183 lượt xem | Tác giả: Nguyễn Thái (Kỹ sư phần mềm)

Thêm Gemini TTS vào app và lỗ ngay trong 24 giờ 🤡

(Một bài học nhỏ nhưng khá đau về AI billing)


Trước đó, app TTS nhỏ của mình vẫn chạy khá ổn.

Không đông khách, nhưng vẫn có vài người trả tiền, mỗi ngày thu được chút đỉnh, gọi là có lời.

Rồi mình nghĩ:

“Hay là thêm Gemini TTS vô cho xịn hơn?”

Và… đó là lúc mọi thứ bắt đầu sai.


Bối cảnh ngắn gọn

App của mình là một web TTS đơn giản:

  1. đọc tài liệu
  2. đọc giáo trình
  3. user paste text → nghe audio

Ban đầu mình dùng:

  1. OpenAI TTS
  2. Azure TTS
  3. Google Cloud TTS

Điểm chung của mấy ông này là:

  1. tính tiền theo số ký tự
  2. rất dễ estimate chi phí
  3. retry hay lỗi cũng không quá nguy hiểm

App tuy đơn giản, nhưng vẫn bán được vài người. Không nhiều, nhưng không lỗ.


Và rồi Gemini xuất hiện…

Gemini TTS thật sự rất xịn:

  1. giọng đọc có hồn
  2. pause đúng chỗ
  3. đọc tiếng Anh – tiếng Việt rất tự nhiên

Nghe demo là thấy wow liền.

Thế là mình thêm Gemini TTS vào production.


Chuyện gì đã xảy ra?

Chỉ sau 1 ngày:

  1. Doanh thu: ~200.000 VNĐ
  2. Chi phí Gemini TTS: hơn 400.000 VNĐ

👉 Lỗ ngay.

Điều khó chịu nhất là:

  1. user không tăng
  2. số request không nhiều
  3. dashboard nhìn cũng không có gì bất thường

Nhưng billing thì… 💀


Vấn đề không phải Gemini đắt

Vấn đề là không estimate được chi phí

Sau khi ngồi mổ xẻ lại, mình mới hiểu:


1. Gemini TTS không tính tiền theo ký tự

Nó tính theo:

  1. thời lượng audio
  2. pause / silence
  3. prosody (nhấn giọng)
  4. retry / reconnect

👉 1 đoạn text đọc chậm, có pause = audio dài hơn rất nhiều.


2. Dashboard ≠ Billing

Dashboard chủ yếu cho bạn thấy:

  1. request
  2. input tokens

Nhưng thứ ăn tiền nhất là:

  1. audio output tokens
  2. → cái này không hiển thị rõ


3. Retry không phải lúc nào cũng hiện là “retry”

  1. mất kết nối
  2. stream fail
  3. render lại audio

👉 Billing vẫn tính lại,

nhưng dashboard không nói rõ là “retry”.


So sánh nhanh cho dễ hiểu

OpenAI / Azure / Google TTS

  1. tính theo ký tự
  2. 1.000 ký tự ≈ X đồng
  3. estimate trước được
  4. rất phù hợp làm SaaS

Gemini TTS

  1. tính theo giây audio
  2. không biết trước audio dài bao nhiêu
  3. pause cũng tính tiền
  4. rất khó kiểm soát chi phí

👉 Demo thì cực xịn

👉 Production thì rất nguy hiểm


Điều buồn cười nhất

Trước khi thêm Gemini:

  1. app đơn giản
  2. ít feature
  3. vẫn bán được

Vừa thêm Gemini:

  1. chưa kịp kiếm thêm user
  2. lỗ ngay

Cảm giác đúng kiểu:

“Thêm tính năng cho xịn… xong tự bắn vào chân.” 😅


Bài học rút ra

Sau vụ này, mình rút được mấy điều:

  1. Tool xịn ≠ tool phù hợp
  2. Với SaaS nhỏ, predictable cost quan trọng hơn wow factor
  3. Billing model quan trọng không kém gì model AI
  4. Feature mới không có nghĩa là doanh thu mới


Kết

Mình lỗ hơn 400k, nhưng may là:

  1. user còn ít
  2. phát hiện sớm
  3. chưa scale

Nếu chuyện này xảy ra lúc traffic lớn hơn,

có khi bay vài triệu trong một ngày.

Giờ thì mình đã:

  1. gỡ Gemini TTS khỏi production
  2. quay lại dùng OpenAI / Azure / Google
  3. giới hạn số ký tự mỗi lần đọc
  4. chi phí ổn định trở lại
Gemini rất xịn,
nhưng đúng là một con dao hai lưỡi.
Và với app của mình, mình chọn… cất dao.

Frequently Asked Questions

Q: Vì sao thêm Gemini TTS vào app lại khiến chi phí tăng đột biến?

A: Vì Gemini TTS không tính phí theo số ký tự văn bản mà tính theo thời lượng audio đầu ra. Các yếu tố như pause, silence, prosody và retry đều làm audio dài hơn, dẫn đến số token bị tính phí cao hơn dự kiến.

Q: Gemini TTS có đắt hơn OpenAI, Azure hay Google Cloud TTS không?

A: Không hẳn là đắt hơn về đơn giá, nhưng Gemini TTS rất khó dự đoán chi phí vì billing dựa trên audio token thay vì ký tự. Điều này khiến chi phí thực tế trong production dễ vượt xa ước tính ban đầu.

Q: Vì sao dashboard Gemini không phản ánh đúng chi phí billing?

A: Dashboard chủ yếu hiển thị số request và input tokens, trong khi phần chi phí lớn nhất lại đến từ audio output tokens. Thông tin này không được hiển thị rõ ràng nên dễ gây hiểu nhầm rằng chi phí đang ở mức an toàn.

Q: Retry có ảnh hưởng gì đến chi phí Gemini TTS?

A: Có. Khi xảy ra lỗi như mất kết nối, stream fail hoặc render lại audio, Gemini vẫn có thể tính phí cho lần xử lý đó. Retry nhiều lần sẽ khiến chi phí bị nhân lên dù số request nhìn không quá cao.

Q: Gemini TTS có phù hợp để dùng cho SaaS nhỏ hoặc app public không?

A: Gemini TTS phù hợp cho demo, showcase hoặc use case nội bộ. Với SaaS nhỏ hoặc app public, nơi cần kiểm soát chi phí chặt chẽ, Gemini TTS tiềm ẩn rủi ro cao do chi phí khó dự đoán.

Q: So với Gemini TTS, OpenAI, Azure và Google Cloud TTS có ưu điểm gì?

A: OpenAI, Azure và Google Cloud TTS tính phí theo số ký tự, cho phép estimate chi phí trước khi chạy. Điều này giúp SaaS nhỏ kiểm soát margin tốt hơn và tránh các cú sốc billing.

Q: Có nên dùng Gemini TTS cho nội dung dài như tài liệu hay giáo trình không?

A: Không nên. Nội dung dài khiến thời lượng audio tăng mạnh, kéo theo chi phí cao và khó kiểm soát. Các TTS tính theo ký tự sẽ phù hợp hơn cho các use case này.

Q: Bài học lớn nhất rút ra khi dùng Gemini TTS trong production là gì?

A: Tool xịn không đồng nghĩa với tool phù hợp. Với SaaS nhỏ, predictable cost quan trọng hơn wow factor, và billing model quan trọng không kém gì chất lượng model AI.

Q: Sau khi gỡ Gemini TTS, giải pháp thay thế là gì?

A: Quay lại sử dụng OpenAI TTS, Azure TTS hoặc Google Cloud TTS, đồng thời giới hạn số ký tự mỗi lần đọc để kiểm soát chi phí và đảm bảo hệ thống vận hành ổn định.

Was this article helpful?

Latest from Our Blog

Không có bài viết nào