KHUYẾN MÃISự trở lại World Cup – Tặng thêm 20% credits cho tất cả gói Pro đến hết 31/07/2026
Nâng cấp

🔒 Dữ liệu bản miễn phí có thể được dùng để cải thiện AI. Nâng cấp Pro để bảo mật tuyệt đối

Hướng dẫn Azure TTS SSML: Emotion, Style & Ví dụ

Hướng dẫn Azure TTS SSML: Emotion, Style & Ví dụ

2026-04-17 21:04 | 12 phút đọc | 96 lượt xem | Tác giả: Nguyễn Thái (Kỹ sư phần mềm)

Khi bạn cần giọng nói có cảm xúc – Azure SSML là lựa chọn tốt hơn

Nếu Google SSML giúp bạn kiểm soát nhịp đọc và độ rõ ràng, thì Azure SSML đi xa hơn bằng cách cho phép điều khiển cảm xúc và phong cách nói.

Với Azure Text-to-Speech, bạn có thể tạo:

  1. giọng thì thầm (whispering)
  2. giọng vui vẻ (cheerful)
  3. giọng buồn (sad)
  4. giọng tức giận (angry)
  5. giọng chăm sóc khách hàng
  6. giọng bản tin (newscast)

Điều này đặc biệt quan trọng khi bạn làm:

  1. voiceover YouTube
  2. storytelling / kể chuyện
  3. hội thoại nhiều nhân vật
  4. video marketing
  5. AI voice acting


Azure TTS SSML là gì?

Azure TTS SSML là phiên bản mở rộng của SSML tiêu chuẩn, sử dụng thêm các thẻ riêng của Microsoft (mstts) để điều khiển giọng nói sâu hơn.

Thay vì chỉ điều chỉnh nhịp đọc như Google, Azure cho phép bạn:

  1. điều chỉnh style (cảm xúc)
  2. điều chỉnh styledegree (cường độ cảm xúc)
  3. chọn role (vai nhân vật)

👉 Điều này giúp giọng nói nghe giống người thật hơn rất nhiều.


Điểm mạnh lớn nhất của Azure: Emotion & Style

Thẻ quan trọng nhất trong Azure SSML là:

<mstts:express-as>

Ví dụ:


<mstts:express-as style="cheerful" styledegree="1.2">
Xin chào mọi người. Hôm nay chúng ta sẽ demo nhanh.
</mstts:express-as>

Bạn có thể tạo nhiều kiểu cảm xúc khác nhau:

1. Giọng thì thầm


<mstts:express-as style="whispering">
Đây là một bí mật.
</mstts:express-as>

2. Giọng buồn


<mstts:express-as style="sad">
Tôi không nghĩ mọi chuyện lại như vậy.
</mstts:express-as>

3. Giọng tức giận


<mstts:express-as style="angry">
Tại sao bạn lại làm vậy?
</mstts:express-as>

👉 Đây là thứ mà Google TTS gần như không hỗ trợ trực tiếp.


Nhưng Azure cũng có điểm yếu

Dù rất mạnh về cảm xúc, Azure vẫn có một số hạn chế:

  1. Không phải voice nào cũng hỗ trợ style
  2. Phần lớn emotion chỉ hoạt động tốt với giọng tiếng Anh
  3. Một số ngôn ngữ (như tiếng Việt) có hỗ trợ hạn chế

👉 Nghĩa là Azure mạnh nhưng không “phổ cập” như Google.


Google vs Azure – nên dùng khi nào?

Dùng Azure khi:

  1. cần giọng có cảm xúc
  2. làm storytelling / video cảm xúc
  3. cần giọng giống người thật

Dùng Google khi:

  1. cần nhiều ngôn ngữ
  2. cần độ ổn định cao
  3. không cần emotion phức tạp

👉 Best practice thực tế:

  1. Google → nội dung thông thường
  2. Azure → đoạn quan trọng, cần cảm xúc


Azure SSML Editor trên TTSForFree hoạt động như thế nào

Trang Azure TTS Forge được thiết kế theo hướng SSML-first, giúp bạn test nhanh và dễ hơn.


1. Chỉ cần viết inner SSML

Bạn không cần viết <speak> hoặc <voice>

👉 Hệ thống sẽ tự:

  1. thêm <speak>
  2. thêm namespace mstts
  3. thêm <voice> theo giọng bạn chọn


2. Toolbar hỗ trợ nhanh

Bạn có thể chèn nhanh:

  1. <mstts:express-as>
  2. <mstts:silence>
  3. <prosody>
  4. <phoneme>

→ giúp workflow nhanh hơn rất nhiều


3. Preset có sẵn

Ví dụ:

Giọng vui:


<mstts:express-as style="cheerful" styledegree="1.2">
Xin chào mọi người.
</mstts:express-as>

Giọng chăm sóc khách hàng:


<mstts:express-as style="customerservice">
Xin chào. Tôi có thể hỗ trợ gì cho bạn hôm nay?
</mstts:express-as>

Giọng bản tin:


<mstts:express-as style="newscast">
Đây là bản tin sáng nay.
</mstts:express-as>


Các thẻ quan trọng trong Azure SSML

1. <mstts:express-as> – cảm xúc

  1. thẻ quan trọng nhất
  2. điều chỉnh tone giọng

2. <mstts:silence> – khoảng lặng nâng cao


<mstts:silence type="Sentenceboundary" value="200ms"/>

👉 chính xác hơn <break> của Google

3. <prosody> – tốc độ & cao độ


<prosody rate="-10%" pitch="+1st">
Xin chào mọi người
</prosody>

4. <say-as> – đọc đúng format


<say-as interpret-as="date" format="dmy">18/03/2026</say-as>

5. <sub> – alias


<sub alias="Azure Speech">Azure TTS</sub>

6. <phoneme> – phát âm


<phoneme alphabet="ipa" ph="təˈmeɪtoʊ">tomato</phoneme>


Workflow chuẩn khi dùng Azure SSML

  1. Viết script
  2. Thêm <mstts:express-as> trước
  3. Test từng style
  4. Điều chỉnh styledegree
  5. Thêm prosody nếu cần
  6. So sánh output

👉 Tip quan trọng:

Không thay đổi nhiều thứ cùng lúc, sẽ khó biết cái nào cải thiện.


Những lỗi phổ biến

  1. dùng voice không hỗ trợ style
  2. lạm dụng emotion → nghe giả
  3. mix quá nhiều style trong một đoạn
  4. không test từng bước
  5. dùng Azure cho nội dung đa ngôn ngữ


Khi nào nên dùng Azure SSML?

Azure phù hợp nhất khi bạn làm:

  1. storytelling
  2. video cảm xúc
  3. AI voice acting
  4. intro YouTube
  5. script marketing


TTS Forge Azure giúp gì?

Trang Azure riêng giúp bạn:

  1. test nhanh emotion
  2. không cần viết full SSML
  3. không bị lẫn Google / provider khác
  4. giữ workflow giống Text-to-Speech


Kết luận

Azure TTS SSML là một trong những công cụ mạnh nhất hiện tại nếu bạn cần:

  1. giọng có cảm xúc
  2. voice acting
  3. storytelling

Nhưng nó không phải lựa chọn tốt nhất cho mọi trường hợp.

👉 Tóm lại:

  1. Azure → mạnh về cảm xúc (whisper, sad, angry)
  2. Google → mạnh về đa ngôn ngữ

👉 Nếu dùng đúng cách, kết hợp cả hai sẽ cho kết quả tốt nhất.

Frequently Asked Questions

Q: Azure TTS SSML là gì?

A: Azure TTS SSML là phiên bản mở rộng của SSML cho phép bạn điều khiển cảm xúc, phong cách và cách giọng nói được thể hiện thông qua các thẻ mstts của Microsoft.

Q: Azure SSML khác gì so với Google SSML?

A: Azure SSML hỗ trợ cảm xúc như thì thầm, buồn, tức giận, trong khi Google SSML chủ yếu tập trung vào nhịp đọc và độ rõ ràng mà không có emotion trực tiếp.

Q: Có phải tất cả giọng Azure đều hỗ trợ emotion không?

A: Không. Chỉ một số neural voice hỗ trợ style và emotion, và đa phần tập trung ở các giọng tiếng Anh.

Q: Thẻ mstts:express-as dùng để làm gì?

A: Thẻ mstts:express-as dùng để điều chỉnh cảm xúc, phong cách và cường độ giọng nói trong Azure Text-to-Speech.

Q: Có thể dùng Azure SSML để làm voiceover YouTube không?

A: Có. Azure SSML rất phù hợp cho intro YouTube, storytelling và các video cần giọng đọc có cảm xúc để tăng trải nghiệm người nghe.

Q: Có cần viết đầy đủ thẻ speak và voice không?

A: Không. Trên trang Azure TTS Forge, bạn chỉ cần nhập inner SSML, hệ thống sẽ tự động thêm speak và voice wrapper.

Q: Khi nào nên dùng Azure thay vì Google TTS?

A: Nên dùng Azure khi cần giọng có cảm xúc. Nên dùng Google khi cần hỗ trợ nhiều ngôn ngữ và độ ổn định cao hơn.

Q: Azure SSML có hỗ trợ phát âm và thời gian không?

A: Có. Azure hỗ trợ các thẻ chuẩn như phoneme, say-as, prosody cùng với các thẻ mstts để kiểm soát nâng cao hơn.

Was this article helpful?

Latest from Our Blog

Không có bài viết nào