Chuyển văn bản thành giọng nói (TTS) là gì và nó hoạt động như thế nào?

Admin / August 1, 2022


Hãy tưởng tượng thế này: Vào dịp sinh nhật của mình, và bạn đã khao khát được chiêu đãi những người thân yêu của mình một chiếc bánh khoai lang nướng thơm ngon tại nhà. Bạn hoàn toàn không nhớ công thức, vì vậy bạn lấy điện thoại thông minh và truy cập blog nấu ăn yêu thích của mình. Ngay khi bạn truy cập vào bài đăng công thức, bạn sẽ thấy một trình phát âm thanh nhỏ ở đầu trang. Tò mò, bạn nhấp vào “Play”, sau đó một giọng nói mượt mà, nghe có vẻ tự nhiên bắt đầu đọc to công thức cho bạn. Tại thời điểm đó, bạn nhận ra rằng bạn có thể làm theo hướng dẫn bằng cách “lắng nghe” công thức thay vì phải liếc qua màn hình mỗi giây. Tất cả điều này có thể thực hiện được bằng cách sử dụng một công nghệ đơn giản nhưng mạnh mẽ được gọi là “Chuyển văn bản thành giọng nói”.

Text-to-Speech đã xuất hiện trong nhiều thập kỷ, nhưng chủ sở hữu trang web và các blogger chỉ mới bắt đầu nhận ra sức mạnh và giá trị to lớn của nó. Điều này liên quan rất nhiều đến thực tế là mọi người hiện đang lắng nghe nhiều hơn bao giờ hết và các nhà xuất bản cần có cách để đáp ứng hiệu quả nhu cầu và kỳ vọng ngày càng tăng của lượng người nghe. Nhưng làm thế nào để Text-to-Speech hoạt động ngay từ đầu? Nó là gì, thậm chí là gì? Chúng tôi rất vui vì bạn đã hỏi vì bài viết này giải thích điều đó và nhiều hơn nữa.

Chuyển văn bản thành giọng nói là gì?

Text-to-Speech , viết tắt là TTS, là một công nghệ chuyển đổi văn bản kỹ thuật số sang giọng nói giống như con người. Nó có thể lấy văn bản trên máy tính hoặc thiết bị kỹ thuật số khác và đọc to nó dưới dạng âm thanh tự nhiên chỉ bằng một lần bấm nút hoặc chạm ngón tay đơn giản.
Text-to-Speech đã trở nên phổ biến rộng rãi vì nó đơn giản và dễ tiếp cận. Nó tương thích với hầu hết (nếu không phải tất cả) thiết bị di động, bao gồm điện thoại thông minh, máy tính xách tay, máy tính để bàn và máy tính bảng, đồng thời có thể đọc tất cả các loại tệp văn bản, từ tài liệu Word và Trang đến các trang web trực tuyến.
Hơn nữa, nó có thể là một tính năng tiện lợi hoặc một công cụ hỗ trợ tiếp cận cho trẻ em và người lớn đang gặp khó khăn với thị lực kém, mù hoặc các vấn đề liên quan đến việc tập trung, học tập và đọc văn bản được in trên màn hình.

Văn bản thành giọng nói hoạt động như thế nào?


Giả sử bạn có một khối văn bản mà bạn muốn máy tính hoặc thiết bị di động của mình nói to. Làm thế nào nó biến những từ thành những từ mà bạn thực sự có thể nghe thấy? Bạn có tin hay không, chỉ có ba giai đoạn liên quan: chuyển văn bản thành từ, chuyển từ thành âm vị, và sau đó chuyển âm vị thành âm thanh.
Dưới đây là bảng phân tích chi tiết về những gì diễn ra trong từng giai đoạn:
Chuyển văn bản thành từ
Giai đoạn ban đầu của TTS thường được gọi là tiền xử lý hoặc chuẩn hóa. Nó liên quan đến việc chuẩn bị văn bản để máy tính có thể hiểu nó và ít mắc lỗi hơn khi đọc to các từ.
Một thuật toán đặc biệt quét văn bản và chuyển đổi số, ngày tháng, chữ viết tắt, từ viết tắt, dấu câu và các ký tự đặc biệt thành từ. Tuy nhiên, thuật toán phải xác định xem “1923” có nghĩa là “mười chín hai mươi ba”, “một nghìn chín trăm hai mươi ba” hay “một, chín, hai, ba” trước khi nó có thể chia nhỏ văn bản thành thành phần của nó các bộ phận chẳng hạn.
Mặc dù điều này thường là một kỳ công dễ dàng đối với con người, nhưng máy tính phải sử dụng các kỹ thuật xác suất thống kê hoặc mạng nơ-ron để đưa ra cách giải thích khả dĩ nhất. Vì vậy, nếu từ "năm" xuất hiện trong cùng một câu với "1923", có thể hợp lý để giải thích nó là một ngày tháng và phát âm nó là "mười chín hai mươi ba."
Tiền xử lý cũng phải giải mã các từ đồng âm (các từ có chung cách viết chính xác nhưng có cách phát âm khác nhau, tùy thuộc vào ý nghĩa của chúng). Một ví dụ về từ đồng âm trong tiếng Anh là “read”. Nó có thể được phát âm là "red" hoặc "reed."
Vì vậy, một câu như "I read a story" đặt ra vấn đề ngay lập tức cho bộ tổng hợp giọng nói. Tuy nhiên, nếu nó có thể nhận ra rằng văn bản trước hoàn toàn ở thì quá khứ, bằng cách nhìn vào các động từ ở thì quá khứ như “I woke up” hoặc “I had breakfast”, nó có thể đưa ra phỏng đoán chính xác rằng “I read [red] a story ”có lẽ là chính xác. Tương tự như vậy, nếu văn bản trước đó là “I have breakfast” hoặc “I wake up”, thì “I read [reed] a story” rất có thể là cách phát âm chính xác.

Chuyển các từ thành âm vị
Bây giờ hệ thống đã tìm ra các từ sẽ được nói, máy tính phải chuyển các từ đó thành chuỗi âm thanh. Vì mỗi từ có thể được phát âm khác nhau dựa trên ý nghĩa và ngữ cảnh của nó, máy tính cần một danh sách các âm vị để hiểu cách phát âm từng từ.
Âm vị trong tiếng Việt là đơn vị ngữ âm nhỏ nhất có chức năng khu biệt nghĩa. Nếu số lượng âm tố là vô số, thì số lượng âm vị là có hạn, khoảng vài chục đơn vị trong một ngôn ngữ. Để khu biệt với âm tố, người ta ghi âm vị ở giữa hai kí hiệu //, ví dụ: âm vị /a/, /u/, /o/, v.v…
Công cụ TTS đối sánh sự kết hợp của các chữ cái với các âm vị tương ứng để tạo ra một bản ghi âm vị. Bởi vì một số từ có nhiều cách phát âm, hệ thống phải tham khảo các quy tắc cụ thể được lập trình trước để xác định cách phát âm chính xác.
Ngoài âm vị, công cụ TTS xác định các ngữ điệu như âm tiết với cao độ hơi nâng lên hoặc hạ xuống, một số âm lượng tăng thêm ở đây hoặc ở đó hoặc thời lượng dài hơn dần dần, như “nhưng” trong “bơ”. Sau đó, văn bản được chuyển đổi thành một chuỗi các âm vị được ký hiệu để chuyển thành âm thanh.

Chuyển các âm vị thành âm thanh
Trong giai đoạn cuối, hệ thống sử dụng mô hình âm thanh để đọc văn bản đã xử lý. Sau đó, một thuật toán học máy thiết lập kết nối giữa các âm vị và âm thanh để cung cấp cho chúng ngữ điệu chính xác.
Sau đó, máy tính sử dụng bộ tạo sóng âm thanh để tạo ra âm thanh của giọng nói. Đặc tính tần số của các cụm từ cuối cùng được tải vào máy phát sóng âm thanh. Những đặc điểm này thường có được từ các bản ghi âm của con người nói về âm vị, tần số âm thanh do máy tính tạo ra hoặc cách tiếp cận liên quan đến việc bắt chước cơ chế của giọng nói con người.
Nhiều hệ thống TTS cho phép người dùng chọn loại giọng nói, chẳng hạn như nam hay nữ, ngôn ngữ, tốc độ phát lại, v.v. Một số cũng có thể đọc văn bản và xuất chúng theo cách giống như con người (với tất cả các ngữ điệu và âm sắc) , trong khi một số âm thanh có vẻ rô bốt và rất buồn tẻ.
Hiện nay tại vMixvoice.net chúng tôi cung cấp giọng nói cho mọi trường hợp, từ điềm tĩnh và chuyên nghiệp đến say mê hoặc phấn khích - tất cả chỉ bằng một lần chạm nút!

Các loại công cụ chuyển văn bản thành giọng nói


Có nhiều công cụ TTS khác nhau có sẵn dựa trên nơi công nghệ cần thiết.
tại vMixvoice.net có công cụ Chuyển văn bản thành giọng nói dựa trên web cho phép khách truy cập sử dụng tính năng này để nghe nhiều loại nội dung bằng văn bản khác nhau.
Công cụ chuyển văn bản thành giọng nói của vmixvoice.net tích hợp sẵn cũng có sẵn trên nhiều thiết bị, bao gồm máy tính để bàn và máy tính xách tay, máy tính bảng kỹ thuật số, điện thoại thông minh và Chromebook.
Nhiều nhà phát triển phần mềm xóa mù chữ cung cấp các chương trình phần mềm Chuyển văn bản thành giọng nói trên các thiết bị để hỗ trợ trẻ em và người lớn đang gặp khó khăn với các vấn đề về đọc viết và các khuyết tật khác nhau.
Người dùng có thể tải ứng dụng Text-to-Speech trên máy tính và các thiết bị khác. Ngoài ra còn có các tiện ích mở rộng trình duyệt Chuyển văn bản thành giọng nói có thể được thêm vào các trình duyệt web như Chrome.
Sử dụng phổ biến của chuyển văn bản thành giọng nói
Công nghệ chuyển văn bản thành giọng nói đã trở nên phổ biến đến mức nhiều người bắt gặp nó hàng ngày mà không hề nhận ra - và có thể bạn cũng vậy. Điều đó được mong đợi bởi vì khi công nghệ ngày càng tiên tiến, việc tìm hiểu xem bạn đang nghe một bản ghi âm đơn giản hay Chuyển văn bản thành giọng nói đang phát sẽ trở nên khó khăn hơn.
Dưới đây là một số nơi bạn có thể gặp phải Chuyển văn bản thành giọng nói khi bạn làm việc theo cách của mình trong một ngày bình thường:

1. Bộ xử lý từ với chuyển văn bản thành giọng nói
Text-to-Speech được tích hợp sẵn trong nhiều bộ xử lý văn bản, chẳng hạn như Microsoft Word. Đặc biệt, Word có tính năng “Đọc to” trong menu “Xem lại” sẽ đọc to tài liệu hiện tại nếu bạn muốn. Google Documents cũng có các chức năng Chuyển văn bản thành giọng nói, nhưng bạn sẽ cần một tiện ích bổ sung để sử dụng chúng.  

2. Hệ điều hành máy tính và điện thoại với tính năng chuyển văn bản thành giọng nói
Các tính năng trợ năng, như Text-to-Speech, được nhúng vào hầu hết các loại máy tính hoặc điện thoại thông minh trên thị trường. Trong Windows và Mac, bạn có thể bật tính năng Trình tường thuật để mô tả to nội dung trên màn hình của mình để bạn có thể sử dụng thông tin đó để điều hướng thiết bị của mình. Điện thoại thông minh thường đi kèm với các tính năng trợ lý giọng nói cung cấp phản hồi bằng giọng nói để giúp người dùng bị mù hoặc thị lực kém.

3. Trình đọc sách điện tử với chuyển văn bản thành giọng nói
Hầu hết các trình đọc sách điện tử phổ biến, bao gồm cả các thiết bị Kindle Fire mới, đều có tùy chọn Chuyển văn bản thành giọng nói. Điều này cũng bao gồm các trình đọc trực tuyến, chẳng hạn như Kho lưu trữ Internet. Khi mua sách điện tử cho Kindle Fire, bạn có thể kiểm tra xem sách có thể đọc to hay không bằng cách tìm nhãn “Text-to-Speech: Enabled” trên trang chi tiết trước khi mua.

4. Máy ATM có tính năng Chuyển văn bản thành giọng nói
Một số máy ATM mới hơn được trang bị chức năng Text-to-Speech để cung cấp dịch vụ cho những khách hàng gặp khó khăn khi đọc màn hình. Ví dụ: âm thanh từng bước giúp người dùng rút tiền mặt, kiểm tra số dư tài khoản và gửi tiền.

5. Trợ lý ảo và Loa thông minh với tính năng Chuyển văn bản thành giọng nói
Text-to-Speech thường được thấy với các trợ lý thông minh như Alexa của Amazon, Siri của Apple, Google Assistant. Những trợ lý này sử dụng tính năng Chuyển văn bản thành giọng nói để cung cấp tin tức và cập nhật thời tiết, đưa ra lời nhắc cũng như trả lời các câu hỏi và nhận xét. Chúng thường hoạt động bằng cách khai thác vào một thư viện từ và cụm từ được xác định trước. Loa thông minh cũng sử dụng công nghệ Text-to-Speech để thực hiện nhiều chức năng cốt lõi của chúng.

6. Đồng hồ báo thức với tính năng chuyển văn bản thành giọng nói
Bạn có thể có đồng hồ báo thức đánh thức bạn bằng cách nói thời gian hoặc có lẽ bạn đã nghe nói về tính năng này. Trong cả hai trường hợp, đó là một ứng dụng phổ biến khác của Chuyển văn bản thành giọng nói. 

7. Phần mềm GPS với tính năng chuyển văn bản thành giọng nói
Google Maps, Apple Maps và hầu hết các ứng dụng và phần mềm GPS hiện đại khác được thiết kế để đọc to chỉ đường từng chặng bằng công nghệ Chuyển văn bản thành giọng nói. 

Lời kết
Chuyển văn bản thành giọng nói đã xuất hiện được một thời gian, nhưng nó đã phát triển để trở thành một phần không thể thiếu trong nhiều ứng dụng và công nghệ mà chúng ta sử dụng ngày nay, từ bộ xử lý văn bản và trợ lý ảo đến các máy ATM hiện đại và phần mềm GPS. Một cách ấn tượng, Chuyển văn bản thành giọng nói sử dụng quy trình ba giai đoạn để đọc to nội dung văn bản, đầu tiên bằng cách chuyển văn bản thành từ, chuyển các từ thành âm vị, sau đó chuyển âm vị thành âm thanh. Khi trí tuệ nhân tạo (AI) và các công nghệ khác mở rộng những gì có thể đạt được với tính năng tổng hợp giọng nói, Text-to-Speech chắc chắn sẽ tiếp tục phát triển và trở thành một tính năng cần có cho các doanh nghiệp đang cố gắng tìm ra tiếng nói của mình và cạnh tranh trong không gian kỹ thuật số.

vMixvoice.net là đơn vị đi đầu tại Việt Nam tạo giọng nói thực tế cho bất kỳ văn bản nào trong vài giây bằng cách sử dụng hơn
 700+ giọng nói thực tế và trên 130+ ngôn ngữ