Nâng Tầm Nội Dung Với API Text-to-Speech của OpenAI

Admin / June 15, 2024

Trong thời đại kỹ thuật số ngày nay, việc tiếp cận thông tin đa dạng là vô cùng quan trọng. Ngoài văn bản, âm thanh đang dần khẳng định vị thế của mình như một phương tiện truyền tải hiệu quả và thu hút. API Text-to-Speech (TTS) của OpenAI ra đời như một giải pháp tối ưu, cho phép bạn chuyển đổi văn bản thành giọng nói tự nhiên, sống động.

Giới thiệu API Text-to-Speech

API Audio của OpenAI cung cấp endpoint “speech” dựa trên mô hình TTS (text-to-speech). Với 6 giọng đọc tích hợp sẵn, API này cho phép bạn:

Thổi hồn cho các bài viết blog bằng giọng đọc truyền cảm.
Tạo ra các nội dung âm thanh bằng nhiều ngôn ngữ.
Phát âm thanh trực tiếp với tính năng phát trực tuyến.

[Ở đây bạn có thể thêm một đoạn âm thanh demo sử dụng giọng đọc “alloy” của OpenAI]

Lưu ý: Chính sách sử dụng của OpenAI yêu cầu bạn phải thông báo rõ ràng cho người dùng cuối rằng giọng đọc TTS mà họ đang nghe được tạo ra bởi AI chứ không phải giọng đọc của con người.

Bắt đầu nhanh chóng

Để bắt đầu bạn cần có API TTS của OpenAI - Bạn có thể thuê tại đây:https://vmixgpt.com/product/cung-cap-api-gpt-4-openai/ vMix Việt Nam là đơn vị uy tín trong việc cung cấp API TTS của OpenAI.

Để sử dụng API “speech”, bạn cần cung cấp ba thông tin chính: mô hình, văn bản cần chuyển đổi thành giọng nói và giọng đọc muốn sử dụng. Dưới đây là một ví dụ đơn giản:

from pathlib import Path
from openai import OpenAI
client = OpenAI()
speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="Hôm nay là một ngày tuyệt vời để tạo ra những điều mọi người yêu thích!"
)
response.stream_to_file(speech_file_path)

Mặc định, endpoint sẽ xuất ra file MP3 của đoạn âm thanh, nhưng bạn có thể cấu hình để xuất ra bất kỳ định dạng nào được hỗ trợ.

Chất lượng âm thanh

TTS-1: Phù hợp cho các ứng dụng thời gian thực, cung cấp độ trễ thấp nhất nhưng chất lượng âm thanh không cao bằng TTS-1-HD.
TTS-1-HD: Tối ưu hóa cho chất lượng âm thanh, giảm thiểu tạp âm so với TTS-1.

Lựa chọn giọng đọc

API cung cấp 6 giọng đọc: alloy, echo, fable, onyx, nova, và shimmer. Bạn có thể thử nghiệm để tìm ra giọng đọc phù hợp với nội dung và đối tượng mục tiêu. Hiện tại, các giọng đọc này được tối ưu hóa cho tiếng Anh.

Định dạng đầu ra được hỗ trợ

Mặc định là “mp3”, ngoài ra còn hỗ trợ:

Opus: Phát trực tuyến và giao tiếp qua internet, độ trễ thấp.
AAC: Nén âm thanh kỹ thuật số, được YouTube, Android, iOS ưu tiên sử dụng.
FLAC: Nén âm thanh không mất dữ liệu, được những người yêu thích âm thanh ưa chuộng để lưu trữ.
WAV: Âm thanh WAV không nén, phù hợp cho các ứng dụng có độ trễ thấp để tránh việc giải mã.
PCM: Tương tự như WAV nhưng chứa các mẫu thô ở tần số 24kHz (16-bit có dấu, little-endian), không có phần header.

Ngôn ngữ được hỗ trợ

Mô hình TTS hỗ trợ hầu hết các ngôn ngữ mà mô hình Whisper hỗ trợ, bao gồm:

Tiếng Afrikaans, Ả Rập, Armenia, Azerbaijan, Belarus, Bosnia, Bulgaria, Catalan, Trung Quốc, Croatia, Séc, Đan Mạch, Hà Lan, Anh, Estonia, Phần Lan, Pháp, Galicia, Đức, Hy Lạp, Do Thái, Hindi, Hungary, Iceland, Indonesia, Ý, Nhật Bản, Kannada, Kazakhstan, Hàn Quốc, Latvia, Litva, Macedonia, Mã Lai, Marathi, Maori, Nepal, Na Uy, Ba Tư, Ba Lan, Bồ Đào Nha, Rumani, Nga, Serbia, Slovak, Slovenia, Tây Ban Nha, Swahili, Thụy Điển, Tagalog, Tamil, Thái Lan, Thổ Nhĩ Kỳ, Ukraina, Urdu, Việt Nam và xứ Wales.

Bạn có thể tạo ra âm thanh nói bằng các ngôn ngữ này bằng cách cung cấp văn bản đầu vào bằng ngôn ngữ bạn chọn.