VALL-E 2: Công nghệ chuyển văn bản thành giọng nói đột phá từ Microsoft

Admin / November 21, 2024

Công nghệ trí tuệ nhân tạo (AI) đang phát triển chóng mặt, mở ra những khả năng mới cho công nghệ chuyển văn bản thành giọng nói (TTS). Những cải tiến liên tục của TTS đã làm phong phú và đơn giản hóa trải nghiệm tương tác bằng giọng nói, mang lại tiềm năng to lớn cho nhiều lĩnh vực như giáo dục, giải trí và giao tiếp đa ngôn ngữ.

Tuy nhiên, các hệ thống TTS truyền thống, dù được huấn luyện bằng dữ liệu chất lượng cao từ phòng thu, vẫn còn hạn chế về khả năng khái quát hóa. Độ tương đồng giọng nói và độ tự nhiên giảm đáng kể khi gặp giọng nói mới trong kịch bản zero-shot (không cần huấn luyện trước). Để giải quyết vấn đề này, các nhà nghiên cứu tại MSR Asia đã phát triển VALL-E bằng cách áp dụng kỹ thuật mô hình ngôn ngữ lớn (LLM) vào xử lý giọng nói. VALL-E là mô hình ngôn ngữ codec thần kinh đầu tiên sử dụng mã rời rạc từ mô hình codec âm thanh thần kinh có sẵn. Nó coi TTS như một mô hình ngôn ngữ có điều kiện, nổi bật với khả năng học tập trong ngữ cảnh. VALL-E có thể tổng hợp giọng nói cá nhân hóa chất lượng cao chỉ với 3 giây ghi âm của một giọng nói chưa từng thấy. Tuy nhiên, do mô hình tự hồi quy và suy luận lấy mẫu ngẫu nhiên, VALL-E gặp phải vấn đề về độ mạnh mẽ và hiệu quả.

VALL-E 2: Tăng cường độ mạnh mẽ và tự nhiên

Để khắc phục những hạn chế này, các nhà nghiên cứu đã đề xuất VALL-E 2, sử dụng kỹ thuật lấy mẫu nhận biết lặp lại và mô hình hóa mã nhóm, đạt được hiệu suất TTS zero-shot ngang bằng con người trên bộ dữ liệu LibriSpeech và VCTK. Kỹ thuật lấy mẫu nhận biết lặp lại cải tiến quy trình lấy mẫu hạt nhân bằng cách tính đến sự lặp lại mã thông báo trong lịch sử giải mã. Cách tiếp cận này không chỉ ổn định quá trình giải mã mà còn tránh được vấn đề vòng lặp vô hạn quan sát thấy trong VALL-E. Ngoài ra, mô hình hóa mã thông báo nhóm tổ chức các mã codec thành các nhóm để rút ngắn độ dài chuỗi, giúp tăng tốc độ suy luận và giải quyết các thách thức của mô hình hóa chuỗi dài.

Nhờ hai kỹ thuật này, VALL-E 2 vượt trội hơn các hệ thống trước đây về độ mạnh mẽ, tự nhiên và độ tương đồng giọng nói. VALL-E 2 thể hiện khả năng tổng hợp giọng nói chất lượng cao ổn định, ngay cả với những câu phức tạp hoặc chứa nhiều cụm từ lặp lại.

Ứng dụng và tiềm năng

VALL-E 2 có tiềm năng hỗ trợ những sáng kiến ​​ý nghĩa, chẳng hạn như tạo giọng nói cho người bị chứng mất ngôn ngữ hoặc người mắc bệnh xơ cứng teo cơ một bên. Mặc dù hiện tại VALL-E 2 chỉ là một dự án nghiên cứu và chưa có kế hoạch đưa vào sản phẩm thương mại, nhưng ứng dụng tiềm năng của nó rất rộng lớn, bao gồm giáo dục, giải trí, báo chí, nội dung tự sáng tác, hỗ trợ người khuyết tật, hệ thống phản hồi bằng giọng nói tương tác, dịch thuật, chatbot, v.v.

Tuy nhiên, cần lưu ý rằng VALL-E 2 có thể bị lạm dụng để giả mạo nhận dạng giọng nói hoặc mạo danh người nói. Microsoft cam kết phát triển AI theo các nguyên tắc đạo đức lấy con người làm trung tâm và đã thực hiện một loạt biện pháp để dự đoán và giảm thiểu rủi ro liên quan đến AI. Nếu bạn nghi ngờ VALL-E 2 đang bị sử dụng sai mục đích, hãy báo cáo tại Cổng thông tin Báo cáo Lạm dụng (https://msrc.microsoft.com/report/).