VALL-E 2: Công nghệ biến văn bản thành giọng nói "như thật" của Microsoft đặt ra nhiều lo ngại

Admin / July 12, 2024

VALL-E 2, sản phẩm trí tuệ nhân tạo (AI) mới nhất của Microsoft, có khả năng tái tạo giọng nói của con người chỉ với vài giây âm thanh mẫu. Tuy nhiên, khả năng "siêu việt" này lại khiến chính các nhà phát triển lo ngại về nguy cơ bị lạm dụng.

Trong bài báo được công bố trên arXiv vào ngày 17/6, các nhà nghiên cứu Microsoft cho biết VALL-E 2 có thể tạo ra "giọng nói tự nhiên, chính xác giống hệt giọng của người nói ban đầu, sánh ngang với khả năng của con người". Nói cách khác, AI này có thể "nhái" giọng nói một cách hoàn hảo đến mức khó có thể phân biệt được thật giả.

"VALL-E 2 là bước tiến mới nhất trong lĩnh vực mô hình ngôn ngữ codec thần kinh, đánh dấu cột mốc quan trọng trong công nghệ tổng hợp giọng nói từ văn bản (TTS) khi lần đầu tiên đạt đến ngưỡng 'ngang bằng con người'," các nhà nghiên cứu cho biết.

Vậy điều gì tạo nên sức mạnh cho VALL-E 2? Hai yếu tố then chốt chính là "Lấy mẫu nhận biết lặp lại" (Repetition Aware Sampling) và "Mô hình hóa mã nhóm" (Grouped Code Modeling).

"Lấy mẫu nhận biết lặp lại" giúp AI chuyển đổi văn bản thành giọng nói mượt mà và tự nhiên hơn bằng cách xử lý sự lặp lại của các "token" - đơn vị ngôn ngữ nhỏ như từ hoặc một phần của từ. Trong khi đó, "Mô hình hóa mã nhóm" giúp tăng hiệu quả bằng cách giảm độ dài chuỗi âm thanh, từ đó giúp VALL-E 2 tạo ra giọng nói nhanh hơn.

Tuy đạt được bước tiến đột phá, Microsoft hiện chưa có kế hoạch phát hành VALL-E 2 ra công chúng do lo ngại về nguy cơ lạm dụng. "VALL-E 2 hiện chỉ là một dự án nghiên cứu. Chúng tôi chưa có kế hoạch tích hợp nó vào bất kỳ sản phẩm nào hoặc mở rộng quyền truy cập cho công chúng", nhóm nghiên cứu khẳng định.

Mặc dù vậy, nhóm nghiên cứu cũng gợi ý về tiềm năng ứng dụng của VALL-E 2 trong tương lai, chẳng hạn như trong lĩnh vực giáo dục, giải trí, báo chí, hỗ trợ người khuyết tật,... Tuy nhiên, việc ứng dụng công nghệ này đòi hỏi những quy định nghiêm ngặt để đảm bảo người dùng không bị lợi dụng.

VALL-E 2: Công nghệ biến văn bản thành giọng nói "như thật" của Microsoft đặt ra nhiều lo ngại

Mục chính

Hỗ trợ

Liên hệ