OpenAI hé lộ công nghệ chuyển văn bản thành giọng nói

Admin / June 14, 2024

OpenAI tiếp tục đẩy xa hơn nữa ranh giới của công nghệ AI. Trước đó, họ đã cho ra mắt một công cụ có thể tạo ra hình ảnh kỹ thuật số chỉ từ một đoạn mô tả. Tiếp đến là Sora, công nghệ tạo video chuyển động chất lượng Hollywood. Và giờ đây, họ đang tiến quân vào lĩnh vực tái tạo giọng nói.

Sản phẩm mới nhất của OpenAI là một tính năng đọc văn bản bằng giọng nói giống người thật một cách đáng kinh ngạc. Bước đột phá này trong trí tuệ nhân tạo đánh dấu một bước tiến đáng kể, nhưng đồng thời cũng dấy lên lo ngại về khả năng thao túng deepfake (theo Bloomberg).

Công ty đã công bố kết quả ban đầu từ việc thử nghiệm tính năng này, cung cấp các bản demo mà bạn có thể nghe tại đây. Được đặt tên là Voice Engine, mô hình văn bản thành giọng nói này hiện đang trong giai đoạn thử nghiệm giới hạn với khoảng 10 nhà phát triển. OpenAI đã lựa chọn một cách tiếp cận thận trọng thay vì phát hành rộng rãi.

Sau khi nhận được phản hồi từ các bên liên quan như các nhà hoạch định chính sách và các nhà giáo dục, OpenAI đã quyết định thu hẹp phạm vi triển khai ban đầu. Công ty thừa nhận những rủi ro nghiêm trọng của việc tạo ra giọng nói giống con người, đặc biệt là trong thời điểm nhạy cảm như năm bầu cử.

Trong một bài đăng trên blog, công ty viết:
Chúng tôi nhận thức được rằng việc tạo ra giọng nói giống với giọng nói của con người tiềm ẩn những rủi ro nghiêm trọng, đặc biệt là trong năm bầu cử. Chúng tôi đang hợp tác với các đối tác của Hoa Kỳ và quốc tế từ chính phủ, truyền thông, giải trí, giáo dục, xã hội dân sự và hơn thế nữa để đảm bảo rằng chúng tôi kết hợp phản hồi của họ trong quá trình xây dựng.
Khác với các dự án âm thanh trước đây, Voice Engine nổi bật với khả năng bắt chước giọng nói cá nhân với độ chính xác đáng kinh ngạc, nắm bắt được cả những sắc thái trong nhịp điệu và ngữ điệu. Và tất cả những gì nó cần chỉ là 15 giây để sao chép giọng nói của một người.

Trong số các đối tác của OpenAI có Viện Khoa học Thần kinh Norman Prince tại Lifespan, nơi công nghệ này được sử dụng để giúp bệnh nhân phục hồi giọng nói. Ví dụ, nó đã được sử dụng để khôi phục giọng nói cho một bệnh nhân trẻ gặp khó khăn trong việc nói rõ ràng do khối u não. AI đã học hỏi từ các bản ghi âm trước đó cho một dự án ở trường.

Ngoài ứng dụng trong lĩnh vực chăm sóc sức khỏe, mô hình giọng nói tùy chỉnh này còn thu hút sự chú ý của các công ty như Spotify, nơi nhìn thấy tiềm năng trong việc dịch nội dung âm thanh, chẳng hạn như podcast, sang nhiều ngôn ngữ. Tuy nhiên, OpenAI nhấn mạnh các nguyên tắc đạo đức khi sử dụng công nghệ, bao gồm việc xin phép người nói ban đầu và tiết lộ nội dung do AI tạo ra cho người nghe.

Ngoài ra, trước khi xem xét phát hành rộng rãi hơn, OpenAI đang kêu gọi phản hồi và thúc giục công chúng nhận thức được những thách thức do công nghệ AI tiên tiến đặt ra. Điều này bao gồm việc vận động loại bỏ xác thực giọng nói trong các lĩnh vực nhạy cảm như ngân hàng.

OpenAI cho biết thêm trong bài đăng trên blog của mình:
Điều quan trọng là mọi người trên khắp thế giới phải hiểu công nghệ này đang hướng đến đâu, cho dù chúng tôi có triển khai rộng rãi hay không.
Ngoài ra, công ty cho biết thêm rằng họ hy vọng bản xem trước này sẽ khơi mào một cuộc trò chuyện về việc giải quyết các rủi ro liên quan đến những tiến bộ của AI và thúc đẩy khả năng phục hồi của xã hội.