Nvidia telah melancarkan Fugatto, teknologi kecerdasan buatan untuk penjanaan audio yang dikatakan jauh lebih serba boleh dan lebih baik daripada semua perkhidmatan yang bersaing. Sebagai contoh, adalah mungkin untuk mengubah rakaman audio sedia ada dan, sebagai contoh, menukar serpihan permainan piano kepada nyanyian. Anda juga boleh menukar rakaman suara supaya loghat atau mood orang yang dirakam kelihatan telah berubah. Teknologi ini bertujuan untuk pengeluaran muzik, pembangunan permainan komputer dan untuk “orang biasa yang ingin mencipta sesuatu,” jelas Brian Catanzaro dari Nvidia.
Pengiklanan
Menurut Nvidia, latihan untuk Fugatto (Foundational Generative Audio Transformer Opus 1) dijalankan secara eksklusif pada bahan di bawah lesen sumber terbuka; Teknologi ini dikawal menggunakan arahan teks (“petunjuk”) atau menggunakan fail audio. Dalam video itu, Nvidia menunjukkan bagaimana Fugatto menjana bunyi kereta api yang lalu, yang bertukar menjadi rakaman orkestra, hanya dengan membalas gesaan sedemikian. Dalam contoh lain, teknologi memisahkan suara daripada lagu dan menghasilkan suara lain yang menuturkan ayat tertentu. Anda juga boleh menambah instrumen pada karya muzik yang dimuat turun.
“Kami mahu mencipta model yang memahami dan mengeluarkan semula bunyi dengan cara yang sama seperti yang dilakukan manusia,” kata Rafael Valle dari Nvidia, menjelaskan produk itu. Kira-kira sedozen orang bekerja pada pembangunan itu. Menurut agensi berita Reuters, masih terdapat perdebatan dalaman mengenai sama ada dan bagaimana teknologi itu akan tersedia secara umum. Catanzaro menjelaskan bahawa mana-mana teknologi generatif membawa beberapa risiko: “Kami perlu berhati-hati dengannya, dan itulah sebabnya kami tidak mempunyai rancangan segera untuk menerbitkannya.”
(saya)
Jangan terlepas cerita – ikuti kami di Facebook, LinkedIn atau Mastodon.
Artikel ini pada asalnya diterbitkan dalam bahasa Jerman. Ia telah diterjemahkan dengan bantuan teknikal dan disemak oleh editor sebelum diterbitkan.