Kemunculan DALL-E, Midjourney, dan sederet artificial intelligence (AI) jago gambar lain dalam beberapa bulan terakhir membuktikan bahwa kecerdasan buatan sebenarnya juga bisa diandalkan di bidang kreatif. Bukan cuma menggambar, AI bahkan juga bisa menggubah musik, seperti yang ditunjukkan oleh proyek riset terbaru Google bernama MusicLM.
Sama seperti DALL-E yang dapat mengubah deskripsi teks menjadi gambar, MusicLM mampu menciptakan komposisi musik berdasarkan input teks yang dicantumkan. Beberapa contoh yang Google berikan di situs MusicLM terdengar mengesankan, seperti misalnya potongan musik yang sangat cocok dijadikan soundtrack dari sebuah arcade game, atau perpaduan dua genre yang tidak umum seperti reggae dan EDM.
MusicLM mampu menciptakan klip musik berdurasi 30 detik tersebut berdasarkan sebuah paragraf teks yang mendetail yang menggambarkan sebuah genre, vibe, dan bahkan sejumlah instrumen yang spesifik. Sebaliknya, MusicLM pun juga sanggup menciptakan komposisi musik berdurasi 5 menit hanya berdasarkan frasa-frasa sederhana seperti “melodic techno” atau “relaxing jazz”.
Fungsi MusicLM tidak terbatas hanya untuk menciptakan musik dari nol saja. Tim periset Google juga sempat menunjukkan kemampuan MusicLM berkarya berdasarkan melodi yang ada. Contohnya, setelah mendengarkan input berupa siulan dengan melodi ikonis dari lagu “Bella Ciao”, MusicLM dapat menciptakan sejumlah variasi dari melodi tersebut menggunakan style dan alat musik yang berbeda.
MusicLM bukanlah generative AI pertama yang mampu menciptakan musik. Sebelumnya sudah ada sistem seperti Dance Diffusion, Jukebox besutan OpenAI, maupun Riffusion yang menggubah musik dengan memvisualisasikannya. Pun begitu, MusicLM bisa dibilang lebih kapabel dalam hal membuat komposisi musik yang kompleks.
Yesterday, Google published a paper on a new AI model called MusicLM.
The model generates 24 kHz music from rich captions like “A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space.” pic.twitter.com/XPv0PEQbUh
— Product Hunt 😸 (@ProductHunt) January 27, 2023
Menurut tim pengembangnya, MusicLM sejauh ini telah dilatih menggunakan dataset dengan total durasi musik selama 280.000 jam untuk belajar menciptakan lagu yang koheren berdasarkan deskripsi teks yang kompleks. AI ini bahkan juga mampu membuat komposisi musik berdasarkan lukisan dan deskripsi teksnya.
Namun tentu saja, MusicLM bukanlah tanpa kekurangan. Dari beberapa sampel musik yang dihasilkan, kualitas audionya terdengar kurang baik. Lalu kalau kita dengarkan dengan cermat, sampel yang memiliki vokal ternyata mencakup lirik yang ngawur.
Namun kekurangan terbesar MusicLM adalah kecenderungannya untuk menyelipkan material yang terlindungi hak cipta ke dalam musik yang dihasilkannya. Eksperimen yang dilakukan tim pengembangnya menunjukkan bahwa sekitar 1% dari musik yang dihasilkan MusicLM adalah hasil replikasi langsung dari lagu-lagu yang digunakan untuk melatihnya.
Hal inilah yang pada akhirnya mendorong Google untuk tidak merilis proyek riset ini ke publik. Risiko penyalahgunaan dan plagiarisme sangatlah besar buat MusicLM dalam kondisinya sekarang. Namun untuk mendukung riset seputar AI pembuat musik ke depannya, Google akan merilis dataset berisikan 5.500 pasangan musik dan teks.
Sumber: TechCrunch. Gambar header: Mitchell Luo via Unsplash.