Bukan Cuma Gambar, AI Juga Bisa Ciptakan Video dari Input Teks

Generative artificial intelligence (GAI) terus menjadi topik perbincangan hangat belakangan ini, terutama setelah publik dibuat terkesima oleh kemampuan GAI seperti Dall-E maupun Midjourney dalam menerjemahkan teks menjadi gambar secara akurat. Dua proyek tersebut merupakan bukti bahwa AI juga dapat dilatih agar bisa berkontribusi di bidang seni. Lebih lanjut, bentuk karya seninya pun tidak melulu harus gambar, tetapi bisa juga video.

Ya, kedengarannya mungkin sulit dipercaya, namun sekarang sudah ada AI yang mampu menciptakan video berdasarkan input teks dari manusia. Kalau perlu bukti, Anda bisa menonton video berjudul “The Crow” di YouTube. Video animasi pendek yang sarat nuansa surealis ini dibuat sepenuhnya dengan bantuan AI oleh seniman Glenn Marshall.

Ini bukan pertama kalinya Glenn melibatkan kecerdasan buatan dalam pembuatan video. Sebelumnya, Glenn pernah menggunakan AI untuk membuat video tribut buat Daft Punk. Meski begitu, pendekatan yang diambil kali ini agak berbeda, sebab Glenn ingin menonjolkan kapabilitas AI perihal style transfer dengan menggunakan video sebagai sumber materialnya.

Inspirasi utama The Crow adalah film pendek berjudul “Painted.” Kepada The Next Web, Glenn menjelaskan bahwa prosesnya melibatkan sebuah neural network bikinan OpenAI bernama CLIP yang bertugas untuk mempelajari video sumbernya. Itulah mengapa gerakan dalam hasil akhir videonya kelihatan sangat mirip seperti sumber aslinya. Terkait art style-nya yang menyerupai lukisan dengan nuansa kelam, ini merupakan hasil sistemnya menerjemahkan input teks “a painting of a crow in a desolate landscape.”

Keisengan Glenn bermain-main dengan sistem text-to-video berbasis AI tidaklah sia-sia, sebab The Crow berhasil memenangkan penghargaan di festival film bergengsi Cannes, sekaligus berhak dinominasikan di BAFTA Awards.

Ke depannya, Glenn berniat menambahkan animasi 3D pada kreasi-kreasi berbasis AI-nya. Ia juga tengah mengeksplorasi teknik pembuatan video menggunakan CLIP, yang bisa diberi arahan secara merinci menggunakan teks, seperti contohnya untuk melakukan manuver-manuver kamera yang spesifik. Glenn optimistis bahwa sistem text-to-video berbasis AI ini punya potensi besar di industri perfilman.