Cara Kerja Diffusion, Teknik di Balik Generative AI

Generative AI yang dapat menghasilkan gambar biasanya menggunakan teknik diffusion

Tahun ini, Generative Artificial Intelligence (GAI) tengah menjadi pembicaraan hangat. GAI menarik perhatian banyak orang karena ia bisa menghasilkan gambar berdasarkan prompt yang dimasukkan oleh pengguna. Beberapa contoh GAI yang populer antara lain DALL-E 2, MidJourney, dan Stable Diffusion.

Pada dasarnya, GAI menggunakan teknologi yang sama, yaitu diffusion. Menariknya, AI berbasis diffusion sebenarnya tidak hanya bisa digunakan untuk membuat gambar tapi juga untuk hal lain, seperti membuat musik, menciptakan obat baru, dan membuat replikasi DNA. Berikut penjelasan tentang cara kerja diffusion.

Awal Mula GAN - Generative Artificial Intelligence

Beberapa tahun lalu, muncul aplikasi yang dapat melakukan "deepfake" menggunakan AI. Aplikasi deepfake memungkinkan pengguna untuk "memasukkan" wajah seseorang ke dalam foto atau video. Dan foto atau video yang dihasilkan terlihat cukup natural sehingga banyak orang yang percaya bahwa foto atau video itu tidak direkayasa. AI pada aplikasi deepfake menggunakan teknologi yang disebut Generative Adversarial Networks (GAN).

Sama seperti AI lain, AI yang menggunakan GAN juga harus tetap dilatih menggunakan dataset. Biasanya, dataset yang digunakan untuk melatih GAN memiliki ratusan hingga jutaan sampel. GAN sendiri memiliki dua elemen: generator dan discrimator.

Generator berfungsi untuk membuat sampel yang didasarkan data random, seperti gambar. Sementara discriminator bertugas untuk membandingkan sampel yang dibuat oleh generator dengan data dalam dataset yang digunakan untuk melatih GAN. Untuk membuat GAN yang mumpuni, baik generator maupun discriminator akan terus dilatih sehingga discriminator tidak lagi bisa membedakan sampel buatan generator dengan contoh dalam dataset.

GAN yang sudah dilatih dengan baik akan bisa merekayasa produk serupa data latihan. Misalnya, NVIDIA melatih StyleGAN untuk mempelajari ekspresi wajah, bintik pada wajah, dan rambut pada manusia. Pada akhirnya, StyleGAN dapat membuat gambar head shot dari karakter fiksi. Selain itu, GAN juga bisa digunakan untuk membuat 3D model dari luar angkasa serta sketsa vektor.

Walau GAN bisa digunakan untuk berbagai hal, model AI ini juga memiliki kelemahan. Salah satunya, melatih generator dan discrimator secara bersamaan membuat model GAN cenderung tidak stabil. Terkadang, generator akan "kolaps" dan menghasilkan beberapa sampel yang mirip dengan satu sama lain. Selain itu, melatih GAN juga membutuhkan dataset dengan jumlah data yang banyak. Terakhir, GAN hanya bisa dilatih atau dijalankan pada mesin dengan daya komputasi tinggi.

Lalu, muncullah teknik diffusion.

Teknik Diffusion dan CLIP dari OpenAI

Teknik diffusion yang digunakan untuk melatih AI terinspirasi dari ilmu fisika, khususnya kesetimbangan termal. Contoh dari ilmu kesetimbangan termal adalah ketika es melebur dengan teh panas. Perlahan tapi pasti, keseluruhan air teh akan memiliki suhu yang sama. Contoh lainnya, ketika gas memenuhi seluruh ruangan, walau ia bergerak secara random.

Pada AI, teknik diffusion akan menambahkan noise pada data -- seperti gambar -- untuk mengubah struktur dari data tersebut. Namun, berbeda dengan proses difusi pada kimia -- yang tidak bisa diputar balik -- AI yang dilatih menggunakan teknik diffusion bisa mempelajari "reverse diffusion". Sesuai namanya, reverse diffusion adalah proses pemulihan data yang strukturnya sudah terombak oleh proses diffusion.

Sebenarnya, seperti yang disebutkan oleh TechCrunch, AI berbasis diffusion telah ada sejak hampir 10 tahun lalu. Namun, belum lama ini, OpenAI berhasil menciptakan inovasi yang membuat teknik diffusion menjadi semakin efektif. Ialah Contrastive Language-Image Pre-Training alias CLIP.

CLIP berfungsi untuk memberikan "nilai" pada gambar -- atau data dalam bentuk lain -- setelah gambar melalui proses diffusion. Semakin mirip gambar dengan prompt yang diberikan oleh pengguna, semakin tinggi pula nilai yang CLIP berikan. Dengan begitu, model AI berbasis diffusion yang dibantu oleh CLIP akan terus menciptakan gambar sampai gambar itu mendapatkan nilai tinggi dari CLIP, yang berarti, gambar yang dihasilkan sudah sesuai dengan prompt yang diminta oleh pengguna.

OpenAI memperkenalkan CLIP bersamaan dengan DALL-E. Sejak saat itu, mereka telah memperkenalkan generasi kedua dari GAI itu, yaitu DALL-E 2. Berkat inovasi dari OpenAI, GAI kini bisa menghasilkan gambar layaknya karya manusia. GAI bahkan bisa meniru art style seorang seniman, selama AI itu dilatih menggunakan karya sang seniman. Dan hal inilah yang menimbulkan kontroversi.

Untuk bisa meniru art style seorang seniman, GAI harus dilatih menggunakan karya dari seniman tersebut. Alhasil, terkadang, "karya" sebuah GAI sangat mirip dengan gambar yang digunakan dalam dataset untuk melatih AI tersebut. Masalah lainnya, walau banyak seniman atau digital artist yang tidak setuju karyanya digunakan untuk melatih AI, kreator GAI terkadang tetap menggunakan gambar para seniman manusia tanpa izin.

Contoh karya dari AI buatan Stability AI.

Terlepas dari kontroversi yang ada, AI yang menggunakan diffusion dan CLIP tidak hanya bisa digunakan untuk membuat gambar, tapi juga menciptakan musik. Harmonai pernah merilis model AI berbasis diffusion yang dapat menghasilkan musik singkat. Untuk itu, Hamonai melatih AI mereka menggunakan lagu-lagu yang telah ada. Durasi dari dataset untuk melatih AI itu mencapai ratusan jam. Harmonai sendiri mendapatkan investasi dari Stability AI, startup asal London, Inggris, yang menciptakan Stable Diffusion.

Selain gambar dan musik, AI berbasis diffusion juga digunakan oleh berbagai laboratorium di bidang biomedis. Harapannya, AI akan dapat membantu para peneliti untuk menemukan cara dalam menyembuhkan penyakit pada manusia.