Dall-E, AI yang Dapat Membuat Gambar dari Input Teks

Versi terbaru dari Dall-E memiliki kemampuan yang lebih baik dan dua fitur baru

Artificial intelligence memiliki banyak fungsi. Teknologi AI juga bahkan dipercaya dapat memaksimalkan potensi aset crypto lewat NFT. Beberapa bulan belakangan, generative artificial intelligence (GAI) tengah menjadi topik pembicaraan hangat di industri teknologi. Secara mendasar, GAI adalah AI yang dapat menciptakan gambar, audio, atau bahkan video berdasarkan kata kunci yang dimasukkan oleh pengguna. Dan saat ini, salah satu GAI paling populer adalah Dall-E.

Awal Mula dari Dall-E

Dall-E adalah AI buatan OpenAI yang dapat membuat gambar realistis berdasarkan input dari para pengguna, berupa tulisan. Nama Dall-E diambil dari nama pelukis surealisme, Salvador Dali dan robot dalam kartun animasi bernama Wall-E. A

I tersebut menerima input berupa teks -- seperti koala bermain basket atau monyet tengah mengerjakan pajak -- dan "membuat" gambar realistis berdasarkan teks tersebut.

OpenAI memperkenalkan Dall-E pertama kali pada Januari 2021. Pada Juli 2022, OpenAI membuka akses beta untuk Dall-E 2 ke masyarakat luas. Tentu saja, versi terbaru dari Dall-E memiliki kemampuan yang lebih baik dari pendahulunya. Ia dapat membuat gambar dengan resolusi yang lebih tinggi dari versi petama, yang hanya dapat membuat gambar dengan resolusi 256 piksel.

Tak hanya itu, versi ke-2 dari AI ini juga memiliki latensi yang lebih kecil. Dengan begitu, ia akan memberikan pengalaman penggunaan yang lebih menyenangkan.

Contoh gambar yang dihasilkan Dall-E dengan kata kunci "Avocado Chair." | Sumber: MIT Technology Review

Mark Chen, Research Scientist, OpenAI menjelaskan, selain kemampuan untuk menerjemahkan teks ke dalam gambar, Dall-E 2 juga memiliki dua fitur baru. Fitur pertama adalah Variations. Melalui fitur ini, pengguna bisa mengunggah gambar ke sistem Dall-E 2 untuk mendapatkan gambar-gambar lain dengan artstyle serupa atau gambar dengan objek yang sama.

Dalam versi terbaru dari Dall-E, pengguna juga bisa mengedit gambar yang dihasilkan oleh AI tersebut. Sebagai contoh, pada gambar seekor anjing yang duduk di sofa, Anda bisa mengganti objek dalam gambar menjadi kucing.

"Kami rasa, AI buatan kami akan berguna untuk para artists, designers, dan orang-orang yang pekerjaannya berkaitan dengan seni, seperti pekerja di majalah dan mungkin studio game, desainer baju, atau bahkan arsitek," kata Aditya Ramesh, Research Scientist, OpenAI pada Mashable.

"Kami juga berharap, orang-orang bisa menggunakan AI kami dalam kehidupan sehari-hari." Dia memberikan contoh, jika sebuah keluarga ingin memasang sebuah lukisan di rumah mereka, mereka bisa bersama-sama memilih lukisan apa yang akan mereka pajang dengan bantuan Dall-E 2.

Dalam video tentang Dall-E, Open AI menjelaskan, AI tersebut memiliki tiga fungsi. Pertama, membantu orang-orang untuk mengekspresikan diri mereka secara visual. Chen mengatakan, semua orang memiliki gaya seni yang mereka sukai. Namun, tidak semua orang bisa menciptakan seni yang sesuai dengan selera mereka.

"Harapan kami adalah, AI yang kami buat memungkinkan semua orang untuk menciptakan seni yang dapat mengekspresikan diri mereka," ujarnya.

Fungsi Dall-E yang lain adalah untuk membantu para peneliti AI memahami seberapa jauh AI dapat memahami manusia. Karena, AI buatan OpenAI itu dapat menerima natural language -- bahasa yang digunakan oleh manusia dalam sehari-hari -- sebagai input. Terakhir, AI itu juga membantu manusia untuk mengerti tentang bagaimana AI memahami dunia.

Potensi Masalah Hukum Terkait GAI

Sama seperti AI lainnya, GAI harus dilatih untuk bisa menciptakan gambar sesuai dengan permintaan pengguna. Ben Hagag, Head of Research, Darrow, startup AI menjelaskan, algoritma AI akan menjadi semakin baik ketika ia bisa menganalisa dan menemukan pola dalam dataset yang digunakan untuk melatih AI tersebut.

Dia membandingkan sebuah AI dengan seorang anak yang sedang belajar. Jika sang anak melihat seribu gambar lanskap, dia akan mengerti kalau langit biasanya ada di bagian atas gambar dan berwarna biru.

Hagag mengungkap, developer biasanya melatih AI menggunakan teks dari berbagai sumber, mulai dari kamus sampai contoh penggunaan kalimat. Dan data yang digunakan untuk melatih AI itu tidak sedikit.

Pada 2018, Ajit Varma dari Google mengungkap bahwa AI di balik fitur smart reply pada Gmail dilatih menggunakan miliaran email penguna Gmail. Dia juga mengatakan, pada awalnya, smart reply akan menampilkan jawaban seperti "Sent from my iPhone" karena kalimat itu digunakan dalam banyak email.

Sayangnya, tidak semua developer bisa mendapatkan akses ke data dalam jumlah besar seperti Google. Hagag mengungkap, biasanya, developer yang sedang membangun AI terkait bahasa akan menggunakan Wikipedia sebagai data untuk melatih AI mereka. Kemudian, barulah mereka akan mencari sumber lain.

Sementara itu, GAI seperti Dall-E biasanya "dilatih" menggunakan data dari katalog gambar umum, seperti Shutterstock atau Alamy. Jadi, tidak heran jika pada awalnya, gambar yang dihasilkan oleh pendahulu Dall-E selalu penuh dengan watermark anti-pembajakan. Penggunaan gambar yang memiliki hak cipta sebagai dataset untuk melatih AI bisa memunculkan masalah hukum di masa depan.

Terkait potensi masalah tersebut, juru bicara Google mengatakan, menggunakan gambar dengan hak cipta dalam dataset pelatihan AI seharusnya bukan masalah. Mengutip Creative Common, dia menjelaskan, penggunaan data untuk melatih AI harusnya tidak dianggap sebagai pelanggaran hak cipta, asalkan, gambar memang diinput secara legal.

Tapi, hal ini bertentangan dengan peraturan yang dibuat oleh Shutterstock. Secara eksplisit,mereka mengatakan, mereka melarang para pengunjung untuk melakukan data mining atau pengumpulan/ekstraksi gambar di situs Shutterstock.

Keterbatasan Dalam Pembelajaran GAI

Dalam membuat gambar, Dall-E juga masih punya beberapa keterbatasan. GAI ini hanya bisa menampilkan gambar dari objek yang telah ia pelajari. Dengan kata lain, jika ia tidak pernah dilatih untuk mengenali kucing, maka ia tidak akan bisa menampilkan gambar dari binatang itu.

Ketika pengguna memasukkan kata kunci dari objek yang tidak dikenali, Dall-E akan menampilkan gambar dari objek yang mendekati dari kata kunci tersebut. Sebagai contoh, seandainya Dall-E tidak tahu bahwa ada binatang yang bernama "howler monkey", maka ia akan mencari dan menampilkan gambar dari "howling monkey" alias monyet yang berteriak.

Pengetahuan Dall-E tentang berbagai objek juga tergantung pada dataset yang digunakan untuk melatih AI tersebut. Ketika data yang digunakan untuk melatih GAI tidak akurat, maka ia juga akan salah mengenali sebuah objek. Misalnya, jika dalam dataset untuk melatih Dall-E, gambar pesawat diberi label "mobil", maka, ketika Dall-E akan menunjukkan gambar pesawat ketika pengguna memintanya untuk menampilkan gambar mobil.

Gambar dengan kata kunci: "“Teletubby in jail for embezzlement charges”. | Sumber: Dall-E via Bloomberg

Saat ini, Dall-E bisa digunakan oleh satu juta pengguna. Chen mengungkap, OpenAI sebenarnya ingin membuka akses ke GAI yang mereka buat ke semua orang. Namun, mereka juga punya tanggung jawab untuk memastikan, AI itu tidak disalahgunakan.

"Kami telah memfilter konten seksual atau kekerasan dari dataset untuk melatih Dall-E," ujar Chen. Tak berhenti sampai di situ, ketika berinteraksi dengan Dall-E, pengguna juga tidak bisa memasukkan kata kunci yang berbau kekerasan atau mengandung konten seksual. Mereka juga tidak bisa mengunggah gambar yang menunjukkan konten terlarang tersebut.

"Kami membuka akses ke Dall-E secara perlahan karena kami ingin memastikan bahwa para peneliti di luar OpenAI bisa mencoba GAI tersebut," ungkap Chen.

Tapi, OpenAI juga ingin memastikan bahwa orang-orang yang mendapatkan akses ke Dall-E memang tahu cara untuk memeriksa sistem tersebut, memikirkan tentang potensi penyalahgunakan dari AI itu. Dengan bantuan dari para peneliti, OpenAI akan bisa memikirkan cara untuk memitigasi masalah yang mungkin muncul dengan keberadaan Dall-E.

Sumber header: PCMag