Google Umumkan Versi Baru untuk Model AI Veo, Imagen, dan Whisk

Perlombaan pengembangan AI generatif memang terus berlanjut, dan tidak hanya gambar, kini banyak developer mulai menyempurnakan AI generatif video mereka. Hal itulah yang membuat Google ikut mengejar dengan memperkenalkan pembaruan untuk model AI mereka.

Google memang tidak hanya mengembangkan satu model AI, melainkan ada 2 yaitu Veo 2 dan Imagen 3. Model-model AI ini kini telah tersedia di Google Labs melalui Video FX, ImageFX dan eksperimen terbaru mereka yaitu Whisk.

Veo 2

Di versi keduanya, Veo memungkinkan pembuatan video berkualitas tinggi dengan berbagai subjek dan gaya. Model ini memahami fisika dunia nyata serta nuansa gerakan dan ekspresi manusia, menghasilkan detail dan realisme yang luar biasa.

Veo 2 juga memahami bahasa sinematografi, sehingga para penggunanya dapat menentukan genre, jenis lensa, atau efek sinematik tertentu untuk nantinya akan diwujudkan Veo 2 menjadi sebuah video berdurasi beberapa menit dengan resolusi 4K.

Menariknya, Veo 2 sudah berhasil mengurangi efek-efek tidak realistis dalam AI generatif seperti jari tambahan ataupun objek yang tidak diinginkan. Untuk tetap dapat mengenali video yang dibuat AI, hasil video dari Veo 2 tetap memiliki watermark transparan SynthID.

Imagen 3

Untuk AI generatif gambar, Google merilis Imagen 3 yang kini mampu menghasilkan gambar yang lebih cerah dan komposisi yang lebih baik, dengan kemampuan merender berbagai gaya seni secara akurat, mulai dari fotorealisme hingga anime.

Peningkatan ini memungkinkan Imagen 3 mengikuti perintah dengan lebih akurat dan menghasilkan detail serta tekstur yang lebih kaya. Hal ini memungkinkan gambar yang dihasilkan menjadi lebih tajam, realistis, dan natural layaknya gambar asli.

Google juga mengumukan bahwa bersamaan dengan versi baru ini, model Imagen 3 akan diluncurkan melalui ImageFX ke lebih dari 100 negara. Sehingga ada lebih banyak pengguna yang dapat memanfaatkan fitur AI ini.

Whisk

Selain dua model AI-nya, Google Labs juga memperkenalkan Whisk, sebuah eksperimen baru dalam model AI pembuatan gambar. Whisk memungkinkan pengguna menghasilkan gambar menggunakan gambar lain sebagai prompt, tanpa perlu deskripsi panjang.

Di balik model AI ini, Whisk mengombinasikan model Imagen 3 dengan teknologi pemahaman visual dan deskripsi yang ada pada Gemini. Gemini bertugas untuk menulis penjelasan detail dari gambar yang ingin dibuat, yang kemudian diteruskan ke Imagen 3.

Dengan pembaruan ini, Google menunjukkan komitmennya dalam mendorong batas teknologi AI, memberikan alat yang lebih canggih bagi kreator untuk mewujudkan ide-ide mereka dengan cara yang lebih mudah dan efisien.