OpenAI telah mengumumkan iterasi terbarunya dari chatbot populer ChatGPT: GPT-4o. “o”, yang berasal dari kata “Omni” melambangkan misi OpenAI untuk menciptakan interaksi antar komputer dan manusia yang lebih alami.
Iterasi kali ini melampaui versi-versi sebelumnya dalam fitur dan kegunaannya, terutama bagi konsumen akhir. Keterbatasan versi sebelumnya untuk mengolah file teks, audio, dan video telah diterobos. Sekarang pengguna dapat berinteraksi dengan lebih alami secara real-time.
Demo Day OpenAI dan Perilisan GPT-4o
OpenAI yang didukung investasi dari Microsoft ini memiliki valuasi sebesar $80 milyar. Perusahaan yang berdiri pada 2015 ini tengah berusaha untuk tetap menjadi pemimpin pada pasar generative AI dan membuat model bisnis yang menguntungkan, ditambah lagi dengan training AI dan pembangunan infrastruktur pengembangannya yang telah memakan biaya besar.
Secara tradisional, large language models (LLMs) berfokus pada pengolahan data teks. Model tersebut memberikan gebrakan baru pada interaksi dan penggunaan AI di seluruh dunia. Walaupun demikian, keterbatasan input dengan teks ini juga telah membatasi cara interaksi kita dengan AI model, yang terkadang terasa kurang alami dan terlalu kaku.
Dalam Demo Day-nya, OpenAI memberikan beberapa cara berinteraksi yang baru dengan GPT-4o. Model terbarunya kini dapat memahami intonasi dan cara pengguna berbicara dan memberikan informasi.
Mira Murati, Chief Technology Officer, dibantu dua Research Lead OpenAI, Mark Chen dan Barret Zoph mendemonstrasikan bagaimana GPT-4o kini dapat merespon tawa, nyanyian, atau bahkan memberikan penerjemahan secara real-time lewat Voice Mode. Voice Mode tengah disiapkan untuk perilisan publik pada platform smartphone dan juga desktop.
Beberapa Fitur GPT-4o Pada Demo Day
Kemampuan model GPT-4o dalam mengolah dan memproduksi modalitas audio, visual, dan teks dapat diterapkan sebagai solusi pada berbagai persoalan. OpenAI berencana untuk mengetes Voice Mode ini pada minggu depan, dan merilisnya untuk pelanggan berbayar ChatGPT Plus.
Mira juga mengatakan bahwa model GPT-4o dapat merespon prompt audio pengguna hanya dalam 232 milidetik, dengan rata-rata di 320 milidetik, mirip dengan daya respon manusia pada percakapan umumnya.
Salah satu contoh Voice Mode pada Demo Day OpenAI adalah ketika Chen mendemonstrasikan kemampuan GPT-4o untuk menceritakan dongeng sebelum tidur dan memberikan instruksi untuk mengganti intonasi dalam membawakan cerita agar lebih dramatis sambil bernyanyi.
Selanjutnya, Chen mendemonstrasikan GPT-4o sebagai penerjemah. Dalam Voice Mode, ChatGPT yang diperkuat dengan GPT-4o ini dapat menerjemahkan Mira yang berbicara dengan bahasa Italia dan menjembatani percakapan dengan Chen yang berbahasa Inggris secara real-time.
Dengan kayanya fitur-fitur yang dibawakan GPT-4o ini, tentunya ada risiko tertentu. Risiko ini juga diakui oleh OpenAI, dengan adanya potensi penyalahgunaan Voice Mode yang dapat memproduksi suara secara alami. Untuk memitigasi risiko ini, OpenAI telah menyupayakan pengamanan dalam proses training AInya dan akan merilis output audio secara berkala.
ChatGPT yang diperkaya dengan GPT-4o ini telah dirilis untuk pelanggan ChatGPT Plus dan Team. Pengguna Enterprise akan menerima update ini selanjutnya, sedangkan pengguna gratis akan dapat menikmati fitur-fitur baru ini secara terbatas. Pengguna ChatGPT Plus memiliki lima kali kapasitas message dibandingkan dengan pengguna gratis.