Riset Stanford Tunjukkan ChatGPT Belum Pantas Jadi Asisten Dokter

Chatbot AI macam ChatGPT dinilai memiliki potensi di banyak bidang, termasuk halnya di bidang yang cukup kompleks seperti kesehatan. CEO OpenAI, Sam Altman, membayangkan bagaimana teknologi ini dapat dikembangkan hingga menjadi penasihat medis bagi orang-orang yang tidak mempunyai akses ke fasilitas kesehatan. Namun untuk sekarang, hal itu sepertinya masih sulit untuk diwujudkan.

Riset terbaru yang dilakukan para ahli medis di Stanford menunjukkan bahwa, setidaknya untuk sekarang, ChatGPT masih belum reliabel untuk membantu para dokter dalam skenario dunia nyata. ChatGPT boleh lulus berbagai tes akademik dengan skor yang fantastis, tapi itu bukan berarti ia sepenuhnya bisa diandalkan dalam praktik dunia nyata.

Dalam pengujiannya, tim periset Stanford meminta ChatGPT untuk menjawab 64 pertanyaan seputar kondisi medis sesuai skenario dunia nyata. Mereka menguji dua versi sekaligus — GPT-3.5 yang sudah bisa diakses sejak November tahun lalu dan GPT-4 yang baru saja dirilis bulan lalu. Sesuai dugaan, hasil yang dicatatkan GPT-4 jauh lebih baik ketimbang pendahulunya.

Lebih dari 90% dari tanggapan yang diberikan oleh keduanya memang masuk kategori aman — aman dalam artian jawabannya sama sekali tidak menyesatkan, meski belum tentu selalu benar juga. Namun untuk tanggapan yang sesuai dengan jawaban dari para tenaga ahli, GPT-3.5 hanya mencatatkan skor 21% saja, sementara GPT-4 sebesar 41%.

Can ChatGPT safely help doctors with curbside consultation? Scholars Dev Dash, @erichorvitz, and @drnigam test language models’ answers to clinical questions at Stanford Healthcare. https://t.co/piHKsoaMa6

— Stanford HAI (@StanfordHAI) April 3, 2023

Satu hal yang perlu dicatat adalah, jawaban yang diberikan oleh para tenaga ahli ini adalah jawaban berdasarkan hasil peninjauan rekam medis pasien. ChatGPT di sisi lain tidak punya akses sama sekali terhadap data rekam medis tersebut, sehingga wajar apabila jawaban-jawaban yang diberikan tidak sesuai dengan kondisi yang dihadapi masing-masing pasien.

Berbicara kepada STAT News, kepala tim periset Stanford, Nigam Shah, mengatakan bahwa inilah yang kemudian menjadi problem ketika kita mencoba mengukur seberapa kapabel ChatGPT dan sistem AI serupa lainnya dalam menjalankan peran sebagai penasihat medis. Kebanyakan hasil pengujian AI hanya mengukur pemahamannya atas ilmu yang bisa didapat dari buku teks, bukan kemampuannya untuk membantu dokter lebih cepat mengambil keputusan dalam skenario dunia nyata.

“Kita mengevaluasi teknologi ini dengan cara yang salah. Apa yang seharusnya kita pertanyakan dan evaluasi adalah kombinasi antara tenaga manusia plus teknologi ini,” ujar Nigam.

Terlepas dari itu, Nigam tetap terkagum dengan kemajuan yang ditunjukkan oleh GPT-4. Menurutnya, dengan laju pengembangan secepat ini, sistem AI semacam ini dapat segera digunakan untuk membuat ulasan manual terhadap literatur medis, dan kemudian menggantikan layanan yang spesifik dirancang untuk membantu para dokter.

Via: Futurism. Gambar header: Freepik.