Sistem Leaderboard untuk Mengevaluasi Cara Berpikir AI Telah Diluncurkan

Dalam kurun waktu kurang dari tiga tahun, Generative AI telah menjadi solusi instan pengganti daya pikir banyak orang. Walau terlihat sebagai solusi yang universal, di mana tiap masalah dapat diselesaikan dengan mudah dan cepat, sebuah permasalahan baru muncul: Bagaimana kita dapat mencerna proses pemikiran sebuah AI, hingga sampai pada suatu jawaban.

Inilah dimana model pemikiran “chain-of-thought” dapat diterapkan. Peneliti dari berbagai komunitas, terutama dari komunitas Huggingface pun telah menerapkan sistem ranking menggunakan Leaderboard untuk mengukur kualitas dari Chain-of-Thought milik model AI.

Apa itu Model Pemikiran Chain-of-Thought?

Model pemikiran chain-of-thought secara gamblang merupakan proses pencernaan untuk menjelaskan proses step-by-step bagaimana AI sampai pada jawaban tertentu. Proses ini menuntut AI untuk dapat menjabarkan proses berpikir mereka secara kronologis dan runut, mirip seperti bagaimana manusia menjelaskan cara pemecahan sebuah masalah (problem-solving).

Beberapa Fitur Sistem Leaderboard Chain-of-Thought

Fitur-fitur yang diterapkan dalam sistem leaderboard ini tentunya bertujuan untuk mengoptimasi dua hal: akurasi dan transparansi.

Namun, sistem Leaderboard memungkinkan kedua aspek ini dilakukan dengan bersamaan dengan lebih baik dengan memprioritaskan proses pemikiran di balik jawaban final dari model AI. Cara ini berbeda dengan proses benchmarking AI tradisional yang banyak memprioritaskan akurasi dari jawaban final saja.

Sistem Leaderboard ini juga menggunakan beberapa task berbeda untuk mengetes kemampuan Chain-of-Thought dari model AI. Seperti contoh, pembuatan esai tentang arkeologi di Indonesia, dapat kita minta kepada model AI dengan berbagai jenis pertanyaan. Dengan demikian, kemungkinan besar, hasilnya juga akan cenderung berbeda. Ini juga menekankan pentingnya kemampuan Chain-of-Thought dari model AI untuk dapat menjelaskan sesuatu dengan rinci dan secara kronologis. AI diharapkan untuk tidak melakukan proses memorisasi saja pada permintaan dari pengguna, tapi dapat melakukan pemecahan masalah yang rinci, transparan, dan jelas serta akurat menggunakan Chain-of-Thought.

Manfaat Penerapan Chain-of-Thought Pada Model AI

Debugging dan Analisa Error. Dengan memahami cara kerja berpikir dan rantai pemikiran dari model AI, pengembang AI lebih dapat dengan mudah mengidentifikasi dan memperbaiki error pada model. Jika model tersebut tetap melakukan kesalahan pada aspek tertentu di hasil outputnya secara konsisten, pengembang dapat fokus memperbaiki aspek tersebut.
Peningkatan Transparansi dan Kepercayaan: Model Chain-of-Thought dapat membantu publik untuk lebih percaya pada model AI dengan membuat cara pikirnya lebih transparan. Hal ini penting dilakukan, terutama pada model yang terlibat pada industri tertentu, seperti perbankan atau industri kesehatan.
Meningkatkan kolaborasi kita dengan AI. Kita dapat lebih mudah memahami alur kerja dan pemikiran dari model AI, dan tentunya lebih tepat untuk memberikan arahan pada model tersebut untuk bekerja lebih baik lagi.

Peluncuran dari sistem Leaderboard ini merupakan langkah awal untuk pengembangan AI yang lebih serius. Dengan maraknya pembangunan dan pengembangan AI di dunia, model AI yang dibangun dengan akurat kian menjamur, namun di sisi lain ini menekankan perlunya model AI yang dapat menghasilkan reasoning atau alasan dan rincian atas jawaban dari permintaan pengguna.

Sistem Leaderboard ini juga memiliki potensi yang luar biasa untuk mengakselerasikan pengembangan model AI yang dapat mempertanggungjawabkan hasil generasinya dengan membuktikannya menggunakan Chain-of-Thought. Banyak profesi dan juga pakar industri dapat memetik keuntungan dari sistem Leaderboard ini, seperti contohnya periset yang memerlukan bantuan untuk menelaah data dan jawaban dari pertanyaan teknis.

Gambar header: Pexels.