Panduan Prompt Engineering dari Anthropic: Cara Membangun Sistem AI yang Bebas Halusinasi

2 mins read
June 20, 2026

Pendekatan terhadap pengembangan Artificial Intelligence(AI) tidak lagi sekadar memasukkan teks instruksi biasa. Praktik rekayasa perintah (prompt engineering) kini telah berevolusi menjadi disiplin ilmu keteknikan yang sangat presisi.

Menjawab tantangan tersebut, Margot Vanlar, perwakilan dari laboratorium riset AI Anthropic, mempresentasikan “The Prompting Playbook”. Pedoman komprehensif ini membongkar strategi krusial di balik layar untuk membangun sistem berbasis Large Language Models (LLM) yang tidak hanya cerdas, tetapi juga dapat diandalkan untuk operasional tingkat korporat (enterprise).

Menurut Vanlar, akar permasalahan dari ketidakstabilan sistem AI sering kali bermula dari instruksi yang berantakan dan pengujian yang tidak terukur.

“Prompting adalah sebuah keterampilan teknik yang menuntut iterasi berbasis data, bukan sekadar tebakan kata-kata,” tegasnya.

Melalui pedoman ini, Anthropic menjabarkan kerangka kerja sistematis yang harus diterapkan oleh setiap pengembang, mulai dari tahap evaluasi awal, pembersihan struktur, perbaikan (debugging), hingga perancangan arsitektur agen otonom.

Mengapa Pengujian (Evaluasi) Menjadi Langkah Pertama yang Wajib Dilakukan?

Sebelum insinyur perangkat lunak mengubah satu kata pun di dalam sistem prompt, langkah paling mendasar yang wajib disiapkan adalah membangun suite evaluasi (Evals). Evaluasi ini berfungsi sebagai parameter objektivitas untuk menilai apakah sebuah modifikasi akan meningkatkan kecerdasan model, atau justru memicu kemunduran performa (regresi).

Untuk membangun sistem evaluasi yang tangguh, pengembang harus menyertakan tiga skenario pengujian utama:

  • Control Case (Kasus Dasar): Kumpulan skenario pertanyaan standar yang wajib dijawab dengan benar oleh sistem dalam kondisi apa pun.

  • Edge Cases (Kasus Ekstrem): Kondisi anomali atau skenario pinggiran yang pada model generasi sebelumnya terbukti menyebabkan kegagalan atau halusinasi.

  • Escalation Checks (Uji Eskalasi): Simulasi parameter keselamatan untuk memastikan model mengetahui batasan kemampuannya—kapan ia harus menolak instruksi berbahaya atau menyerahkan (hand-off) kendali penyelesaian masalah kepada operator manusia.

Bagaimana Cara Menjaga “Higiene Prompt” Agar Lebih Akurat?

Sebagian besar halusinasi AI berakar dari instruksi yang tumpang tindih. Vanlar memperkenalkan konsep “Higiene Prompting”, di mana kejelasan struktur adalah kunci utama agar model komputasi dapat membedakan konteks.

  • Pemisahan Struktur Melalui Tag XML: Pisahkan secara tegas antara identitas peran (persona), kebijakan (policy), panduan nada bicara (tone), dan data masukan dari pengguna. Jika seorang manusia kebingungan membedakan mana aturan dan mana data dalam sebuah prompt, maka model LLM akan mengalami kebingungan yang jauh lebih parah.

  • Penerapan Kontrak Output: Definisikan secara detail format keluaran yang diizinkan. Pengembang dianjurkan untuk memanfaatkan parameter seperti stop sequences (titik henti teks) atau skema output terstruktur (seperti format JSON spesifik) guna menjaga konsistensi jawaban secara terus-menerus.

Berhenti Melakukan “Patching”: Strategi Debugging yang Tepat

Ketika sebuah LLM memberikan jawaban yang salah, reaksi insting pengembang biasanya adalah menambahkan instruksi larangan secara membabi buta. Praktik ini disebut sebagai penambalan (patching) warisan yang perlahan akan merusak fleksibilitas model generasi terbaru.

Alih-alih membatasi model dengan instruksi yang kaku (overfitting), pedoman ini menyarankan pendekatan berikut:

Masalah pada Sistem AI Kesalahan Pendekatan Konvensional Solusi The Prompting Playbook Anthropic
Model Gagal Melakukan Kalkulasi Menambahkan instruksi teks: “Harap berhitung dengan lebih teliti dan jangan salah.” Mengintegrasikan Alat/Tool Eksternal (seperti API Kalkulator) yang dapat dipanggil oleh model.
Model Sering Memberikan Jawaban Kasar Memasukkan ribuan daftar larangan kata yang membuat model menolak menjawab pertanyaan netral. Memberikan Gambaran Lengkap (Konteks). Jelaskan argumen biaya vs manfaat agar model memahami mengapa sebuah gaya bahasa dihindari.
Peralihan ke Model Generasi Baru Menyalin seluruh prompt raksasa dari model lama yang penuh “tambalan” kasus spesifik. Melakukan refactoring dengan menghapus instruksi usang, memberi ruang bagi model baru untuk menggunakan kecerdasan alaminya.

Membangun Agen AI Kompleks Lewat Arsitektur “Generate-Evaluate-Repair”

Memaksa satu model raksasa untuk membaca prompt sepanjang ribuan kata dan mengeksekusi tugas kompleks secara instan sering kali berujung pada latensi tinggi dan inefisiensi token. Untuk membangun agen AI tingkat lanjut (seperti bot penyusun jadwal kerja atau asisten koding otomatis), Anthropic memperkenalkan Agentic Loop.

Siklus ini membagi beban kognitif ke dalam tiga tahapan terpisah:

  1. Generator (Penghasil): Model pertama bertugas menderetkan draf awal atau rancangan solusi mentah secara cepat.

  2. Evaluator (Penilai): Draf tersebut dikirim ke model kedua (atau skrip kode penguji) yang bertugas secara spesifik untuk membedah rancangan dan mencari pelanggaran aturan.

  3. Repairer (Memperbaiki): Model ketiga menerima hasil temuan dari Evaluator dan secara terarah hanya memperbaiki bagian draf yang bermasalah.

Pendekatan sirkuler ini diklaim jauh lebih efisien dalam penggunaan token sumber daya dan mampu menekan waktu tunggu (latency), menghasilkan penyelesaian masalah yang presisi dan stabil. Kunci keberhasilan di era rekayasa promptmodern ini adalah iterasi berkelanjutan yang didukung oleh matriks data yang valid.

Disclosure: Artikel ini disusun dengan bantuan AI dan dalam pengawasan editor.

Wiku Baskoro

Penggemar streetphotography, penikmat gadget, platform agnostic gamers, build Hybrid.co.id to make impact.

Branding di Era AI
Previous Story

Strategi Pemasaran di Era AI: Mengapa Konsistensi Lebih Penting dari Autentisitas?

Latest from Blog