Fitur speech recognition pada smartphone kita kenal sebagai fitur yang sangat bergantung pada koneksi internet. Itu dikarenakan teknologinya begitu kompleks, melibatkan sejumlah bagian dengan tugasnya masing-masing yang spesifik.
Pertama-tama, ada satu bagian dari sistem yang ‘memecah-mecah’ input audio menjadi satuan suara terkecil alias fonem. Selanjutnya, bagian sistem lain akan menghubungkan fonem demi fonem menjadi kata-kata, sebelum akhirnya frasanya ditebak oleh bagian yang lain lagi.
Itulah mengapa dibutuhkan koneksi internet yang baik agar speech recognition bisa bekerja dengan lancar, sebab smartphone perlu mengirimkan input audionya ke server terlebih dulu untuk diproses. Semua yang melibatkan server tentu tidak luput dari latency alias jeda, namun Google rupanya sudah punya solusi yang menarik.
Ketimbang mengandalkan sistem speech recogntion yang tersimpan di server, Google meracik sistem berbasis AI bernama Recurrent Neural Network Transducer (RNN-T) yang bisa bekerja langsung di perangkat tanpa perlu mengandalkan koneksi internet. Alhasil, input audio dapat diproses secara instan tanpa ada jeda.
Kalau Anda lihat pada gambar GIF di atas, output yang dihasilkan RNN-T muncul per huruf, dan itu menunjukkan tidak adanya latency selama prosesnya berlangsung. Bandingkan dengan sistem speech recognition berbasis server seperti biasa, yang output-nya muncul secara tidak menentu.
RNN-T nantinya bakal hadir di Gboard pada semua ponsel Pixel, tapi seperti biasa, sementara baru bisa digunakan untuk bahasa Inggris saja. Google berharap mereka bisa menerapkan teknik yang sama untuk bahasa-bahasa lain ke depannya.
Sumber: SlashGear.