
Sebuah proyek bernama Massively Multilingual Speech (MMS) saat ini tersedia sebagai sumber terbuka untuk membantu melestarikan keragaman bahasa dan mendorong para peneliti untuk membangun fondasinya.
Model bahasa AI Meta, bukan ChatGPT, mampu mengenali lebih dari 4.000 bahasa lisan dan menghasilkan ucapan (text-to-speech) di lebih dari 1.100.
Sebuah proyek bernama Massively Multilingual Speech (MMS) saat ini tersedia sebagai sumber terbuka untuk membantu melestarikan keragaman bahasa dan mendorong para peneliti untuk membangun fondasinya.
“Hari ini, kami membagikan model dan kode kami secara publik sehingga orang lain dalam komunitas riset dapat mengembangkan pekerjaan kami,” tulis perusahaan itu. “Melalui karya ini, kami berharap dapat memberikan kontribusi kecil untuk menjaga keragaman bahasa dunia yang luar biasa.”
Pengenalan ucapan dan model text-to-speech biasanya memerlukan pelatihan ribuan jam audio yang digabungkan dengan label transkripsi. Label ini sangat penting untuk pembelajaran mesin, memungkinkan algoritme mengkategorikan dan “memahami” data dengan benar.
Tetapi Meta menunjukkan bahwa ada beberapa bahasa yang kekurangan pasokan di negara-negara industri dan beberapa di antaranya berisiko punah dalam beberapa dekade mendatang.
Meta menggunakan pendekatan yang tidak konvensional untuk mengumpulkan data audio dengan menggunakan rekaman audio dari teks-teks agama yang diterjemahkan.
“Kami beralih ke teks-teks agama, seperti Alkitab, yang telah diterjemahkan ke dalam berbagai bahasa dan terjemahannya telah dipelajari secara ekstensif untuk penelitian terjemahan berbasis teks,” kata perusahaan itu.
Menurut Meta, dengan menggabungkan rekaman Alkitab yang tidak berlabel dan teks serupa, peneliti dapat meningkatkan model bahasa yang tersedia menjadi lebih dari 4.000 bahasa.
Meski bersumber dari konten rekaman religi, Meta memastikan model ini tidak bisa lagi melahirkan bahasa religi. Ini karena perusahaan menggunakan pendekatan klasifikasi temporal connectionist (CTC), yang lebih terbatas daripada model bahasa skala besar (LLM) atau model urutan untuk pengenalan suara.
Selain itu, meskipun sebagian besar rekaman religius dibacakan oleh penutur laki-laki, rekaman itu juga tidak memiliki bias laki-laki — rekaman ini berperforma baik baik dalam suara perempuan maupun laki-laki.
Setelah melatih model penyelarasan agar data lebih bermanfaat, Meta menggunakan wav2vec 2.0, model “representasi ucapan belajar mandiri” yang dapat melatih data tanpa label.
Secara khusus, Meta membandingkan MMS dengan Whisper OpenAI, dan itu melebihi ekspektasi. “Kami menemukan bahwa model yang dilatih pada data Pidato Multibahasa Masif mencapai separuh tingkat kesalahan kata, tetapi Pidato Multibahasa Masif mencakup 11 kali lebih banyak bahasa.”
Meta memperingatkan model bahasa AI-nya tidak sempurna. Ada beberapa risiko bahwa MMS dapat salah menerjemahkan kata atau frasa tertentu yang dapat mengakibatkan bahasa yang kasar dan/atau tidak akurat.
“Kami terus percaya bahwa kolaborasi lintas AI sangat penting untuk pengembangan teknologi AI yang bertanggung jawab.”