Ham sesten anlamlı konuşma üretme.
BERT, RoBERTa ve GPT-3 gibi metin tabanlı dil modelleri son yıllarda büyük ilerleme kaydetmiştir. Girdi olarak yazılı kelimeler verildiğinde, neredeyse her konuda son derece gerçekçi metinler üretebilirler. Ayrıca, yalnızca birkaç etiket veya örnek (örneğin, BART ve XLM-R) kullanarak duygu analizi, çeviri, bilgi alma, çıkarımlar ve özetleme dahil olmak üzere çeşitli zor doğal dil işleme (NLP) uygulamaları için ince ayar yapılabilen yararlı ön eğitimli modeller de sağlarlar.Bununla birlikte, önemli bir sınırlama vardır: Facebook AI, metne olan bu bağımlılığı ortadan kaldıran ilk yüksek performanslı NLP modeli olan Generative Spoken Language Model’i (GSLM) tanıtıyor. GSLM, temsil öğrenimindeki son gelişmelerden yararlanarak, herhangi bir etiket veya metin olmadan doğrudan yalnızca ham ses sinyallerinden çalışmasına olanak tanır. Dünya üzerinde konuşulan potansiyel her dil için, hatta önemli metin veri setleri olmayanlar için bile yeni bir metinsiz NLP uygulamaları çağının kapısını açıyor.
Kaynak: https://ai.facebook.com/blog/textless-nlp-generating-expressive-speech-from-raw-audio/