Switch Transformers by Google Brain

GPT-3 Alternatif Büyük Dil Modelleri (LLM’ler)

Basit ve Verimli Seyreklik ile Trilyon Parametreli Modellere Ölçeklendirme.

Website

Switch Transformers by Google Brain Hakkında

Derin öğrenmede modeller genellikle tüm girdiler için aynı parametreleri yeniden kullanır. Uzmanların Karışımı (MoE) buna meydan okur ve bunun yerine gelen her örnek için farklı parametreler seçer. Sonuç, seyrek olarak etkinleştirilen bir modeldir - aşırı sayıda parametreye sahiptir - ancak sabit bir hesaplama maliyeti vardır. Bununla birlikte, MoE’nin birkaç önemli başarısına rağmen, yaygın olarak benimsenmesi karmaşıklık, iletişim maliyetleri ve eğitim istikrarsızlığı nedeniyle engellenmiştir - bunları Anahtar Dönüştürücüsü ile ele alıyoruz. MoE yönlendirme algoritmasını basitleştiriyor ve daha düşük iletişim ve hesaplama maliyetleri ile sezgisel olarak geliştirilmiş modeller tasarlıyoruz. Önerdiğimiz eğitim teknikleri istikrarsızlıkları gidermeye yardımcı oluyor ve büyük seyrek modellerin ilk kez daha düşük hassasiyetli (bfloat16) formatlarla eğitilebileceğini gösteriyoruz. Aynı hesaplama kaynaklarıyla ön eğitim hızında 7 kata kadar artış elde etmek için T5-Base ve T5-Large tabanlı modeller tasarlıyoruz. Bu iyileştirmeler, 101 dilin tamamında mT5-Base sürümüne göre kazanımları ölçtüğümüz çok dilli ortamlara da uzanıyor. Son olarak, “Colossal Clean Crawled Corpus” üzerinde trilyon parametre modeline kadar ön eğitim vererek dil modellerinin mevcut ölçeğini geliştiriyoruz ve T5-XXL modeline göre 4 kat hızlanma elde ediyoruz.