Yandex YaLM

GPT-3 Alternatif Büyük Dil Modelleri (LLM’ler)

Yandex tarafından oluşturulan 100B parametreli önceden eğitilmiş dil modeli.

Website

Yandex YaLM Hakkında

YaLM 100B, metin oluşturmak ve işlemek için GPT benzeri bir sinir ağıdır. Dünyanın her yerinden geliştiriciler ve araştırmacılar tarafından ücretsiz olarak kullanılabilir. 100 milyar parametreden yararlanır. Modelin 800 A100 grafik kartından oluşan bir küme ve 1,7 TB çevrimiçi metin, kitap ve hem İngilizce hem de Rusça sayısız başka kaynak üzerinde eğitilmesi 65 gün sürmüştür. Eğitim ayrıntıları ve hızlandırma ve stabilizasyonlarla ilgili en iyi uygulamalar Medium (İngilizce) ve Habr (Rusça) makalelerinde bulunabilir. modeli eğitmek için DeepSpeed’i kullandılar ve Megatron-LM örneğinden ilham aldılar. Ancak, bu depodaki kod, modeli eğitmek için kullanılan kodun aynısı değildir. Daha ziyade, modeli çıkarmak için gereken minimum değişikliklerle DeepSpeed deposundaki stok örneğidir.