GLM-130B
GPT-3 Alternatif Büyük Dil Modelleri (LLM’ler)
Açık İki Dilli Önceden Eğitilmiş Bir Model.
Website
GLM-130B Hakkında
GLM-130B, Genel Dil Modeli (GLM) algoritması kullanılarak önceden eğitilmiş 130 milyar parametreye sahip açık iki dilli (İngilizce ve Çince) çift yönlü yoğun bir modeldir. 400 milyardan fazla metin belirteci (İngilizce ve Çince için 200’er milyar) üzerinde eğitilmiştir ve bazı etkileyici yeteneklere sahiptir.
Tek bir A100 (40G 8) veya V100 (32G 8) sunucusunda 130B parametreleri ile çıkarım görevlerini desteklemek üzere tasarlanmıştır. INT4 niceleme ile donanım gereksinimleri, neredeyse hiç performans düşüşü olmadan 4 * RTX 3090 (24G) ile tek bir sunucuya indirgenebilir. 3 Temmuz 2022 itibariyle GLM-130B, 400 milyardan fazla metin belirteci üzerinde eğitilmiştir (her biri için 200B
Çince ve İngilizce) ve aşağıdaki benzersiz özelliklere sahiptir:
GLM-130B özellikleri
- İki dilli: hem İngilizce hem de Çince’yi destekler.
- Performans (EN): LAMBADA’da GPT-3 175B (+%4,0), OPT-175B (+%5,5) ve BLOOM-176B’den (+%13,0) daha iyi ve MMLU’da GPT-3 175B’den (+%0,9) biraz daha iyi.
- Performans (CN): 7 sıfır atışlı CLUE veri kümesinde (+%24,26) ve 5 sıfır atışlı FewCLUE veri kümesinde (+%12,75) ERNIE TITAN 3.0 260B’den önemli ölçüde daha iyi.
- Hızlı Çıkarım: Tek bir A100 sunucusuyla hem SAT hem de FasterTransformer üzerinde hızlı çıkarımı (2,5 kata kadar daha hızlı) destekler.
- Tekrarlanabilirlik: tüm sonuçlar (30+ görev) açık kaynaklı kod ve model kontrol noktaları ile kolayca yeniden üretilebilir.
- Çapraz Platform: NVIDIA, Hygon DCU, Ascend 910 ve Sunway (Yakında piyasaya sürülecek) üzerinde eğitim ve çıkarımı destekler.