DialoGPT

GPT-3 Alternatif Büyük Dil Modelleri (LLM’ler)

Diyalog için büyük ölçekli ön eğitim.

Website

DialoGPT Hakkında

DialoGPT, yüzlerce Gigabaytlık konuşma verisi kullanarak ön eğitim tekniklerini yanıt üretimine uyarlar. GPT-2 gibi DialoGPT de otoregresif (AR) bir dil modeli olarak formüle edilmiştir ve model mimarisi olarak çok katmanlı bir dönüştürücü kullanır. Genel metin verileri üzerinde eğitim veren GPT-2’den farklı olarak DialoGPT, Reddit tartışma konularından çıkarılan 147 milyon çok turlu diyalogdan yararlanır. Uygulama, huggingface pytorch-transformer ve OpenAI GPT-2’ye dayanmaktadır.

Kaynak: https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/