GPT-2

GPT-3 Alternatif Büyük Dil Modelleri (LLM’ler)

OpenAI tarafından Generative Pre-trained Transformer 2.

Website

GPT-2 Hakkında

GPT-2, OpenAI tarafından Şubat 2019’da oluşturulan açık kaynaklı bir yapay zekadır.OpenAI GPT-2 modeli, Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei ve Ilya Sutskever tarafından Language Models are Unsupervised Multitask Learners’da önerilmiştir. Bu, ~40 GB metin verisinden oluşan çok büyük bir derlem üzerinde dil modellemesi kullanılarak önceden eğitilmiş nedensel (tek yönlü) bir dönüştürücüdür.GPT-2, 8 milyon web sayfasından oluşan bir veri kümesi üzerinde eğitilmiş, 1,5 milyar parametreye sahip büyük bir dönüştürücü tabanlı dil modelidir. GPT-2 basit bir hedefle eğitilmiştir: bir metin içindeki önceki tüm kelimeler göz önüne alındığında bir sonraki kelimeyi tahmin etmek. Veri kümesinin çeşitliliği, bu basit hedefin farklı alanlardaki birçok görevin doğal olarak ortaya çıkan gösterimlerini içermesine neden olur. GPT-2, 10 kattan daha fazla parametreye sahip ve 10 kattan daha fazla veri üzerinde eğitilmiş GPT’nin doğrudan ölçeklendirilmesidir.