Bir dil modeli olan GitHub Copilot’un açık kaynaklı bir sürümü.
GPT-Code-Clippy (GPT-CC), GPT-Codex olarak adlandırılan GPT-3 tabanlı bir dil modeli olan GitHub Copilot’un GitHub’dan halka açık kod üzerinde ince ayar yapılmış açık kaynaklı bir sürümüdür. GPT-CC’yi eğitmek için kullanılan veri seti aşağıdaki kriterler kullanılarak SEART GitHub Search’ten elde edilir:10+ GitHub yıldızı2+ taahhütBir lisansa sahip olmalıÇatalları hariç tutBoyut < 70708 baytBu depolar daha sonra The Pile’da bulunan tüm GitHub depolarıyla birleştirilir.
Kaynak: https://discuss.huggingface.co/t/pretrain-gpt-neo-for-open-source-github-copilot-model/7678?u=ncoop57