Google Bard AI Yapay Zekası – Eğitmek İçin Hangi Siteler Kullanıldı?

Google’ın Bard AI yapay zekası web sitesi içeriği kullanılarak eğitilmiştir ancak bu içeriğin nasıl toplandığı ve kimin tarafından kullanıldığı hakkında çok az şey bilinmektedir. Google’ın Bard’ı, verilerin nereden geldiği ve nasıl elde edildiği hakkında çok …

Google’ın Bard AI yapay zekası web sitesi içeriği kullanılarak eğitilmiştir ancak bu içeriğin nasıl toplandığı ve kimin tarafından kullanıldığı hakkında çok az şey bilinmektedir.

Google’ın Bard’ı, verilerin nereden geldiği ve nasıl elde edildiği hakkında çok az şey bilinen Infiniset adlı İnternet içeriğine dayalı veri kümeleri üzerinde eğitilen LaMDA dil modeline dayanmaktadır.

2022 LaMDA araştırma makalesi, LaMDA’yı eğitmek için kullanılan farklı veri türlerinin yüzdelerini listeliyor, ancak yalnızca %12,5’i web’den taranan içerikten oluşan halka açık bir veri kümesinden ve diğer %12,5’i Wikipedia’dan geliyor.

Google, kazınmış verilerin geri kalanının nereden geldiği konusunda kasıtlı olarak belirsizdir, ancak bu veri kümelerinde hangi sitelerin bulunduğuna dair ipuçları vardır.

Google’ın Infiniset Veri Seti

Google Bard, Diyalog Uygulamaları için Dil Modeli ifadesinin kısaltması olan LaMDA adlı bir dil modeline dayanmaktadır.

LaMDA, Infiniset adı verilen bir veri kümesi üzerinde eğitilmiştir.

Infiniset, modelin diyaloğa girme yeteneğini geliştirmek için kasıtlı olarak seçilen bir İnternet içeriği karışımıdır.

LaMDA araştırma makalesi (PDF) neden bu içerik kompozisyonunu seçtiklerini açıklamaktadır:

“…bu bileşim, diyalog görevlerinde daha sağlam bir performans elde etmek için seçildi … kod oluşturma gibi diğer görevleri yerine getirme yeteneğini korurken Gelecekteki çalışma olarak, bu bileşimin seçiminin model tarafından gerçekleştirilen diğer bazı NLP görevlerinin kalitesini nasıl etkileyebileceğini inceleyebiliriz.”

Araştırma makalesi, bu bağlamda kullanılan kelimelerin yazılışı olan diyalog ve diyaloglara bilgisayar bilimi alanında atıfta bulunmaktadır.

LaMDA toplamda 1,56 trilyon kelimelik “halka açık diyalog verisi ve web metni” üzerinde ön eğitime tabi tutulmuştur.

Veri seti aşağıdaki karışımdan oluşmaktadır:

  • 2,5 C4 tabanlı veri
  • 12,5 İngilizce Wikipedia
  • 12,5 programlama soru-cevap web siteleri, öğreticiler ve diğerlerinden alınan kod belgeleri
  • 6,25 İngilizce web belgeleri
  • 6,25 İngilizce olmayan web belgeleri
  • 50 diyaloglar kamu forumlarından elde edilen veriler

Infiniset’in ilk iki bölümü (C4 ve Wikipedia) bilinen verilerden oluşmaktadır.

Kısa bir süre sonra incelenecek olan C4 veri seti, Common Crawl veri setinin özel olarak filtrelenmiş bir versiyonudur.

Verilerin yalnızca %25’i adlandırılmış bir kaynaktan (C4 veri seti ve Wikipedia) alınmıştır.

Infiniset veri setinin büyük kısmını oluşturan verilerin geri kalan %75’i internetten kazınan kelimelerden oluşmaktadır.

Araştırma makalesi, verilerin web sitelerinden nasıl elde edildiğini, hangi web sitelerinden elde edildiğini veya kazınan içerikle ilgili diğer ayrıntıları belirtmiyor.

Google yalnızca “İngilizce olmayan web belgeleri” gibi genelleştirilmiş tanımlar kullanır.

Bulanık (murky)” kelimesi, bir şeyin açıklanmadığı ve çoğunlukla gizlendiği anlamına gelir.

Google’ın LaMDA’yı eğitmek için kullandığı verilerin %75’ini tanımlamak için en iyi kelime bulanıktır.

Web içeriğinin %75’inde hangi sitelerin yer aldığına dair genel bir fikir verebilecek bazı ipuçları vardır, ancak kesin olarak bilemeyiz.

C4 Veri Kümesi

C4, Google tarafından 2020 yılında geliştirilen bir veri kümesidir. C4, “Devasa Temiz Taranmış Külliyat (Colossal Clean Crawled Corpus)” anlamına gelmektedir.

Bu veri seti, açık kaynaklı bir veri seti olan Common Crawl verilerine dayanmaktadır.

Common Crawl Hakkında

Common Crawl, herkesin kullanabileceği ücretsiz veri setleri oluşturmak için aylık olarak İnternet’i tarayan ve kar amacı gütmeyen kayıtlı bir kuruluştur.

Common Crawl organizasyonu şu anda Wikimedia Vakfı için çalışmış kişiler, eski Google çalışanları, Blekko’nun kurucularından biri tarafından yönetiliyor ve Google’da Araştırma Direktörü Peter Norvig ve Danny Sullivan (yine Google’dan) gibi kişileri danışman olarak sayıyor.

C4 Ortak Taramadan Nasıl Geliştirilir?

Ham Common Crawl verileri, veri kümesini ana içerikle sınırlandırmak için ince içerik, müstehcen kelimeler, lorem ipsum, gezinme menüleri, tekilleştirme vb. gibi şeyler kaldırılarak temizlenir.

Gereksiz verileri filtrelemenin amacı, anlamsızlığı ortadan kaldırmak ve doğal İngilizce örneklerini korumaktı.

C4’ü yaratan araştırmacılar böyle yazmış:

“Temel veri setimizi oluşturmak için, Nisan 2019’dan itibaren web’den çıkarılan metni indirdik ve yukarıda belirtilen filtrelemeyi uyguladık. Bu, yalnızca ön eğitim için kullanılan çoğu veri setinden (yaklaşık 750 GB) daha büyük olmakla kalmayıp aynı zamanda makul ölçüde temiz ve doğal İngilizce metin içeren bir metin koleksiyonu üretiyor.” Bu veri setini “Colossal Clean Crawled Corpus” (veya kısaca C4) olarak adlandırıyoruz ve TensorFlow Veri Setlerinin bir parçası olarak yayınlıyoruz…”

C4’ün filtrelenmemiş başka versiyonları da vardır.

C4 veri setini açıklayan araştırma makalesi, Birleşik Metinden Metne Dönüştürücü ile Transfer Öğrenmenin Sınırlarını Keşfetmek (PDF) başlığını taşıyor.

2021’deki bir başka araştırma makalesi, (Büyük Web Metni Derlemlerinin Belgelenmesi: Colossal Clean Crawled Corpus Üzerine Bir Vaka Çalışması – PDF) C4 veri setinde yer alan sitelerin yapısını incelemiştir.

İlginç bir şekilde, ikinci araştırma makalesi orijinal C4 veri setinde İspanyol ve Afro-Amerikan uyumlu web sayfalarının kaldırılmasıyla sonuçlanan anormallikler keşfetti.

Hispanik hizalamalı web sayfaları, sayfaların %32’si oranında engelleme listesi filtresi (küfürlü kelimeler vb.) tarafından kaldırılmıştır.

Afro-Amerikan uyumlu web sayfaları %42 oranında kaldırılmıştır.

Muhtemelen bu eksiklikler giderilmiştir…

Bir diğer bulgu ise C4 veri setinin %51,3’ünün ABD’de barındırılan web sayfalarından oluşmasıydı.

Son olarak, orijinal C4 veri setinin 2021 analizi, veri setinin toplam internetin sadece bir kısmını temsil ettiğini kabul etmektedir.

Analizde şu ifadeler yer almaktadır:

“Analizimiz, bu veri kümesinin genel internetin kazınmasının önemli bir bölümünü temsil etmesine rağmen, hiçbir şekilde İngilizce konuşulan dünyayı temsil etmediğini ve geniş bir yıl aralığını kapsadığını göstermektedir.” Web’in kazınmasından bir veri kümesi oluştururken, metnin kazındığı alan adlarını bildirmek veri kümesini anlamanın ayrılmaz bir parçasıdır; veri toplama süreci, internet alan adlarının beklenenden önemli ölçüde farklı bir dağılımına yol açabilir.

C4 veri setine ilişkin aşağıdaki istatistikler yukarıda bağlantısı verilen ikinci araştırma makalesinden alınmıştır.

C4’teki en iyi 25 web sitesi (token sayısına göre) şunlardır:

  1. patents.google.com
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. patents.com
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

Bunlar, C4 veri kümesinde temsil edilen en iyi 25 üst düzey etki alanıdır:

Documenting Large Webtext Corpora’dan ekran görüntüsü: Colossal Clean Crawled Corpus Üzerine Bir Vaka Çalışması

C4 Üst Düzey Alan Adları
C4 Üst Düzey Alan Adları

C4 veri kümesi hakkında daha fazla bilgi edinmek istiyorsanız, Documenting Large Webtext Corpora (Büyük Web Metni Derlemlerini Belgelemek) başlıklı makaleyi okumanızı tavsiye ederim: A Case Study on the Colossal Clean Crawled Corpus (PDF) ve C4’ün oluşturulduğu orijinal 2020 araştırma makalesini (PDF) okumanızı tavsiye ederim.

Kamu Forumlarından Elde Edilen Diyalog Verileri Ne Olabilir?

Eğitim verilerinin %50’si “halka açık forumlardaki diyalog verilerinden” gelmektedir.

Google’ın LaMDA araştırma belgesinde bu eğitim verileri hakkında söylenenlerin hepsi bu.

Tahmin etmek gerekirse, Reddit ve StackOverflow gibi diğer üst düzey topluluklar güvenli bahislerdir.

Reddit, OpenAI tarafından geliştirilen WebText2 (PDF), WebText2’nin OpenWebText2 adlı açık kaynaklı bir yaklaşımı ve Google’ın 2020 tarihli kendi WebText benzeri (PDF) veri kümesi gibi birçok önemli veri kümesinde kullanılmaktadır.

Google ayrıca LaMDA makalesinin yayınlanmasından bir ay önce kamuya açık diyalog sitelerinden oluşan başka bir veri setinin ayrıntılarını da yayınladı.

Herkese açık diyalog sitelerini içeren bu veri kümesine MassiveWeb adı verilmektedir.

MassiveWeb veri setinin LaMDA’yı eğitmek için kullanıldığını düşünmüyoruz.

Ancak Google’ın diyaloğa odaklanan başka bir dil modeli için seçtiği iyi bir örnek içeriyor.

MassiveWeb, Google’ın sahibi olduğu DeepMind tarafından oluşturuldu.

Gopher adı verilen büyük bir dil modeli tarafından kullanılmak üzere tasarlanmıştır (araştırma makalesinin PDF’sine bağlantı).

MassiveWeb, Reddit’ten etkilenen verilere yönelik bir önyargı yaratmamak için Reddit’in ötesine geçen diyalog web kaynaklarını kullanır.

Hâlâ Reddit’i kullanıyor. Ancak diğer birçok siteden kazınmış veriler de içeriyor.

MassiveWeb’de yer alan halka açık diyalog siteleri şunlardır:

  • Reddit
  • Facebook
  • Quora
  • YouTube
  • Medium
  • StackOverflow

Tekrar ediyorum, bu LaMDA’nın yukarıdaki sitelerle eğitildiği anlamına gelmiyor.

Google’ın LaMDA ile aynı zamanlarda üzerinde çalıştığı ve forum türü siteleri içeren bir veri kümesini göstererek Google’ın ne kullanmış olabileceğini göstermeyi amaçlamaktadır.

Kalan %37,5

Son grup veri kaynakları şunlardır:

  • 12,5 Soru-Cevap siteleri, öğreticiler vb. gibi programlama ile ilgili sitelerden kod belgeleri
  • 12,5 Wikipedia (İngilizce)
  • 6,25 İngilizce web belgeleri
  • 6,25 İngilizce olmayan web belgeleri.

Google, LaMDA’nın üzerinde eğitim aldığı veri kümesinin %12,5’ini oluşturan Programlama Soru-Cevap Siteleri kategorisinde hangi sitelerin bulunduğunu belirtmemektedir.

Bu yüzden sadece tahmin yürütebiliriz.

Stack Overflow and Reddit seem like obvious choices, especially since they were included in the MassiveWeb dataset.

Hangi “öğretici” siteler tarandı? Bu “öğretici” sitelerin neler olabileceğini ancak tahmin edebiliriz.

Geriye ikisi son derece muğlak olan son üç içerik kategorisi kalıyor.

İngilizce Vikipedi’nin tartışmaya ihtiyacı yok, hepimiz Vikipedi’yi biliyoruz.

Ancak aşağıdaki ikisi açıklanmamıştır:

İngilizce ve İngilizce olmayan web sayfaları, veri tabanında yer alan sitelerin %13’ünün genel bir tanımıdır.

Google’ın eğitim verilerinin bu kısmı hakkında verdiği tüm bilgiler bunlar.

Google Bard için Kullanılan Veri Setleri Hakkında Şeffaf Olmalı mı?

Bazı yayıncılar, sitelerinin yapay zeka sistemlerini eğitmek için kullanılmasından rahatsızlık duyuyor çünkü onlara göre bu sistemler gelecekte web sitelerini kullanılmaz hale getirebilir ve ortadan kaldırabilir.

Bunun doğru olup olmadığını göreceğiz, ancak yayıncılar ve arama pazarlaması topluluğunun üyeleri tarafından dile getirilen gerçek bir endişe.

Google, LaMDA’yı eğitmek için kullanılan web sitelerinin yanı sıra web sitelerini veri için kazımak için hangi teknolojinin kullanıldığı konusunda sinir bozucu derecede belirsizdir.

C4 veri setinin analizinde görüldüğü gibi, büyük dil modellerini eğitmek için hangi web sitesi içeriğinin kullanılacağını seçme metodolojisi, belirli popülasyonları hariç tutarak dil modelinin kalitesini etkileyebilir.

Google’ın yapay zekasını eğitmek için hangi sitelerin kullanıldığı konusunda daha şeffaf olması ya da en azından kullanılan veriler hakkında bulunması kolay bir şeffaflık raporu yayınlaması gerekir mi?