ChatGPT'nin Web Sitenizden İçerik Kopyalaması Nasıl Engellenir?

Herkes ChatGPT ve OpenAI hakkında konuşuyor. ChatGPT’nin en son sürümü etkileyici yeteneklere sahip ve internet üzerindeki büyük miktarda veriye dayanarak geniş bir soru yelpazesine cevap verebiliyor.

Ancak ChatGPT gibi yapay zeka araçları etik sorunlar ortaya çıkarıyor. ChatGPT ve benzeri çoğu yapay zeka aracı, verilerini web taraması yaparak elde ediyor. Tarama yapılan veriler, herhangi bir korumasız web sitesinden alınabilir ve web sitesi sahipleri içeriklerinin özellikle ticarileştirme amacıyla kullanılmasını istemeyebilirler.

Kullanıcılar ChatGPT’den doğrudan cevaplar aldıklarında, orijinal kaynağa (yani verilerin alındığı web sitesine) gitme olasılıkları azalır. Bu nedenle, ChatGPT’nin kullanıcılarına web sitenizden alınan bilgileri sunması, sayfalarınızın aksi takdirde alacağı ziyaretçi sayısını azaltır.

Bazı web sitelerinin, ChatGPT gibi yapay zeka araçlarının verilerini kullanarak modelleri eğitmesine izin vermek istemediğini anlamak mümkündür. StackOverflow gibi diğer web siteleri ise verilerini ticarileştirmek amacıyla kullanmayı tercih edebilirler ve bu sayede meşhur yapay zeka pastasından bir dilim almaya çalışabilirler.

ChatGPT hangi verilerle eğitim alıyor?

OpenAI tarafından yayımlanan “Dil Modelleri Az-Çekim Öğrenenlerdir” adlı bir araştırma makalesine göre, ChatGPT3 çeşitli veri kümeleriyle eğitim almıştır:

Common Crawl
WebText2
Books1 and Books2
Wikipedia

Yukarıdaki tabloya bakıldığında, en fazla eğitim verisinin Common Crawl’dan geldiği görülmektedir. Common Crawl, web tarama verilerinin açık bir depolama alanını üretip sürdürerek web bilgilerine erişim sağlayan kâr amacı gütmeyen bir organizasyondur. Farklı taramaları AWS 3 üzerinden erişilebilir ve Mayıs 2023 itibarıyla 2013 yazından 2023 Nisan’ına kadar uzanan onlarca veri kümesine erişim sağlamaktadır.

Common Crawl Tarama Robotu, yani CCBot

Common Crawl projesinin tarama robotu CCBot adını taşımaktadır ve büyük ölçekli tarama işlemleri gerçekleştirmek için Apache Nutch adlı bir çerçeveyi kullanmaktadır.

CCBot’un en güncel sürümü, CCBot/2.0 kullanıcı aracısını kullanmaktadır. Ancak CCBot’a izin vermek istiyorsanız, sadece kullanıcı aracısına güvenmemelisiniz. Hatırlanmalıdır ki, birçok zararlı bot kötü botlarmış gibi davranmak ve engellenmemek için kullanıcı aracısını taklit etmektedir.

CCBot’a izin vermek için IP aralıkları veya ters DNS gibi diğer öznitelikleri kullanmalısınız. Eski CCBot sürümleri IP adresleri 38.107.191.66 ile 38.107.191.119 arasında değişirken, güncel sürümü Amazon AWS üzerinden tarama yapmaktadır.

Common Crawl’ün belirttiğine göre, “CCBot tarama robotu, bir alan adı için web sunucularına aşırı yük bindirmemek için tasarlanmış bir dizi algoritma içermektedir.”

ChatGPT’nin web sitenize erişmesini nasıl engellerim?

ChatGPT’nin eğitim verilerinin büyük çoğunluğu Common Crawl tarama robotundan gelmektedir. Bu nedenle, web sitenizin ChatGPT’yi engellemek için en azından CCBot’tan gelen trafiği engellemesi gerekmektedir.

Robots.txt

CCBot robots.txt dosyalarına saygı duyar ve aşağıdaki kodları kullanarak engellenebilir:

User-agent: CCBot
Disallow: /

CCBot Kullanıcı Aracısını Engelleme

Başka bir seçenek ise CCBot kullanıcı aracısını doğrudan engellemektir. İyi bot trafiğine kullanıcı aracısıyla izin vermek güvenli olmasa da, istenmeyen bir botu kullanıcı aracısıyla güvenli bir şekilde engelleyebilirsiniz ve bu saldırganlar tarafından istismar edilemez.

Bot Yönetimi Yazılımı

Verilerinizin istenmeyen bir şekilde kazınmasını önlemenin en iyi yolu, botların ilk etapta kazımaya başlamasını engellemektir. DataDome gibi güçlü bir bot ve sahtekarlık yönetimi yazılımı, güçlü makine öğrenimi algoritmaları kullanarak kötü botları -hatta sadece istenmeyen botları bile- dışarıda tutabilir.

Başka ChatGPT / OpenAI kazıcılar var mı?

Bazı AI araçlarına bağlı botlar kazıcıdır, bazıları ise sadece veri almak için aktif olarak arama yapmayan eklentilerdir.

ChatGPT-User

Günlüklerinizde aşağıdaki kullanıcı aracısını içeren istekleri görmüş olabilirsiniz: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

OpenAI’nin belgelerine göre, bu istekler OpenAI’nin web tarama eklentisiyle ilişkilidir ve kazı amaçlı kullanılmazlar, yani bu bot tarafından yapılan istekler OpenAI modellerini eğitmek için kullanılmaz.

ChatGPT Kullanıcı Aracısı

ChatGPT kazıcısı gibi, OpenAI’nin botu da robots.txt dosyasına saygı duyar ve aşağıdaki satırları kullanarak engellenebilir:

User-agent: ChatGPT-User
Disallow: /

Eklentilerin sitenizin yalnızca bazı bölümlerine erişmesine izin vermek için ChatGPT-User’ı sitenizin robots.txt dosyasına şu şekilde ekleyebilirsiniz:

User-agent: ChatGPT-User
Disallow:
Allow: /dizin-1/
Allow: /dizin-2/

Başka bir seçenek ise kullanıcı aracısını engellemektir:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Web sitesi verilerimi AI model eğitimine karşı nasıl korurum?

ChatGPT ve diğer büyük dil modelleri eğitim için veriye ihtiyaç duyar. Bugün itibarıyla, ChatGPT gibi modelleri engellemek için Common Crawl’ü, robots.txt veya kazıcı kullanıcı aracısını engellemek yeterlidir. Ancak, ileride durumun değişip değişmeyeceği belirsizdir.

Eğer OpenAI’nin çok sayıda web sitesine erişimi engellenirse, geliştiriciler robots.txt’ye saygı göstermeyi ve kazıcı kimliklerini kullanmayı bırakma eğilimine girebilirler. Bu durumda, AI kazıcıları tespit etmek ve engellemek için gelişmiş bot tespit tekniklerini uygulamanız gerekecektir, diğer kazıcılarda olduğu gibi.

Başka bir olasılık ise, OpenAI’nin Microsoft ile ortaklık yapması nedeniyle Microsoft Bing’in kazı botu verilerine erişebilmesidir. Bu durumda, web sitesi sahipleri için durum daha zorlu hale gelecektir. Çünkü Bing’in botları Bingbot olarak tanımlanırken, onları engellemek tehlikeli olabilir, çünkü web sitelerinin Bing arama motorunda dizine alınmasını ve insan ziyaretçilerinde önemli bir düşüşe neden olabilir.

Online işletmeler için gelecek ne getiriyor?

Yapay zekadaki son gelişmelerle birlikte, özellikle büyük dil modellerinde, insanlar tarafından üretilen yüksek kaliteli veri kümelerine sahip olmak büyük önem taşımaktadır. Değerli verilere sahip olan bazı web siteleri, AI model eğitiminden çıkmayı veya içeriklerini ticarileştirmeyi isteyebilirler.

Şu anda, ChatGPT gibi modellere Common Crawl kazıcısını engelleyerek katılmaktan çıkabilirsiniz. Ayrıca, kullanıcıların ChatGPT eklentileri aracılığıyla web sitenizle etkileşime geçmelerini engellemek için robots.txt veya kazıcı kullanıcı aracısını engelleyebilirsiniz.

Ancak uzun vadede, OpenAI (kısmen Microsoft tarafından finanse edilen) ve Google’ın Bing ve Googlebot kazıcılarını kullanarak büyük AI modellerini eğitmek için veri toplaması durumunda, web sitelerinin veri toplama sürecinden sadece çıkmak daha da zor hale gelecektir, çünkü çoğu online işletme içeriklerini dizine almak ve web sitelerine trafik çekmek için Bing ve Google’a büyük ölçüde güvenmektedir.

İçerik hırsızlığına kurban olmaktan kaçınmak isteyen e-ticaret, sınıflandırma ve benzeri web sitesi ve uygulama sahipleri yakın gelecekte gelişmiş korumaya ihtiyaç duyacaklar. Sadece hızla gelişen AI teknolojilerine karşı mücadele edebilecek şekilde gelişmiş, uyarlanabilir çözümler AI ve makine öğrenimini (ML) kullanarak yabancı botları ve tehditleri tespit edebilir.

ChatGPT’nin Web Sitenizden İçerik Kopyalaması Nasıl Engellenir?