Yeni bir araştırma, yapay zeka arama modellerinin %60’tan fazla yanılgı yaptığını ortaya koyuyor. Daha da berbatı, fiyatlı sürümler, fiyatsız sürümlere oranla çok daha başarısız görünüyor.
Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından yapılan kapsamlı bir araştırma, üretken yapay zeka modellerinin haber arama işinde önemli doğruluk problemleri yaşadığını ortaya koydu. Araştırmada, canlı arama fonksiyonuna sahip sekiz farklı AI dayanaklı arama aracı incelendi ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60’ından fazlasına yanlış karşılıklar ürettiği belirlendi.
Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının AI modellerini klasik arama motorlarına alternatif olarak kullandığını ve bu durumun yanılgıların tesirini daha da önemli hale getirdiğini vurguladılar.
Araştırmada doğruluk oranlarındaki farklılıklar dikkat çekti. Örneğin, Perplexity platformu verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye taşıdı. Grok 3 ise %94 üzere çarpıcı bir yanılgı oranıyla en düşük performansı sergiledi.
Testler nasıl gerçekleştirildi?
Araştırmacılar, modelleri gerçek haber makaleleriyle sınamak için çeşitli istemler verdiler. Bu istemlerde, haber makalesinin başlığını, özgün yayımcısını, yayım tarihini ve URL’sini gerçek bir biçimde tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. Farklı bir biçimde, modellerin muteber bilgiye sahip olmadıkları durumlarda cevap vermeyi reddetmek yerine, gerçekçi görünümlü ancak yanlışlı ya da iddiaya dayalı cevaplar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.
Ücretli modeller, fiyatsız sürümlerden daha mı makus?
Araştırma, fiyatlı hizmetlerin bazen beklenenin tersine fiyatsız sürümlerden daha makûs performans sergileyebildiğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmeti, fiyatsız sürümlerine kıyasla daha sık ve daha kendinden emin yanlışlar üretti. Bu modeller, daha fazla sayıda isteme cevap verme eğiliminde olsalar da, karşılıklarını reddetmemeleri kusur oranlarını yükseltti.
Araştırmacılar, birtakım AI araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity’nin fiyatsız sürümü, National Geographic’in açık bir biçimde müsaade vermemesine karşın, fiyatlı içeriklerden 10 adedini hakikat bir biçimde tanımlamayı başardı. Ayrıyeten sıkça karşılaşılan meseleler ortasında, alıntı yapılan yazılarda özgün kaynağı göstermek yerine Yahoo News üzere öteki sitelere temas verme ve yanılgılı ya da geçersiz irtibatlar sağlama yer aldı.