Ücretli AI modellerinden şok eden performans: Parayı ver, daha çok hata al!

Yeni bir araştırma, yapay zeka arama modellerinin %60’tan fazla yanılgı yaptığını ortaya koyuyor. Daha da berbatı, fiyatlı sürümler, fiyatsız sürümlere oranla çok daha başarısız görünüyor.

Yayınlama: 17.03.2025

A⁺

A^-

Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından yapılan kapsamlı bir araştırma, üretken yapay zeka modellerinin haber arama işinde önemli doğruluk problemleri yaşadığını ortaya koydu. Araştırmada, canlı arama fonksiyonuna sahip sekiz farklı AI dayanaklı arama aracı incelendi ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60’ından fazlasına yanlış karşılıklar ürettiği belirlendi.

Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının AI modellerini klasik arama motorlarına alternatif olarak kullandığını ve bu durumun yanılgıların tesirini daha da önemli hale getirdiğini vurguladılar.

Araştırmada doğruluk oranlarındaki farklılıklar dikkat çekti. Örneğin, Perplexity platformu verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye taşıdı. Grok 3 ise %94 üzere çarpıcı bir yanılgı oranıyla en düşük performansı sergiledi.

Testler nasıl gerçekleştirildi?

Araştırmacılar, modelleri gerçek haber makaleleriyle sınamak için çeşitli istemler verdiler. Bu istemlerde, haber makalesinin başlığını, özgün yayımcısını, yayım tarihini ve URL’sini gerçek bir biçimde tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. Farklı bir biçimde, modellerin muteber bilgiye sahip olmadıkları durumlarda cevap vermeyi reddetmek yerine, gerçekçi görünümlü ancak yanlışlı ya da iddiaya dayalı cevaplar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.

Ücretli modeller, fiyatsız sürümlerden daha mı makus?

Araştırma, fiyatlı hizmetlerin bazen beklenenin tersine fiyatsız sürümlerden daha makûs performans sergileyebildiğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmeti, fiyatsız sürümlerine kıyasla daha sık ve daha kendinden emin yanlışlar üretti. Bu modeller, daha fazla sayıda isteme cevap verme eğiliminde olsalar da, karşılıklarını reddetmemeleri kusur oranlarını yükseltti.

Araştırmacılar, birtakım AI araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity’nin fiyatsız sürümü, National Geographic’in açık bir biçimde müsaade vermemesine karşın, fiyatlı içeriklerden 10 adedini hakikat bir biçimde tanımlamayı başardı. Ayrıyeten sıkça karşılaşılan meseleler ortasında, alıntı yapılan yazılarda özgün kaynağı göstermek yerine Yahoo News üzere öteki sitelere temas verme ve yanılgılı ya da geçersiz irtibatlar sağlama yer aldı.

Arama, hata, İstem, Yanıt

Benzer Konular

Android’siz ilk Huawei amiral gemileri: Huawei Mate 70 serisi tanıtıldı

Huawei'nin Mate 70 serisindeki dört model de şirketin kendi işletim sistemi olan HarmonyOS Next ile birlikte geliyor. Bu işletim sistemi Android uygulamalarıyla uyumlu değil.

27.11.2024

Plastiği çevremiz için sorun olmaktan çıkartacak buluş

Araştırmacılar ucuz, esneyebilen ve geri dönüştürülebilen bir plastik cinsini 3D olarak basmanın kolay bir yolunu buldu. Bu buluş, plastiğin etrafa verdiği ziyanı da ortada kaldırabilir.

27.12.2024

Peynir sevmeyenlere bile peyniri sevdirecek araştırma

Peynir yemeyi sevmiyor musunuz? Bu yeni araştırmanın sonuçlarını gördüğünüzde, peynir hakkındaki görüşlerinizi bir defa daha gözden geçirmek isteyeceksiniz.

16.07.2024

Samsung’un ucuz Galaxy A16’sı, “6 yıl Android” müjdesiyle geldi

Samsung'un yeni ve ucuz telefonu Galaxy A16 resmi olarak tanıtıldı. Ve bu telefonun, çok büyük bir Android muştusuyla gelmesi herkesi şaşkına çevirmiş durumda.

09.10.2024

Instagram’a yeni özellik: Dislike butonu geliyor

Instagram, kullanıcıların muhakkak yorumları beğenmediklerini yahut uygun bulmadıklarını özel olarak belirtmelerine imkan tanıyan yeni bir "dislike" beğenmeme butonunu test etmeye başladı.

15.02.2025