Saat okumak, yapay zeka için neden bir kabusa dönüştü?

Görsel zekalarıyla övülen yapay zeka modelleri, nasıl oluyor da sıradan bir analog saati okuma misyonunda sınıfta kalıyor? İşte değişik bir araştırma ve şaşırtan sonuçları.

Saat okumak, yapay zeka için neden bir kabusa dönüştü?
Yayınlama: 19.03.2025
A+
A-

Yapay zeka, son yıllarda inanılmaz yetenekler sergileyerek öykü yazmaktan protein yapılarını kestirim etmeye, gerçekçi görseller yaratmaktan mesken ödevlerini çözmeye kadar geniş bir yelpazede kullanılmaya başlandı. Lakin, her şey göründüğü kadar kusursuz değil. Yeni bir araştırma, AI’nin birtakım kolay misyonlarda – analog bir saat okuma gibi – neredeyse komik denebilecek ölçüde zorlandığını ortaya koydu.

Edinburgh Üniversitesi’nden bir küme araştırmacı, çeşitli ortamları yorumlayabilen ve içerik üretebilen yedi çok modlu büyük lisan modelini (MLLM) test etti. Çalışmalarını Nisan ayında yayınlamayı planlayan takım, bu modellerin saat ya da takvim üzere görseller üzerinden vakitle ilgili soruları ne kadar yanlışsız yanıtlayabildiğini inceledi. Araştırma sonuçları, AI’nin bu temel misyonlarda beklenenden çok daha düşük bir muvaffakiyet gösterdiğini ortaya koydu.

Araştırmacılar, makalelerinde bu sorunun ehemmiyetini şöyle açıklıyor: “Görsel girdilerden zamanı yorumlama ve akıl yürütme yeteneği, olay planlamasından otonom sistemlere kadar birçok gerçek dünya uygulaması için kritik bir rol oynar.” Fakat mevcut teknolojiler daha çok obje algılama, imaj başlığı yahut sahne tahlili üzere alanlarda ağırlaşmış durumda. Zamansal çıkarımlara yönelik araştırmalar ise hala yetersiz.

Ekip, ünlü modeller ortasında yer alan OpenAI’nin GPT-4o ve GPT-o1’ini, Google DeepMind’ın Gemini 2.0’ını, Anthropic’in Claude 3.5 Sonnet’ini, Meta’nın Llama 3.2-11B-Vision-Instruct’unu, Alibaba’nın Qwen2-VL7B-Instruct’unu ve ModelBest’in MiniCPM-V-2.6’sını test etti. Modeller, farklı analog saat görselleri (örneğin Roma rakamları, farklı tasarımlar ve bazılarında saniye kolu olmayan saatler) ile karşı karşıya bırakıldı. Ayrıyeten on yıllık bir takvim imajı üzerinden vakitle ilgili daha karmaşık sorular soruldu; örneğin, “Yeni yıl haftanın hangi gününe denk geliyor?” yahut “Yılın 153’üncü günü hangisidir?” üzere…

Araştırmacılar, bu misyonların yalnızca görsel tanıma değil, birebir vakitte sayısal akıl yürütme yeteneğini de gerektirdiğini vurguladı. Saat kolunun açısını algılama ya da takvimdeki gün-hücre sistemini çözümleme üzere vazifeler AI için kolay görünse de, sonuçlar aksini gösterdi.

Şaşırtan sonuçlar

AI modelleri, bilhassa analog saatleri okuma misyonunda büyük zorluklar yaşadı. Bu misyonda genel doğruluk oranı %25’in altında kaldı. Roma rakamlı ve stilize kollar taşıyan saatlerde, hatta saniye kolu olmayan modellerde bile benzeri halde makûs performans sergilendi. Araştırmacılar, bu başarısızlığın saat kollarını algılamak ve saat yüzündeki açıları yorumlamakla ilgili meselelerden kaynaklandığını düşünüyor.

Google’ın Gemini 2.0 modeli saat okuma testinde en yüksek puanı alırken, OpenAI’nin GPT-o1 modeli takvim vazifelerinde rakiplerinden daha uygun performans göstererek %80 doğruluğa ulaştı. Lakin bu oran bile, en başarılı modelin hala %20 oranında yanılgı yaptığını gösteriyor.

Bu araştırma, AI’nin etkileyici yeteneklerine karşın birtakım temel vazifelerde hala önemli sınırlamaları olduğunu ortaya koyuyor. Saat okuma ve takvim manaya üzere görsel ve bilişsel olarak kolay görünen vazifelerdeki bu başarısızlık, AI’nin insan akıl yürütmesinden ne kadar uzak olduğunu bir defa daha hatırlatıyor. Gelecekteki güzelleştirmelerle bu eksiklerin giderilip giderilmeyeceğini ise vakit gösterecek.

Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.