Yapay Zeka Modellerindeki Değerlendirme Sorunları !
Salı günü, başlangıç şirketi Anthropic, en iyi performansı elde ettiğini iddia ettiği bir aile yapay zeka modeli serisi piyasaya sürdü. Sadece birkaç gün sonra, rakip Inflection AI, OpenAI’nin GPT-4’ü de dahil olmak üzere en yetenekli modellerle rekabet edebilecek kadar kaliteli olduğunu iddia ettiği bir model tanıttı.
Anthropic ve Inflection kesinlikle modellerinin bazı nesnel ölçütlere göre rakiplerini karşıladığını veya aştığını iddia eden ilk yapay zeka firmaları değiller. Google, Gemini modellerini piyasaya sürdüğünde aynı şeyi iddia etti ve OpenAI, GPT-4 ve önceki modelleri GPT-3, GPT-2 ve GPT-1 hakkında aynı şeyi söyledi. Listeyi uzatabiliriz.
Ancak, bahsedilen ölçütler nelerdir? Bir satıcı bir modelin en iyi performansı veya kaliteyi elde ettiğini söylediğinde, tam olarak ne anlaşılır? Belki de daha da önemlisi: Teknik olarak başka bir modele göre daha iyi “performans” gösteren bir model gerçekte elde edilmiş bir iyileşme hissi yaratacak mı?
Son soruya gelince, pek olası değil.
Nedeni – ya da daha doğrusu, sorun – AI şirketlerinin bir modelin güçlü ve zayıf yönlerini ölçmekte kullandıkları benchmark’ların neden olduğu yerde.
Mistik ölçüler Bugün yapay zeka modelleri için en yaygın olarak kullanılan benchmarklar – özellikle OpenAI’nin ChatGPT ve Anthropic’ın Claude gibi sohbetbotlarını güçlendiren modeller için – test edilen modellerle ortalama bir kişinin nasıl etkileşime girdiğini yakalamakta yetersiz kalıyor. Örneğin, Anthropic’in son duyurusunda bahsettiği bir benchmark, GPQA (“Mezun Seviyesi Google-Proof Soru ve Cevap Benchmark”) yüzlerce doktora seviyesinde biyoloji, fizik ve kimya sorusunu içeriyor – ancak çoğu insan sohbetbotlarını e-postalara yanıt vermek, örtü mektupları yazmak ve duygularını konuşmak gibi görevler için kullanıyor.
Allen Institute for AI, yapay zeka araştırma kurumu bilimcisi Jesse Dodge, endüstrinin bir “değerlendirme krizi” yaşadığını belirtiyor. “Benchmarklar tipik olarak statik ve genellikle bir beceriyi, örneğin bir modelin bir tek alandaki gerçekçilik düzeyini veya matematiksel akıl yürütme çoktan seçmeli soruları çözme yeteneğini değerlendirmeye odaklanıyor” dedi. “Değerlendirme için kullanılan birçok benchmark üç yıl veya daha eski, yapay zeka sistemlerinin genellikle yalnızca araştırma için kullanıldığı ve gerçek kullanıcıların olmadığı dönemlerden kalma. Ayrıca, insanlar yapay zekayı birçok farklı şekilde kullanıyorlar – çok yaratıcılar.”
Yanlış ölçütler En yaygın kullanılan benchmarkların tamamen işe yaramaz olduğu anlamına gelmediğini belirtmek gerekir. Kesinlikle birisi ChatGPT’ye doktora seviyesinde matematik soruları soruyor olabilir. Ancak, yapay zeka modelleri giderek kitle pazarı için “her şeyi yapabilen” sistemler olarak konumlandıkça, eski benchmarklar uygulanabilirliğini kaybediyor.
Cornell’de yapay zeka ve etik alanında çalışan bir postdoktoral araştırmacı olan David Widder, yaygın olarak test edilen becerilerin çoğunun – ilkokul seviyesinde matematik problemlerini çözmekten, bir cümlede anachronism olup olmadığını belirlemeye kadar – çoğu kullanıcı için hiçbir zaman ilgili olmayacağını belirtiyor.
“Eski yapay zeka sistemleri genellikle belirli bir problemi belirli bir bağlamda çözmek için yapılmıştı (örneğin, tıbbi yapay zeka uzman sistemleri), bu nedenle bu belirli bağlamda iyi performansın ne oluşturduğu hakkında derinlemesine bir anlayış daha mümkündü” diye açıklıyor. “Sistemler giderek daha ‘genel amaçlı’ olarak görüldükçe, bu daha az mümkün hale geliyor, bu nedenle farklı alanlardaki birçok benchmark üzerinde modelleri test etme odaklanması artıyor.”
Hatalar ve diğer kusurlar Kullanım durumu ile uyumsuzluk bir yana, bazı benchmarkların bile iddia ettikleri şeyi doğru bir şekilde ölçüp ölçmediği konusunda sorular var.
Modellerde genel bir mantıksal akıl yürütme yeteneğini değerlendirmek için tasarlanmış HellaSwag adlı bir testin analizi, test sorularının üçte birinden fazlasının yazım hataları ve “anlamsız” yazılar içerdiğini buldu. Başka bir yerde, Google, OpenAI ve Anthropic gibi satıcılar tarafından modellerinin mantıksal sorunları çözebildiğine dair kanıt olarak gösterilen MMLU (Kapsamlı Çoklu Görev Dil Anlayışı) adlı bir benchmark, ezberleme yoluyla çözülebilecek sorular soruyor. “[MMLU gibi benchmarklar], iki anahtar kelimeyi ezberleyip birleştirmekle ilgili” diyor Widder
Etiketlendi:
- Yapay Zeka
Ne düşünüyorsunuz?
Fikrini bilmek güzel. Yorum bırakın.