Büyük Dil Modellerinde (LLMs) Ayrımcı ve Uygunsuz İçerikle Mücadele: Yenilikçi Yaklaşımlar

Medya, saldırgan ve ayrımcı ifadelerin pekişmesine zemin hazırlayarak uzun yıllardır toplumsal zararın önemli bir kaynağı olarak öne çıkmaktadır. Dil, saldırgan ve ayrımcı stereotipleri güçlendirme konusunda büyük bir etkiye sahiptir. Bu gibi sorunlar genellikle “nefret söylemi” olarak adlandırılır ve bu kavram son yıllarda çok daha görünür bir hale gelmiştir.

Önceden var olan veri setleriyle eğitilen Büyük Dil Modelleri’nin (LLM) kullanıma girmesiyle, toksik içerik (uygunsuz, aşağılayıcı veya mantıksız dil olarak tanımlanan ifadeler) zaman zaman yeniden üretilmektedir. İçerikteki bu zararlı ve ayrımcı unsurlar, genellikle eğitim verilerinde mevcut olan önyargılardan ve algılardan kaynaklanmaktadır.

Bu sorunu çözmek amacıyla, eğitimde kullanılan veri setlerinin filtrelenmesi ve modellerin etik standartlara uygun hale getirilmesi gibi çeşitli girişimlerde bulunulmaktadır. Ancak bu yöntemler, ayrımcı unsurları tamamen ortadan kaldıramadığı için tek başına yeterli olmamaktadır. Bu nedenle, büyük dil modellerinin potansiyel olarak zararlı çıktılara eğilimini değerlendirmek için, uygulamadan önce otomatik testlerin yapılması büyük önem taşımaktadır.

Büyük dil modelleri (LLM) için etik kaygılar göz önüne alınarak yapılan otomatik testlere yönelik son yaklaşımlar, genellikle “adversarial attacks” (düşmanca saldırılar) oluşturmaya odaklanmaktadır. Bu bağlamda “Jailbreak prompts” olarak da adlandırılan bu saldırılar, belirli promptlara ayrımcı veya uygunsuz ön ekler ya da son ekler ekleyerek, uyumlu hale getirilmiş modellerin vermemesi gereken çıktıları üretmesini sağlamayı amaçlamaktadır.

Bu tür yöntemler, genellikle anlamdan yoksun olmaları ve insanlarla Büyük Dil Modelleri (LLM) arasındaki doğal etkileşimi gerçekçi bir şekilde yansıtamamaları nedeniyle yetersiz kalmaktadır. “How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models” başlıklı araştırmada, söz konusu probleme çözüm olarak EvoTox adlı bir yöntem önerilmektedir.

EvoTox Nedir?

EvoTox, büyük dil modellerinin potansiyel toksisite seviyesini analiz etmek için geliştirilmiş arama tabanlı bir otomatik test aracıdır. Büyük dil modelleri toksik çıktıları azaltmak üzere “uyumlu” hale getirilmiş olsa da, bazı durumlarda yine de zararlı olarak nitelendirilebilecek toksik, uygunsuz ya da etik standartlara aykırı yanıtlar üretebilirler. 

EvoTox, bir başlangıç promptu ile başlayan ve sürekli olarak farklı promptlar oluşturan bir “Evolution Strategy” (ES) kullanır. Bu işlem, bir ikincil büyük dil modeli (LLM) olan Prompt Generator (PG) aracılığıyla yapılır. Prompt Generator, giderek daha zararlı promptlar oluşturur ve bu promptlar, test edilen sistemin (System Under Test – SUT) toksik yanıtlar üretmesini sağlar. Çıktıdaki toksisite seviyesini incelemek için Perspective API gibi önceden eğitilmiş araçlar kullanılır. Bu sınıflandırıcılar, içerikte toksisite olasılığını değerlendirmek için güven puanları atar.

Nasıl Çalışır?

• EvoTox, LLM’lerin yazılı bir prompta verdiği yanıtları analiz ederek, hakaret, küfür veya kimlik saldırıları gibi çeşitli toksisite türlerini değerlendiren bir sınıflandırıcı kullanır.

• 0’a yakın puanlar düşük toksisiteyi, 1’e yakın puanlar ise yüksek toksisiteyi temsil eder.

EvoTox, bir black box (kara kutu) tekniği ile çalıştığı için test edilen sistemin (SUT) iç erişimine gerek duymaz. Ayrıca, çeşitli istem değerlendirme stratejilerini bir araya getirir.

Araştırma Sonuçları

Araştırmada, EvoTox dört gelişmiş büyük dil modeli (LLM) üzerinde test edilmiştir. Modeller, 7 ila 13 milyar parametre arasında değişen ölçeklenebilirliğe sahiptir. Amaç, farklı karmaşıklık ve uyum seviyelerine sahip modellerde toksik çıktıları belirlemede EvoTox’un etkinliğini ölçmektir.

Sonuç olarak, EvoTox’un toksik yanıtları tespit etmede oldukça etkili olduğunu kanıtlanmıştır. Yüksek performans sergilerken, hesaplama maliyetlerini (%22-%35) yönetilebilir bir seviyede tutmayı başarmıştır. İnsan katılımcılar tarafından yapılan değerlendirmeye göre, EvoTox tarafından üretilen promptlar doğal ve insanlar tarafından kullanılan dile benzer nitelikte bulunmuştur. Ayrıca, EvoTox’un diğer yöntemlerle karşılaştırıldığında daha akıcı çıktılar ürettiği tespit edilmiştir.

Gelecek araştırmalarda, EvoTox’un daha büyük modeller (örneğin, ChatGPT ve Gemini) üzerinde test edilmesi ve farklı yöntemlerin araştırılması planlanmaktadır.

Neden Önemli?

Büyük dil modelleri, günlük hayatta iletişimden sağlığa, müşteri hizmetlerinden eğitime kadar pek çok alanda hayatımıza entegre olmuş durumdadır. Ancak, yanlış yönlendirilmiş veya ayrımcı bir içerik üreten bu tür sistemler, yerleşik önyargıları körükleyebilir ve bu önyargıların sürekli yeniden üretilmesine neden olabilir. Bu durum, eşitlik ve kapsayıcılık çabalarına ciddi zararlar verebilir.

Hepimiz birey olarak, güvenilir, önyargısız ve stereotiplerden uzak bir yapay zeka ile etkileşim içinde olmayı arzu ederiz. Ne yazık ki, dil yoluyla aktarılan ve tekrar edilen ayrımcı içerikler, kullanıcıların bu tür teknolojilere olan güvenini zedeleyebilir. Bu güven kaybı, yalnızca bireyleri değil, aynı zamanda bu sistemleri geliştiren ve kullanan kurumları da olumsuz etkileyebilir.

Yapay zekanın hızla yayıldığı ve küresel çapta benimsendiği bir dünyada, bu sistemlerin eşitlikçi bir yaklaşım benimsemesi ve etik sınırlar içinde faaliyet göstermesi kritik bir gereklilik haline gelmiştir. Bu yalnızca teknolojinin toplumsal faydasını artırmakla kalmaz, aynı zamanda daha adil ve kapsayıcı bir dijital geleceğin inşasına da katkıda bulunur.

Kaynak

Corbo, S., Bancale, L., De Gennaro, V., Lestingi, L., Scotti, V., & Camilli, M. (2025). How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models. arXiv preprint arXiv:2501.01741.

Comments

No comments yet. Why don’t you start the discussion?

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir