Müzik, insanlığın evrensel dillerinden biridir. Peki, yapay zeka bu alana dahil olduğunda neler değişiyor? Büyük Dil Modelleri (LLM’ler), gerçekten küresel müzik kültürünü temsil edebiliyor mu? Yoksa sadece eğitim verilerinde bulunan eğilimleri mi yansıtıyor?
Birçok sektör gibi, müzik dünyası da yapay zekanın yükselişiyle büyük bir değişim geçirdi. Beste yapmaktan, müzik öneri sistemlerine kadar, gelişmiş teknolojiler müziği üretme ve deneyimleme biçimimizi kökten değiştiriyor. Ancak, yapay zeka modelleri, diğer alanlarda olduğu gibi müzik alanında da belirli eğilimler barındırıyor. Bu eğilimler, eğitim verilerindeki dengesizliklerden kaynaklanıyor ve çeşitliliği desteklemek yerine, mevcut hiyerarşileri güçlendiriyor. Şimdi, bu durumu daha yakından inceleyelim: LLM’lerdeki müzikal etnosentrizm (kültürel merkezcilik) ve Batı merkezli eğilimler nasıl ortaya çıkıyor?
Makine Öğreniminde Yanlılık Sorunu
Makine öğrenimi modelleri, özellikle de Büyük Dil Modelleri (LLM’ler), uzun zamandır insan kaynaklı taraflılıklar barındırdıkları bilinen sistemlerdir. Bu taraflılık, modellerin eğitimi sırasında kullanılan veri setlerinden kaynaklanır. En yaygın olarak bilinen eğilimler, cinsiyet ve ırkla ilgili olanlardır. Bu konuda pek çok araştırma yapılmış ve bu eğilimler detaylı olarak incelenmiştir. Ancak, henüz tam olarak keşfedilmemiş kültürel ve coğrafi eğilimler de mevcuttur.
Coğrafi eğilimleri inceleyen araştırmalara göre, Büyük Dil Modelleri (LLM’ler), özellikle küresel Güney hakkında hem açık hem de örtük taraflılıklar sergiliyor. Bu taraflılıkların temel nedeni, eğitim verilerindeki dengesizlikler olabilir. Örneğin, veri setlerinde Kuzey Amerika ve Avrupa gibi bölgeler ağırlıklı olarak temsil edilirken, diğer coğrafyalar yeterince yer bulamıyor. Ayrıca, bu modelleri geliştiren ekiplerin çoğunlukla Kuzey Amerika ve Avrupa’da bulunması da bu eğilimleri güçlendiriyor.
Müzik ve yapay zeka alanında yapılan bir çalışma, önceden var olan bu tür taraflılıkları tespit etmek ve anlamak için daha etkili araçlara ihtiyaç olduğunu vurguluyor. Bu, yalnızca müzik alanında değil, diğer alanlarda da benzer sorunların çözülmesine yardımcı olabilir.
Büyük Dil Modelleri ve Müzikte Kültürel Çeşitlilik Sorunu
“Musical ethnocentrism in Large Language Models” başlıklı makalede, araştırmacılar ChatGPT ve Mixtral gibi popüler Büyük Dil Modellerini (LLM’ler) inceleyerek, bu modellerin müzik alanındaki taraflılıklarını ortaya çıkarmaya çalışmıştır. ChatGPT, ABD merkezli OpenAI tarafından geliştirilirken, Mixtral ise Fransa’dan Mistral AI adlı bir şirketin ürünüdür. Çin menşeli şirketler de LLM alanındaki çalışmalarına hız kazandırmış olsa da, bu modellere ücretsiz erişim sağlanamadığı için araştırmaya dahil edilmemiştir. Araştırmada iki ana deney gerçekleştirilmiştir:
- Araştırmacılar, LLM’lerden müzik grupları, solo müzisyenler, şarkıcılar, enstrümantalistler ve bestecileri kapsayan çeşitli türlerdeki müzik yaratıcılarının “En İyi 100” listesini oluşturmalarını istemiştir. Daha sonra, bu müzisyenlerin geldikleri bölgeler analiz edilerek, modellerin coğrafi taraflılıkları incelenmiştir.
- LLM’lerden, çeşitli bölgelerin müzik kültürünü farklı kriterlere göre puanlamaları istenmiştir. Bu sayede, modellerin farklı kültürlere yaklaşımı ölçülmüştür.
Araştırmanın güvenilirliğini artırmak için, önce İngilizce olarak hazırlanan promptlar daha sonra İspanyolca, Çince ve Fransızca gibi farklı dillere çevrilmiştir. Mixtral için İngilizce ve Fransızca, ChatGPT için ise İngilizce, İspanyolca ve Çince promptlar (istem) kullanılmıştır. Her dil ve model için deneyler üç kez tekrarlanarak, sonuçların tutarlılığı sağlanmıştır.
Kaynak: (Kruspe, 2024)
Araştırmanın sonuçları şu bulguları ortaya koymuştur:
- Batı Müziğine Eğilim: Hem ChatGPT hem de Mixtral, özellikle ABD merkezli olmak üzere, Batı müzik kültürüne büyük bir eğilim göstermiştir. Bu, modellerin Batılı sanatçıları ve müzik türlerini daha fazla ön plana çıkardığını göstermektedir.
- Diğer Bölgelerin Yetersiz Temsili: Güney Amerika kısmen temsil edilirken, Afrika ve Asya gibi bölgeler ya yeterince yer bulamamış ya da düşük puanlarla değerlendirilmiştir. Bu, modellerin küresel müzik kültürünü dengeli bir şekilde yansıtmadığını göstermektedir.
- Modeller Arasındaki Farklar: Mixtral, ChatGPT’ye kıyasla biraz daha fazla çeşitlilik göstermiş olsa da, genel olarak her iki model de benzer eğilimler sergilemiştir. Bu, önyargıların modelden bağımsız olarak yaygın bir sorun olduğunu işaret etmektedir.
- Dil Kullanımının Etkisi: Farklı dillerde (İngilizce, İspanyolca, Çince, Fransızca) yazılan promptlar, sonuçları bir dereceye kadar etkilemiş, ancak bu etki kültürel önyargıları büyük ölçüde değiştirmemiştir.
Eğilimlerin Temel Nedenleri
Bu eğilimler, büyük olasılıkla LLM’lerin eğitim sürecinde Batı merkezli verilerin baskın olmasından kaynaklanmaktadır. Örneğin, LLM’lerin eğitiminde sıkça kullanılan CommonCrawl veri seti, yaklaşık %46 oranında İngilizce metin içermektedir. Rusça ise sadece %2 ile ikinci sırada yer alır. Bu dengesizlik, modellerin Batı kültürüne odaklanmasına ve diğer kültürlerin yeterince temsil edilememesine yol açmaktadır.
Bu tür Batı merkezli eğilimler, öneri sistemleri veya kültürel içerik üretimi gibi alanlarda da kendini göstererek, mevcut eşitsizlikleri daha da derinleştirebilir. LLM’ler, müzik kültürünün daha kapsayıcı ve çeşitli bir temsilini sunmak yerine, insan kaynaklı taraflılıkları yeniden üreterek bu eğilimleri güçlendirmektedir.
Sonuç
Yapay zekanın birçok alanda yanlılık sergilediği bilinen bir gerçektir. Ancak, Büyük Dil Modellerinin (LLM’ler) müzik alanındaki eğilimleri henüz yeni yeni keşfedilmeye başlanmıştır. Diğer alanlarda olduğu gibi, eğitim verilerinden kaynaklanan Batı merkezli etnosentrizm (kültürel merkezcilik), müzik alanında da kendini açıkça göstermektedir. Bu durum, aslında beklenen bir sonuçtur.
İncelediğimiz çalışma, LLM’lerin müzik alanındaki kültürel önyargılarını ortaya çıkarmak için atılan ilk adımlardan biridir. Gelecekte yapılacak araştırmalarda, diğer bölgelerde geliştirilen LLM’lerin benzer eğilimler taşıyıp taşımadığı incelenebilir. Ayrıca, müzikle ilgili daha geniş bir yelpazedeki senaryolar üzerinde çalışılabilir.
Önyargıları önlemek büyük önem taşır. Çünkü Batı merkezli bir temsil, yalnızca Batılı olmayan müzik geleneklerini marjinalleştirmekle kalmaz, aynı zamanda küresel müzik dünyasında kültürel hiyerarşilerin devam etmesine de neden olabilir. Bu nedenle, kullanıcı beklentileri ile etik değerleri dengelemek ve çeşitliliği gözetmek, en iyi sonuçlara ulaşmak için gereklidir.
Kaynak
Kruspe, A. (2024, November). Musical Ethnocentrism in Large Language Models. In Proceedings of the 3rd Workshop on NLP for Music and Audio (NLP4MusA) (pp. 62-68).