Çok Modlu (Multimodal)

Çok Modlu (Multimodal) yapay zeka, metin, görsel, ses veya video gibi farklı bilgi türlerini aynı anda algılayıp işleyebilen sistemlerdir. Bu sayede, tek bir model üzerinden karmaşık bilgileri yorumlayabilirler.

Peki, bu nasıl oluyor? Çok modlu yapay zeka modelleri, her bir veri türünü (görseli, metni) ayrı ayrı analiz eden ancak sonuçlarını ortak bir "anlama" alanında birleştiren özel mimarilere sahiptir. Yani, bir görseli gördüğünde onu sayılarla ifade ederken, bir metni okuduğunda da benzer bir sayısal temsile dönüştürür. Sonra bu farklı sayısal temsilleri bir araya getirerek, aralarındaki ilişkileri ve anlamı bütünsel olarak kavrar. Bu sayede, "bu resimde ne var?" gibi sorulara sadece görseli değil, o görselle ilgili metinsel bilgiyi de kullanarak cevap verebilir.

Günlük hayatta bununla nasıl karşılaşırsın? Örneğin, ChatGPT gibi bir sohbet robotuna bir fotoğraf yükleyip "bu faturadaki kalemleri Excel'e yazılacak şekilde listele" dediğinde, hem görseli okur hem de senden gelen komutu anlar, sana metinsel bir çıktı verir. Ya da Trendyol'da bir ürün ararken, beğendiğin bir elbisenin fotoğrafını yükleyip "bunun benzerlerini göster" dediğinde, sistem görseli analiz eder ve sana benzer ürünleri listeler. Hatta bir videoyu izlerken "bu videoda geçen şarkının adını söyle" diye sesli komut verdiğinde, hem videoyu hem de sesini işleyerek sana doğru cevabı verebilir.

Çok modlu yapay zeka bazen sadece farklı veri türlerini yan yana göstermekle karıştırılır. Oysa mesele sadece bir görselin altına bir açıklama yazmak değil, görsel ve metin arasındaki derin anlam ilişkisini kurabilmektir. Yapay zeka, bir fotoğrafı gördüğünde "bu bir kedi" demekle kalmayıp, "bu kedi mutlu görünüyor çünkü kuyruğu yukarıda" gibi hem görselden hem de genel kedi davranış bilgisinden çıkarım yapabilmelidir. Bu, sadece verileri bir araya getirmekten çok daha fazlası, gerçek bir entegrasyon ve anlama sürecidir.

Bu teknolojiyi denemek istersen, görsel ve metin girdilerini aynı anda kabul eden sohbet robotlarını veya görsel arama motorlarını kullanmaya başlayabilirsin. Bir fotoğrafın ne anlattığını veya bir videonun içeriğini daha derinlemesine anlamak istediğinde, çok modlu yapay zeka sana çok yardımcı olacaktır.

Tüm terimler