LLaVA: LLaMA’ya dayalı çok modlu açık AI modeli, görüntüleri ve konuşmayı okur

amerikali · 22 Nis 2023

Microsoft ve iki ABD üniversitesinden dört kişilik bir araştırma ekibi LLaVA’yı yayımladı: The Large Language Visual Assistant, iyi bilinen AI sohbet sistemlerine dayanan çok modlu bir AI modelidir. Konuşma ve görüntüleri işler, araştırma amacıyla ücretsiz olarak kullanılabilir – bir görsel kodlayıcıyı büyük bir dil modeli olan LLaMA yan kuruluşu Vicuna ile birleştirir. LLaVA, GPT-4’ün OpenAI API’si aracılığıyla sentezlenen, makine tarafından oluşturulan eğitim verileriyle hassas bir şekilde ayarlanmıştır.

Araştırmacıların amacı, sıfır vuruşlu girdi için büyük bir dil modeli (LLM) yetiştirmek ve bu yaklaşımı çok modlu olarak test etmekti. “Sıfır atış”, burada modelin daha fazla belirtim (istem) olmaksızın hemen anlamlı yanıtlar verebilmesi gerektiği anlamına gelir. LLaVA, hem metin hem de resim biçimindeki talimatları ve her iki yöntemin bir kombinasyonunu kabul etmesi bakımından çok modludur. Araştırma ekibinin, bilimsel soru-cevap konuşmaları için ince ayar yaparken LLaVA’nın yüzde 92’nin üzerinde bir isabet oranına ulaşması gerektiğine dair notu da heyecan verici. Bu bağımsız olarak doğrulanabilirse, önceki karşılaştırmalı değerlere kıyasla ilerleme olacaktır.

Araştırmacılar, çok modlu bir sesli görüntü talimatı seti oluşturmak için GPT-4’ün yalnızca konuşma sürümünü (çok modlu eklenti olmadan) kullandılar. Vision Encoder ve Large Language Model (LLM) kombinasyonu sayesinde LLaVA, genel görsel ve dil becerileri kazandı. İlk testlere göre, daha önce hiç görülmemiş görüntüleri metin biçiminde anında tanımlayabilir ve GPT-4’ün çok modlu versiyonuna yakın davrandığı söylenir – ekip, GPT-4’ün çok modlu versiyonuna kıyasla yüzde 85 isabet oranı bildirir. .

LLaVA: Araştırma Demosu, metin çıktısı içeren bir görüntü isteminin ekran görüntüsü

LLaVA, Görsellerle İlgili Soruları Yanıtlıyor: “Bu yeri ziyaret ederken nelere dikkat etmeliyim?” bir test görüntüsü ile birlikte. Yanıt, görüntüde tasvir edilen sahne hakkında ayrıntılı bilgi ve ondan elde edilen tavsiyeler sağlar.

(Resim: LLaVA web sitesi)

Çok modlu GPT 4 sürümü şimdiye kadar yalnızca sunulduğundan, ancak genel kullanıma açık olmadığından harici kıyaslamalar mevcut değildir. Şu anda yalnızca seçili Microsoft OpenAI iş ortaklarının bu sürüme erişimi vardır. LLaVA ekibi, özellikle ilgili araştırmacılardan biri Microsoft tarafından istihdam edildiğinden, seçilmiş birkaç kişiden oluşan bu çevreye ait görünüyor. OpenAI’nin ana sponsoru olan Microsoft, girişimi toplam 11 milyar ABD doları karşılığında satın aldı ve GPT-3’ten bu yana OpenAI’nin yapay zeka modellerini kullanmak için özel haklar elde etti. 2019’da Microsoft ile iş ilişkisinin başlangıcından bu yana, tüm OpenAI modelleri dünyanın geri kalanı için kapalı kaynak ve kara kutudur. Özellikle GPT-4’ün çok modlu yetenekleri hakkında çok az şey biliniyor çünkü metin tabanlı ChatGPT’den farklı olarak bunlar henüz bir demo aracılığıyla test edilemiyor. Özel iş ortakları tarafından bildirilen performans değerleri henüz bağımsız olarak doğrulanamaz.

LLaVA’nın yayını, Microsoft OpenAI’nin makine dairesine bir bakış sağlar ve ekibin, model ve kod tabanıyla birlikte görsel ince ayar için GPT-4 tarafından oluşturulan veri setini yayınlaması açısından heyecan vericidir. Proje hakkında daha fazla bilgiyi LLaVA web sitesinde bulabilirsiniz. Araştırma demosu ayrı bir alanda denenebilir.

Araştırma demosundaki etkileşim seçenekleri: Microsoft ve iki ABD üniversitesinden gelen ekip, kullanıcı verilerini toplar ve LLaVA ile oluşturulan sonuçlar hakkında kullanıcı geri bildirimi ister.

(Resim: LLaVA web sitesi)

Arayüzde, kullanıcıların sonuçları iyi veya kötü olarak derecelendirebilecekleri oldukça basit bir derecelendirme aracı yerleşiktir (beğenme: olumlu oy, beğenmeme: olumsuz oy). Ayrıca istenmeyen içerik uyarı bayrağı ile sağlanabilir. Mevcut bir istem için, kullanıcılar yeni bir yanıt isteyebilir ve baştan başlamak için geçmişi temizleyebilir. Demoda iki test görüntüsü saklanır. Açıklamada, modelin birkaç yerleşik güvenlik mekanizmasına sahip olduğu ve yasa dışı, kötü niyetli, şiddet içeren, ırkçı veya cinsel pornografik amaçlarla kullanılmaması gerektiği belirtiliyor (görünüşe göre bunu yapabilecek durumda). Kullanıcı diyalog verileri “gelecekteki araştırma amaçları için” saklanır.

Onunla çalışan herhangi biri uygunsuz yanıtları “işaretleyebilir” (bu görev genellikle Kenya’daki ve başka yerlerdeki Reinforcement Learning HF’deki insan geri bildirim bağışlarında düşük ücretli tıklama işçileri tarafından veya açık kaynak alanındaki kitle kaynak projelerinde gönüllüler tarafından gerçekleştirilir). Bu, görünüşte otomatik bir moderatör yetiştirmek için kullanılır. Buraya katılan herkes, grubun potansiyel olarak ticari olarak kullanabileceği verileri Microsoft’a bağışladığını bilmelidir – ancak tersine, modelin kendisinin ticari olarak kullanılmasına izin verilmez.

Microsoft ve diğer proje katılımcıları, kullanıcı verilerini “araştırma amacıyla” toplar. Örneğin, istemi kullanmaya başlamadan ve kendi resimlerinizi yüklemeden önce bunun farkında olmalısınız. Demoyu kullanan herkes, şartlar ve koşulları kabul eder. LLaMA lisans koşullarına (ticari olmayan ısmarlama lisans), OpenAI Kullanım Koşullarına ve ChatGPT konuşmalarının bir paylaşım ve koruma platformu olan ShareGPT’nin gizlilik uygulamalarına tabi, yalnızca ticari olmayan kullanım için bir Kullanım Koşulları araştırma ön izlemesidir. (ShareGPT’nin GitHub deposundaki gizlilik sorunları hakkında ileti dizisi: Görünüşe göre şu anda ShareGPT aracılığıyla paylaşılan verileri silmenin bir yolu yok).

LLaMA ve yasal gri alandaki yan dalları

LLaMA henüz MetaAI tarafından açık kaynak olarak yayınlanmadı (bununla ilgili daha fazlası aşağıda) ve yalnızca seçili araştırma ortakları tarafından kullanılabilir. Bu nedenle, ticari olmayan, tamamen bilimsel amaçlara yönelik kısıtlama, dört yapay zeka araştırmacısı Haotian Liu ve Yong Jae Lee (Wisconsin-Madison Üniversitesi), Chunyuan Li (Microsoft Research) ve Quingyang Wu’nun (Columbia Üniversitesi) oluşturduğu yeni LLaVA için de geçerlidir. veri seti ve model ağırlıkları dahil olmak üzere GitHub ve Hugging Face’te mevcuttur.

Yalnızca seçilmiş araştırma kurumları model ağırlıklarını resmi olarak almıştır, bu nedenle LLaMA’nın türevleri şu anda yasal çekincelere tabidir ve ticari olarak değil, yalnızca araştırma amacıyla kullanılabilir. Bazı LLaMA şubeleri, bir araştırma işbirliğinden değil, yasa dışı bir bit torrent sızıntısından gelir ve bu nedenle daha da büyük çekincelere tabidir.

Hedef grup hobi araştırmacıları

LLaVA-Instruct-150K sentetik veri seti, Hugging Face’te mevcuttur. Veriler Nisan 2023’e aittir. Üretim için arayüz olarak GPT-4-0314 API kullanılmıştır. LLaVA ekibinin işaret ettiği gibi, birincil hedef grup bilim adamları ve hobi olarak bilgisayar görüşü, NLP, makine öğrenimi ve yapay zeka ile ilgilenen kişilerdir. Veri seti, Atıf-GayriTicari 4.0 Uluslararası lisansına tabidir ve onu kullanan kişi OpenAI prosedür kurallarına da uymalıdır. Kullanım koşulları, rakip ürünler oluşturmak için GPT-4 tarafından oluşturulan veri kümelerinin kullanımını içermez.

Araştırma raporu ArXiv.org’da mevcuttur (“Görsel Talimat Ayarı”). Ağırlıkları ve bir değerlendirmeyi içeren model kodu GitHub’da mevcuttur. Sorular, yorumlar ve sorunlar GitHub aracılığıyla da iletilebilir.

(o)

Haberin Sonu

LLaVA: LLaMA’ya dayalı çok modlu açık AI modeli, görüntüleri ve konuşmayı okur

amerikali

Yeni Üye