Google'ın yapay zekası grafik arayüzleri çalıştırıyor ve infografikleri anlıyor

amerikali

Yeni Üye
Google'ın yeni bir resim dili modeli mecazi dili anlamaya ve onu kullanılabilir hale getirmeye çalışıyor. Bunlar, diğer şeylerin yanı sıra, daha sonra kullanılmak üzere büyük dil modellerinin (LLM) kullanabileceği grafik arayüzleri (UI'ler), sembolleri, tabloları, infografikleri ve düzenleri içerir.

Reklamcılık



Gemma'nın ardından Google Research, ScreenAI ile başka bir yapay zeka modeli daha sundu. Araştırmacılar onu, öğenin türü, konumu ve açıklaması da dahil olmak üzere kullanıcı arayüzü öğelerini ve bilgilerini deşifre etmek için eğitti. Yüksek Lisans'lar bu bilgileri bir web sitesini veya infografikleri anlamak, onunla ilgili soruları yanıtlamak ve arayüzünde gezinmek için kullanmalıdır.

ScreenAI'de bulunan öğeler benzer tasarım modellerine ve ilkelerine sahiptir ve bu da onu ortak bir AI modeline uygun hale getirir. Pix2struct ile genişletilmiş PaLI mimarisini temel alır. Google araştırmacıları bunu çok modlu bir kodlayıcı bloğu ve otoregresif kod çözücüyle eğitti. Bir görüntü transformatörü (ViT), kodlayıcıya girdi görevi gören görüntülerin anlamsal bir tanımını (görüntü yerleştirme) sağlar. ViT ayrıca farklı sayfa formatlarındaki görselleri de işler.




Google'dan ScreenAI



ScreenAI için bir uygulama örneği: Görsel bir temsilin içeriğini özetleme.


(Resim: Google Araştırması)



İki adımda eğitim


Eğitim iki adımda gerçekleştirildi; ilk olarak ViT ve dil modeli için otomatik ve kendi kendine öğrenme, ardından yalnızca dil modeli için manuel olarak öğrenme. Masaüstü bilgisayarlardan, akıllı telefonlardan ve tabletlerden alınan ekran görüntülerinin “kapsamlı bir koleksiyonu” temel olarak kullanıldı. Öğelerin (resimler, metin, kontroller) analizine ek olarak, piktogramlar bir simge sınıflandırıcı kullanılarak özel olarak 77 simge türüne göre sınıflandırıldı. Duyuruya göre bu gerekliydi çünkü piktogramlar incelikli bilgiler içeriyor. Ayrıca optik karakter tanıma (OCR), metinlerin görsellerde kullanılabilir olmasını sağlamıştır.




Google'dan ScreenAI



ScreenAI, grafiksel kullanıcı arayüzünün öğelerini analiz eder ve bunları makine tarafından okunabilen koda dönüştürür.


(Resim: Google Araştırması)



Daha sonra Google Araştırma ekibi, görsel bağlamlarıyla ilgili yapay olarak oluşturulmuş kullanıcı sorularıyla bir Yüksek Lisans eğitimi aldı. Bunlar arasında “Restoran ne zaman açılıyor?” gibi sorular, “Düğmeye tıklayın” gibi yüzey eylemleri ve “Ekran görüntüsü ne içeriyor, iki cümleyle” gibi özetler yer alıyordu.

ScreenAI, bir dizi AI kıyaslamasında (WebSRC, MoTIF Chart QA ve DocVQA) iyi, son teknoloji sonuçlar elde etti, ancak: “Ancak, yaklaşımımızın hala büyük modellerin gerisinde kaldığını ve daha fazla araştırmaya ihtiyaç olduğunu da not ediyoruz. Bu açığı kapatın.” Google Araştırma, soru-cevap yeteneklerini test etmek için kendine ait iki yeni kriteri tanıttı: ScreenQA Kısa ve Karmaşık ScreenQA.

Daha fazla bilgiyi bilimsel makalede ve adı geçen blog yazısında bulabilirsiniz.


(DSÖ)



Haberin Sonu