Our model learns to associate images and sentences in a common We use a Recursive Neural Network to compute representation for sentences and a Convolutional Neural Network for images. We then learn a model that associates images and sentences through a structured, max-margin objective.
We introduce an unsupervised feature learning algorithm that is trained explicitly with k-means for simple cells and a form of agglomerative clustering for complex cells. When trained on a large dataset of YouTube frames, the algorithm automatically discovers semantic concepts, such as faces.
Endüstri ve akademik çevrelerdeki veri bilimciler görüntü sınıflandırma, video analizi, konuşma tanıma ve doğal dil öğrenme süreci dahil olmak üzere çeşitli uygulamalarda çığır açan gelişmeler elde etmek üzere makineyle öğrenmede GPU’ları (Grafik İşlemci Ünitesi) kullanmaktadır. Özellikle, büyük miktarlarda etiketlenmiş eğitim verilerinden özellik saptama yapabilen sistemler oluşturmak için ileri teknoloji, çok seviyeli “derin” sinir ağların kullanılması olan Derin Öğrenme, önemli derecede yatırım ve araştırmanın yapıldığı bir alandır.
Makineyle öğrenme yıllardır kullanılan bir yöntem olmasına rağmen, iki yeni yeni trend makineyle öğrenmenin yaygın bir şekilde kullanılmasına yol açmıştır: çok büyük miktarlarda eğitim verisi ile GPU hesaplama ile elde edilen güçlü ve verimli paralel hesaplama. GPU’lar, çok daha büyük eğitim setleri kullanarak bu derin nöral ağları çok daha kısa sürelerde ve çok daha az veri merkezi altyapısı kullanarak eğitmek için kullanılmaktadır. GPU’lar aynı zamanda, çok daha fazla veri hacmi ve daha az güç ve altyapı destekleyerek, bulut içinde sınıflandırma ve tahmin yapmak için bu eğitilmiş makineyle öğrenme modellerini çalıştırmak için kullanılmaktadır.
Makineyle öğrenme için GPU’ları kullanmaya ilk başlayanlar arasında en büyük web ve sosyal medya şirketlerinin yanı sıra, veri bilimi ve makineyle öğrenme alanında çalışan üst düzey araştırma kuruluşları bulunmaktadır. Binlerce hesaplama çekirdeği ve tek başına çalıştırılan CPU’lar (Merkezi İşlem Birimi) ile karşılaştırıldığında 10 ile 100 kat uygulama performansı sunan GPU’lar, veri bilimcilerin büyük verilerin işlenmesinde tercih ettikleri işlemci olmuştur.
GPU’lar ile önceden kaydedilen konuşmalar veya multimedya içerikleri çok daha hızlı bir şekilde yazıya geçirebilmektedir. Carnegie Mellon Üniversitesi’nden Profesör Ian Lane yürüttüğü çalışmalarında CPU uygulaması ile karşılaştırıldığında, GPU’ların 33 kata kadar daha hızlı tanıma yaptığını ortaya koymuştur.
Derin Öğrenme Kapsamında Yürütülen Çalışmalar
Stanford Üniversitesi’nden öncü araştırmacı Andrej Karpathy; çalışmalarında birisi resim tanıma diğeri doğal dil işleme olmak üzere iki sinir ağını birleştirmiştir. Bu sayde tıpkı LEGO’ların birleştirildiği gibi sinir ağları sadece örnek resimdeki objeyi kuş veya ağaç olarak sınıflandırmakla kalmayıp ayrıca resim içerisindeki tüm nesnelerin birbiriyle olan ilişkisini ortaya koyabilmiştir.
Günümüzde artan kamera sayısı dikkate alındığında, görüntü içindeki nesnelerin birbiriyle olan ilişkisinin bir insan gibi makineler tarafından anlamlı bir şekilde ortaya konması görüntüleri yorumlama konusunda kullanıcılara inanılmaz bir farkındalık katmıştır. Bu sayede yüzlerce görüntü akışı (video) makineler tarafından insan nesne tanıma seviyesinin üzerinde bir başarıyla değerlendirilmektedir.
Aşağıda resimlerdeki açıklamalar derin öğrenme ile elde edilmiştir.
DARPA, insansız hava araçlarının düşman toprakları üzerinde elde ettiği görüntü ve videoların karargâha aktarımıyla oluşturulan büyük veri (BigData) yığınıyla baş edebilmek maksadıyla daha iyi bir istihbarat katmanı geliştirilmesi kapsamında 2009 yılında derin öğrenme çalışmalarına destek vermeye başlamıştır.
Google son dönemde bünyesine kattığı, Deep Mind firması ile yürttüğü derin öğrenme çalışmaları kapsamında, Atari video oyunlarını kullanılarak makineler için sadece ağı eğitmekle kalmayıp, ayrıca ortam içerisinde nasıl hareket edileceğini de öğretmişlerdir. Bu sayede eğitilen ağ oyun serisini başarıyla tamamlamıştır. Bu çalışma ile Google sahip olduğu ve sürekli artan veri havuzunu zamanı geldiğinde geliştirdiği algoritmalar ile kullanarak akıllı sistemler ortaya çıkarabileceğini göstermiştir. (Deep Mind Yayınları) (Google neden 400 Milyon Dolara Deep Mind fimasını satın aldı?)
Derin Öğrenmenin Diğer Görüntü Analiz Yöntemlerinden Farkı
Yukarıdaki örnekte, görüntü analizi kullanılarak resimde kupaya benzeyen nesneler işaretlenmiştir. Söz konusu işaretlemelere bakıldığında tüm işaretlemelerin hatalı yapıldığı görülmektedir.
Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.
Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.
Araştırmacılar akıllı telefonların ve diğer mobil cihazların kamera görüş hattında bulunan nesneleri hemen tanıyıp, nesneleri tanımlayan metinleri nesnelerin üzerinde bir çevre katman olarak gösterecek şekilde çalışma yapmaktadır (Purdue University image/e-Lab).
Ayşegül DÜNDAR’ın derin öğrenme kullanarak video akışında gerçek zamanlı nesne tanıma videosuna aşağıdan seyredebilirsiniz.
Yüz Tanıma Sistemi
Derin öğrenme yüz tanıma yarışması kapsamında 6.000 çift yüz resmi üzerinde tanıma işlemi en düşük hata seviyesini yakalamaya yönelik çeşitli firmaların yürütmüş olduğu çalışmalar neticesinde makinelerin yüz tanıma hata eşiği insan hata eşiğinin altına inmiştir.
Derin öğrenme konusunda öncü düşünür olarak ün yapan ve Çin’in en büyük arama motorunun baş uzmanı Andrew Ng (g+), son çalışmasında Baidu Derin Konuşma motorunun gürültülü ortamlarda bile derin öğrenme kullanarak sesli komutları anlayıp işlediğine vurgu yapmıştır. Bu çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.
Yukarıdaki çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.
Çoğu kişi %95 doğruluk ile %99 doğruluk arasındaki farkı anlamamaktadır. %99 doğruluk oranı oyun değiştiren bir orandır. Bu doğruluk oranına ulaşıldığında akıllı cihazlar tamamen sesle kullanılabilecek hale gelecektir.
Konuşma tanımanın gelişmesi nesnelerin internetinin (internet of things) yaygınlaştırmasını destekleyecektir. Bu sayede günlük yaşamda kullanılan tüm cihazlar ve araçlar insan ergonomisine uygun yapıda çalışarak yaşamı kolaylaştıracak şekilde birbirleriyle sürekli etkileşim halinde bulunacaktır.
Derin Öğrenmenin Araçlarda Kullanımı
Yeni nesil otonom araçlarda araç içerisindeki tüm multimedya sistemleri ve durumsal farkındalığı sağlayan algılayıcılar tek birim tarafından komuta edilmektedir. Araç yönetim sisemi sahip olduğu derin öğrenme yapısı sayesinde kameralar vasıtasıyla aldığı görüntüleri eş zamanlı sınıflandırarak sürücü destek sistemini oluşturmaktadır. Bu sayede özellikle kısıtlı görüş şartları dahil birçok durumda kazaların önüne geçilebileceği değerlendirilmektedir.
Derin Öğrenmenin Savunma ve Güvenlik Sektöründe Kullanımı
Teknolojinin etkinliğinin artarken boyutsal olarak küçülmesi ve enerji ihtiyacının buna bağlı olarak azalmasıyla kameralar günlük hayata üssel oranda katkı sağlamaktadır. Dünya genelinde üretilen mobil cihaz sayısı yılda 2 milyar adetken kamera sayısı bu sayının çok daha üzerindedir.
Savunma alanında gerek silah üstü optiklere yönelik geliştirilen sistemlere işlemci desteği sağlanması gerekse tüm hareket eden platformlara konulan kameralar anlık incelenmesi gereken verinin miktarını büyük oranda artırmıştır. Kameraların savunma ve güvenlik alanlarında kullanımının adaha da artacağı değerlendirildiğinde, sadece resim veya video akışındaki nesnelerin ne olduğu değil ayrıca nesnelerin birbirleriyle olan ilişkisini metne döken sistemlerin büyük bir insan kaynağı tasarrufu sağlayarak, her bir kamera sistemin anlık akıllı değerlendirme yapısına kavuşmasının yolunu açmaktadır.
Sonuç olarak; 2007 yılında başlayan mobil devrimin sonucu olarak son iki yılda büyük çıkış yapan derin öğrenme, nesnelerin interneti alanındaki gelişmeye paralel olarak yarı ve tam otonom sistemler ile robotların günlük yaşama katkısı giderek artacaktır. Gelişen teknoloji ile belirli bir uzmanlık alanında tecrübe artırılmış gerçeklik uygulamaları ile zahmetsiz bir şekilde sistemlere transfer edilebilecektir.