NVIDIA’nın düzenlemiş olduğu online derste (29.07.2015) katılımcıların yazılı sorularına verilen cevaplar aşağıda yer almaktadır. Dersle ilgili daha fazla bilgi için tıklayınız.
Jonathan Bentz: N Frick: I have a question: are any of the recent algorithm advances already “baked” into the DL Frameworks, or is it up to the user to choose the correct preprocessing methods and implement them outside the libraries?
A: Depends what you mean by “algorithm advances”. In general, the DL frameworks make every attempt to keep up with the current state of the art in deep learning algorithms and so they often implement these directly in the frameworks.
Brent Oster: Sunny Panchal: Once a network has been trained, how well does it adapt to a new set of data that is added with a new classification category?
Yes, this is referred to as fine tuning, and it works because many of the lower-level features are common between datasets. Only the weights for the fully-connected layers need to be adjusted.
Allison Gray: Earl Vickers Question: Can DIGITS handle arbitrary data types without a lot of programming, or is it mainly designed for pictures?
A: Right now you can use square or rectangular images with DIGITS. They can be either color or grayscale. We can also handle different image formats. We plan to expand this in the future.
Earl Vickers Question: Can DIGITS handle arbitrary data types without a lot of programming, or is it mainly designed for pictures?
A: Right now you can use square or rectangular images with DIGITS. They can be either color or grayscale. We can also handle different image formats. We plan to expand this in the future.
Earl Vickers Question: Can DIGITS handle arbitrary data types without a lot of programming, or is it mainly designed for pictures?
A: Right now you can use square or rectangular images with DIGITS. They can be either color or grayscale. We can also handle different image formats. We plan to expand this in the future.
Larry Brown: There are a few questions about invariance in DNNs and including metadata…those questions are more advanced and we will come back to them in a future session.
Brent Oster: Q: Ferhat Kurt: Is it possible to image recognition realtime in a stream (video)?
Endüstri ve akademik çevrelerdeki veri bilimciler görüntü sınıflandırma, video analizi, konuşma tanıma ve doğal dil öğrenme süreci dahil olmak üzere çeşitli uygulamalarda çığır açan gelişmeler elde etmek üzere makineyle öğrenmede GPU’ları (Grafik İşlemci Ünitesi) kullanmaktadır. Özellikle, büyük miktarlarda etiketlenmiş eğitim verilerinden özellik saptama yapabilen sistemler oluşturmak için ileri teknoloji, çok seviyeli “derin” sinir ağların kullanılması olan Derin Öğrenme, önemli derecede yatırım ve araştırmanın yapıldığı bir alandır.
Makineyle öğrenme yıllardır kullanılan bir yöntem olmasına rağmen, iki yeni yeni trend makineyle öğrenmenin yaygın bir şekilde kullanılmasına yol açmıştır: çok büyük miktarlarda eğitim verisi ile GPU hesaplama ile elde edilen güçlü ve verimli paralel hesaplama. GPU’lar, çok daha büyük eğitim setleri kullanarak bu derin nöral ağları çok daha kısa sürelerde ve çok daha az veri merkezi altyapısı kullanarak eğitmek için kullanılmaktadır. GPU’lar aynı zamanda, çok daha fazla veri hacmi ve daha az güç ve altyapı destekleyerek, bulut içinde sınıflandırma ve tahmin yapmak için bu eğitilmiş makineyle öğrenme modellerini çalıştırmak için kullanılmaktadır.
Makineyle öğrenme için GPU’ları kullanmaya ilk başlayanlar arasında en büyük web ve sosyal medya şirketlerinin yanı sıra, veri bilimi ve makineyle öğrenme alanında çalışan üst düzey araştırma kuruluşları bulunmaktadır. Binlerce hesaplama çekirdeği ve tek başına çalıştırılan CPU’lar (Merkezi İşlem Birimi) ile karşılaştırıldığında 10 ile 100 kat uygulama performansı sunan GPU’lar, veri bilimcilerin büyük verilerin işlenmesinde tercih ettikleri işlemci olmuştur.
GPU’lar ile önceden kaydedilen konuşmalar veya multimedya içerikleri çok daha hızlı bir şekilde yazıya geçirebilmektedir. Carnegie Mellon Üniversitesi’nden Profesör Ian Lane yürüttüğü çalışmalarında CPU uygulaması ile karşılaştırıldığında, GPU’ların 33 kata kadar daha hızlı tanıma yaptığını ortaya koymuştur.
Derin Öğrenme Kapsamında Yürütülen Çalışmalar
Stanford Üniversitesi’nden öncü araştırmacı Andrej Karpathy; çalışmalarında birisi resim tanıma diğeri doğal dil işleme olmak üzere iki sinir ağını birleştirmiştir. Bu sayde tıpkı LEGO’ların birleştirildiği gibi sinir ağları sadece örnek resimdeki objeyi kuş veya ağaç olarak sınıflandırmakla kalmayıp ayrıca resim içerisindeki tüm nesnelerin birbiriyle olan ilişkisini ortaya koyabilmiştir.
Günümüzde artan kamera sayısı dikkate alındığında, görüntü içindeki nesnelerin birbiriyle olan ilişkisinin bir insan gibi makineler tarafından anlamlı bir şekilde ortaya konması görüntüleri yorumlama konusunda kullanıcılara inanılmaz bir farkındalık katmıştır. Bu sayede yüzlerce görüntü akışı (video) makineler tarafından insan nesne tanıma seviyesinin üzerinde bir başarıyla değerlendirilmektedir.
Aşağıda resimlerdeki açıklamalar derin öğrenme ile elde edilmiştir.
DARPA, insansız hava araçlarının düşman toprakları üzerinde elde ettiği görüntü ve videoların karargâha aktarımıyla oluşturulan büyük veri (BigData) yığınıyla baş edebilmek maksadıyla daha iyi bir istihbarat katmanı geliştirilmesi kapsamında 2009 yılında derin öğrenme çalışmalarına destek vermeye başlamıştır.
Google son dönemde bünyesine kattığı, Deep Mind firması ile yürttüğü derin öğrenme çalışmaları kapsamında, Atari video oyunlarını kullanılarak makineler için sadece ağı eğitmekle kalmayıp, ayrıca ortam içerisinde nasıl hareket edileceğini de öğretmişlerdir. Bu sayede eğitilen ağ oyun serisini başarıyla tamamlamıştır. Bu çalışma ile Google sahip olduğu ve sürekli artan veri havuzunu zamanı geldiğinde geliştirdiği algoritmalar ile kullanarak akıllı sistemler ortaya çıkarabileceğini göstermiştir. (Deep Mind Yayınları) (Google neden 400 Milyon Dolara Deep Mind fimasını satın aldı?)
Derin Öğrenmenin Diğer Görüntü Analiz Yöntemlerinden Farkı
Yukarıdaki örnekte, görüntü analizi kullanılarak resimde kupaya benzeyen nesneler işaretlenmiştir. Söz konusu işaretlemelere bakıldığında tüm işaretlemelerin hatalı yapıldığı görülmektedir.
Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.
Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.
Araştırmacılar akıllı telefonların ve diğer mobil cihazların kamera görüş hattında bulunan nesneleri hemen tanıyıp, nesneleri tanımlayan metinleri nesnelerin üzerinde bir çevre katman olarak gösterecek şekilde çalışma yapmaktadır (Purdue University image/e-Lab).
Ayşegül DÜNDAR’ın derin öğrenme kullanarak video akışında gerçek zamanlı nesne tanıma videosuna aşağıdan seyredebilirsiniz.
Yüz Tanıma Sistemi
Derin öğrenme yüz tanıma yarışması kapsamında 6.000 çift yüz resmi üzerinde tanıma işlemi en düşük hata seviyesini yakalamaya yönelik çeşitli firmaların yürütmüş olduğu çalışmalar neticesinde makinelerin yüz tanıma hata eşiği insan hata eşiğinin altına inmiştir.
Derin öğrenme konusunda öncü düşünür olarak ün yapan ve Çin’in en büyük arama motorunun baş uzmanı Andrew Ng (g+), son çalışmasında Baidu Derin Konuşma motorunun gürültülü ortamlarda bile derin öğrenme kullanarak sesli komutları anlayıp işlediğine vurgu yapmıştır. Bu çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.
Yukarıdaki çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.
Çoğu kişi %95 doğruluk ile %99 doğruluk arasındaki farkı anlamamaktadır. %99 doğruluk oranı oyun değiştiren bir orandır. Bu doğruluk oranına ulaşıldığında akıllı cihazlar tamamen sesle kullanılabilecek hale gelecektir.
Konuşma tanımanın gelişmesi nesnelerin internetinin (internet of things) yaygınlaştırmasını destekleyecektir. Bu sayede günlük yaşamda kullanılan tüm cihazlar ve araçlar insan ergonomisine uygun yapıda çalışarak yaşamı kolaylaştıracak şekilde birbirleriyle sürekli etkileşim halinde bulunacaktır.
Derin Öğrenmenin Araçlarda Kullanımı
Yeni nesil otonom araçlarda araç içerisindeki tüm multimedya sistemleri ve durumsal farkındalığı sağlayan algılayıcılar tek birim tarafından komuta edilmektedir. Araç yönetim sisemi sahip olduğu derin öğrenme yapısı sayesinde kameralar vasıtasıyla aldığı görüntüleri eş zamanlı sınıflandırarak sürücü destek sistemini oluşturmaktadır. Bu sayede özellikle kısıtlı görüş şartları dahil birçok durumda kazaların önüne geçilebileceği değerlendirilmektedir.
Derin Öğrenmenin Savunma ve Güvenlik Sektöründe Kullanımı
Teknolojinin etkinliğinin artarken boyutsal olarak küçülmesi ve enerji ihtiyacının buna bağlı olarak azalmasıyla kameralar günlük hayata üssel oranda katkı sağlamaktadır. Dünya genelinde üretilen mobil cihaz sayısı yılda 2 milyar adetken kamera sayısı bu sayının çok daha üzerindedir.
Savunma alanında gerek silah üstü optiklere yönelik geliştirilen sistemlere işlemci desteği sağlanması gerekse tüm hareket eden platformlara konulan kameralar anlık incelenmesi gereken verinin miktarını büyük oranda artırmıştır. Kameraların savunma ve güvenlik alanlarında kullanımının adaha da artacağı değerlendirildiğinde, sadece resim veya video akışındaki nesnelerin ne olduğu değil ayrıca nesnelerin birbirleriyle olan ilişkisini metne döken sistemlerin büyük bir insan kaynağı tasarrufu sağlayarak, her bir kamera sistemin anlık akıllı değerlendirme yapısına kavuşmasının yolunu açmaktadır.
Sonuç olarak; 2007 yılında başlayan mobil devrimin sonucu olarak son iki yılda büyük çıkış yapan derin öğrenme, nesnelerin interneti alanındaki gelişmeye paralel olarak yarı ve tam otonom sistemler ile robotların günlük yaşama katkısı giderek artacaktır. Gelişen teknoloji ile belirli bir uzmanlık alanında tecrübe artırılmış gerçeklik uygulamaları ile zahmetsiz bir şekilde sistemlere transfer edilebilecektir.
Derin öğrenme çok hızlı bir şekilde yapay zeka alanında büyüme kaydetmektedir. İnsana yakın doğrulukla resim sınıflandırma, ses tanıma, doğal dil işleme, duygu analizi, tavsiye motoru vb. alanlarda gittikçe kullanımı artmaktadır. Uygulama alanlarına yüz tanıma, sahne tanıma, ileri medikal ve farmasötik araştırma, otonom ve kendi kendine giden araçlar dahildir.
Ücretsiz Derin Öğrenme Dersi
NVIDIA, derin öğrenme konusunda online deslere başlıyor. Bu giriş dersi interaktif ders anlatımı, uygulamalı alıştırmalar ve çalışma saatlerinde öğretim üyesi desteğini içerecek şekilde beş öğretim üyesi tarafından verilecektir.
Bu dersler ile tasarım ve eğitim için gerekli olan becerinin yanında sinir ağı destekli yapay zekayı geniş kapsamlı kullanılan açık kaynak kodlu yapılar ve NVIDIA yazılımı ile kendi uygulamalarınıza entegre etme imkanı bulacaksınız.
Çalışma Saatlari oturumundan önce sorularınızı dl-course@nvidia.com adresine gönderebilirsiniz. Böylece öğretim üyeleri oturumlardan önce sorularınıza yönelik faydalı cevaplar hazırlayabilir. Türkçe sorularınız için info@derinogrenme.com adresine e-posta gönderebilir veya iletişim sayfamızı kullanabilirsiniz.
Her derse yönelik hazırlanan uygulamalı alıştırmalara ders süresince nvidia.qwiklab.com adresinden ücretsiz erişilebilirsiniz.