Skip to main content

Derin Öğrenme (Deep Learning) Nedir?

Endüstri ve akademik çevrelerdeki veri bilimciler görüntü sınıflandırma, video analizi, konuşma tanıma ve doğal dil öğrenme süreci dahil olmak üzere çeşitli uygulamalarda çığır açan gelişmeler elde etmek üzere makineyle öğrenmede GPU’ları (Grafik İşlemci Ünitesi) kullanmaktadır. Özellikle, büyük miktarlarda etiketlenmiş eğitim verilerinden özellik saptama yapabilen sistemler oluşturmak için ileri teknoloji, çok seviyeli “derin” sinir ağların kullanılması olan Derin Öğrenme, önemli derecede yatırım ve araştırmanın yapıldığı bir alandır.

Derin öğrenme ağ yapısının oluşturulmasında kullanılan milyonlarca resimden bir örnek set.
Derin öğrenme ağ yapısının oluşturulmasında kullanılan milyonlarca resimden örnek bir set.

Makineyle öğrenme yıllardır kullanılan bir yöntem olmasına rağmen, iki yeni yeni trend makineyle öğrenmenin yaygın bir şekilde kullanılmasına yol açmıştır: çok büyük miktarlarda eğitim verisi ile GPU hesaplama ile elde edilen güçlü ve verimli paralel hesaplama. GPU’lar, çok daha büyük eğitim setleri kullanarak bu derin nöral ağları çok daha kısa sürelerde ve çok daha az veri merkezi altyapısı kullanarak eğitmek için kullanılmaktadır. GPU’lar aynı zamanda, çok daha fazla veri hacmi ve daha az güç ve altyapı destekleyerek, bulut içinde sınıflandırma ve tahmin yapmak için bu eğitilmiş makineyle öğrenme modellerini çalıştırmak için kullanılmaktadır.

Makineyle öğrenme için GPU’ları kullanmaya ilk başlayanlar arasında en büyük web ve sosyal medya şirketlerinin yanı sıra, veri bilimi ve makineyle öğrenme alanında çalışan üst düzey araştırma kuruluşları bulunmaktadır. Binlerce hesaplama çekirdeği ve tek başına çalıştırılan CPU’lar (Merkezi İşlem Birimi) ile karşılaştırıldığında 10 ile 100 kat uygulama performansı sunan GPU’lar, veri bilimcilerin büyük verilerin işlenmesinde tercih ettikleri işlemci olmuştur.

GPU’lar ile önceden kaydedilen konuşmalar veya multimedya içerikleri çok daha hızlı bir şekilde yazıya geçirebilmektedir. Carnegie Mellon Üniversitesi’nden Profesör Ian Lane yürüttüğü çalışmalarında CPU uygulaması ile karşılaştırıldığında, GPU’ların 33 kata kadar daha hızlı tanıma yaptığını ortaya koymuştur.

Derin Öğrenme Kapsamında Yürütülen Çalışmalar

Bir ağaç dalına tünemiş kuş (Derin öğrenme kullanılarak üretilmiştir.)
Bir ağaç dalına tünemiş kuş (Derin öğrenme kullanılarak üretilmiştir.)

Stanford Üniversitesi’nden öncü araştırmacı Andrej Karpathy; çalışmalarında birisi resim tanıma diğeri doğal dil işleme olmak üzere iki sinir ağını birleştirmiştir. Bu sayde tıpkı LEGO’ların birleştirildiği gibi sinir ağları sadece örnek resimdeki objeyi kuş veya ağaç olarak sınıflandırmakla kalmayıp ayrıca resim içerisindeki tüm nesnelerin birbiriyle olan ilişkisini ortaya koyabilmiştir.

Günümüzde artan kamera sayısı dikkate alındığında, görüntü içindeki nesnelerin birbiriyle olan ilişkisinin bir insan gibi makineler tarafından anlamlı bir şekilde ortaya konması görüntüleri yorumlama konusunda kullanıcılara inanılmaz bir farkındalık katmıştır. Bu sayede yüzlerce görüntü akışı (video) makineler tarafından insan nesne tanıma seviyesinin üzerinde bir başarıyla değerlendirilmektedir.

Andrej Karpathy ve Li Fei-Fei‘nin Deep Visual-Semantic Alignments for Generating Image Descriptions adlı çalışmasından daha detaylı bilgi edinebilirsiniz.

Aşağıda resimlerdeki açıklamalar derin öğrenme ile elde edilmiştir.
siyah beyaz köpek bar üzerinden atlıyor."
siyah beyaz köpek bar üzerinden atlıyor.”
"pembe kıyafetli kız havada zıplıyor."
“pembe kıyafetli kız havada zıplıyor.”
"mavi dalış kıyafetli adam dalga üstünde sörf yapıyor."
“mavi dalış kıyafetli adam dalga üstünde sörf yapıyor.”
iki genç kız lego oyuncağı ile oynuyor."
iki genç kız lego oyuncağı ile oynuyor.”
"turuncu güvenlik yeleği giyen yapı işçisi yolda çalışıyor."
“turuncu güvenlik yeleği giyen yapı işçisi yolda çalışıyor.”
"siyah tişört giyen adam gitar çalıyor."
“siyah tişört giyen adam gitar çalıyor.”

DARPA, insansız hava araçlarının düşman toprakları üzerinde elde ettiği görüntü ve videoların karargâha aktarımıyla oluşturulan büyük veri (BigData) yığınıyla baş edebilmek maksadıyla daha iyi bir istihbarat katmanı geliştirilmesi kapsamında 2009 yılında derin öğrenme çalışmalarına destek vermeye başlamıştır.

Google Atari Derin Öğrenme Çalışması
Google Deep Mind Atari Çalışması

Google son dönemde bünyesine kattığı, Deep Mind firması ile yürttüğü derin öğrenme çalışmaları kapsamında, Atari video oyunlarını kullanılarak makineler için sadece ağı eğitmekle kalmayıp, ayrıca ortam içerisinde nasıl hareket edileceğini de öğretmişlerdir. Bu sayede eğitilen ağ oyun serisini başarıyla tamamlamıştır. Bu çalışma ile Google sahip olduğu ve sürekli artan veri havuzunu zamanı geldiğinde geliştirdiği algoritmalar ile kullanarak akıllı sistemler ortaya çıkarabileceğini göstermiştir. (Deep Mind Yayınları) (Google neden 400 Milyon Dolara Deep Mind fimasını satın aldı?)

Derin Öğrenmenin Diğer Görüntü Analiz Yöntemlerinden Farkı

Kupa tespitinde kullanılan resim
Kupa tespitinde kullanılan resim
Görüntü analizi ile tespit edilen (yanlış) kupalar
Görüntü analizi ile tespit edilen (yanlış) kupalar

Yukarıdaki örnekte, görüntü analizi kullanılarak resimde kupaya benzeyen nesneler işaretlenmiştir. Söz konusu işaretlemelere bakıldığında tüm işaretlemelerin hatalı yapıldığı görülmektedir.

derin_ogrenme_beyin_yapisi_yazi
Baidu Research: Derin öğrenme sinir yapısının sunumu

Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.

 

derin_ogrenme_kupa_dogru_secili
Derin öğrenme ile kupanın tespit edilmesi
Baidu Research: Derin öğrenme çalışma yapısı
Baidu Research: Derin öğrenme çalışma yapısı

Resim veya vide akışındaki her kare için çeşitli filtrelemeler ve alt bölümlere ayırma gibi işlemler sonucunda esim karesi üzerinde tespit edilen nesneler önceden eğitilmiş ağa sokularak sınıflandırılmaktadır.

Araştırmacılar akıllı telefonların ve diğer mobil cihazların kamera görüş hattında bulunan nesneleri hemen tanıyıp, nesneleri tanımlayan metinleri nesnelerin üzerinde bir çevre katman olarak gösterecek şekilde çalışma yapmaktadır (Purdue University image/e-Lab).

Researchers are working to enable smartphones and other mobile devices to understand and immediately identify objects in a camera's field of view, overlaying lines of text that describe items in the environment. Here, a street scene is labeled by the prototype, running up to 120 times faster than a conventional cell-phone processor. (Purdue University image/e-Lab)
Video akışında tüm görüntü üzerinde eş zamanlı nesne tespiti yapılması (Sağda orijinal görüntü, solda ise eş zamanlı sınıflandırılmış ve katmanlı olarak etiketlenmiş görüntü).

Ayşegül DÜNDAR’ın derin öğrenme kullanarak video akışında gerçek zamanlı nesne tanıma videosuna aşağıdan seyredebilirsiniz.

Yüz Tanıma Sistemi

Derin öğrenme yüz tanıma yarışması kapsamında 6.000 çift yüz resmi üzerinde tanıma işlemi en düşük hata seviyesini yakalamaya yönelik çeşitli firmaların yürütmüş olduğu çalışmalar neticesinde makinelerin yüz tanıma hata eşiği insan hata eşiğinin altına inmiştir.

Yüz tanıma veri setinde derin öğrenme yöntemiyle firmaların yakaladığı hata oranları
Yüz tanıma veri setinde derin öğrenme yöntemiyle firmaların yakaladığı oranlar

Derin Öğrenmeyle Konuşma Tanıma

Derin öğrenme konusunda öncü düşünür olarak ün yapan ve Çin’in en büyük arama motorunun baş uzmanı Andrew Ng (g+), son çalışmasında Baidu Derin Konuşma motorunun gürültülü ortamlarda bile derin öğrenme kullanarak sesli komutları anlayıp işlediğine vurgu yapmıştır. Bu çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.

Derin öğrenme ile konuşma tanımanın yapılması
Derin öğrenme ile konuşma tanımanın yapılması
Derin öğrenme ile firmaların konuşma tanımadaki hata oranları
Derin öğrenme ile firmaların konuşma tanımadaki hata oranları

Yukarıdaki çalışmada GPU işlemcileri kullanılarak 100.000 saatten daha fazla konuşma örnekleri sinir ağları ile eğitilerek bu alanda en düşük hata oranına ulaşılmıştır.

Çoğu kişi %95 doğruluk ile %99 doğruluk arasındaki farkı anlamamaktadır. %99 doğruluk oranı oyun değiştiren bir orandır. Bu doğruluk oranına ulaşıldığında akıllı cihazlar tamamen sesle kullanılabilecek hale gelecektir.

Konuşma tanımanın gelişmesi nesnelerin internetinin (internet of things) yaygınlaştırmasını destekleyecektir. Bu sayede günlük yaşamda kullanılan tüm cihazlar ve araçlar insan ergonomisine uygun yapıda çalışarak yaşamı kolaylaştıracak şekilde birbirleriyle sürekli etkileşim halinde bulunacaktır.

Derin Öğrenmenin Araçlarda Kullanımı

Yeni nesil otonom araçlarda araç içerisindeki tüm multimedya sistemleri ve durumsal farkındalığı sağlayan algılayıcılar tek birim tarafından komuta edilmektedir. Araç yönetim sisemi sahip olduğu derin öğrenme yapısı sayesinde kameralar vasıtasıyla aldığı görüntüleri eş zamanlı sınıflandırarak sürücü destek sistemini oluşturmaktadır. Bu sayede özellikle kısıtlı görüş şartları dahil birçok durumda kazaların önüne geçilebileceği değerlendirilmektedir.

NVIDIA Derin Öğrenme Otopilot Çalışmaları – Araç Yönetim Sistemi

NVIDIA DRIVE™ PX – Kendi Kendine Giden Araç Bilgisayarı

NVIDIA DRIVE™ CX – Dijital Kokpit Bilgisayarı

Derin Öğrenme ile Gerçek Zamanlı Trafik Farkındalığının Oluşturulması
Derin Öğrenme ile Gerçek Zamanlı Trafik Farkındalığının Oluşturulması
Tesla Otopilot Çalışması- Derin Öğrenme kullanılarak trafik ortamının oluşturulması

Tesla Motors – Otopilot

Derin Öğrenmenin Savunma ve Güvenlik Sektöründe Kullanımı

Teknolojinin etkinliğinin artarken boyutsal olarak küçülmesi ve enerji ihtiyacının buna bağlı olarak azalmasıyla kameralar günlük hayata üssel oranda katkı sağlamaktadır. Dünya genelinde üretilen mobil cihaz sayısı yılda 2 milyar adetken kamera sayısı bu sayının çok daha üzerindedir.

Yeni nesil avuç içine sığabilen üç boyutlu yüksek çözünürlüklü kameralar
Yeni nesil avuç içine sığabilen üç boyutlu yüksek çözünürlüklü kameralar

Savunma alanında gerek silah üstü optiklere yönelik geliştirilen sistemlere işlemci desteği sağlanması gerekse tüm hareket eden platformlara konulan kameralar anlık incelenmesi gereken verinin miktarını büyük oranda artırmıştır. Kameraların savunma ve güvenlik alanlarında kullanımının adaha da artacağı değerlendirildiğinde, sadece resim veya video akışındaki nesnelerin ne olduğu değil ayrıca nesnelerin birbirleriyle olan ilişkisini metne döken sistemlerin büyük bir insan kaynağı tasarrufu sağlayarak, her bir kamera sistemin anlık akıllı değerlendirme yapısına kavuşmasının yolunu açmaktadır.

Sonuç olarak; 2007 yılında başlayan mobil devrimin sonucu olarak son iki yılda büyük çıkış yapan derin öğrenme, nesnelerin interneti alanındaki gelişmeye paralel olarak yarı ve tam otonom sistemler ile robotların günlük yaşama katkısı giderek artacaktır. Gelişen teknoloji ile belirli bir uzmanlık alanında tecrübe artırılmış gerçeklik uygulamaları ile zahmetsiz bir şekilde sistemlere transfer edilebilecektir.

Kaynaklar:

http://www.nvidia.com.tr/object/tesla-gpu-machine-learning-tr.html

http://www.quora.com/Machine-Learning/What-are-the-practical-applications-of-deep-learning-What-are-all-the-major-areas-fields

http://www.homelandsecuritynewswire.com/darpa-seeks-deep-learning-ai-cope-flood-information

http://spectrum.ieee.org/automaton/robotics/artificial-intelligence/facebook-ai-director-yann-lecun-on-deep-learning

http://www.fastcolabs.com/3026423/why-google-is-investing-in-deep-learning

http://radar.oreilly.com/2014/07/what-is-deep-learning-and-why-should-you-care.html

http://deeplearning.net

https://www.linkedin.com/pulse/sowhat-deep-learning-matthew-reaney

Sunumlar:

Jen-Hsun Huang (NVIDIA CEO), GPU Tech 2015 Sunumu – pdfvideo

Andrew NG, GPU Tech 2015 Sunumu – pdfvideo

Diğer sunumlar için tıklayın.