Dağıtılmış Makine Öğrenmesi Araç Seti

0
566
DMTK
DMTK

Distributed Machine Learning Toolkit (Dağıtılmış Makine Öğrenmesi Araç Seti), Dağıtılmış makine öğrenmesi, bu büyük veri çağında her zamankinden daha önemli hale gelmiştir. Özellikle son yıllarda çalışmalar, daha fazla eğitim verilerinin ve daha büyük modellerin çeşitli uygulamalarda daha iyi doğruluk üretme eğiliminde olduklarını göstermektedir. Bununla birlikte, görev genellikle çok sayıda hesaplama kaynağı gerektirdiğinden yaygın makine öğrenmesi araştırmacıları ve uygulayıcıları büyük miktarda veriden büyük modeller öğrenmek için bir zorluk olarak kalmaktadır. Bu zorluğun üstesinden gelmek için hem algoritmik hem de sistem yenilikleri içeren Microsoft Dağıtılmış Makine Öğrenmesi Araç Seti‘ni (DMTK) yayımlıyoruz.Bu yenilikler, makine öğrenmesi görevlerini büyük veriler üzerinde oldukça ölçeklenebilir, verimli ve esnek hale getirir. DMTK’ya düzenli olarak yeni algoritmalar eklemeye devam edeceğiz.

Bileşenler

DMTK’nın mevcut sürümü aşağıdaki bileşenleri içerir (gelecekteki sürümlere daha fazla bileşen eklenecektir):

  • DMTK Framework: veri paralelleştirmesi için birleştirilmiş arabirimi destekleyen esnek bir framework, büyük model depolama için hibrid veri yapısı, büyük model eğitim için model çizelgeleme ve yüksek eğitim etkinliği için otomatik borulama.
  • LightLDA, son derece hızlı ve ölçeklenebilir bir konu modeli O (1) algoritması olup, bir Gibbs örnekleyici ve verimli bir dağıtılmış uygulama içerir.
  • Dağıtılmış (Çok Yönlü) Kelime Gömme, multi-sense kelime gömme algoritmasının dağıtılmış bir versiyonu.
  • LightGBM: çok yüksek performanslı gradyan güçlendirici ağaç frameworkü (GBDT, GBRT, GBM ve MART’ı destekler) ve dağıtılmış uygulaması.

Makine öğrenmesi araştırmacıları ve uygulayıcıları, kendi tek makine algoritmalarında küçük değişiklikler yaparak kendi dağıtılan makine öğrenme algoritmalarını framework’ümüzün üzerine kurabilirler.

DMTK Framework
DMTK Framework

 

 

 

 

 

 

 

 

 

 

Dağıtılmış makine öğrenmesinin sınırlarını zorlamak için tüm toplumun ortak çabalarına ve makine öğrenmesi yenilikleri ile sistem yeniliklerinin organik kombinasyonuna ihtiyaç duyduğumuza inanıyoruz. Bu inanç, DMTK projesini açık kaynak yapmak için bizi motive ediyor.

DMTK Framework

Bu framewok aşağıdaki bileşenleri içerir:

  • Destekleyen bir parametre sunucusu
  • Yüksek ve düşük frekanslı parametreler için ayrı veri yapıları kullanan ve böylece bellek kapasitesi ve erişim hızı arasında olağanüstü denge sağlayan model saklama için karma veri yapısı.
  • BSP, ASP, SSP de dahil olmak üzere model senkronizasyonu için çeşitli mekanizmaları destekleyen yerel çalışanlardan gelen güncellemeleri birleştirilmiş bir şekilde kabul ve bir araya getirme.
  • Destekleyen bir istemci SDK’sı
  • Hesaplama kaynaklarının ve ağ bağlantılarının çeşitli koşullarına bakılmaksızın çok yüksek eğitim hızına olanak tanıyan yerel eğitim ve model iletişimi arasındaki boru hattı.
  • Büyük makine eğitimini, iş makinelerinin her biri parametre sunucusundan ihtiyaç duyuldukça alt modelleri çekebilecek ve bu da çok büyük modelleri desteklemek için sınırlı bellek kapasitesi ve ağ bant genişliği ile sonuçlanan, yuvarlak soyut moda bir program çiziyor.
  • Lua ve Python bağları, çeşitli topluluklardaki kullanıcıların makine öğrenmesi görevlerinizi paralel hale getirmek için parametre sunucumuzdan yararlanmalarını sağlar.
LightLDA
LightLDA

 

 

 

 

 

 

 

 

 

 

 

 

LightLDA

LightLDA, çalışma maliyeti model boyutunu yüksek verimli (şaşırtıcı olarak) ve ampirik olarak günümüzdeki en son teknolojiye sahip Gibbs örnekleyiciden daha hızlı bir şekilde büyük bir çoğunluğa yakınsayan, yeni oldukça verimli bir O (1) Metropolis-Hastings örnekleme algoritmasıdır .

Dağıtılmış uygulamada, DMTK framework’ü tarafından sağlanan hibrid veri yapısı, model çizelgeleme ve otomatik borulama işlevlerini kullanarak, LightLDA’nın son derece büyük veriler ve büyük modeller için mütevazi bir bilgisayar kümesinde bile yetenekli olmasını sağlıyoruz. Özellikle, en az 8 makine içeren bir kümede, 1 milyondan fazla konuyla ve 10 milyondan fazla kelime içeren bir konu modelini (toplam 10 trilyon parametre için) 100 milyardan fazla belge koleksiyonunda eğitebiliriz -Literatürde binlerce makine bile bildirilmemiş bir ölçek-

Dağıtılmış (Çok Anlamlı) Kelime Gömme
Dağıtılmış (Çok Anlamlı) Kelime Gömme

 

 

 

 

 

 

 

 

 

 

 

Dağıtılmış (Çok Anlamlı) Kelime Gömme

Kelime gömme, doğal dil işleme görevleri için yüksek kaliteli kelime özellikleri olarak işlev görebilecek sözcüklerin semantik temsilini hesaplamak için çok popüler bir araç haline geldi. İki kelimeli gömme algoritmalarının dağıtılmış uygulamalarını sunuyoruz. Biri standart word2vec algoritması, diğeri çoksesli kelimeler için birden fazla katıştırma vektörü öğrenen çok yönlü bir kelime yerleştirme algoritmasıdır. DMTK framework’ünde sağlanan model çizelgeleme ve otomatik borulama işlevlerinden yararlanarak, 10 milyondan fazla kelime içeren 300-d kelime gömme vektörlerini 100 milyondan fazla simgeyle birlikte bir belge koleksiyonunda bir kümede 8 makine eğitmek mümkün .

LightGBM

 

 

 

 

 

 

 

 

 

 

 

LightGBM

LightGBM, son derece verimli ve ölçeklenebilir ve GBDT, GBRT, GBM ve MART dahil birçok farklı algoritmayı destekleyebilen yeni bir gradyan yükseltme ağaç frameworkü. LightGBM’nin, açgözlü ağaç büyüme metodu ve histogram tabanlı bellek ve hesaplama optimizasyonu nedeniyle, gradyan artırma ağaçlarının mevcut uygulamalardan birkaç kat daha hızlı olduğu kanıtlanmıştır.

Özel bir not: DMTK, dağıtılmış makine öğrenmesi için tasarlanmış bir platformdur. Derin öğrenme odak noktamız değildir ve DMTK’da yayınlanan algoritmalar çoğunlukla derin olmayan öğrenme algoritmalarıdır. En son teknolojiyi kullanan derin öğrenme araçlarını kullanmak istiyorsanız, Microsoft CNTK‘yi kullanmanız kesinlikle önerilir. CNTK ile yakın işbirliği içerisindeyiz ve asenkron paralel eğitim işlevlerine destek veriyoruz.

Facebook Yorumları