MLlib, Ölçeklenebilir Makine Öğrenme Kütüphanesi

0
312
sparkmllib
sparkmllib

Apache Spark, Hadoop ailesinin en iyi parçalarından biri olarak bilinir, ancak bu bellek içi veri işleme kütüphanesi Hadoop’un dışında oluşturulmuştur ve Hadoop ekosistemi dışında kendisi için de bir isim almıştır. Spark, bellek içi verilere yüksek hızda uygulanabilen artan algoritma kütüphanesi sayesinde, bir go-to machine learning aracı haline gelmiş durumda.

Spark’daki algoritmalar sürekli olarak genişletiliyor ve revize edilmekte olduğundan, Spark hala geliştirme sürecinde. Son stabil sürümü 28 Aralık 2016’da 2.1.0 olarak çıktı. Spark ML (Machine Learning [Makine Öğrenmesi]) işlerini kalıcı boru hatları (pipelines) vasıtasıyla askıya almaya ve devam ettirmeyi mümkün kılmaktadır.

Özet olarak amacı, pratik makine öğrenimini ölçeklenebilir ve kolay hale getirmektir. Sınıflama, regresyon, kümeleme, filtreleme, boyut azaltma gibi alt düzey optimizasyon ilkelleri ve üst düzey pipeline API‘leri gibi ortak öğrenme algoritmalarından ve araçlardan oluşur.

Kütüphane Java, Scala, Python ve R dillerini desteklemektedir.

MLlib birçok algoritma ve araç içerir.

İçerdikleri

  • Sınıflandırma: lojistik regresyon, …
  • Regresyon: genelleştirilmiş doğrusal regresyon, sağkalım regresyonu, …
  • Karar ağaçları, rastgele ormanlar ve gradyanı güçlendirilmiş ağaçlar
  • Tavsiye: alternatif en küçük kareler (ALS)
  • Kümeleme: K-means, Gauss mixed (GMMs), …
  • Konu modelleme: Gizli Dirichlet tahsisi (LDA)
  • Sık öğe setleri, ilişkilendirme kuralları ve ardışık kalıp madenciliği

ML iş akışı araçları şunları içerir:

  • Özellik Dönüşümleri: standardizasyon, normalleştirme, karma, …
  • ML boru hattı oluşturma
  • Model değerlendirmesi ve hiper parametre ayarı
  • ML kalıcılığı: modellerin ve boru hatlarının kaydedilmesi ve yüklenmesi

Diğer araçlar şunları içerir:

  • Dağıtık lineer cebir: SVD, PCA, …
  • İstatistikler: özet istatistikler, hipotez testi, …

 

Sağlayıcı: Apache Spark
API Dokümantasyon ve Kulllanım Örnekleri: http://spark.apache.org/docs/latest/ml-guide.html
Ücretlendirme: Açık kaynak kodlu ve ücretsiz olduğu için lisans içeriğini kontrol edebilirsiniz.

Facebook Yorumları