Makine Öğrenme Algoritması ile Alkollüyken Atılan Tweetleri Belirlenebilmekte

0
637
alcoholic

Hossain ve ekibi, makine öğrenme algoritması ile alkollüyken atılan tweetleri belirlenebilmekte ve davranış modellerini ortaya koyabilmekte. Film izledikten sonra gece 1’de alkolünde etkisiyle eski kız arkadaşınız ya da erkek arkadaşınız için gözüyaşlı bir tweet göndermiş olmanız olasıdır. Çoğu kişi alkol ve tweet’in her zaman iyi bir kombinasyon olmadığını bilir.

Bu uygulama Nabil Hossain’e ve Rochester Üniversitesi’ndeki arkadaşlarına ilginç bir fikir verdi.

Bu arkadaşlar, alkolle ilgili tweet’leri bulmak için nasıl bir ML (Machine Learning) eğittiklerini gösteriyor. Ayrıca bu verileri alkolle ilişkili faaliyetleri ve topluma dağılımını izlemek için nasıl kullanacaklarını da gösteriyorlar. Yöntemin “alkol ve diğer faaliyetlerin artırdığı halk sağlığı sorunlarını anlama ve bunlara tepki verme biçimimiz üzerinde önemli bir etkisi olabilir” diyorlar.

Hossain ve arkadaşları çalışmalarını iki başlık altında toparlamışlar. Birincisi, alkol ile ilgili püf noktalarını ve o sırada alkol alan kişiler tarafından gönderilenleri belirlemek için bir makine öğrenme algoritması geliştirmek. İkincisi, bir Twitter kullanıcısının ev konumunu şimdiye kadar olduğundan daha büyük bir doğrulukla bulmanın ve bu sayede evde içip içmediklerinin belirlenmesini bulmak.

Ekip, Temmuz 2014’e kadar New York Şehri’nden Rochester şehrinin bulunduğu kuzey sınırındaki Monroe bölgesine kadar, yıl boyunca gönderilen coğrafi etiketli tweetleri topladı. Bu kümeden, sarhoş, bira, parti vb. Gibi alkol veya alkolle alakalı kelimeler içeren tüm tweet’leri filtreliyorlar.

Daha sonra, Amazon’un Mechanical Turk kitle kaynaklı hizmetinde işçileri kullanarak tweet’leri daha ayrıntılı analiz ettiler. Her tweet için, üç Türk’ten, mesajın alkolden bahsedilip bildirilmediğine ve eğer öyleyse alkollü alkollü içki içeceğine yöneltilip etmediğine karar vermeleri istendi. Sonunda, tweet’in gönderildiği ve tweeter’ın empoze edildiği soruldu.

Makine Öğrenme Algoritması ile Alkollüyken Atılan Tweetleri Belirleyebilmekte
Makine Öğrenme Algoritması ile Alkollüyken Atılan Tweetleri Belirleyebilmekte

Bu işlem, alkolle ilişkili olarak, yaklaşık 11.000 coğrafi bölünmüş tweet içeriyordu. Alkolle ilgili tweet’lerin yerini belirlemek için bir makine öğrenme algoritması geliştirmek için yeterince büyük bir veri seti.

Bir sonraki soruya!

Bu insanlar içkiliyken tweetlerini nerede atıyorlar? Ve özellikle, evde veya başka bir yerde mi?

Araştırmacılar, yalnızca coğrafi konumlandırılmış tweet’lerini kullanarak insanların ev yerlerini öğrenmek için çeşitli yöntemler geliştirdiler. Bunlar arasında, en son tweet attıkları yeri seçerek, günün son tweet’ini gönderdikleri yeri seçtikleri veya saat 15.00 ile 6.00 arasında tweet attıkları yeri seçtiler. Bununla birlikte, bu yöntemlerin tümünün zayıf yönleride var.

Hossain ve arkadaşları başka bir yaklaşım geliştirdi. “Nihayet ev!” Ya da banyo, kanepe, TV ve benzeri gibi insanlar tarafından gönderilen tweet’lerde muhtemelen kullanacakları kelime ve cümlelerin bir listesini hazırladılar. Bu kelimeleri içeren coğrafi konumlandırılmış tweet’leri filtreliyorlardı ve her üç cümlenin evden gönderildiğini sordu.

Hossain ve arkadaşları, bu tweetleri ev konumu için bir “yer” veri seti olarak belirledi ve ev tabanlı tweetler ile ilişkili diğer kalıpları tanımlamak için bir makine öğrenme algoritması geliştirmek için kullandı. Algoritma, ev konumunun, günün son tweet’inin yeri, bir tweet’in en popüler konumu, belirli bir yerdeki tweet’lerin yüzdesi gibi diğer göstergelerle nasıl ilişkili olduğunu görmek için incelendi.

Ev konumunu belirlemek için birkaç parametreyi doğru kabul etmek, tek bir parametreyi kullananlara kıyasla yaklaşımın doğruluğunu önemli ölçüde artırmış durumda. Gerçekten, Hossain ve arkadaşları ev konumlarını 100 metreye kadar hassas bir şekilde yüzde 80’e kadar çıkarabildiklerini söylüyorlar. Bu, önceki çalışmlardan önemli ölçüde daha iyi.

Bu iki teknikle birlikte ekibin, insanların ne zaman ve nerede içki içtiğini öğrenmesine olanak sağladı. Bunu New York’taki ve Monroe’da banliyö bölgesindeki içki içen insan örneklerini karşılaştırmak için kullandılar.

Bunu, her alanı 100 x 100 ızgaralara (grid) bölerek ve alkol ile ilişkili tweetlerin olduğu alanları işaretleyerek yaptılar. Böylece, her alan için alkol kullanımının “ısı haritalarını” hazırlayıp karşılaştırmalarına olanak sağladılar.

Ayrıca, bir ev konumundan yapılan içki içenlerle ilgili tweet’leri başka yerlerde yapılmış olanlardan ayırt edebildiler. Ve alkol satan satış noktalarını haritalandırdılar. Bu, araştırmacıların alkollüyken farklı bölgelerden gönderilen tweet’lerin yoğunluğu ile alkol satışlarının yoğunluğu arasındaki ilişkiyi de araştırmasına olanak tanıdı.

Sonuçlar

Sonuçlar, ilk olarak, Hossain ve arkadaşları, New York’taki tweet’lerin daha yüksek bir oranının Monroe’dakinden alkol ile ilişkili olduğuna dikkat çekiyorlar. “Oldukça yoğun alkollü içecekler ve sosyalleşmekte olan birçok insan New York gibi kalabalık bir şehrin daha yüksek bir içki içme oranına sahip olması olasılığıdır” diyorlar.

Dahası, coğrafi konum verileri, New York’taki evlerde yüksek bir oranda, yüksek miktarda kişinin evden bir kilometreden daha uzakta içki içtiği Monroe’dan, daha fazla içki içtiğini ortaya koyuyor.

Isı haritaları da ilginç kalıpları ortaya çıkarmaktadır. Takım, evde alkol ile ilgili en az beş tweet bulunduğunda 100 x 100 metre kare halinde evde bulunabilmekte. “Bu tür ızgaraların olağandışı içki içme faaliyetlerinin bulunduğu bölgeler olduğuna inanıyoruz” diyor Hossain ve takımı.

Ayrıca, bir bölgedeki alkol satışlarının yoğunluğu ile birisinin şu an içki içtiğini gösteren tweet sayısı arasında bir korelasyon keşfettiler.

Getiriler

Bununla birlikte, bu tekniğin en büyük gücü, ucuz ve hızlı olmasıdır. 

Hazırlanan anketleri doldurmak ve ayrıntılı olarak analiz etmek için genellikle insanların dikkatle seçilmesi gerekir. Makine öğrenme yaklaşımı, bu aktiviteyi gerçek zamanlı olarak izleyebilir. “Sonuçları, tweet’lerin şehirlerde devam eden güçlü etkiler sunabileceğini gösteriyor” şeklinde yorumluyorlar.

Twitter’dan toplanan verilerde açık bir genelleme var çünkü gençler ve bazı gruplar “aşırı” temsil edilmiştir. Ancak, diğer veri toplama yöntemlerinde de benzer genellemeler mevcut – örneğin, anketler, bazı gruplar, anketleri doldurmak istemeyen kişilerin altını çiziyor. Grupların belirlenmesi ve bunlarla ilgilenilmesi, tüm veri toplama yöntemlerinin önemli bir parçasıdır.

Hossain ve ekibinin teknikleri için büyük planları var. Gelecekte, alkol tüketiminin yaş, cinsiyet, etnik köken vb. ile nasıl değiştiğini incelemek istiyorlar; Arkadaşların evleri, stadyumları, parkları vb. gibi alanlarda içki içmeyi ve içenlere ve bulundukları konumlara yakın konumların içine ve dışına dağılan oranını karşılaştırmak.

Twitter’ın sosyal boyutu da çok yararlı olacaktır. Hossain ve beraberindeki, “Sosyal medyadaki yaşıt baskısının ve sosyal etkileşimlerin içki referansını kullanma eğilimini nasıl etkilediğini öğrenmek için içki içenlerin sosyal ağlarını keşfedebiliriz” diyor.

ABD’de önlenebilir ölümün üçüncü en büyük nedeni olan alkolün sağlıkla ilgili yönleri konusundaki tartışmayı bilgilendirmek için yardımcı olabilecek her şey, alkolün her yıl neden olduğu 75.000 ölüm -bu işin önemini perspektif içinde belirten bir sayı- karşılaştırıldı.

 

Kaynak

Facebook Yorumları