Sözde Tarafsız Veri Madenciliğinin Abartılı Vaadi


Nobel ödüllü Richard Feynman, bir keresinde Caltech öğrencilerinden, sınıf dışında yürürse park yerinde ilk arabanın 6ZNA74 olduğunu belirtmesi ihtimalini hesaplamalarını istedi. Her sayının ve mektubun eşit derecede muhtemel ve bağımsız olarak belirlendiğini varsayarsak, öğrenciler 17 milyonda 1'den az olma ihtimalini tahmin ettiler. Öğrenciler hesaplarını bitirdiğinde, Feynman doğru ihtimalin 1 olduğunu ortaya koydu: Bu plaka sınıfa giderken görmüştü. Oldukça muhtemel olmayan bir şey, daha önce olmuşsa, hiç de muhtemel değildir.

Feynman tuzağı – herhangi birinin ne aradığına dair herhangi bir fikre sahip olmadan, kalıplar için verilerin aranması – veri madenciliğine dayalı çalışmaların Aşil topuğu. Olağandışı veya şaşırtıcı bir şeyi, zaten gerçekleştikten sonra bulmak, sıra dışı veya şaşırtıcı değildir. Modellerin bulunacağı kesin ve yanıltıcı, saçma veya daha kötü olması muhtemeldir.

En çok satan 2001 kitabında Harika için iyiJim Collins, önceki 40 yıl boyunca genel borsadan daha iyi performans gösteren 11 şirket ile yapmayan 11 şirkete kıyasla karşılaştı. Başarılı şirketlerin ortak olduğu beş ayırt edici özellik belirledi. Collins, "Bu projeye test etmek veya kanıtlamak için bir teori ile başlamadık." "Doğrudan kanıtlardan türetilmiş, sıfırdan bir teori kurmaya çalıştık."

Feynman tuzağına girdi. Herhangi bir grup şirkete zaman içinde geriye baktığımızda, en iyi veya en kötüsünde, bazı ortak özellikleri bulabiliriz, bu yüzden onları bulmak hiçbir şeyi kanıtlamaz. Yayınlanmasının ardından Harika için iyiCollins’in görkemli 11 hisse senedinin performansı açıkça vasattı: Beş hisse senedinin tamamı borsadan daha iyi, altı tanesi daha kötü durumdaydı.

2011'de Google, grip salgınlarını tahmin etmek için arama sorgularını kullanan Google Grip adında yapay bir istihbarat programı oluşturdu. Google’ın veri madenciliği programı, 50 milyon arama sorgusuna baktı ve nezle insidansı ile en yakından ilişkili 45'i belirledi. Veri madenciliği tuzağına bir başka örnek daha: Geçerli bir çalışma, anahtar kelimeleri önceden belirleyecektir. Raporunu yayınladıktan sonra, Google Grip önümüzdeki 108 haftanın 100'ünde grip vakalarının sayısını ortalama olarak yaklaşık yüzde 100 oranında fazla tahmin etti. Google Grip artık grip tahminleri yapmamaktadır.

Bir internet pazarlamacısı, geleneksel mavi web sayfası rengini farklı bir renge değiştirerek gelirini artırabileceğini düşündü. Birkaç haftalık testlerden sonra, şirket istatistiksel olarak anlamlı bir sonuç buldu: görünüşe göre İngiltere deniz mavisini seviyor. Yüzlerce ülkede birkaç alternatif renge bakarak, bazı ülkeler için bir renk için bir gelir artışı bulabileceklerini garanti ettiler, ancak vaktinin İngiltere’de teal’in daha fazla satış yapıp yapmayacağı konusunda hiçbir fikirleri yoktu. Anlaşıldığı üzere, İngiltere’nin web sayfası rengi açık renk olarak değiştirildiğinde, gelir düştü.

Standart bir sinirbilim deneyi, bir MRI makinesinde gönüllü olarak çeşitli görüntüler göstermeyi ve görüntüler hakkında sorular sormayı içerir. Ölçümler gürültülüdür, çevreden ve beynin farklı kısımlarındaki yağ dokusu yoğunluğundaki değişikliklerden manyetik sinyaller alır. Bazen beyin aktivitesini özlüyorlar; bazen hiçbir şeyin olmadığı yerde faaliyet öneriyorlar.

Dartmouth lisansüstü öğrencisi, bir somonun beyin aktivitesini incelemek için fotoğraflar gösterilip sorular sorulduğunda bir MRG makinesi kullandı. Çalışma ile ilgili en ilginç şey, bir somonun çalışıldığı değil, somonun öldüğü idi. Yerel bir pazarda satın alınan ölü bir somon balığı olan Yep, MRI makinesine konuldu ve bazı desenler keşfedildi. Kaçınılmaz olarak modeller vardı – ve onlar her zaman anlamsızdı.

2018 yılında, bir Yale ekonomi profesörü ve bir yüksek lisans öğrencisi, Bitcoin fiyatlarındaki günlük değişiklikler ile yüzlerce diğer finansal değişken arasındaki korelasyonu hesapladı. Bitcoin fiyatlarının, tüketim malları ve sağlık endüstrilerindeki hisse senedi getirileriyle pozitif korelasyon gösterdiğini ve üretilen ürünler ve metal madenciliği endüstrilerindeki hisse senedi getirileri ile negatif korelasyon gösterdiğini tespit etmişlerdir. “Açıklama yapmıyoruz” dedi profesör, “sadece bu davranışı belgeliyoruz”. Başka bir deyişle, Bitcoin fiyatlarının yüzlerce telefon numarası listesiyle korelasyonlarına bakmış ve en yüksek korelasyonları bildirmiş olabilirler.

Cornell Üniversitesi Gıda ve Marka Laboratuvarı'nın müdürü 200'den fazla hakemli makaleyi yazdı (veya ortak yazar olarak) ve 25'ten fazla dile çevrilmiş iki popüler kitap yazdı.

“Hayır demedi” diyen Grad Öğrenci ”başlıklı 2016 blog yazısında, yiyebileceğiniz bir İtalyan büfesinde toplanan verilerinin verildiği bir doktora öğrencisi hakkında yazdı.

E-posta yazışmaları, profesörün yüksek lisans öğrencisine yemek yiyenleri “erkek, kadın, öğle yemeği, akşam yemeği, akşam yemeği, tek başına oturanlar, 2 kişilik yemek yiyen insanlar, 2+ kişilik gruplar halinde yemek yiyen, alkol sipariş eden insanlar” şeklinde ayırmasını tavsiye etti. , alkolsüz içecek sipariş eden insanlar, büfeye yakın oturanlar, çok uzaklara oturanlar ve diğerleri… ”Sonra bu alt grupların farklı olabileceği farklı şekillere bakabilir:“ # pizza parçası, # yolculuk, dolum seviyesi tabağı, tatlıyı aldılar mı, bir içki ısmarladılar mı, vs.… ”

“Çok çalışmalı, bu kayadan biraz kan sıkması” gerektiği sonucuna vardı. Hiçbir zaman hayır demeyerek, öğrencinin Cornell profesörü ile ortak yazar olarak yayınladığı dört bildiri (şimdiki “pizza bildiri” olarak bilinir) aldı. En ünlü bildiri, erkeklerin kadınlarla yediklerinde yüzde 93 daha fazla pizza yediklerini bildirdi. İyi bitmedi. Eylül 2018'de bir Cornell fakülte komitesi “araştırmasında akademik suistimali işlediğine” karar verdi. İstifa etti ve ertesi haziran ayında etkili oldu.

İyi araştırma, neyi aradığını ve bulmayı beklediği konusunda net bir fikirle başlar. Veri madenciliği sadece kalıpları arar ve kaçınılmaz olarak bazılarını bulur.

Günümüzde sorun endemik hale geldi çünkü güçlü bilgisayarlar Büyük Veriyi yağmalamakta çok başarılılar. Veri madencileri Twitter kelimeleri veya Google arama sorguları ile suç faaliyeti, kalp krizi, hisse senedi fiyatları, seçim sonuçları, Bitcoin fiyatları ve futbol maçları arasında korelasyon bulmuşlardır. Bu örnekleri hazırladığımı düşünebilirsiniz. Ben değilim.

Sadece rastgele sayılarla daha güçlü korelasyonlar var. Veri mayınlı korelasyonların anlamlı olması gerektiğini düşünmek Büyük Veri Merkezidir. Büyük Veri'de alışılmadık bir örüntü bulmak, Feynman'ın sınıfının dışında alışılmadık bir araç plakası bulmaktan daha inandırıcı (ya da kullanışlı) değildir.

Kablolu görüş Dış katkıda bulunanlar tarafından yazılmış parçaları yayınlar ve geniş bir bakış açısını temsil eder. Daha fazla görüş burada okuyun. Opinion@wired.com adresinden bir op-ed gönderin


Daha Büyük KABLOLU Öyküler