İstatistik Sadece Anlamlı p-değeri Göstermek Olmamalıdır

İstatistikte hipotez testi, p-değeri, istatistiksel anlamlılık, hipotezin reddi veya kabulü, risk, güven sınırı gibi terimler sıklıkla karşımıza çıkar. Bunlara ne kadar güvenmeliyiz? Yeni, doğrulayıcı ve istatistiksel olarak anlamlı sonuçlara odaklanmak, bilimsel literatürde önemli yanlılığa yol açmaktadır. “p-hack” olarak bilinen bir önyargı türü, araştırmacılar önemli olmayan sonuçlar önemli hale gelinceye kadar veri veya istatistiksel analizleri topladığında veya seçtiğinde ortaya çıkar.

Hipotez testi

Hipotezler, örnek verilerden test etmek istediğimiz bir model ve veri yapısı hakkındaki tahminlerdir. Hipotez testleri ise, matematiksel olarak anlamlı bir şekilde bu tahminlerin nasıl yapıldığına dair kullanılan bir istatistiksel terimdir. Aslında bu testleri her zaman günlük hayatımızda bile farkında olmadan yaparız. Örneğin TV çalışmıyorsa ve siz alıcı kutusunu yeniden başlattıysanız, işte bir hipotezi test ettiniz demektir. Hipotez, TV’nin çalışmamasının nedeninin alıcı kutusunun düzgün çalışmaması olur ve siz onu yeniden başlattığınızda da hipotezinizin doğru olup olmadığını test etmiş olursunuz. Eğer alıcıyı yeniden başlattıktan sonraki sonuç hipotezinize uyuyorsa yani TV çalışmaya başladıysa, o zaman hipotezinize daha fazla güvenirsiniz. O zaman bir tane daha test edebilirsiniz ve problemlerinizi çözmeye niyetlenirsiniz. Aslında problem çözmek bir seri hipotez testi yapmaktır. İstatistiksel olarak, hipotez testi yaparken bir tahminde (Boş Hipotez) bulunulur, veriler gözlemlenir, belirli hesaplamalar yapılır ve başlangıçtaki tahmini yanlışlamak için yeterince güçlü kanıtlar aranır (Boş Hipotezi reddetmek). Pratikte hiçbir şey kesin değildir veya %100 olmadığı – Güneş’in yarın doğacağı bile kesin değildir- bilinmektedir. Sadece yeterince kesine yakın olduğu söylenebilir; mesela %99,9…9 gibi. Bu kesin olamama durumundan ötürü de istatistikte, boş bir hipotezin kesin olarak reddedilmesinde çok da az olsa bir risk oluşur. Bu risk α (alfa) güven düzeyi olarak temsil edilir. Buna ilaveten, β (beta) ve testin gücü (1-β) olarak gösterilen riskler de vardır.

Ne kadar küçük bir şansa gücünüzün yeteceği tamamen pratikte yanlış karar verme riskine bağlıdır. Örneğin siz birisi kanser değilken onun kanser olduğunu iddia ederseniz? O kişi kanserken kanser olmadığını iddia etmeye ne dersin? Bunlardan hangisi daha risklidir? Bir başka örnek: dolandırıcılık olduğu düşünülerek geçerli bir kredi kartı işlemini reddetmeye ne dersiniz? Peki ya gerçekten bir dolandırıcılık ise ve normal bir alışveriş sanılarak kartın reddedilmemesi durumu? Risk kavramında α ve β her zaman birbirlerine karşı geldiklerinden, yanlış pozitif riski ve yanlış negatif riskleri oluşmaktadır. Uygulamanıza bağlı olarak, boş hipotezi yanlışlıkla reddetme riskinizi %20 ile %0,001 arasında kabul edebilirsiniz. Eğer uygulamanız çok spesifik bir uygulama değilse veya her iki hata da aynı derecede kötü ise bir istatistiksel kural olarak α =%5 uygulanması gerekir.

p-hackleme Nedir?

p-değeri veya olasılık değeri, bir hipotez testinde, boş hipotezin yanlış reddedilme şansını ifade eder. Bu p-değeri ne kadar düşük bir değer ise, gözlem ve test sonuçları konusunda o kadar güvende olunduğundan daha fazla emin olabiliriz. α’nın genellikle %5 olmasından dolayı p-değerinin %5’in altındaki değerleri genellikle kabul edilebilirdir. p-hackleme ise istatistiki bir analizdeki p-değerinin, istatistiksel olarak anlamlı sonuçlar alınıncaya kadar aynı veriler ile çoklu testler yapmayı ifade etmektedir. Daha sonra da bu sonuçları matematiksel olarak geçerli bir sonuç olarak yayınlamayı veya sunmayı ifade eder.

p-hackleme Anlaşılabilir Midir?

Bir çalışma grubunda ya da bütün bir literatürde p-değerinin uygun olmayan bir şekilde değiştirilmesi yani “p-hack” tespit etmenin çeşitli yöntemleri vardır. Bu yöntemler, yayınlanmış p-değerlerinin dağılımına veya p-eğrisine bakmaya dayanmaktadır. Eğer gerçekten önemli bir istatistiksel anlam etkisi varsa, p-değerlerin 0 civarında kümelenmesi gerekmektedir.

Etkisi olmayan sıfır hipotezi durumunda, p-değerlerinin 0 ile 1 arasında homojen olarak dağıldığını görürüz, bu nedenle 0 ile 0,05 arasında homojen dağılım gösteren p-değerleri, tesadüfi bulunan değerlerin aslında seçilmiş değerler ile yayınlandığını gösterir. Son olarak, p-değerlerinin 0,05’in altında toplanması ve çoğunluk p-değerinin bu düşük seviyede olması güçlü bir p-hack işaretidir.

Aslında bu metotlar gayet güçlüdür ve anlamlı sonuçlar elde etmeye yarar. Bununla birlikte, bazı durumlarda spesifik sonuçları seçmek ve p-hack ile 0,05 civarında değil, 0 civarında kümelenmiş p-değerleri üretebilir ve bu nedenle de yapılan etik olmayan durum tespit edilemeyebilir. Bu gibi bir durumun geliştiği üç örnek aşağıda verilmiştir.

  1. Overhacking (yani fazlaca p-hack yapma durumu). Bu durumda, araştırmacılar elde ettikleri istatistiksel anlamlı sonuçlar ile yetinmez. Sonuçlarının daha çekici ve daha anlamlı görünmesini sağlamak için p-değerlerini mümkün olduğunca düşük tutmaya çalışırlar. Çünkü, p-hack yaptıkça araştırmacılar buldukları sonuçlardan tatmin olmaz ve sonuçlarına daha şüpheci yaklaşmaya başlar. Sonuçta da önemli kabul edilen düşük p-değerleri eşiğini daha da aşağılara kaydırabilir.
  2. Yanlı seçimler yapmak. Eğer önümüze seçenek verilirse, biz araştırmacılar en düşük p-değerini tercih etme eğiliminde oluruz. Mesela, bir çalışmanın sonucunda p-değerlerini 0,04 ve 0,07 bulmuş olalım. Böyle bir durumda, yayın yaparken yalnızca 0,04 değerini bildirmek isteriz. Ancak bu iki seçeneğin yanına bir üçüncüsü eklendiğinde; mesela p-değerlerinin 0,01, 0,04 ve 0,07 olduğu durumda, yayında sadece 0,01 değerini bildirmek isteriz. Başka bir deyişle yapılan “p-değeri 0,05’in altındaysa tüm p-değerlerini yayınla” değil, “p-değerleri 0.05’in altındaysa mümkün olan en düşük p-değerini yayınla” anlamına gelir.
  3. Seçici hata ayıklama. Araştırmacılar bazen uygun olmayan istatistiksel testler kullanabiliyor ya da bazı yazım veya veri kodlama hataları olabiliyor. Böyle durumlarda, araştırmacılar anlamlı olmayan p-değerleri yaratan programsal hataları tespit etmede ve düzeltmede daha etkili olabiliyor. Bir denemede eğer beklenen sonuçlar elde edilememişse, ben kendi analiz prosedürlerime bakarım. Eğer bir hata tespit edersem, onu düzeltirim ve analizi tekrar çalıştırırım. Anlamlı bir sonuç aldığımda ise daha fazla hata aramayı bırakırım. İşte bunun anlamı, seçimimi yanlış pozitifler üreten hatalardan yana yapmış olmamdır. Böyle bir seçici hata ayıklama da aslında bir tür p-hacktir. Ayrıca, bu durum homojen dağılımda p-değerleri ürettiği anlamına gelmemelidir. Bazı hatalar düzeltilirken de 0 civarında kümelenmiş p-değerleri üretir (yani anlamlı p-değerleri), çünkü gerçekten sıfır hipotezinden sapma oluşmuş olabilir. Bu anlamlı p-değerleri verilerin doğruluğundan ve iyi olmasından değil, aslında bir hatadan dolayı meydana gelmiştir.

Yapılan bir çalışmada, p-hack’in bilimsel literatürde yaygın olduğu görülebilir. Veri madenciliği yaklaşımı ile yapılan bu çalışma, farklı disiplinlerden ve sorulardan gelen p-değerlerinden oluşturulmuş ve çok büyük bir veri setini ele almıştır. p-hackleme teorik bir problem değildir. Bununla alakalı bir başka örnek olarak beslenme üzerine yapılmıştır. Buna göre, çikolata yiyerek zayıflamak istatistiksel olarak anlamlı bulunmuştur.

p-hackleme olmaması için, araştırmanızı spesifik sorulara cevap verebilecek şekilde tasarlayın, böylece okuyanların sonuçlarınıza güvenebilmesini sağlar. Yeterli örnek sayısını çalışmaya dahil edin ve uygun analiz standartlarını uygulayın. Mümkün olduğunca yanlı olmayan (kör) veri analizi uygulayın. İstatistiksel anlamdan ziyade araştırma metotlarının, örneklerin ve verilerin kalitesine odaklanın.

Leave a Reply

avatar
  Subscribe  
Notify of