p-dəyəri (ing. p-value və ya probability value) — statistik hipotez testində əldə edilən müşahidə nəticələrinin, sıfır hipotez doğru olduğu halda, nə qədər “nadir” və ya “gözlənilməz” olduğunu ölçən ehtimal göstəricisidir.[1] p-dəyəri sıfır hipotezin etibarlılığını yoxlamaq və statistik əhəmiyyətlilik dərəcəsini müəyyənləşdirmək üçün geniş istifadə olunur.[2][3]
p-dəyəri elmdə faydalı göstəricilərdən biri olsa da, onun mütləq və tək qərar meyarı kimi qəbul edilməsi düzgün deyil. Elmi nəticələrin düzgün qiymətləndirilməsi üçün p-dəyəri digər statistik göstəricilərlə birlikdə kontekstə uyğun analiz edilməlidir.[4][5]
p-dəyərinin anlayışı statistikada XX əsrin əvvəllərində formalaşmağa başlamışdır. Onun kökləri İngiltərəli statistik Ronald A. Fişerin 1920-ci illərdə apardığı tədqiqatlara gedib çıxır. Fişer 1925-ci ildə nəşr etdiyi məşhur Statistical Methods for Research Workers (Tədqiqatçılar üçün Statistik Metodlar) adlı əsərində p-dəyərinin ilkin versiyasını təqdim edərək, onu elmi hipotezlərin qiymətləndirilməsində praktiki vasitə kimi təklif etmişdir. Fişer p-dəyərini təcrübi nəticələrin sıfır hipotezlə uyğunluğunu test etmək üçün ehtimal ölçüsü kimi təqdim etmiş və 0.05 sərhədini (yəni 5% ehtimalı) “statistik əhəmiyyətlilik” üçün konvensional meyar kimi irəli sürmüşdür.[6]
Daha sonra 1930-cu illərdə Yeji Neyman və Eqon Pirson p-dəyəri anlayışını inkişaf etdirərək onu formal hipotez testləri çərçivəsində yenidən izah etdilər. Onlar səhv növləri (Tip I və Tip II) ilə bağlı nəzəriyyəni quraraq p-dəyərini qərarvermə mexanizminin bir hissəsinə çevirdilər. Neyman–Pirson yanaşması qərar əsaslı statistik testlərin əsasını qoydu və p-dəyəri bu çərçivədə sıfır hipotezin rədd edilib-edilməməsinə dair qərarın bir komponentinə çevrildi.[7][8][9][10]
Zamanla p-dəyəri statistik analizlərin ayrılmaz hissəsinə çevrildi və xüsusilə təbabət, psixologiya, sosiologiya və iqtisadiyyat kimi empirik fənlərdə geniş yayılmağa başladı. XX əsrin ikinci yarısında praktiki tədqiqatlarda p < 0.05 dəyəri “əlamətdar nəticə” kimi standart normaya çevrildi. Lakin bu dövrdə p-dəyərinin geniş istifadəsi ilə yanaşı, onun yanlış təfsiri və sui-istifadəsi də artmağa başladı.[11]
XXI əsrin əvvəllərində, xüsusilə metaelm və təkrarlanma böhranı çərçivəsində aparılan araşdırmalar p-dəyərinin qeyri-düzgün istifadəsinə qarşı ciddi tənqidlərə səbəb oldu. Beləliklə, p-dəyəri statistik analiz tarixində əvvəlcə səmərəli bir alət kimi təqdim olunsa da, zamanla onun rolu və interpretasiyası daha mürəkkəb və mübahisəli hala gəlmişdir. Müasir statistikada p-dəyəri hələ də geniş istifadə olunur, lakin artıq tək qərar kriteriyası deyil, digər göstəricilər və kontekstlə birlikdə şərh olunması tövsiyə olunur.[12]
Rəsmi olaraq, p-dəyəri — sıfır hipotezin (H₀) doğru olduğu fərziyyəsi altında müşahidə edilən və ya daha ekstremal nəticələrin əldə edilmə ehtimalıdır. p-dəyəri nə qədər kiçik olarsa, əldə edilən nəticə sıfır hipotez ilə bir o qədər az uyğunlaşır. Əgər p-dəyəri müəyyən edilmiş əhəmiyyətlilik səviyyəsindən (məsələn, α = 0.05) kiçikdirsə, sıfır hipotez rədd olunur və nəticə “statistik əhəmiyyətli” hesab edilir.[13]
P-dəyəri elmi tədqiqatlarda statistik testlərin nəticələrini şərh etmək üçün əsas alətlərdən biridir.[14] O, fərqli qruplar arasında fərqin olub-olmadığını müəyyən etmək və bu fərqin təsadüfi olub-olmadığını qiymətləndirmək üçün istifadə olunur. Reqresiya analizləri, t-testlər, ANOVA və digər statistik metodlarda p-dəyəri nəticənin sıfır hipotezlə uyğunluğunu göstərmək məqsədilə tətbiq edilir. Məsələn, bir dərmanın effektivliyini test edən tədqiqatda p < 0.05 olduğu halda, bu, sıfır hipotezin rədd edilməsi və dərmanın “əlamətdar dərəcədə təsirli” olduğu nəticəsinə gəlmək üçün əsas kimi qəbul edilir.[15]
Bununla belə, p-dəyərinin istifadəsi çox zaman yanlış anlaşılır və elmi nəticələrin şişirdilməsinə gətirib çıxarır.[16] Bəzi yayılmış yanlış fikirlərdən biri, p-dəyərinin sıfır hipotezin doğru olma ehtimalını göstərməsi ilə bağlıdır. Halbuki, p-dəyəri sadəcə sıfır hipotezin doğru olduğu fərziyyəsi altında mövcud və ya daha ekstremal nəticələrin əldə edilmə ehtimalıdır.[17] Bundan əlavə, p-dəyəri nəticələrin “böyüklüyünü” və ya “praktiki əhəmiyyətini” ifadə etmir.[18][19] Kiçik p-dəyəri olsa belə, bu, hər zaman nəticənin mühüm və ya klinik baxımdan təsirli olduğu mənasına gəlmir. Digər bir problem isə böyük nümunə ölçülərində, əhəmiyyətsiz fərqlərin belə statistik əhəmiyyətli kimi görünə bilməsidir.[20]
Son illərdə p-dəyərinə həddən artıq güvənilmə elmi ictimaiyyətdə geniş tənqidlərə səbəb olmuşdur. Xüsusilə metaelm və elmi metod sahəsində aparılan tədqiqatlar göstərmişdir ki, p-dəyərinə əsaslanan nəticələr çox vaxt təkrarlana bilmir və bu, “təkrarlanma böhranı”nın əsas səbəblərindən biridir.[21][22] 2016-cı ildə American Statistical Association (ASA) p-dəyərlərin istifadəsinə dair rəsmi bəyanat verərək onun yanlış interpretasiyalarının qarşısını almağa çalışmışdır. Həmin bəyanatda p-dəyərinin nəyi göstərdiyi və göstərmədiyi aydın şəkildə izah olunmuş və tədqiqatçılara nəticələri yalnız bu göstəriciyə əsasən qiymətləndirməmək tövsiyə olunmuşdur.[23]
Alternativ yanaşmalar kimi “effekt ölçüləri” (ing. effect size), “etibarlılıq intervalları” (ing. confidence intervals), “Bayes ehtimal yanaşmaları” və “sübut miqdarları” (ing. evidence ratios) irəli sürülmüşdür.[24] Bəzi hallarda qərəz düzəlişi ilə hesablanan p-dəyərlər və ya çoxsaylı hipotezlərin test edildiyi tədqiqatlarda korrektiv yanaşmalar da tətbiq olunur. Bu metodlar tədqiqat nəticələrinin daha dəqiq və kontekstual şəkildə şərh edilməsinə, elmi qərarların daha etibarlı əsaslara söykənməsinə imkan verir.[25][26]
The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results.
Vikianbarda P-dəyəri ilə əlaqəli mediafayllar var. |