. Gecemiz.az

P Deyeri - Wikipedia - Gecemiz.az

Ana Səhifə - P Deyeri

p-dəyəri (ing. p-value və ya probability value) — statistik hipotez testində əldə edilən müşahidə nəticələrinin, sıfır hipotez doğru olduğu halda, nə qədər “nadir” və ya “gözlənilməz” olduğunu ölçən ehtimal göstəricisidir.[1] p-dəyəri sıfır hipotezin etibarlılığını yoxlamaq və statistik əhəmiyyətlilik dərəcəsini müəyyənləşdirmək üçün geniş istifadə olunur.[2][3]

p-dəyəri elmdə faydalı göstəricilərdən biri olsa da, onun mütləq və tək qərar meyarı kimi qəbul edilməsi düzgün deyil. Elmi nəticələrin düzgün qiymətləndirilməsi üçün p-dəyəri digər statistik göstəricilərlə birlikdə kontekstə uyğun analiz edilməlidir.[4][5]

Mündəricat

  • 1 Tarixi
  • 2 Tərifi
  • 3 İstifadəsi
  • 4 Məhdudiyyətlər
  • 5 Tənqidi və metaelmdə rolu
  • 6 Alternativ yanaşmalar
  • 7 Həmçinin bax
  • 8 İstinadlar
  • 9 Ədəbiyyat
  • 10 Xarici keçidlər

Tarixi

redaktə
 
Con Arbetnot
 
Pyer Simon Laplas
 
Karl Pirson
 
Ronald Fişer

p-dəyərinin anlayışı statistikada XX əsrin əvvəllərində formalaşmağa başlamışdır. Onun kökləri İngiltərəli statistik Ronald A. Fişerin 1920-ci illərdə apardığı tədqiqatlara gedib çıxır. Fişer 1925-ci ildə nəşr etdiyi məşhur Statistical Methods for Research Workers (Tədqiqatçılar üçün Statistik Metodlar) adlı əsərində p-dəyərinin ilkin versiyasını təqdim edərək, onu elmi hipotezlərin qiymətləndirilməsində praktiki vasitə kimi təklif etmişdir. Fişer p-dəyərini təcrübi nəticələrin sıfır hipotezlə uyğunluğunu test etmək üçün ehtimal ölçüsü kimi təqdim etmiş və 0.05 sərhədini (yəni 5% ehtimalı) “statistik əhəmiyyətlilik” üçün konvensional meyar kimi irəli sürmüşdür.[6]

Daha sonra 1930-cu illərdə Yeji Neyman və Eqon Pirson p-dəyəri anlayışını inkişaf etdirərək onu formal hipotez testləri çərçivəsində yenidən izah etdilər. Onlar səhv növləri (Tip I və Tip II) ilə bağlı nəzəriyyəni quraraq p-dəyərini qərarvermə mexanizminin bir hissəsinə çevirdilər. Neyman–Pirson yanaşması qərar əsaslı statistik testlərin əsasını qoydu və p-dəyəri bu çərçivədə sıfır hipotezin rədd edilib-edilməməsinə dair qərarın bir komponentinə çevrildi.[7][8][9][10]

Zamanla p-dəyəri statistik analizlərin ayrılmaz hissəsinə çevrildi və xüsusilə təbabət, psixologiya, sosiologiya və iqtisadiyyat kimi empirik fənlərdə geniş yayılmağa başladı. XX əsrin ikinci yarısında praktiki tədqiqatlarda p < 0.05 dəyəri “əlamətdar nəticə” kimi standart normaya çevrildi. Lakin bu dövrdə p-dəyərinin geniş istifadəsi ilə yanaşı, onun yanlış təfsiri və sui-istifadəsi də artmağa başladı.[11]

XXI əsrin əvvəllərində, xüsusilə metaelm və təkrarlanma böhranı çərçivəsində aparılan araşdırmalar p-dəyərinin qeyri-düzgün istifadəsinə qarşı ciddi tənqidlərə səbəb oldu. Beləliklə, p-dəyəri statistik analiz tarixində əvvəlcə səmərəli bir alət kimi təqdim olunsa da, zamanla onun rolu və interpretasiyası daha mürəkkəb və mübahisəli hala gəlmişdir. Müasir statistikada p-dəyəri hələ də geniş istifadə olunur, lakin artıq tək qərar kriteriyası deyil, digər göstəricilər və kontekstlə birlikdə şərh olunması tövsiyə olunur.[12]

Tərifi

redaktə

Rəsmi olaraq, p-dəyəri — sıfır hipotezin (H₀) doğru olduğu fərziyyəsi altında müşahidə edilən və ya daha ekstremal nəticələrin əldə edilmə ehtimalıdır. p-dəyəri nə qədər kiçik olarsa, əldə edilən nəticə sıfır hipotez ilə bir o qədər az uyğunlaşır. Əgər p-dəyəri müəyyən edilmiş əhəmiyyətlilik səviyyəsindən (məsələn, α = 0.05) kiçikdirsə, sıfır hipotez rədd olunur və nəticə “statistik əhəmiyyətli” hesab edilir.[13]

İstifadəsi

redaktə

P-dəyəri elmi tədqiqatlarda statistik testlərin nəticələrini şərh etmək üçün əsas alətlərdən biridir.[14] O, fərqli qruplar arasında fərqin olub-olmadığını müəyyən etmək və bu fərqin təsadüfi olub-olmadığını qiymətləndirmək üçün istifadə olunur. Reqresiya analizləri, t-testlər, ANOVA və digər statistik metodlarda p-dəyəri nəticənin sıfır hipotezlə uyğunluğunu göstərmək məqsədilə tətbiq edilir. Məsələn, bir dərmanın effektivliyini test edən tədqiqatda p < 0.05 olduğu halda, bu, sıfır hipotezin rədd edilməsi və dərmanın “əlamətdar dərəcədə təsirli” olduğu nəticəsinə gəlmək üçün əsas kimi qəbul edilir.[15]

Məhdudiyyətlər

redaktə

Bununla belə, p-dəyərinin istifadəsi çox zaman yanlış anlaşılır və elmi nəticələrin şişirdilməsinə gətirib çıxarır.[16] Bəzi yayılmış yanlış fikirlərdən biri, p-dəyərinin sıfır hipotezin doğru olma ehtimalını göstərməsi ilə bağlıdır. Halbuki, p-dəyəri sadəcə sıfır hipotezin doğru olduğu fərziyyəsi altında mövcud və ya daha ekstremal nəticələrin əldə edilmə ehtimalıdır.[17] Bundan əlavə, p-dəyəri nəticələrin “böyüklüyünü” və ya “praktiki əhəmiyyətini” ifadə etmir.[18][19] Kiçik p-dəyəri olsa belə, bu, hər zaman nəticənin mühüm və ya klinik baxımdan təsirli olduğu mənasına gəlmir. Digər bir problem isə böyük nümunə ölçülərində, əhəmiyyətsiz fərqlərin belə statistik əhəmiyyətli kimi görünə bilməsidir.[20]

Tənqidi və metaelmdə rolu

redaktə

Son illərdə p-dəyərinə həddən artıq güvənilmə elmi ictimaiyyətdə geniş tənqidlərə səbəb olmuşdur. Xüsusilə metaelm və elmi metod sahəsində aparılan tədqiqatlar göstərmişdir ki, p-dəyərinə əsaslanan nəticələr çox vaxt təkrarlana bilmir və bu, “təkrarlanma böhranı”nın əsas səbəblərindən biridir.[21][22] 2016-cı ildə American Statistical Association (ASA) p-dəyərlərin istifadəsinə dair rəsmi bəyanat verərək onun yanlış interpretasiyalarının qarşısını almağa çalışmışdır. Həmin bəyanatda p-dəyərinin nəyi göstərdiyi və göstərmədiyi aydın şəkildə izah olunmuş və tədqiqatçılara nəticələri yalnız bu göstəriciyə əsasən qiymətləndirməmək tövsiyə olunmuşdur.[23]

Alternativ yanaşmalar

redaktə

Alternativ yanaşmalar kimi “effekt ölçüləri” (ing. effect size), “etibarlılıq intervalları” (ing. confidence intervals), “Bayes ehtimal yanaşmaları” və “sübut miqdarları” (ing. evidence ratios) irəli sürülmüşdür.[24] Bəzi hallarda qərəz düzəlişi ilə hesablanan p-dəyərlər və ya çoxsaylı hipotezlərin test edildiyi tədqiqatlarda korrektiv yanaşmalar da tətbiq olunur. Bu metodlar tədqiqat nəticələrinin daha dəqiq və kontekstual şəkildə şərh edilməsinə, elmi qərarların daha etibarlı əsaslara söykənməsinə imkan verir.[25][26]

Həmçinin bax

redaktə
  • Statistik əhəmiyyətlilik
  • Statistik hipotez testi
  • Metaelm
  • P-hacking
  • Etibarlılıq və validlik

İstinadlar

redaktə
  1. ↑ "ASA House Style" (PDF). Amstat News. American Statistical Association.
  2. ↑ Aschwanden C. "Not Even Scientists Can Easily Explain P-values". FiveThirtyEight. 2015-11-24. 25 September 2019 tarixində arxivləşdirilib. İstifadə tarixi: 11 October 2019.
  3. ↑ Wasserstein RL, Lazar NA. "The ASA's Statement on p-Values: Context, Process, and Purpose". The American Statistician. 70 (2). 7 March 2016: 129–133. doi:10.1080/00031305.2016.1154108.
  4. ↑ Hubbard R, Lindsay RM. "Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing". Theory & Psychology. 18 (1). 2008: 69–88. doi:10.1177/0959354307086923.
  5. ↑ Munafò MR, Nosek BA, Bishop DV, Button KS, Chambers CD, du Sert NP, və b. "A manifesto for reproducible science". Nature Human Behaviour. 1 (1). January 2017: 0021. doi:10.1038/s41562-016-0021. PMC 7610724 (#bad_pmc). PMID 33954258 (#bad_pmid).
  6. ↑ Brian E, Jaisson M. Physico-Theology and Mathematics (1710–1794) // The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007. 1–25. ISBN 978-1-4020-6036-6.
  7. ↑ Arbuthnot J. "An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes" (PDF). Philosophical Transactions of the Royal Society of London. 27 (325–336). 1710: 186–190. doi:10.1098/rstl.1710.0011.
  8. ↑ Conover WJ. Chapter 3.4: The Sign Test // Practical Nonparametric Statistics (Third). Wiley. 1999. 157–176. ISBN 978-0-471-16068-7.
  9. ↑ Sprent P. Applied Nonparametric Statistical Methods (Second). Chapman & Hall. 1989. ISBN 978-0-412-44980-2.
  10. ↑ Stigler SM. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986. 225–226. ISBN 978-0-67440341-3.
  11. ↑ Bellhouse P. John Arbuthnot // Heyde CC, Seneta E (redaktorlar ). Statisticians of the Centuries. Springer. 2001. 39–42. ISBN 978-0-387-95329-8.
  12. ↑ Hald A. Chapter 4. Chance or Design: Tests of Significance // A History of Mathematical Statistics from 1750 to 1930. Wiley. 1998. 65.
  13. ↑ Wasserstein, Ronald L.; Lazar, Nicole A. "The ASA Statement on p -Values: Context, Process, and Purpose". The American Statistician (ingilis). 70 (2). 2016-04-02: 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.
  14. ↑ Benjamini, Yoav; De Veaux, Richard D.; Efron, Bradley; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li; Reid, Nancy M.; Stigler, Stephen M.; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen. "ASA President's Task Force Statement on Statistical Significance and Replicability". Chance. Informa UK Limited. 34 (4). 2021-10-02: 10–11. doi:10.1080/09332480.2021.2003631. ISSN 0933-2480.
  15. ↑ Neyman, Jerzy. The Emergence of Mathematical Statistics: A Historical Sketch with Particular Reference to the United States // Owen, D.B. (redaktor). On the History of Statistics and Probability. Textbooks and Monographs. New York: Marcel Dekker Inc. 1976. səh. 161.
  16. ↑ Fisher, R. A., Kotz, Samuel; Johnson, Norman L. (redaktorlar ), "Statistical Methods for Research Workers", Breakthroughs in Statistics: Methodology and Distribution, Springer Series in Statistics (ingilis), New York, NY: Springer, 1992, 66–70, doi:10.1007/978-1-4612-4380-9_6, ISBN 978-1-4612-4380-9, İstifadə tarixi: 2024-07-07
  17. ↑ Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. "The extent and consequences of p-hacking in science". PLOS Biology. 13 (3). March 2015: e1002106. doi:10.1371/journal.pbio.1002106. PMC 4359000. PMID 25768323.
  18. ↑ Perneger TV. "Sifting the evidence. Likelihood ratios are alternatives to P values". BMJ. 322 (7295). May 2001: 1184–1185. doi:10.1136/bmj.322.7295.1184. PMC 1120301. PMID 11379590.
  19. ↑ Royall R. The Likelihood Paradigm for Statistical Evidence // The Nature of Scientific Evidence (ingilis). 2004. 119–152. doi:10.7208/chicago/9780226789583.003.0005. ISBN 9780226789576.
  20. ↑ Simonsohn U, Nelson LD, Simmons JP. "p-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results". Perspectives on Psychological Science. 9 (6). November 2014: 666–681. doi:10.1177/1745691614553988. PMID 26186117.
  21. ↑ Bhattacharya B, Habtzghi D. "Median of the p value under the alternative hypothesis". The American Statistician. 56 (3). 2002: 202–6. doi:10.1198/000313002146.
  22. ↑ Hung HM, O'Neill RT, Bauer P, Köhne K. "The behavior of the P-value when the alternative hypothesis is true". Biometrics (Submitted manuscript). 53 (1). March 1997: 11–22. doi:10.2307/2533093. JSTOR 2533093. PMID 9147587.
  23. ↑ Nuzzo R. "Scientific method: statistical errors". Nature. 506 (7487). February 2014: 150–152. Bibcode:2014Natur.506..150N. doi:10.1038/506150a. hdl:11573/685222. PMID 24522584.
  24. ↑ Colquhoun D. "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1 (3). November 2014: 140216. arXiv:1407.5296. Bibcode:2014RSOS....140216C. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558.
  25. ↑ Lee DK. "Alternatives to P value: confidence interval and effect size". Korean Journal of Anesthesiology. 69 (6). December 2016: 555–562. doi:10.4097/kjae.2016.69.6.555. PMC 5133225. PMID 27924194.
  26. ↑ Ranstam J. "Why the P-value culture is bad and confidence intervals a better alternative". Osteoarthritis and Cartilage. 20 (8). August 2012: 805–808. doi:10.1016/j.joca.2012.04.001. PMID 22503814.

Ədəbiyyat

redaktə
  • Denworth L. "A Significant Problem: Standard scientific methods are under fire. Will anything change?". Scientific American. 321 (4). October 2019: 62–67 (63). The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results.
  • Elderton WP. "Tables for Testing the Goodness of Fit of Theory to Observation". Biometrika. 1 (2). 1902: 155–163. doi:10.1093/biomet/1.2.155.
  • Pearson, Karl. "On the probability that two independent distributions of frequency are really samples of the same population, with special reference to recent work on the identity of Trypanosome strains". Biometrika. 10. 1914: 85–154. doi:10.1093/biomet/10.1.85.
  • Fisher RA. Statistical Methods for Research Workers. Edinburgh, Scotland: Oliver & Boyd. 1925. ISBN 978-0-05-002170-5.
  • Fisher RA. The Design of Experiments (9th). Macmillan. 1971 [1935]. ISBN 978-0-02-844690-5.
  • Fisher RA, Yates F. Statistical tables for biological, agricultural and medical research. London, England. 1938.
  • Stigler SM. The history of statistics : the measurement of uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. 1986. ISBN 978-0-674-40340-6.
  • Hubbard R, Armstrong JS. "Why We Don't Really Know What Statistical Significance Means: Implications for Educators" (PDF). Journal of Marketing Education. 28 (2). 2006: 114–120. doi:10.1177/0273475306288399. hdl:2092/413. May 18, 2006 tarixində arxivləşdirilib (PDF).
  • Hubbard R, Lindsay RM. "Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing" (PDF). Theory & Psychology. 18 (1). 2008: 69–88. doi:10.1177/0959354307086923. 2016-10-21 tarixində orijinalından (PDF) arxivləşdirilib. İstifadə tarixi: 2015-08-28.
  • Stigler S. "Fisher and the 5% level". Chance. 21 (4). December 2008: 12. doi:10.1007/s00144-008-0033-3.
  • Dallal GE. The Little Handbook of Statistical Practice. 2012.
  • Biau DJ, Jolles BM, Porcher R. "P value and the theory of hypothesis testing: an explanation for new researchers". Clinical Orthopaedics and Related Research. 468 (3). March 2010: 885–892. doi:10.1007/s11999-009-1164-4. PMC 2816758. PMID 19921345.
  • Reinhart A. Statistics Done Wrong: The Woefully Complete Guide. No Starch Press. 2015. səh. 176. ISBN 978-1593276201.
  • Benjamini, Yoav; De Veaux, Richard D.; Efron, Bradley; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li; Reid, Nancy; Stigler, Stephen M.; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen. "The ASA President's Task Force Statement on Statistical Significance and Replicability". Annals of Applied Statistics. 15 (3). 2021: 1084–1085. doi:10.1214/21-AOAS1501.
  • Benjamin, Daniel J.; Berger, James O.; Johannesson, Magnus; Nosek, Brian A.; Wagenmakers, E.-J.; Berk, Richard; Bollen, Kenneth A.; Brembs, Björn; Brown, Lawrence; Camerer, Colin; Cesarini, David; Chambers, Christopher D.; Clyde, Merlise; Cook, Thomas D.; De Boeck, Paul; Dienes, Zoltan; Dreber, Anna; Easwaran, Kenny; Efferson, Charles; Fehr, Ernst; Fidler, Fiona; Field, Andy P.; Forster, Malcolm; George, Edward I.; Gonzalez, Richard; Goodman, Steven; Green, Edwin; Green, Donald P.; Greenwald, Anthony G.; Hadfield, Jarrod D.; Hedges, Larry V.; Held, Leonhard; Hua Ho, Teck; Hoijtink, Herbert; Hruschka, Daniel J.; Imai, Kosuke; Imbens, Guido; Ioannidis, John P. A.; Jeon, Minjeong; Jones, James Holland; Kirchler, Michael; Laibson, David; List, John; Little, Roderick; Lupia, Arthur; Machery, Edouard; Maxwell, Scott E.; McCarthy, Michael; Moore, Don A.; Morgan, Stephen L.; Munafó, Marcus; Nakagawa, Shinichi; Nyhan, Brendan; Parker, Timothy H.; Pericchi, Luis; Perugini, Marco; Rouder, Jeff; Rousseau, Judith; Savalei, Victoria; Schönbrodt, Felix D.; Sellke, Thomas; Sinclair, Betsy; Tingley, Dustin; Van Zandt, Trisha; Vazire, Simine; Watts, Duncan J.; Winship, Christopher; Wolpert, Robert L.; Xie, Yu; Young, Cristobal; Zinman, Jonathan; Johnson, Valen E. "Redefine statistical significance". Nature Human Behaviour. 2 (1). 1 September 2017: 6–10. doi:10.1038/s41562-017-0189-z. eISSN 2397-3374. hdl:10281/184094. PMID 30980045.

Xarici keçidlər

redaktə
  Vikianbarda P-dəyəri ilə əlaqəli mediafayllar var.
  • Free online p-values calculators for various specific tests (chi-square, Fisher's F-test, etc.).
  • Understanding p-values, including a Java applet that illustrates how the numerical values of p-values can give quite misleading impressions about the truth or falsity of the hypothesis under test.
  • StatQuest: P Values, clearly explained — YouTube platformasında
  • StatQuest: P-value pitfalls and power calculations — YouTube platformasında
  • Science Isn’t Broken - Article on how p-values can be manipulated and an interactive tool to visualize it.
Mənbə — "https://az.wikipedia.org/wiki/?q=P-dəyəri&oldid=8220857"
GECEMIZ.AZ