p, n y mi moneda de la suerte

Tengo una moneda de la suerte. Es una moneda de cinco duros, del mundial 82. No es tanto de la suerte (en esta bitácora somos gente seria, carajo) como —tengo razones para sospechar— una moneda sesgada.

De hecho, el otro día hice un experimento: la tiré al aire 20 veces y obtuve 14 caras. De acuerdo con R,

1 - pbinom( 14, 20, 0.5 )
[1] 0.02069473

puedo rechazar la hipótesis de que es una moneda cabal con un nivel de confianza (p-valor) de 0.021.

Pero mi gato dijo que 20 era poco y, como es gato y tiene más tiempo libre que yo, repitió el experimento lanzándola al aire 2000 veces. Y obtuvo 1045 caras. Como

> 1 - pbinom( 1045, 2000, 0.5 )
[1] 0.020921

también rechazó la hipótesis de equiprobabilidad con prácticamente el mismo nivel de confianza, 0.021.

Lo cual dio lugar a una discusión la mar de interesante y que no sé cómo zanjar. Porque el muy ladino de mi gato me vino con que si había leído que

[A] given p-value in a large trial is usually a stronger evidence that the treatments really differ than the same p-value in a small trial of the same treatments would be

en un artículo de Peto et al. (Design and analysis of randomized clinical trials requiring prolonged observation of each patient, 1976). Sin embargo, mi vecina del segundo comenta que cuando era moza y festejaba, leyó en alguna parte que

It is not true . . . that valid conclusions cannot be drawn from small samples; if accurate methods are used in calculating the probability [the p value], we thereby make full allowance for the size of the sample, and should be influenced in our judgement only by the value of probability indicated

Creo que se refería a la página 182 de Statistical methods for research workers, de Ronald Fisher. Y por si fuera poco, el chino que regenta el que fuera el Mesón Cascorro en mi barrio, me viene con que si un tal Bakan dejó escrito en 1966 en un artículo que se llama Test of significance in psychological research que cuando los p-valores son iguales, los estudios con menor número de sujetos aportan más evidencia contra la hipótesis nula.

Señores lectores de esta bitácora: estoy hecho un lío. ¿A quién damos la razón: a mi gato, a la vecina del segundo o al chino del ex Mesón Cascorro?

5 comentarios sobre “p, n y mi moneda de la suerte

  1. Pedro Valle 20 diciembre, 2011 15:55

    Hola, simplemente comentar que al ser un contraste bilateral el p-valor es el doble de la cola correspondiente, imagino que el contraste se hace al 5% de significación.

    De cualquier forma para pbinom( 1045, 2000, 0.5 ) = 0.2, el p-valor es 0.4.

  2. Pedro Valle 20 diciembre, 2011 16:06

    La vecina del segundo dice que en un contraste de hipótesis, fijado un nivel de significación dado al aumentar el tamaño muestrar disminuye el error de tipo 2,

    El Chino dice que cuando se rechaza la hipótesis nula en muestras muy pequeñas, es decir un constraste significativo teóricamente la probabilidad de error de tipo I es el nivel de significación y no dependería del tamaño muestral, sin embargo en los constrastes no se conoce la varianza y esto fuerza a utilizar métodos no exactos para el contraste con lo que en la práctica, dependiendo del método que se utilice puede tener más fuerza el recharlo cuando la muestra es pequeña. Es extremadamente difícil rechazar algo cuando no se tiene información. Un saludo

  3. datanalytics 20 diciembre, 2011 16:06

    @Pedro Valle Bueno, sí, no está dicho pero podría interpretarse así; o al contrario, si, siendo como es una moneda de la suerte, tengo la sospecha de que salen (y es lo que quiero verificar) más caras de la cuenta.

    Como fuere, es lo de menos para el caso, creo.

  4. dcb 21 diciembre, 2011 12:20

    De hecho se ha podido lanzar esa moneda niles de millones de veces , dando un resultado similar.. ¿está sesgada la moneda de la naturaleza cuando el contraste que puedes hacer sobre el nacimiento de niños y niñas da un p que rechaza la hipótesis de p=0.5? ¿Factores externos? ¿no habría que cambiar ese p teórico entonces?

    En mi opinión , la estadística teórica y la «práctica» a veces están más separadas de lo que parece, normalmente por confusiones en nuestro entendimiento de ambas. Todo el mundo acepta que es equiprobable que vaya a tener un niño o una niña, aunque como hemos visto realmente no es así.

  5. Lorenzo 5 enero, 2012 21:05

    Lo que hace falta aquí es una medida del tamaño del efecto; el valor p de probabilidad asociada no lo es. El valor p lo único que proporciona es la probabilidad de obtener un resultado como el observado o más extremo bajo el supuesto de que la hipótesis nula (de equiprobabilidad en este caso) es correcta. Nada más.

    El problema es que, como señalas, el valor p depende también del tamaño muestral. Fíjate una cosa: en el primer ejemplo, obtuviste 14 caras de 20 tiradas, esto es, 4 caras por encima del valor esperado bajo la hipótesis nula. Es decir, que el valor de la media muestral de «caras» es un 40% mayor que el de la media poblacional teórica si la hipótesis nula fuera cierta. En el segundo ejemplo, tu gato obtuvo tan sólo 1045 caras sobre 2000, lo que implica que el efecto detectado es tan sólo un 4.5% mayor que el valor esperado bajo la hipótesis nula (1000 caras).

    Uno de los aspectos negativos del contraste de hipótesis es precisamente el que, a medida que aumentamos el tamaño de la muestra, se requiere un tamaño del efecto mucho más pequeño para resultar significativo. De la misma manera, con un tamaño muestral pequeño, es fácil que se llegue a una sobreestimación del verdadero tamaño del efecto.

    Hay mucha literatura por ahí sobre la importancia de estimar el tamaño del efecto a la hora de contrastar hipótesis. Por recomendar un artículo:

    Wilkinson, L., Task Force on Statistical Inference. (1999). Statistical Methods in Psychology Journals American Psychologist, 54(8), 594–604.

    Un saludo y enhorabuena por el excelente blog!

Los comentarios están desabilitados.