Datanalytics

Archivo

Archivo para la categoría ‘estadística’

El error en las encuestas: cuentas en una servilleta

Jueves, 16 de mayo de 2013 1 comentario

Bien escondidita en las encuestas que se publican, puede encontrarse a veces una ficha técnica. Y esta suele contener una frase de esta guisa: Partiendo de los criterios del muestreo aleatorio simple, para un nivel de confianza del 95 % (que es el habitualmente adoptado) y en la hipótesis más desfavorable de máxima indeterminación (p=q=0.5), el margen de error de los datos referidos al total de la muestra es de 3.2 puntos.

(Nota: la frase está extraída de aquí y hace referencia a una encuesta en la que no se usa el muestreo aleatorio simple y en cuyo original, el nivel de confianza habitualmente aceptado —errata, supongo— figura como del 99.5 % en lugar del 95 %; pero, total, tanto da: nadie lee y a nadie le importa la liturgia de la ficha técnica).

En fin, sigamos.

La cuestión es que el otro día una colega me preguntó lo siguiente: efectivamente, el margen de error en sus datos era, creo recordar, del 4 % bajo la consabida hipótesis conservadora de p=q=0.5. No obstante, su p estimada era de 0.14, muy lejos del 0.5 de la máxima indeterminación. Y su pregunta era: ¿cuál sería el margen razonable de error en ese caso?

El resto de los datos, a continuación:

N <- 546   # número de sujetos en la población
n <- 182   # número de sujetos muestreados

p <- 0.14  # proporción estimada de sujetos X

x <- ceiling(n * p)  # número obtenido de sujetos X en la muestra

Llamemos \theta a la variable (desconocida, aleatoria) que indica el número de individuos X en la población. Lo que hemos obtenido en la muestra es una visión indirecta de \theta, típicamente representada como

p | \theta.

Esta expresión muestra cómo la proporción (conocida, porque se mide sobre la muestra) de sujetos X depende de la variable de interés \theta. Y nos interesa conocer el rango de valores de \theta compatible con el valor observado, p.

Para ello usaremos el teorema de Bayes,

P(\theta | x) \propto P(x | \theta) P(\theta)

y dada nuestra ignorancia a priori sobre $P(\theta)$, bien podemos suponerla uniforme (esto es, independiente de \theta), con lo cual

P(\theta | x) \propto P(x | \theta).

Y ahora

n.reales <- 0:N
probs <- sapply(n.reales, function(y) dhyper(x, y, N-y, n, log = FALSE))
probs <- probs / sum(probs)

calcula probs, el vector de probabilidades correspondiente a la distribución a posteriori de \theta sobre 0:N, que tiene la siguiente pinta:

Haciendo

tmp <- n.reales[order(probs)]
tmp <- tmp[cumsum(sort(probs)) > 0.05 ]
range(tmp) / N * 100
# 10.43956 18.68132

llegamos a la conclusión de que (con nuestras hipótesis) tenemos garantizado al 95% que el valor verdadero de la proporción estará confinado en el intervalo [0.104, 0.187]: el margen de error es del 4%.

Y cambiando el valor de p, también que el margen de error en el caso de máxima indeterminación no bajaría (mucho) del 6 % (y no del 4 % que habían anunciado: fíate de las colegas, fíate).

La media, la mediana y el Bundesbank

Martes, 14 de mayo de 2013 1 comentario

El Banco Central Europeo publicó un estudio sobre la riqueza de los hogares europeos en abril de 2013. A partir de él, el Bundesbank publicó otro informe que subrayaba las diferencias en riqueza entre los hogares alemanes y, supongo que entre otros, los españoles.

El informe de BCE recogía la media y la mediana del patrimonio de los hogares por países (junto con otras variables adicionales, como la renta, el nivel de endeudamiento, etc.). Obviamente, las medias son superiores a las medianas en prácticamente todas esas variables. El Bundesbank, en su informe, omitía las medias y presentaba únicamente las medianas, magnitudes que contribuían a subrayar una presunta pobreza relativa de los hogares alemanes respecto a los españoles.

Los medios españoles se hicieron eco de la noticia y publicaron artículos como:

y otros que se pueden encontrar por ahí. Algunos de ellos —salvo el de El Mundo, que confunde los conceptos— discuten la relación entre media y mediana y la elección torticera del segundo estadístico por parte del Bundesbank.

Ya he hablado previamente sobre medias y medianas en estas páginas. Y alguna vez, imagino, habré dejado escrito que si me pusiesen una pistola en la sien y me obligasen a resumir una distribución (p.e., de riqueza de los hogares) en un único número, utilizaría la mediana.

Pero eso solo si me pusiesen una pistola en la sien. Si pudiera razonar con quien me hace el encargo, trataría de convencerlo para que mostrase gráficamente la distribución completa mediante un histograma o técnica similar. ¿Por qué restringirse a un único número cuando con poco más esfuerzo se pueden tener todos? Tenemos una obsesión enfermiza por las cifras redondas, por olvidar que la realidad danza aleatoriamente alrededor de esas estacas cognitivas —las que conforman el temario de esos cursos de estadística introductoria— que clavamos en nuestros cerebros para autosugestionarnos con que comprendemos los fenómenos.

No nos restrinjamos innecesariamente, mostremos las distribuciones completas y, entre otras cosas, nos ahorraremos discusiones bizantinas sobre cuántos ángeles pueden danzar sobre la punta de un alfiler.

Coda: Guillermo de la Dehesa ha publicado recientemente un artículo, ¿Son los hogares españoles más ricos que los alemanes?, que aunque se atora momentáneamente en la inane discusión sobre la media y la mediana, tiene a bien ahondar en otros aspectos de las estadísticas, como lo que miden y lo que no miden realmente y que explican bastante bien las causas de la aparente paradoja que ha motivado tanta ida y venida de artículos.

Más sobre la ley de Benford (III): la “mágica” propiedad de los logaritmos decimales

Viernes, 10 de mayo de 2013 Sin comentarios

Esta entrada tiene como prerrequisito las dos que la preceden: esta y esta.

Si x_1, \dots, x_n es una muestra de una distribución de probabilidad X regular y extendida, entonces \log_{10}x_1, \dots, \log_{10}x_n es una muestra de \log_{10}X, que es otra distribución de probabilidad

  • regular (porque el logaritmo es una función creciente) y
  • extendida (aunque hay que convenir que menos: el logaritmo achica los números grandes).

Por lo tanto, cabe esperar que también la parte decimal de \log_{10}x_1, \dots, \log_{10}x_n tenga una distribución uniforme sobre el intervalo [0,1). Luego cumple la Ley de Benford (véase la condición suficiente). Esto se debe a esa (¿contraintuitiva?) propiedad del logaritmo decimal: convertir el dígito más significativo de un número, el primero, en la parte menos significativa de su logaritmo, la que sigue a la coma.

Tres notas de rigor:

  • En lugar de \log_{10} podrían usarse otras funciones (el cuadrado, la raíz cuadrada, etc.) que también transforman distribuciones regulares y extendidas en otras que lo son igualmente. Pero se perdería la magia de la relación entre la parte fraccionaria con el primer dígito.
  • La parte fraccionaria de una distribución regular y extendida es aproximadamente uniforme. La uniformidad solo se garantiza en el límite (conforme la distribución se hace más y más extendida sobre la recta real). Es posible (cuestión que exploré aquí) que los primeros dígitos de muestras de determinadas distribuciones no sigan la Ley de Benford.
  • Queda ver cuáles son las razones (¿sicológicas?) que llevarían a los humanos a inventar secuencias de números que no obedecen una ley extendida y regular. En particular, que violan la regularidad.

En la última entrada de la serie abundaré esa tercera nota y hablaré de posibles extensiones que no son sino ocurrencias mías.

Más sobre la ley de Benford (II): la distribución de la parte fraccionaria

Viernes, 3 de mayo de 2013 Sin comentarios

Continuamos hoy nuestra serie sobre la llamada ley de Benford discutiendo la distribución de la parte fraccionaria de las muestras de una distribución.

La parte fraccionaria de un número es, para entendernos, lo que va detrás de la coma. Técnicamente, x - floor(x). ¿Le sorprendería a alguien la parte fraccionaria de una secuencia aleatoria de números no tenga una distribución uniforme sobre [0,1)?

Obviamente, si los números son enteros no. ¿Pero si siguen la distribución normal? Se puede probar, de hecho, que si la serie sigue una distribución de probabilidad que sea

  • regular, es decir, que no tenga picos extraños y, más en concreto, cuya función de densidad crezca hasta cierto punto y decrezca de él en adelante y
  • extendida, es decir, que cubra un rango amplio de valores (p.e., la recta real entera),

entonces la distribución de la parte fraccionaria de sus muestras serán aproximadamente uniformes. Y lo serán tanto más cuanto menor sea el máximo de la función de distribución. La referencia, el artículo Pourquoi la loi de Benford n’est pas mystérieuse de Nicolas Gauvrit y Jean-Paul Delahaye.

Esto se verifica fácilmente en ciertos casos. Por ejemplo,

x <- rnorm(100000)
x <- x - floor(x)

par(mfrow=c(1,2))
hist(x, col = "grey")
qqplot(x, runif(100000), main = "qqplot")

que produce

En la siguiente entrega analizaremos qué tiene que ver esto con la ley de Benford.

Categories: estadística, r Tags: , ,

Por qué no deberías compartir tu código: diez motivos

Martes, 30 de abril de 2013 1 comentario

Fresco aún en nuestro recuerdo el fiasco de Excel del que nos ocupamos hace unos días, los partidarios de la reproducibilidad, el software subversivo y gratuito, los detractores de las herramientas propietarias y otras estirpes han agudizado su campaña en pro de lo que denominan una mayor transparencia en el proceso de creación científica.

Como contrapeso a tanto despropósito, traigo a la consideración de mis lectores una visión alternativa que desnuda los desatinos de la caterva y recoge diez motivos incontestables por los que compartir código es una sinrazón. Es obra de Randall J. LeVeque que puede ser consultada como artículo o, para los impacientes, como presentación.

El casco y las bicis: no porque no

Lunes, 29 de abril de 2013 3 comentarios

Vaya por delante que:

  • monto y me traslado en bici por Madrid siempre que razonablemente puedo (que son las menos de las veces)
  • simpre uso casco (más que por la improbable protección que pueda darme, por poder reforzar el alegato, en caso de incidente, de que soy un ciudadano responsable)
  • tengo en el cuerpo dos cicatrices de más y otros tantos dientes de menos a resultas de diversos accidentes
  • no tengo tiempo de discurrir cuál sería mi postura sobre la prohibición de circular en bici sin casco: es asunto que no me afecta en absoluto por lo arriba indicado.

Sentado lo cual, entro en materia. Y es la del aburridor y artificial debate que se crea siempre que

  • el gobierno pretende prohibir alguna actividad (sea fumar en locales públicos, conducir sin cinturón de seguridad o montar en bici sin casco),
  • alguna asociación se arroga el derecho de representación de los presuntos afectados y
  • se planta en el no, un no absoluto y sin fisuras ni matices.

En este caso, hablaré de la oposición —poco razonable, a mi parecer— de ciertas asociaciones de ciclistas, como la Coordinadora ConBici, con la que mantuve algún intercambio de tuits recientemente.

Aclaro que no es la discusión sobre si el casco debiera o no exigirse lo que trae este asunto a mis páginas sino un examen crítico de los argumentos técnicos y científicos esgrimidos por los antiloquesea. Aclaro también que estoy siempre dispuesto a cambiar de opinión en cualquier asunto cuando la evidencia científica y técnica me induce a ello. Pero me rebelo —y entonces vengo a estas páginas y escribo— cuando se me intenta dar gato por liebre.

Veamos pues. Veamos algunos ejemplos de cómo desde la Coordinadora ConBici se navega tortuosamente, en zigzag, por la literatura científicotécnica para seleccionar torticeramente evidencias con que apuntalar posiciones de partida (o prejuicios).

En primer lugar, constato que no tienen a bien considerar la lista de organizaciones que abogan por considerar el uso del casco recomendable (como la AMS) o, incluso, obligatorio (como la British Medical Association o la American Medical Association).

Un informe que me hicieron llegar, El uso del casco en la bici: una visión general basada en pruebas concluyentes fue elaborado por una organización ciclista británica y tiene el siguiente resumen:

El siguiente informe expone las razones, respaldadas por pruebas concluyentes, para que el uso del casco no sea obligatorio por ley ni sea objeto de campañas promocionales.

Lo argumenta alrededor de tres ideas:

  • La obligatoriedad del casco reduce el uso de la bicicleta.
  • Si se usa menos la bici, empeora la salud global de la población (empeoramiento que no se vería compensado por el beneficio que reportaría el uso del casco).
  • El que haya muchos ciclistas es causa de que la conducción en bici sea segura (por lo que medidas disuasorias del uso de la bici, aun en aras de la seguridad, tendrían el efecto paradójico de reducirla).

Puede ser, no lo descarto como hipótesis de partida, que la obligatoriedad del casco pueda reducir el uso de la bicicleta. Pero si la relación causa efecto fuese concluyente, los autores del informe, casi seguro, no se habrían visto obligados a realizar lecturas selectivas de sus fuentes. Por ejemplo, hacen notar una reducción del 36 % entre los niños ciclistas en Melbourne (donde también destacan una reducción notablemente más pronunciada del 44 % entre los adolescentes). Pero el resumen del artículo del que extrean esas cifras tiene una visión mucho más comedida:

The first year following the introduction of the helmet wearing law coincided with a reduction in the number of people riding their bicycles. By 1992, two years after the law, the number of bicyclists was approaching pre-law levels in adults and children but was still greatly reduced in teenagers.

Y la reducción del 60 % en Nueva Escocia (Canadá) se apoya en un estudio que no dice nada de eso sino, más bien, que

The rate of helmet use rose dramatically after legislation was enacted, from 36% in 1995 and 38% in 1996, to 75% in 1997, 86% in 1998 and 84% in 1999. The proportion of injured cyclists with head injuries in 1998/99 was half that in 1995/96 (7/443 [1.6%] v. 15/416 [3.6%]) (p = 0.06).

En maldito párrafo se trata el incremento o decremento del uso de la bicicleta en Nueva Escocia.

Y es entretenido seguir comparando las afirmaciones del estudio con los de los artículos de las referencias para descubrir más modos de lecturas interesadas, cuando no directamente inventadas.

Sobre el impacto negativo sobre la salud derivado del menor uso de la biclicleta, suspenderé el juicio en tanto en cuanto no se pruebe más fehacientemente la mayor: que se reduciría el número de ciclistas se obligarse a usar casco. Insisto, no niego que el razonamiento tenga cierta coherencia lógica, pero creo que si el efecto fuese tan patente y significativo, dudo que los autores del estudio se hubiesen visto abocados a tan contumaz ejercicio contorsionismo lógico.

Finalmente, el argumento de que el número de cicilistas causa seguridad (por lo tanto, cualquier medida que contribuyese a reducir aquél tendría consecuencias negativas sobre esta) bien podría ser falaz. Que dos fenómenos ocurran juntos, ¿significa que el primero de ellos es causa del otro? ¿O podría ser, más bien, al revés? ¿O que ambos sean consecuencia de un tercero? De hecho, yo entiendo más creíble que sea la seguridad percibida la que invite a pedalear —al menos, intuyo un nexo lógico— a lo contrario, es decir, a que la seguridad sea una propiedad que emane mágicamente de masas de ciclistas. Aunque no me atrevo a ahondar en estas cuestiones relativas a la causalidad en tanto que no haya terminado de leer el libro de Pearl.

Dentro de las lecturas tendenciosas y sesgadas, encuentro en las páginas de ConBici la mención a un informe científico europeo patrocinado por la Comisión Europea y la Fundación Mapfre que, según ellos, contradice la propuesta de la DGT sobre el uso obligatorio del casco para los ciclistas españoles y que resume así:

El informe propuso más de 60 recomendaciones a los gobiernos europeos y la Union Europea sobre cómo mejorar la seguridad vial para los ciclistas. Ninguna de las recomendaciones pedía cascos obligatorios para ciclistas, y en la página 47 los autores del informe advierten: el uso del casco no debería ser obligatorio.

Que es cierto, pero con muy serios matices. Porque lo que se lee en el informe es:

Relating to the use of helmets, as explained in Section 3 above, further research would need to be undertaken to improve the level of protection they provide and the type of collisions they are useful in. As such, the use of helmets while riding should not be mandatory. However, as they provide an additional amount of protection to cyclists – albeit a limited one – cyclists should be encouraged to wear them.

El informe se resiste a recomendar la obligatoriedad del casco de no estar fundada en estudios más conclusivos y en tanto en cuanto —de esto se encarga también el informe en otros puntos— no se mejore la protección que potencialmente podría brindar a los ciclistas.

En fin, que no me convencen. Aunque eso es lo de menos.

Lo importante es ¿por qué se empeña siempre la gente en torcer, torcer y torcer la realidad? ¿Por qué ha desaprovechado la ocasión ConBici de poner honestamente juntos argumentos en pro y en contra y valorarlos ellos —e invitarnos a los demás a que los valoremos también— en lugar de buscar el adoctrinamiento a toda costa? ¿Por qué me han hecho perder esta tarde de domingo haciéndome buscarle tres pies al gato?

Categories: números Tags: ,

Todo lo que Vd. siempre quiso saber sobre la EPA (etc.)

Viernes, 26 de abril de 2013 Sin comentarios

¿A quién considera la EPA con trabajo?

Esencialmente, a aquellas personas que durante la semana de referencia hayan trabajado, incluso de forma esporádica u ocasional, al menos una hora a cambio de un sueldo, salario u otra forma de retribución conexa, en metálico o en especie.

También se suman a la lista aquellas personas que, aunque no hayan trabajado durante esa semana, mantengan un estrecho vínculo con su puesto de trabajo (por ejemplo, porque están de vacaciones o disfrutan de una baja médica).

¿Qué es el subempleo por insuficiencia de horas?

Es la situación en la que se encuentra una persona ocupada cuando sus horas de trabajo son insuficientes en relación con una situación de empleo alternativo que esta persona desea desempeñar y está disponible para hacerlo.

¿Es lo mismo que el empleo a tiempo parcial?

No. Mucha de la gente que trabaja a tiempo parcial no quiere trabajar más horas. Sin embargo, en 2012, el 54.5 % de quienes tenían un empleo a tiempo parcial se consideraron subempleados.

¿Se consideran empleados los subempleados por insuficiencia de horas?

Sí.

¿Hay muchos subempleados por insuficiencia de horas en España?

Según la última EPA, 2.4 millones de españoles, el 10.8 % de la población activa.

¿Se cuentan como empleados o como parados?

Ya lo hemos dicho más arriba: como empleados.

¿Somos campeones de Europa también en subempleo?

Pues el año pasado lo éramos (empatados con Irlanda), con una tasa del 8% (PDF).

 

Referencias:

Categories: números Tags: ,

¿Leemos “Analyzing Linguistic Data” juntos?

Miércoles, 24 de abril de 2013 1 comentario

Victor Peinado y yo estamos organizando un grupo de lectura. Junto con quienes se nos sumen, vamos a ir leyendo el libro Analyzing Linguistic Data: A practical introduction to Statistics“, que trata de:

  • R (instalación, gráficos, etc.)
  • Métodos estadísticos con R (modelos lineales, clústering,
  • clasificación, modelos mixtos)
  • Lingüística (que es el contexto en el que se aplica lo anterior).

La participación en este grupo está indicada para quienes tengan interés en las aplicaciones lingüísticas de la estadística (y de R, por supuesto). Y muy particularmente para esos lingüistas que se han encontrado con que su disciplina (o grandes partes de ella), cada vez más, está dejando de ser de letras.

Os invito a echarle un vistazo a la propuesta del grupo y el programa y a difundirlo entre quienes pudieran estar interesados.

Categories: estadística Tags: , ,

Pero mañana seguiremos usando Excel

Martes, 23 de abril de 2013 4 comentarios

Inmerso en asuntos que los más catalogarían de friquis, he permanecido ignorante de los más de los infelices sucesos que nos ha regalado el mundo durante los últimos días.

Pero sí que he tenido ocasión de enterarme de algo de ese runrún, imagino que conocido de los más, sobre unos economistas encopetados que usanban Excel (y unos economistas muy encopetados). Noticia que se suma a otra que guardaba para comentarla un día: cómo JP Morgan estuvo calculando su VaR erróneamente durante años por los mismos motivos.

Todo esto vino a suceder el mismo día que, finalmente, conseguí bajarme una copia pirata del último libro de Taleb, Antifragile. Aún no he leído nada del libro, pero barrunto de qué trata y adivino que Excel no es, en absoluto, antifrágil.

Las dos noticias que menciono más arriba no son hechos aislados y tanto da si en un artículo se ha sobreestimado o dejado de sobreestimar el crecimiento del PIB de nosequé países punto arriba o punto abajo. O si JP Morgan pilotaba con instrumental trucho. Es lo de menos.

Lo de más es la suma de errores —y las ineficiencias que se derivan de ellos— causados por miles, millones de documentos en Excel que pululan en empresas, instituciones, departamentos, universidades, fábricas y demás.

No obstante, mañana seguiremos usando Excel.

(Incluso para cuantificar el llamado riesgo operacional, es decir, el causado por operaciones incorrectas, incluidas aquellas que tienen como origen el uso —no solo indebido: todo el uso— de Excel).

Categories: consultoría, números Tags: ,

Demanda y uso de gobierno abierto en España

Lunes, 22 de abril de 2013 Sin comentarios

Traigo a la consideración de mis lectores el Estudio de demanda y uso de gobierno abierto en España que con fecha de primeros de este año ha realizado el Observatorio Nacional de las Telecomunicaciones y otros asuntos afines.

Aborda, dice, las siguientes cuestiones que copio:

  • La visión de la ciudadanía sobre la Administración Pública
  • La valoración que hace de los servicios públicos.
  • El uso de la Administración Electrónica.
  • La importancia que concede a las actuaciones en materia de transparencia, participación y colaboración.
  • Las demandas más relevantes sobre transparencia y participación.

Los principales resultados que dice encontrar son:

  • El 65.5 % de la ciudadanía considera como buena o muy buena la calidad de los servicios públicos.
  • El 42.2 % realizan trámites electrónicamente con las administraciones públicas y el 65,2% consultan las webs públicas para informarse de actividades o actuaciones administrativas.
  • El 75 % de los encuestados creen que la transparencia mejoraría la confianza en el Gobierno.
  • El 81.4 % de la ciudadanía reclama nuevos canales para incrementar la participación y apuesta por la convivencia entre canales digitales y canales tradicionales.
  • El 53.6 % de los usuarios de Internet manifiestan interés en los asuntos políticos frente al 34.8 % de los que no lo son.

En realidad, el estudio consta de dos encuestas: una a nivel nacional y otra específica para el País Vasco —donde determinadas iniciativas de gobierno abierto han estado funcionando ya durante un cierto tiempo—. Y es en la discusión de la segunda que se leen unos parrafitos que, parece, desmerecen reseña alguna en el terso resumen ejecutivo:

Del total de encuestados únicamente el 11.1 % afirma conocer alguno de los portales vascos relacionados con el Gobierno Abierto comentados anteriormente (Irekia, Adi! u Open Data Euskadi), por lo que el desconocimiento sobre estas iniciativas es muy elevado. El escaso tiempo que llevan en marcha estos portales de Gobierno Abierto puede influir en este hecho.

El portal más conocido es Adi!, que conocen el 6.4 % de los encuestados. El resultado menos optimista lo obtiene Irekia, que sólo conocen el 3.8 % de los encuestados. Los medios a través de los cuales los ciudadanos encuestados manifiestan haber conocido estos portales son principalmente las campañas publicitarias a través de medios de comunicación de masas y por
el boca a boca de conocidos.

Teniendo en cuenta que únicamente el 1.3 % de los encuestados ha entrado alguna vez el portal Irekia o en el portal Adi!, y que sólo el 0.6 % ha visitado el portal Open Data Euskadi, es muy difícil establecer los impactos de estas iniciativas, los niveles de satisfacción de los usuarios con ellas o las demandas adicionales que tienen respecto a ellas.

(Nota: no estaría mal que, en aras de la transparencia que predican, Irekia, Open Data Euskadi, Adi!, etc. hiciesen públicos sus logs de visitas.)

Y mi triste lectura: a nadie le importa un carajo Irekia, Open Data [escribe aquí el nombre de tu CCAA], y similares. Y que los habitantes de esta piel de toro son aviones que se empeñan tozudamente en no aterrizar en ninguno de los aeropuertos de datos abiertos de Castellón que algunos políticos tienen a bien construir.