3.9 Ejercicios adicionales

Ejecuta mean(sample(iris$Sepal.Length, replace = T)) varias veces. Comprueba que obtienes números que se parecen a la media la columna Sepal.Lenght. Nota: esto es el fundamento de una técnica estadística muy poderosa, el bootstrap, para estimar cómo puede variar una media (i.e., estimar la varianza de una media).

El vector letters contiene las letras a, b,… Hasta 26 en total. Crea otro vector que tenga la letra a repetida 26 veces; la b, 25, etc.

Toma el vector que has creado en el ejercicio anterior y crea otro que cuente las veces que aparecen las cinco letras más frecuentes y que agrupe el resto en otros. Nota: este ejercicio se realiza innumerables veces. Por ejemplo, cuando existe un vector con tantas categorías que representarlas todas es imposible; una solución consiste en agrupar las menos frecuentes en una sola, la del resto.

En una provincia la población activa es de un millón de personas. El 10% de ellas está en el paro. Periódicamente el INE hace una encuesta sobre 1000 personas para estimar la tasa de paro. Pero esta encuesta, por estar basada en 1000 personas, está sujeta a error. Puedes tratar de medir ese error de la siguiente manera: crea un vector de longitud 1M con cien mil valores iguales a 1 y el resto, a 0. Extrae una muestra de tamaño 1000 y calcula la proporción de unos. ¿Está cerca del 10%?

Repite el ejercicio anterior varias veces. ¿Cómo varían las estimaciones? ¿Qué pasa si encuestas a 10000 personas en lugar de a 1000? ¿Y si encuestas a 100?

Lee la parte relevante de ?replicate. ¿Para qué sirve esta función? ¿Puede ser útil para analizar el caso propuesto en los ejemplos anteriores? Nota: la página de ayuda de la función anterior documenta varias funciones relacionadas, pero puedes ignorar por el momento todo lo que no se refiera a la función en cuestión.