La interpretación de "significativo" en un caso muy concreto
Comienzo por el final:
En el gráfico anterior se aprecian unos datos, generados mediante
n <- 100
x <- 1:n
y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)
datos <- data.frame(x = x, y_base = y_base, y = y,
cos1 = cos(2 * pi * x / 100),
cos2 = cos(4 * pi * x / 100))
a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.
Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir,
modelo <- lm(y ~ cos1 + cos2, data = out)
Los p-valores correspondientes al segundo coeficiente (que no aporta nada al modelo generativo) son
Es decir, con no tanto ruido, el coeficiente parece significativo. Y por su propia naturaleza, la naturaleza del coseno,
si sube cerca del cero para arrimarse a los outliers, tiene también que subir cerca del 50 porque tal es su naturaleza. Lo cual conlleva una exégesis muy agotadora de la significantísima naturaleza de ese repunte en el entorno del 50 en esos gráficos que he mostrado al comenzar y la enorme pérdida que representan para la humanidad si desaparece por la inopinada ocurrencia de usar métodos robustos de ajuste, etc.
En fin, nunca voléis solo con instrumentos.