Nueva charla: “Antikaggle: contra la homeopatía de datos”

La impartiré el día 2017-02-10 en el Campus de Google dentro del Machine Learning Spain Meetup y la he resumido así:

Kaggle es una plataforma fantástica. Lo sabemos y nos lo han hecho saber innumerables veces. Esta charla es, sin embargo, una revisión crítica sobre lo que puede enseñar y lo que no; sobre el valor que aporta (entre otros, a los participantes) y el que no y sobre, finalmente, la ciencia de datos y una degeneración suya que ha encontrado en Kaggle otra vía de propagación y que he dado en llamar homeopatía de datos.

Los detalles del evento, aquí.

6 comentarios sobre “Nueva charla: “Antikaggle: contra la homeopatía de datos”

  1. jbm 3 febrero, 2017 11:14

    Jugando en Kaggle he aprendido un montón de Machine Learning y de R. Al principio fue frustrante; pero cuando te haces a la idea de que las competiciones son cosa de 10 ó 15 individuos, te relajas y empiezas a disfrutar. El problema es siempre el uso creativo de las reglas de participación. Al final, se trata de ganar y todos los trucos del oficio valen (stacking o bagging patológico, generación de variables rocambolescas e inaplicables en la vida real aunque, sorprendentemente, eficaces)

  2. antonio 3 febrero, 2017 12:07

    Otro defensor y fan de kaggle por aquí, que además “trabaja” en esto de la ciencia de datos. Sólo espero que en la charla no se cuelen algunos topicos infundados habituales en los críticos de kaggle.
    Para empezar, no tiene nada que ver una competición de Kaggle con la otra, así que me sorprende que se pueda hablar de manera tan genérica de la plataforma. Los avances que han supuesto para deep learning las competiciones de Imagenet son incuestionables, y no veo ninguna diferencia con competiciones como el DataScienceBowl que se celebra anualmente en Kaggle.

    Topicazos habituales y mi opinión sobre ellos:

    EN KAGGLE NO HAY EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS
    Sólo hay que mirar la competición Deloitte Western Australia Rental Prices, con datos reales, muchos valores que no tienen sentido e información importante que no está… Requería mucho tiempo (días) solo para entender los datos.
    Otro ejemplo sería Outbrain Click Prediction, con 2 mil millones de paginas vistas. 700 millones de usuarios. 1000 webs..
    Y por supuesto, las de visión artificial y datos no estructurados, como DataScienceBowl 2017.

    EN KAGGLE NO SE HACE ANALISIS EXPLORATORIO DE DATOS
    Solo hay que participar en Kaggle para darse cuenta que no es verdad, ni por asomo. Incluso en las competiciones con datos anonimizados, se generan unos analisis extraordinarios con altas dosis de creatividad.

    MODELOS GENERADOS EN KAGGLE NO SIRVEN PARA NADA PORQUE NO SON MAS QUE ENSEMBLES IN-INTERPRETABLES DE CIENTOS DE MODELOS
    El rendimiento y la precisión suelen importar mucho más que la interpretabilidad del modelo en muchos casos.
    Podrás andar mucho mejor (datascientist en trabajo real) una vez que sabes correr (kaggle)

    LOS RESULTADOS NO VALEN PARA PRODUCCIÓN
    Hay resultados en los kernels de kaggle muy cercanos en rendimiento al de los ganadores de la competición. El kernel de kaggle usa 8gb de Ram y un tiempo máximo de ejecución de 10 minutos. Además, hay competiciones para las cuales sólo se puede usar los kernels de kaggle, como https://www.kaggle.com/c/two-sigma-financial-modeling

    Con todo esto no quiero decir que algunas competiciones de Kaggle no sean mejorables y criticables en algunos aspectos., y hay algunas claramente mucho mejor enfocadas que otras. A falta aún de asistir a la charla, considero que es un error criticar a toda la plataforma por algunas competiciones mal planteadas.

  3. jbm 3 febrero, 2017 12:24

    Por si acaso 😉

  4. antonio 3 febrero, 2017 12:27

    También se puede pecar de pensamiento 😉

  5. Carlos J. Gil Bellosta 3 febrero, 2017 12:38

    Y de omisión. Aunque habría que actualizar la lista de maneras de pecar e introducir la de la omisión de la omisión.

Los comentarios están desabilitados.