Cómo ejecutar 30 modelos de aprendizaje automático con unas pocas líneas de código

Aprende a ejecutar varios modelos de aprendizaje automático mediante predicción diferida.

Cuando inicias un nuevo proyecto de Machine Learning supervisado, uno de los primeros pasos es analizar los datos que tenemos, entender lo que estamos tratando de lograr, y qué algoritmos de machine learning podrían ayudarnos a lograr nuestros objetivos. Si bien la biblioteca scikit-learn nos facilita la vida al hacer posible la ejecución de modelos con unas pocas líneas de código, también puede llevar mucho tiempo cuando necesitas probar varios modelos. Sin embargo, ¿qué pasaría si pudiéramos ejecutar varios modelos básicos a la vez antes de sumergirnos en enfoques más complejos y tener una mejor idea de en qué modelos deberíamos invertir nuestro precioso tiempo?

Eso es lo que lazy predict intenta (con éxito) lograr. Ejecuta 30 modelos de aprendizaje automático en solo unos segundos y nos da una idea de cómo funcionarán los modelos con nuestro conjunto de datos. Para comprender mejor cómo podemos usar lazy predict, creé un proyecto de predicción de supervivientes del Titanic para que puedas codificarlo. Puedes encontrar el cuaderno completo aquí y así llevar a cabo este proyecto conmigo. La experiencia básica con Python, Pandas y scikit-learn lo ayudará a comprender mejor lo que está sucediendo.

Importación y limpieza de datos

Primero, importemos pyforest. PyForest importa las 40 bibliotecas de Python más populares con una línea de código. Escribí un artículo al respecto y lo puedes encontrar aquí. Apagaré algunos mensajes de advertencia desagradables usando la biblioteca de advertencias. También importaré algunas bibliotecas de métricas. Lo necesitaremos más adelante.

Ahora, importemos el conjunto de datos que usaremos de Kaggle. Puedes encontrar el conjunto de datos en este enlace. Ten en cuenta que no importé Pandas. Eso es porque viene incluido con pyforest.

Saltaré algunos análisis de datos exploratorios en este artículo porque nuestro enfoque principal es comenzar a usar lazy predict. Sin embargo, en mi EDA inicial que puedes encontrar en mi GitHub, noté que necesitamos convertir la columna Sex en numérica. Podemos hacer eso fácilmente con un lambda function.

También podemos eliminar algunas columnas categóricas que no se utilizarán para este micro proyecto. Como tarea, te recomiendo que intentes jugar con estas funciones cuando termines este artículo.

Train Test Split

Dividamos ahora nuestro train set en las variables “x” e “y”. Dirigiré todas las características a “X”, excepto “Survived”, es decir, superviviente (survived) que es nuestra etiqueta de destino.

Y ahora, dividamos la variable en conjuntos de train y test. Iré con el 0,25 predeterminado para el tamaño de la prueba. Puedes agregar fácilmente otros valores usando:

Modelando con LazyPredict

Ahora es el momento de divertirse. Si es la primera vez que usas lazypredict, tendrás que instalarlo. Para hacerlo, puedes escribir pip install lazypredict en en tu terminal. Si ya lo tienes instalado, importémoslo a tu proyecto. Dado que este es un proyecto de clasificación, importamos LazyClassifier también.

Finalmente, ejecutamos los modelos y comprobamos si funciona:

Voilá. Acabas de iterar más de 30 modelos en menos de 2 segundos. Eso es increíblemente rápido y sin esfuerzo. Sin embargo, ¿cómo podemos asegurarnos de que estos resultados sean precisos? Bueno, ahora podemos verificar los resultados ejecutando algunos modelos y comparándolos. Para este proyecto, probaré el conjunto de datos con un modelo de regresión logística y bosque aleatorio. Veamos si podemos acercarnos a los resultados que acabamos de ver. Comencemos con Random Forest.

Como puedes comprobar, el nivel de accuracy y el F1-Score reflejan unos resultados similares. Probemos ahora con la variable Logistic Regression.

De nuevo tenemos un resultado similar. En consecuencia, los resultados obtenidos son válidos y confiables. Así de simple.

Conclusión

Lazypredict es una biblioteca fácil y rápida que ofrece una buena predicción de cómo se comportarán nuestros modelos si tu conjunto de datos. Ten en cuenta que los resultados obtenidos con lazy predict NO DEBEN considerarse modelos finales. Las estadísticas son un componente importante de la ciencia de datos y, dado que los diferentes modelos tienen diferentes enfoques, debes saber cómo funciona cada uno de los modelos antes de elegir el modelo final. Más importante aún, la ciencia de datos es un campo complejo y no existen soluciones mágicas sin pros y contras. Úsalo como tu primera iteración para confirmar tu enfoque planificado y verifica siempre los resultados con herramientas como scikit-learn.

¡Diviértete y avísame si te funcionó!

This content was originally published here.

Cómo ejecutar 30 modelos de aprendizaje automático con unas pocas líneas de código | Planeta Chatbot : todo sobre los Chat bots, Voice apps e Inteligencia Artificial

Cómo ejecutar 30 modelos de aprendizaje automático con unas pocas líneas de código

Aprende a ejecutar varios modelos de aprendizaje automático mediante predicción diferida.

Importación y limpieza de datos

Train Test Split

Modelando con LazyPredict

Conclusión

VOTA PARA LOGRAR UNA MEJOR CALIDA DE VIDA

LOS CIUDADANOS UNIDOS SOMOS MAYORÍA

EL 2 DE JUNIO DEL 2024 VOTA PARA MANTENER

Sobre el autor

Ciudadano por México

Comentarios

Cancelar respuesta

Destacados

Muere la periodista Victoria Prego a los 75 años | El Correo

La Junta de Andalucía indigna a los sindicatos al sacudirse la responsabilidad del conflicto en educación especial: “Es un insulto a la inteligencia”

Cómo se puede usar la inteligencia artificial para mejorar el tráfico de coches en las grandes ciudades

Apple presentará nuevos modelos de iPad en un evento el 7 de mayo

Ahora también puedes ser coleccionista de arte y a precios sorprendentes BADAMX Los mejores artistas ahora al alcance de todos

Monte Hermoso: multas de hasta $10 mil por no usar barbijo – Canal Siete Bahía Blanca

Invadirán CDMX personajes de Star Wars

Tierra Viva Hoteles es reconocida por las OTAs como la cadena hotelera más valorada en el Perú en 2019 – Hotel Perú News | por Javier Baz

Un Curso de Verano Muy Divertido en CESSA Para Niñas y Niños.

El IMSS aprueba al pozole como comida saludable

Salud o belleza, ¿qué influye más a la hora de elegir pareja?

Próximo gobierno federal invertiría 38 mdp: Rocío Nahle

Cómo ejecutar 30 modelos de aprendizaje automático con unas pocas líneas de código

Aprende a ejecutar varios modelos de aprendizaje automático mediante predicción diferida.

Importación y limpieza de datos

Train Test Split

Modelando con LazyPredict

Conclusión

También te puede interesar

Sobre el autor

Ciudadano por México

Comentarios

Destacados