Python para Data Science

Python es un lenguaje open source de propósito general, pero gracias al desarrollo de potentes librerías de analítica, procesamiento de datos y modelización predictiva se ha convertido en el principal lenguaje de programación utilizado para proyectos de Data Science, junto con R.

Clasificacion multilabel con la librería Scikit-learn de Python

Python es un lenguaje de programación interpretado, orientado a objetos, fácil de instalar y de utilizar, que cuenta con el soporte de una gran comunidad.

Librerías de Python para Data Science

Estas son las librerías de Python más utilizadas para Data Science:

  • SciPy es una colección de paquetes para tratamiento matemático, científico y de ingeniería.
    • NumPy es subpaquete de SciPy para procesamiento numérico y de strings, registros y objetos. Permite manipular con eficiencia grandes arrays multidimensionales de registros y matrices.
    • Pandas es una librería, también incluída en SciPy, que proporciona estructuras de datos y herramientas de análisis y manipulación de datos, muy utilizada en la fase de preparación de los datos
    • Matplotlib es una librería para creación de gráficas 2D.
       
  • Scikit-learn es una librería construída sobre SciPy, con utilidades de aprendizaje automático y data mining que implementa algoritmos de regresión, clasificación, clusterización y reducción de dimensionalidad.

Recursos sobre Python para Data Science

Curso para aprender Data Science con Python

Data Science with Python