Listado de Software de Data Mining gratuíto, open source o freeware

Listado de software y herramientas de Data Mining, de proveedores de software gratuíto, ya sea software libre (open source), freeware o versiones gratuítas de herramientas de datamining.
Iremos ampliando información sobre cada herramienta de minería de datos, y también sobre otro software de data mining de libre utilización que vayamos conociendo, o que vayáis sugiriendo en los comentarios.

  • Weka 
  • RapidMiner 
  • Orange 
  • Mlpy (Python)
  • Pandas (Python)
  • PyBrain (Python)
  • Scikit-learn
  • Gnome-datamine-tools
  • Alteryx Project Edition
  • Chemicalize.org
  • ML-Flex
  • Apache Mahout
  • MiningMart
  • Rattle GUI
  • Natural Language Toolkit
  • KNIME 
  • CMSR Data Miner
  • Lattice Miner
  • Shogun 
  • ADaM. Algorithm Development and Mining System
  • ADaMSoft
  • SenticNet API
  • SCaViS 
  • Vowpal Wabbit
  • GNU Octave
  • MALLET
  • OpenNN
  • Databionic ESOM Tools
  • Jubatus 
  • DataMelt
  • Fityk
  • Dlib 
  • LIBLINEAR y LIBSVM
  • ROSETTA
  • KEEL 
  • UIMA 
  • ELKI 
  • GraphLab
  • MDP. Modular toolkit for Data Processing
  • ..

 

 

Hola, como vas, gracias por la información.


Me gustaria saber cual de estos recomiendas, ya sea por su facilidad de uso, diseño de graficos, caapcidad de datos, etc, te agradecería si pudieras darme más información.


Además no se si has escuchado del SW Pentaho, se dice que es libre, per creo que como todos tiene una version trial de 30 días y luego supongo que hay que pagar, si lo conoces me puedes decir como lo encuentras.


Saludos y gracias

En respuesta a por mansepul

Es difícil recomendar software sin saber para qué se quiere utilizar, cada herramienta tiene sus puntos fuertes y sus debilidades, y no hay ninguna que sea mejor en todo. Por otro lado, la lista es grande, y no te puedo recomendar o dejar de recomendar software que no haya probado, así que te hago algunos comentarios desde mi experiencia, que se limita a tan sólo unos cuántos de la lista.

Los primeros de la lista son las herramientas open source de Data mining que he tocado más, o de las que más he oído hablar, cosa que tampoco quiere decir que sean mejores.

Si quieres hacer Data Mining, o Data Science con software open source, el que ahora parece que se está utilizando más es R, que en muchos casos incluso está utilizándose como sustituto de paquetes comerciales como SAS o SPSS, ya que aunque tiene una interfaz de linea de comandos, es bastante fácil de utilizar, y dispone de muchísima documentación y código de ejemplo o listo para utilizar que comparte la gran comunidad que lo utiliza y lo va haciendo crecer día a día.

Python es un lenguaje de programación multipropósito que ya existe hace tiempo, por lo que es una apuesta bastante segura, sobretodo si tienes perfil de programador. Está incluído en esta lista porque sus librerías de minería de datos, tratamiento y visualización de datos son superpotentes, y también evolucionan día a día con el soporte de la comunidad de desarrolladores y usuarios que contribuyen a su crecimiento. Una de estas librerías es scikit-learn, una librería de aprendizaje automático, o machine learning que yo mismo revisé en la reseña del libro Mastering Machine Learning with scikit-learn.

RapidMiner nació ya como plataforma open source para data mining y analítica predictiva. Aporta un entorno integrado visual, y dispone de una versión de software libre, y también de versiones comerciales. En Dataprix tenemos publicado un tutorial online de RapidMiner.

Por último, sobre lo que preguntas de Pentaho, comentarte que Pentaho es una plataforma completa de Business Intelligence Open Source, que incluye el software Weka para la parte de Data Mining. Weka existe también hace muchos años, tiene un entorno visual que hace bastante fácil su utilización para aplicar algoritmos de minería de datos a los datos de entrada que reciba, y estar dentro de la suite de Pentaho es una gran garantía de continuidad. Sobre las versiones open source o comercial de Pentaho y, por extensión, de Weka, no funciona con limitación de tiempo. Como es software libre tienes disponibles versiones open source de todas las herramientas libres que componen la suite, y puedes descargarlas, utilizarlas o incluso modificarlas sin ninguna limitación de tiempo. La opción de pago (Enterprise) lo que aporta son facilidades de instalación, algunas utilidades y, sobretodo, soporte.

Esta es mi visión sobre lo que conozco, si alguien tiene experiencia utilizando estas u otras herramientas open source de datamining, o data science, le agradezco si lo comparte y haremos este listado de software mucho más útil.

Hola Carlos, Acabo de encontrar este sitio. Interesante, y más el post sobre software-data-mining gratuitos.

 

Me desempeño en una ONG (donde no hay ingenieros) y trabajo en el ámbito de las redes contra la discriminación. Como vez, un espacio que suele ser prejuicioso respecto al potencial del "Business Intelligence", que incluso usa otros códigos y archivos de mundo de referencia, pero que necesita con urgencia meterse en estas herramientas, y cada vez más.

 

Por eso al ver vuestro amigable sitio Dataprix, me atrevo ha realiar una pregunta concreta: Debo desarrollar un sistema de seguimiento de delitos y ofensas no criminales (como son acciones sin protección -aún- en el sistema judicial, las fuentes principales de información es la prensa y denuncia particular. Y luego hacer análisis buscar tendencias prioridades de acción. ¿Qué tipo de softwares recomiendas?

 

Al momento usamos excell, pero somos conscientes de las limitaciones visuales y de prospectiva que tiene, pues continúa siendo una mera base de datos. Entonces nuevamente... ¿Qué recomendarías para esto?

 

Atentos saludos, Jorge

En respuesta a por JorgeZS (no verificado)

Hola Jorge

 

Es difícil contestar a tu pregunta sin más información, entiendo que buscas una herramienta para un perfil de analista o usuario de negocio, pero no me queda claro si open source o podéis comprar licencias, o si tenéis que hacerlo todo vosotros, o podéis contratar a alguien para que os desarrolle el sistema.

Si no tenéis necesidad de trabajar en web y acceder a los datos con niveles de seguridad, perfiles de usuario, etc., no tenéis desarrolladores, y no pudiérais contratar a alguien que os lo haga, te diría que te quedes con excel. Si te organizas bien los datos, y haces una buena clasificación por la que luego puedas aplicar filtros, con excel tienes muchas opciones de visualización, e incluso de análisis estadístico, y también tiene opciones de predicción y análisis what-if. Si quieres probar como extra algo más vistoso, o sacar ideas para visualizaciones, después de haberte organizado los datos también podrías probar Tableau Public, con el que importando los datos desde Excel puedes crear muy buenas visualizaciones, y compartirlas en el Cloud de Tableau. Si haces una búsqueda en el comparador de software de Dataprix de herramientas de BI para empresa pequeña, y gratuítas, verás que también te sale Microsoft Power BI, que es una opción parecida.

En open source, si no tenéis perfiles de ingenieros, o al menos estadísticos, podrías encontrar alguna cosa, pero por lo general el software libre necesita más conocimiento de desarrollo para utilizarlo correctamente.

Y si podéis permitiros pagar licencias, ya tienes más opciones, puedes hacer otra búsqueda de herramientas de BI para pymes con licenciamiento SaaS, para ahorrarte el mantenimiento de la instalación, y ahí te saldrán, entre otras, las denominadas de BI de autoservicio, como TIBCO Spotfire, Qlik Sense o IBM Cognos Analytics. En esta misma selección también te sale Atlas SBI, que aunque no es de autoservicio porque un desarrollador ha de preparar los informes o los cuadros de mando, sé que tiene una licencia específica para ONG's.

Bueno, espero haberte servido de ayuda, sólo recordarte que lo más importante es que primero organices bien los datos, porque eso ninguna herramienta lo va a hacer por ti :)

 

 

Hola Carlos, surfeando por la web llegué a este tu blog.

Estoy procesando cientos (unos miles) de documentos en pdf que una amiga de la area de sociales me pidió que le ayudara, ya les hice analisis de texto (nube, network, clusters, factorial...) usando R y Python.

Ahora quiero ir para el lado de hacer modelos (modelamiento, simulación, predicción), entonces pensé en hacer LDA para descubrir temas, luego aplicar logica Fuzzi, redes neurales...

Mi curiosidad es si existen software's libre que permite hacer todo eso (TEXT MINING, fuzzi) sin la necesidad de saber programar (que no es mi caso).

Pregunto eso porque quiero que esa amiga replique lo que yo hice en R pero ella tiene NULO conocimiento en programación.

Muchas gracias por su respuesta. Omar

En respuesta a por Omar (no verificado)

Hola Omar, parecen muy intesantes las cosas que estás haciendo con R y Python, estaría muy bien si nos pudieras explicar un poco más sobre tus proyectos.

Sobre la cuestión de qué herramientas open source existen para poder hacer data science sin programar, las que yo conozco son Rapidminer y Weka, el software de datamining que incluye Pentaho, pero seguro que hay alguna más, aunque con software libre siempre son más difíciles de encontrar herramientas que requieran menos conocimiento técnico.

Ahora también comienzan a salir servicios en la nube fáciles de utilizar que permiten aplicar algoritmos de inteligencia artificial o machine learning, suelen ser de pago por uso, pero podría resultarle mejor que comprar una licencia de un software propietario.