43. Modeling → Association and Item Set Mining → FP-Growth

Este operador calcula todos los conjuntos de elementos frecuentes de un conjunto de datos mediante la creación de una estructura de datos FPTree sobre la base de datos de transacciones. Esta es una copia muy
comprimida de los datos que en muchos casos cabe en la memoria principal, incluso para grandes bases de datos. Todo el conjunto de elementos frecuentes se deriva de este FPTree. Una ventaja importante de FPGrowth comparado con Apriori es que sólo utiliza 2 escaneos de los datos y por lo tanto frecuentemente es aplicable incluso en grandes conjuntos de datos.

Observe que el conjunto de datos dado sólo puede contener atributos binominales, es decir, atributos nominales con sólo 2 valores diferentes. Sólo tiene que utilizar los operadores de preprocesamiento para transformar el conjunto de datos. Los operadores necesarios son los operadores de discretización para cambiar los tipos de valores de los atributos numéricos a nominales y el operador Nominal2Binominal para
transformar los atributos nominales en binominales / binarios.

Los conjuntos de elementos frecuentes son extraídos de las entradas positivas de la base de datos, es decir, de los valores nominales definidos como positivos en la base de datos. Si se utiliza un archivo de
descripción de atributo (.aml) para el operador ExampleSource este corresponde al segundo valor que se define a través de los atributos de clase o etiquetas de valor interno.

Si sus datos no especifican las entradas positivas correctamente, puede configurarlos utilizando el parámetro positive_value. ¡Esto sólo funciona si todos sus atributos contienen este valor!

Este operador tiene dos modos básicos de trabajo: encontrar al menos la cantidad especificada de conjuntos de elementos con mayor soporte, sin tener en cuenta el min_support (por defecto) o encontrar todos los
conjuntos de elementos con soporte mayor que min_support.

Printer-friendly version

43. Modeling → Association and Item Set Mining → FP-Growth

🎓 Formación recomendada por Dataprix

Semrush