34. Evaluation → Validation → X-Validation

X-Validation realiza un proceso de validación cruzada. La entrada ExampleSet S se divide en varios subconjuntos de validaciones S_i. Los subprocesos internos se aplican varias veces en validaciones usando S_i como conjunto de prueba (entrada del subproceso Testing) y S \ S_i como conjunto de entrenamiento (entrada del subproceso Training).

El subproceso Training debe devolver un modelo, que suele ser entrenado con la entrada ExampleSet. El subproceso Training debe devolver un Vector de Performance. Este se suele generar aplicando el modelo y
midiendo su performance. Se pueden pasar objetos adicionales desde el subproceso Training al Testing a través de los puertos.

Al igual que los otros esquemas de validación, la validación cruzada de RapidMiner puede utilizar varios tipos de muestreo para construir los subconjuntos. Linear sampling (muestreo lineal) simplemente divide el
conjunto de ejemplos en particiones sin cambiar el orden de los ejemplos. Shuffled sampling (muestreo mezclado) crea subconjuntos aleatorios a partir de los datos. Stratified sampling (muestreo estratificado)
crea subconjuntos aleatorios y asegura que la distribución de clases en los subconjuntos sea igual que en todo el conjunto de ejemplos. Para tener particiones aleatorias independientes del proceso anterior, se podría
utilizar una semilla aleatoria local. Ver los parámetros para más detalles.

El operador de validación cruzada proporciona varios valores que se pueden registrar por medio de un Log. Por supuesto, se puede registrar la cantidad actual de iteraciones, lo que podría ser útil para los operadores
ProcessLog encapsulados en una validación cruzada. Además de esto, todos los operadores de estimación de performance de RapidMiner facilitan el acceso a los valores medios calculados durante la estimación.
Debido a que el operador no puede asegurar los nombres de los criterios entregados, el operador ProcessLog puede acceder a los valores por medio de nombres genéricos de valores:

  • performance: el valor del criterio principal calculado por este operador de validación.
  • performance1: el valor del primer criterio del vector de performance calculado.
  • performance2: el valor del segundo criterio del vector de performance calculado.
  • performance3: el valor del tercer criterio del vector de performance calculado.
  • para el criterio principal, también se puede acceder a la varianza y la desviación estándar en su caso.