Definicion de Porcentaje Set de Entrenamiento y aplicacion del modelo

 Hola,

Alguíen puede ayudarme para salir de la duda:

Debo Procesar una planilla de Datos. 

Se me solicita establecer :

10% de Entrenamiento y 90% aplicación modelo

50% de Entrenamiento y 50 % aplicación modelo

90% de Entrenamiento y 10% aplicación modelo

100% de Entrenamiento y 100% de aplicación de modelo.

 

Ahora para esto ¿cual es el Parémetro que se debe configurar para cada caso de porcentaje establecido:?

(es en los parámetros del Operador de VALIDATION (SPLIT Validation)

Training Set Size

Test Set Size

 

Agradecere vuestra ayuda 

atte.

Kipao 

kipaoyhuonchoy@gmail.com

 

Hola Kipao,

No sé si lo que estás validando es un modelo de minería de datos (por ej. un arbol de decisión o regresión logística, ..).

En tal caso, entiedno que:
Training Set Size -> Conjunto de datos de entrenamiento del modelo.
Test Set Size -> Conjunto de datos para validar el modelo encontrado.

Si es así, yo he visto generalmente proporciones del tipo:

Training Set Size 80%
Test Set Size 20%

De las opciones que tienes la que más se ajusta es 90 -10.
¿Qué volumen de datos tienes?

Un saludo,