2012-07-31 22 views
6

Si estoy entrenando un SVM en un conjunto de entrenamiento lrge y si la variable de clase es True o False, ¿tendrían muy pocos valores verdaderos en comparación con el número de valores falsos en el conjunto de entrenamiento? ¿Deberían ser iguales? Si mi conjunto de entrenamiento no tiene una distribución igual de Verdadero y Falso, ¿cómo me ocupo de esto para que mi entrenamiento se realice de la manera más eficiente posible?¿Cómo se maneja el desequilibrio de datos en SVM?

Respuesta

3

Está bien tener datos desequilibrados, porque la SVM debería poder asignar una mayor penalización a errores de clasificación erróneos relacionados con la instancia menos probable (por ejemplo, "Verdadero" en su caso), en lugar de asignar el mismo error de error que resulta en el clasificador indeseable que asigna todo a la mayoría. Sin embargo, obtendrá probablemente obtenga mejores resultados con datos balanceados. Todo depende de tus datos, realmente.

Puede inclinar los datos artificialmente para obtener datos más equilibrados. ¿Por qué no revisas este artículo? http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.

2

Mi experiencia es que los clasificadores estándar de SVM no funcionan muy bien en datos no balanceados. Lo encontré para el C-SVM y es aún peor para nu-SVM. Tal vez quiera echar un vistazo a P-SVM que ofrece un modo que es especialmente adecuado para datos desequilibrados.

Cuestiones relacionadas