Selección de Rasgos

 
 

 

 
          

Un hecho innegable por todo ser humano es que con el paso del tiempo las fronteras de la ciencia incesantemente han sido redefinidas gracias a los sorprendentes adelantos tanto en la capacidad de almacenamiento como de procesamiento de los equipos de cómputo. Sin duda alguna, los avances en el aprovechamiento de distintos materiales semiconductores se han hecho evidentes en la fabricación de microprocesadores de altas prestaciones que permiten la ejecución de algoritmos cada vez más complejos [1]. Sin embargo, en diversas áreas del quehacer humano relacionadas con la extracción de conocimiento (knowledge discovery) y el aprendizaje automático (machine learning), el desempeño de los modelos matemáticos implementados en equipos de cómputo puede verse afectado no solo por la dimensionalidad de los datos, sino también por la existencia de información redundante o irrelevante que dificulta el procesamiento de la misma [2].

Generalmente, para llevar a cabo tareas de aprendizaje automático, los patrones (instancias) se representan como un conjunto de valores dispuestos a manera de tabla; donde cada instancia es descrita por un número fijo de características (rasgos) [3]. Típicamente, para estimar el desempeño de un algoritmo de aprendizaje automático se requieren dos conjuntos de datos: conjunto de entrenamiento y conjunto de prueba. El conjunto de entrenamiento es utilizado para inducir conocimiento, mientras que el conjunto de prueba es utilizado para evaluar la precisión alcanzada por la generalización de dicha inducción. De esta forma, para estimar la precisión predictiva alcanzada sobre instancias desconocidas, se requiere un algoritmo de clasificación (clasificador).

Un clasificador óptimo es equivalente a una búsqueda directa en una tabla (table lookup); la cual puede ser formulada en términos de distribuciones de probabilidad aplicando el análisis Bayesiano [4]. Matemáticamente hablando, el criterio de búsqueda en una tabla consiste en seleccionar la clase cuya probabilidad a posteriori sea máxima para un patrón cualquiera. Dado que, dicho patrón puede tener una representación multidimensional y además, cada uno de los rasgos puede ser considerado de manera univariable o multivariable, la búsqueda del mejor subconjunto de rasgos dentro del espacio total de soluciones hace que este enfoque sea impráctico para reducir dimensionalmente un problema; especialmente, cuando el numero de características presentes en cada patrón es elevado [5]. Conjuntamente, existe otro obstáculo para la aplicación del enfoque Bayesiano para la selección de rasgos, a saber: el número de instancias disponibles generalmente es insuficiente para obtener una estimación adecuada de la distribución de probabilidad [6]. Además, desde la perspectiva de clasificación Bayesiana, no es posible obtener una representación dimensionalmente menor de los datos puesto que la eliminación de información no asegura un incremento en la precisión predictiva [7].

Otra vertiente que surge del análisis probabilístico consiste en la construcción de árboles de decisión a partir de criterios de incertidumbre en los datos; donde la estimación de la contribución de cada rasgo sobre un criterio previamente establecido da lugar a la formación de un nuevo nodo, modificando así la estructura del árbol [8]. Algunos autores han propuesto el uso de funciones de base radial para identificar información irrelevante en los datos [9], mientras que en otros trabajos se ha sugerido el uso de diversas métricas (basadas en distancias, dependencia o consistencia) no solo para cuantificar el grado de correlación entre dos variables [10], sino también para identificar información redundante [11]. Sin embargo, desde la perspectiva de eficiencia de este enfoque para obtener subconjuntos de datos equivalentes, emergen varios obstáculos relacionados tanto con el manejo de los rasgos de manera univariable [12], así como con el manejo de datos continuos [13], e incluso con el manejo de valores faltantes [14].

El enfoque neuronal para la selección de rasgos surge a partir de los modelos basados en el Perceptron de una sola capa [15]. En su concepción más simple, un Perceptron de una sola neurona funciona como una unidad lineal de umbralizado (linear threshold unit); la cual es capaz de llevar a cabo tareas de clasificación de fenómenos biclase. Cada neurona de salida es capaz de dividir el espacio de entradas en dos regiones claramente identificables: la primera de ellas contiene las entradas que habilitan la unidad de umbralizado, mientras que la segunda contiene las entradas que la inhiben [16]; por consiguiente, para poder llevar a cabo tareas de clasificación en espacios multiclase, se requiere un mayor número de neuronas de salida. Las conexiones existentes entre neuronas de entrada y de salida son representadas por pesos; por ende, para poder obtener representaciones dimensionalmente menores de los datos es necesario conocer previamente el valor de los pesos que maximizan la precisión predictiva [17].

Algunos autores argumentan que, cuando se busca obtener representaciones dimensionalmente menores de los datos para un algoritmo de clasificación en particular, la precisión predictiva es el parámetro idóneo para estimar el desempeño alcanzado con cada subconjunto de rasgos propuesto [18]; empero, cuando se tienen patrones de entrenamiento altamente dimensionales, los costos computacionales asociados a la búsqueda de un subconjunto de rasgos que maximice la precisión predictiva para dicho clasificador, pueden ser elevados [19]. Siguiendo la dirección diametralmente opuesta respecto al criterio empleado para reducir dimensionalmente un problema, diferentes trabajos sugieren que la selección de rasgos debe llevarse a cabo independientemente del algoritmo de clasificación [20]; lo cual conlleva a la estimación indirecta del desempeño mediante métricas basadas en distancias [21] o criterios de incertidumbre en la información [22].

Independientemente del enfoque utilizado para estimar las contribuciones de cada rasgo sobre un criterio previamente establecido, cada algoritmo de clasificación alcanza diferentes índices de precisión predictiva en dependencia con el conjunto de rasgos utilizados durante la fase de aprendizaje [23]; de esta manera, las reglas de selección inducidas durante la fase de entrenamiento dependen del modo como se consideren los datos (univariable o multivariable) para la construcción del clasificador [24].

Se recomienda al amable lector que continúe en cualquiera de las siguientes secciones:
Memorias Asociativas: Alfa-Beta y Morfológicas, Clasificadores de Patrones: Asociativos y k-NN o Redes Neuronales: Alfa-Beta y Morfológicas.

 

Referencias

[1] Yang, F. & Paindavoine, M. (2003). Implementation of an RBF Neural Network
    on Embedded Systems: Real-Time Face Tracking and Identity Verification. 
    IEEE Transactions on Neural Networks, 14, 5, 1162-1175.
[2] Dietterich, T. G. (1995). Overfitting and under-computing in machine learning. 
    Computing Surveys, 27, 3, 326-327.
[3] Liu, H. & Motoda, H. (1998). Feature transformation and subset selection. 
    IEEE Intelligent Systems, 13, 2, 26-28.
[4] Ben-Basat, M. (1982). Use of distance measures, information measures and 
    error bounds in feature evaluation. In Handbook of statistics-II: Classification, 
    Pattern Recognition and Reduction of Dimensionality (pp. 773-791). 
    North-Holland Publishing Company.
[5] Jiang, L. & Zhang, H. (2006). Learning Naive Bayes for Probability Estimation 
    by Feature Selection. Lecture Notes in Computer Science, 4013, 503-514.
[6] Dietterich, T. G. (1997). Machine learning research: Four current directions. 
    AI Magazine, 18, 4, 97-136.
[7] Jain, A. K., Duin, R. P. W. & Mao, J. (2000). Statistical Pattern Recognition: A Review. 
    IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, 1, 4-37.
[8] Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning, 1, 1, 81-106.
[9] Banfield, R. E., Hall, L. O., Bowyer, K. W. & Kegelmeyer, W. P. (2007). 
    A Comparison of Decision Tree Ensemble Creation Techniques. IEEE Transactions on 
    Pattern Analysis and Machine Intelligence, 29, 1, 173-180.
[10] Breiman, L. (2001). Random Forests. Machine Learning, 45, 1, 5-32.
[11] Dietterich, T. G. (2000). An experimental comparison of three methods for 
     constructing ensembles of decision trees: Bagging, boosting and randomization. 
     Machine Learning, 40, 2, 139-157.
[12] Ho, T. K. (1998). The random subspace method for constructing decision forests. 
     IEEE Transactions on Pattern Analysis and Machine Intelligence, 20, 8, 832-844.
[13] Mingers, J. (1989). An Empirical Comparison of Selection Measures for 
     Decision Tree Induction. Machine Learning, 3, 4, 319-342.
[14] Mingers, J. (1989). An Empirical Comparison of Pruning Methods for 
     Decision Tree Induction. Machine Learning, 4, 2, 227-243.
[15] Hagan, M. T., Demuth, H. B. & Beale, M. H. (1996). Neural Network Design. 
     PWS Publishing Company.
[16] Hecht-Nielsen, R. (1990). Neurocomputing. Reading, MA: Addison-Wesley.
[17] Gasca, E., Sánchez, J. S. & Alonso, R. (2006). Eliminating redundancy and 
     irrelevance using a new MLP-based feature selection method. 
     Pattern Recognition, 39, 313- 315.
[18] Kohavi, R. & John, G. H. (1997). Wrappers for Feature Subset Selection. 
     Artificial Intelligence, 97, 273-324.
[19] Guyon, I. & Elisseeff, A. (2003). An introduction to variable and feature selection. 
     Journal of Machine Learning Research, 3, 1157-1182.
[20] Last, M., Kandel, A. & Maimon, O. (2001). Information-theoretic algorithm for 
     feature selection. Pattern Recognition Letters, 22, 799-811.
[21] Kira, K. & Rendell, L.A. (1992). The feature selection problem: traditional methods 
     and a new algorithm. In Proceedings of the Tenth National Conference on 
     Artificial Intelligence (pp. 129-134). MIT Press.
[22] Almuallim, H. & Dietterich, T. G. (1994). Learning Boolean Concepts in the 
     Presence of Many Irrelevant Features. Artificial Intelligence, 69, 279-305.
[23] Kohavi, R. (1995). A Study of Cross-Validation and Bootstrap for Accuracy Estimation and 
     Model Selection. In Proceedings of the 1995 International Joint Conference on AI 
     (pp. 1137-1145).
[24] Reunanen, J. (2003). Overfitting in Making Comparisons Between Variable Selection Methods. 
     Journal of Machine Learning Research, 3, 1371-1382.
          
 

 

 

[INICIO] [INVESTIGACIÓN] [TRABAJOS] [CONTACTO] [VÍNCULOS] [MAPA DE SITIO]

 

webmaster@aldape.org.mx