SciELO - Scientific Electronic Library Online

 
vol.18 issue1Regresión PLS y PCA como solución al problema de multicolinealidad en regresión múltipleFuzzy regression vs. ordinary least squares regression: case study author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • Have no similar articlesSimilars in SciELO

Share


Revista de Matemática Teoría y Aplicaciones

Print version ISSN 1409-2433

Rev. Mat vol.18 n.1 San José Jun. 2011

 

Curvas ROC y vecinos cercanos, propuesta de un nuevo algoritmo de condensación

Raquel Jiménez–Padilla*
Carlos Cuevas–Covarrubias

*Centro de Investigación en Estadística y Matemáticas Aplicadas, Universidad Anáhuac, México. E-Mail: dirlem@hotmail.com
†Centro de Investigación en Estadística y Matemáticas Aplicadas, Universidad Anáhuac, México. E-Mail: ccuevas@anahuac.mx

Dirección para correspondencia


Resumen

Los criterios k-NN son algoritmos no paramétricos de clasificación estadística. Son  precisos, versátiles y libres de distirbución. Sin embargo su costo computacional puede  ser demasiado alto; especialmente con tamaños de muestra grandes. Presentamos un  nuevo algoritmo de condensación que, basado en el modelo Binormal para curvas ROC,  permite transformar la base de entrenamiento en un conjunto pequeño de vectores de  baja dimensíón. A diferencia de otras técnicas descritas en la literatura, nuestra  propuesta permite controlar el intercambio de precisión por reducción de la base de  entrenamiento. Un estudio de Monte Carlo muestra que el desempeño del método  popuesto puede ser muy competente, superando en diversos escenarios realistas al de  otros métodos frecuentemente utilizados.

Palabras clave: clasificación estadística, área bajo la curva ROC, modelo binormal,  vecinos cercanos, condensación, Monte Carlo.

Abstract

k-NN criteria are non parametric methods of statistical classificaction. They are  accurate, versatile and distribution free. However, their computational cost may be too expensive; especially for large sample sizes. We present a new condensation algorithm based on the Binormal model for ROC curves. It transforms the training sample into a small set of low dimensional vetors. Contrasting with other condensation techniques described in the literature, our proposal helps to control the exchange of accuracy for condensation on the training sample. The results of a Monte Carlo study show that its performance can be very competitive in different realistic scenarios, resulting in better training samples than other frequently used methods.

Keywords: statistical classification, area under the ROC curve, nearest neighbours, condensation, Monte Carlo.

Mathematics Subject Classification: 62H30.



Ver contenido disponible en pdf


Referencias

[1] Bamber, D. (1975) “The area above the ordinal dominance graph and the area below the receiver operating characteristic graph”, Journal of Mathematical and Statistical Psicology 12(4): 387–415.         [ Links ]

[2] Cuevas-Covarrubias, C. (2003) Statistical Inference for ROC Curves. Tesis de Doctorado, Departamento de Estadística, Universidad de Warwick, Coventry, Reino Unido.         [ Links ]

[3] Cuevas-Covarrubias, C.; Monroy, V.; Ortega, V. (2008) “Aplicación de un  algoritmo k-NN para la gestión del capital humano. Predicción del desempeño y detección de competencias críticas en el desarrollo del personal”, Preprint, Up-Pharma, Ciudad de México, México.         [ Links ]

[4] Dorfman, D.D.; Alf, E. Jr. (1969) “Maximum likelihood estimation of parameters of  signal-detection theory and determination of confidence intervals-rating-method data”, Journal of Mathematical Psychology 6(3): 487–496.         [ Links ]

[5] Guo, G.; Wang, H.; Bell, D.; Bi, Y.; Greer, K. (2003) “KNN modelbased approach in  classification”, in: On The Move to Meaningful Internet Systems 2003: CoopIS, DOA, and ODBASE, Lecture Notes in Computer Science, Volume 2888, Springer, Berlin: 986–996.         [ Links ]

[6] Hand, D.J. (1994) “Assessing classification rules”, Journal of Applied Statistics 21: 3–16.         [ Links ]

[7] Hanley, J.A.; McNeil, B.J. (1982) “The meaning and use of the area under the under a receiver operating characteristic (ROC) curve”, Radiology 143: 29–36.         [ Links ]

[8] Henley, W.E.; Hand, D.J. (1996) “A k-nearest-neighbour classifier for assessing consumer credit risk”, The Statistician, 45(1): 77–95.         [ Links ]

[9] Krzanowski, W.J.; Hand, D.J. (2009) ROC Curves for Continuous Data. Chapman & Hall/CRC, Londres, Reino Unido.         [ Links ]

[10] Zweig, M.H.; Campbell, G. (1993) “Receiver operating characteristic (ROC) plots:  a fundamental evaluation tool in clinical medicine”, Clin. Chem., 39(4): 561–577.         [ Links ]


Correspondencia a: Raquel Jiménez–Padilla. Centro de Investigación en Estadística y Matemáticas Aplicadas, Universidad Anáhuac, México. E-Mail: dirlem@hotmail.com
Carlos Cuevas–Covarrubias. Centro de Investigación en Estadística y Matemáticas Aplicadas, Universidad Anáhuac, México. E-Mail: ccuevas@anahuac.mx

Received: 18 Feb 2010; Revised: 3 Nov 2010; Accepted: 10 Nov 2010


Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License