Introducción
Este estudio presenta la técnica estadística conocida como Teoría de Respuesta al Ítem (TRI), la cual corresponde a un paradigma psicométrico que empieza a usarse más recientemente en nuestro medio. A pesar de sus ventajas con respecto a la metodología de la Teoría Clásica de los Test (TCT) y de estarse investigando desde la época de 1960, principalmente por George Rasch (desde 1960) y posteriormente por Lord y Birnbaum (desde 1968), su origen se encuentra en los modelos de Lazarfeld de 1950 (Cortada de Kohan, 2004). La TRI se presenta en esta investigación con un ejercicio y se aplica en un estudio donde se explora la validez discriminante del Eating Attitudes Test (EAT-40, Garner & Garfinkel, 1979) en su versión española (Castro, Toro, Salamero & Guimerá, 1991).
Teoría de Respuesta al Ítem
La TRI constituye un nuevo enfoque en la teoría de los tests que permite resolver ciertos problemas de medición psicológica inatacables desde la TCT que se ha venido usando desde 1950 (Gulleken, citado por Prieto & Dias, 2003), pero que a pesar de ser un modelo simple y flexible, tiene sus limitaciones. La TRI no contradice ni las asunciones ni las conclusiones fundamentales de la TCT, sino que hace suposiciones adicionales que permiten responder cuestiones que la TCT no puede, y permite construir pruebas más eficientes. También, como se irá viendo, la TRI constituye un giro importante en el acercamiento a la medición en donde se tendrán criterios nuevos (como el uso de gráficos), los cuales eran inapreciables desde la TCT.
El nombre de "Teoría de Respuesta al Ítem" proviene de un enfoque que se basa en las propiedades de los ítems más que en las del test global. Aunque ha sido frecuente en el pasado referirse a la TRI como Teoría o Modelo de Rasgos Latente, en la actualidad la denominación más difundida es TRI, y ello, efectivamente, porque refleja el funcionamiento real del modelo basado en los ítems (Martínez, 2005). Entre las principales propiedades que hacen que la TRI sea mejor que la TCT se encuentran las siguientes (Cortada de Kohan, 2004; Jiménez y Montero, 2013; Martínez, 2005; Montero, 2013):
Muchas veces la información de las habilidades (personas), de las dificultades (ítems) y de una posible interacción entre estas dos primeras, no es tan clara. La TRI brinda una mejor aplicación en este aspecto, lo que se puede denominar como "representación simultánea de habilidades y dificultades"; esto es una clara ventaja de la TRI sobre la TCT.
Las relaciones teóricas no siempre tienen que ser lineales. La TCT asume dicho supuesto, mientras que la TRI no la asume, pero sí lo acepta (es la tercera hipótesis de la TRI). Aunque la realidad muestra que muchas veces no se tienen relaciones lineales, es importante ver que si las tiene, por simplicidad y parsimonia, se debería privilegiar a la TCT.
En la TCT, se supone que los errores son constantes para un mismo instrumento, sin embargo, la experiencia empírica demuestra cosas bastantes diferentes, lo cual la TRI sí lo toma en cuenta.
En la TCT hay una dependencia entre estimaciones de habilidad e ítems de una prueba. Lo deseable sería que, para un mismo número de ítems, las estimaciones de habilidad que se obtengan sean relativamente independientes de los ítems específicos. El enfoque de la TRI incorpora la estimación de habilidad de la calidad de los ítems que han sido abordados y respondidos. Así,
una persona que sólo responde correctamente un subconjunto de preguntas fáciles, obtendrá en este enfoque un menor puntaje que una persona que responde correctamente un mismo número de preguntas que son más difíciles.
Para el análisis de un test, sería deseable que la estimación que se obtuviera de los parámetros de los ítems pudiera ser relativamente independiente de las características de las muestras involucradas en su estimación. Esto es, que dependiente del tipo de ítems, se debe realizar cierto análisis. En la TRI se considera este aspecto, ya que hay tres tipos de parámetros (dificultad, discriminación, azar), pero en la TCT no, pues sólo se provee uno. Esto permite que se haga una separación entre información del ítem y de las personas.
Finalmente, cabe mencionar que el enfoque TRI facilita otra importante aplicación de la teoría de la medición: la posibilidad de hacer comparables las puntuaciones de dos o más instrumentos de medición, gracias a que sus parámetros han sido establecidos en una misma escala y los puntajes estarán expresados en función de esta.
Trastornos de la conducta alimentaria (TCA) y el Eating Attitudes Test (EAT-40)
Las personas con TCA presentan alternaciones graves de la percepción de la forma y el peso del cuerpo, las cuales conllevan conductas de alimentación que impactan negativamente la salud física y el funcionamiento psicológico (American Psychiatric Association [APA], 2000, 2013). La anorexia nerviosa comprende el rechazo a mantener al menos el peso mínimo recomendado, acompañado por un miedo intenso a ganar peso y una alteración de la percepción del peso y la forma del cuerpo. Por su parte, la bulimia nerviosa se distingue por episodios recurrentes de "atracones" seguidos por conductas compensatorias inapropiadas como el vómito, abuso de laxantes y diuréticos, ayuno o ejercicio excesivos (APA, 2000). Levine y Smolak (2010) afirman que la incidencia de los TCA ha mostrado un aumento constante desde 1930, y que geográficamente existe una clara relación entre la prevalencia de anorexia nerviosa de los países y sus índices de modernización y utilización de medios de comunicación de masas. En este contexto, la necesidad de instrumentos de detección temprana de este tipo de trastornos es cada vez más apremiante.
El EAT-40 fue diseñado por Garner y Garfinkel (1979) para evaluar las conductas y actitudes sobre la comida, el peso y el ejercicio relacionados con la anorexia nerviosa. Ha sido ampliamente utilizado en estudios clínicos y epidemiológicos. Además, proporciona un índice del riesgo de desarrollar el trastorno y, gracias a la alta concordancia de sus puntuaciones con el diagnóstico clínico, se considera un buen instrumento para iniciar con el diagnóstico y para detectar casos incipientes de TCA que aún no se han diagnosticado. Por lo anterior, funciona como instrumento de detección temprana en muestras no clínicas (García, 2004), procedimiento también referido como "cribado" o "tamizaje".
Los autores originales del EAT-40 lo crearon con la intención de contar con un instrumento fácil de administrar y corregir, y que resultara sensible a los cambios sintomáticos a lo largo del tiempo. Se considera la herramienta autoadministrada más ampliamente utilizada para la evaluación de la anorexia nerviosa (Garner & Garfinkel, 1979).
El EAT-40 se encuentra validado en España por Castro et al. (1991). Esta versión es la que se utilizó en el presente artículo. Consiste en un inventario autoadministrado, compuesto por 40 ítems que cuentan con seis posibilidades de respuesta, que van desde "nunca" a "siempre". El rango de puntuaciones varía de 0 a 120 en donde, a mayor puntuación, mayor nivel de riesgo de desarrollo de TCA. También existe una versión abreviada de 26 ítems (Garner, Olmsted, Bohr & Garfinkel, 1982). La puntuación total del EAT-40 distingue entre personas con anorexia y población normal, y entre personas con bulimia y población normal, pero no así entre personas con anorexia y personas con bulimia (Bulbena, Berrios & Fernández, 2000; Castro et al., 1991; Garner & Garfinkel, 1979).
Por un lado, el punto de corte propuesto por los autores originales (Garner & Garfinkel, 1979) es de 30, para una sensibilidad del 100% y una especificidad del 93%. Por otro lado, en el estudio de la validación española (Castro et al., 1991), se propuso utilizar un punto de corte de 20, con el cual la sensibilidad fue del 91% y la especificidad se sitúa en 69%. Los autores explican estas diferencias por la menor puntuación media obtenida en las pacientes anoréxicas españolas, posiblemente por su menor edad, frente a las del estudio original.
En la validación del EAT-40, versión castellana (Castro et al., 1991), se utilizaron 78 pacientes mujeres que cumplían criterios DSM-III para anorexia nerviosa y, además, un grupo de comparación compuesto por 78 estudiantes, también de sexo femenino, emparejadas según la edad y el nivel socioeconómico. A todas se les administró el EAT-40 y el Cuestionario de Depresión de Beck (BDI). Una vez recuperadas clínicamente, 27 pacientes completaron de nuevo el EAT-40. Las pacientes con anorexia nerviosa presentaron puntuaciones medias de 45.2 ± 22.8 frente a 18.1 ± 10.4 del grupo control; en los resultados se encontraron diferencias estadísticamente significativas (p< .0001).
Asimismo, en el análisis factorial (con un método de extracción de análisis de componentes principales con rotación Oblimin) se encontraron tres factores que explicaron el 41% de la varianza, a saber: (i) Preocupación por la dieta (autovalor inicial = 11.8, varianza explicada = 29.6%), (ii) Actitudes bulímicas y preocupación por los alimentos (autovalor inicial = 2.3, varianza explicada = 5.8%) y (iii) Control oral (autovalor inicial = 2.3, varianza explicada = 5.6%). El alfa de Cronbach para ambos grupos juntos fue de .93, mientras que para el grupo de pacientes anoréxicas fue de .92. Por su parte, en el análisis factorial de Garner y Garfinkel (1979) (método de extracción de factorización del eje principal con rotación Varimax) se identificaron siete factores: (i) Preocupación por el alimento, (ii) Imagen corporal, (iii) Vómitos y abuso de laxantes, (iv) Dieta, (v) Comer lentamente, (vi) Comer a escondidas y (vii) Percepción de presión social para ganar peso.
En Costa Rica, el EAT-40 ha sido adaptado y sus cualidades psicométricas de validez y confiabilidad han sido sistematizadas en el trabajo de Prado-Calderón y Salazar (2014). En un primer estudio (Salazar, 2008) el EAT-40 fue adaptado al léxico costarricense y se aplicó a 594 adolescentes; el instrumento obtuvo un alfa de .87, el riesgo de desarrollar TCA fue mayor en mujeres (18.6%) que en hombres (7.4%) y correlacionó con la identificación con modelos televisivos (r = .725) y con la insatisfacción con el aspecto físico (r = .562). En un segundo estudio (Salazar, 2012) se compararon las puntuaciones de mujeres con TCA (n = 19) y sin él (n = 533); con lo que se obtuvieron buenas propiedades de discriminación a partir de los puntajes de corte de 30 (sensibilidad 63.2%, especificidad 85.8%) y de 20 (sensibilidad 73.7%, especificidad 71.8%). Finalmente, en el tercer estudio (Prado-Calderón & Salazar, 2014, Estudio 3) se aplicó el EAT-40 a una muestra nacional de adolescentes de ambos sexos (n = 4285); se obtuvo que la prevalencia del riesgo fue de 6.2%, siendo mayor en mujeres (9.4%) que en hombres (2.3%), y los mejores predictores del riesgo en mujeres fueron los malestares psicosomáticos (β = .275) y el nivel de satisfacción con la imagen corporal (β = -.159).
Método
Participantes
En el presente estudio la muestra fue de tipo intencional y estuvo conformada por 556 mujeres del Gran Área Metropolitana con una edad promedio de 17.66 años (DE = 6.65). El 94.59% se encontraron en el rango de edad de 13 a 23 años. La muestra total estuvo conformada por varios grupos de participantes seleccionadas con el fin de obtener mayor variabilidad en las puntuaciones en el EAT-40. El primer grupo correspondió a 19 mujeres (3.4%) diagnosticadas con algún TCA (4 con bulimia y 15 con anorexia) e internadas en hospitales metropolitanos. Los restantes tres grupos estuvieron conformados por 537 mujeres sin diagnóstico de TCA (96.6%) provenientes de colegios (n = 391, 70.3%), universidades (n = 120, 21.6%) o grupos de ballet (n = 26, 4.7%). La edad de las mujeres diagnosticadas (M = 16.58, DE = 2.46) no difirió significativamente de la edad de las mujeres sin diagnóstico (M = 17.31, DE = 3.18, t (550) = .988, p = .324).
Instrumentos
El cuestionario utilizado contenía los ítems sobre información sociodemográfica y la versión del EAT-40 adaptada en el estudio de Salazar (2008).
Procedimiento
Para el caso de la muestra clínica, el cuestionario fue entregado en un sobre sellado y contestado individualmente. Para las mujeres sin diagnóstico de TCA, las aplicaciones fueron grupales en sus aulas de colegio o universidad, o en sus academias. Fue solicitado el consentimiento de cada participante y de sus responsables legales mediante el formulario establecido por el Comité Ético-Científico de la Universidad de Costa Rica. Con esto se buscó asegurar los aspectos de voluntariedad y confidencialidad en la participación de las integrantes de la muestra.
Dado que el porcentaje de valores perdidos fue inferior que un 1%, no se llevó a cabo ninguna técnica para estimarlos. Mediante el análisis de componentes principales se exploró la estructura factorial del instrumento. Se implementó un análisis de TRI con el modelo de un parámetro (Rasch), de tal manera que la estimación de los parámetros de dificultad y de discriminación de las participantes hiciera posible identificar aquellos que causan las diferencias más importantes en el trastorno, clasificando o estableciendo una ordenación a las mujeres desde un elevado riesgo de TCA, hasta sin riesgo de TCA. El procesamiento de datos y análisis estadístico se llevó a cabo mediante los programas SPSS versión 17 para Windows y el WinSteps.
Resultados
En la presente sección de resultados, en una primera parte se muestran las principales estadísticas descriptivas de la población estudiada, luego los resultados del análisis de componentes principales y finalmente, los estadísticos de ajuste del modelo Rasch, el mapa de dificultad para las participantes y las variables, y la discriminación total de la prueba y de algunos ítems de ésta.
Según la clasificación del grupo de estudio en relación con el riesgo de TCA, con base en las puntuaciones del EAT-40, se dan dos categorías. La mayor parte de las participantes (n = 464, 83.5%) obtuvo puntuaciones iguales o menores a 30 en el EAT-40, lo que se interpreta como que no presentaron riesgo de desarrollar un TCA. Por otra parte, 92 participantes (16.5%) sí presentaron puntuaciones mayores a 30 en este test, por lo que se considera que sí presentaron riesgo de TCA.
Respecto a la estructura factorial del EAT-40, el análisis de componentes principales (KMO = .901; Barlett x2 (780) = 6182.058, p< .001) reveló una estructura unifactorial cuyo autovalor inicial fue de 9.87. y que explicó un 24.68% de la varianza. Ocho de los ítems presentaron saturaciones menores a .30, los restantes cargaron con saturaciones entre .324 y .733.
Como se indicó anteriormente, el análisis de la TRIse utilizó en estos grupos para discriminar de la mejor forma a las jóvenes que poseen riesgo de TCA de aquellas que no lo poseen. Mediante este análisis se obtienen modelos más robustos y con mejores estimaciones que con la TCT, ya que las estimaciones se hacen con el método de máxima verosimilitud.
En la utilización de la TRI, se pueden definir tres tipos de modelos para el análisis: el de tres parámetros, el de dos parámetros, y el de un solo parámetro; para el presente caso se utilizó el modelo de un solo parámetro, llamado también Modelo Rasch. Este modelo proviene de la forma matemática de regresión logística, que supone una discriminación constante para cada uno de los reactivos, y que permite entonces comparar y discriminar de la mejor forma tanto las participantes entre ellas, como a nivel de los ítems; así como también los mismos ítems entre estos contra las participantes, utilizando únicamente la dificultad.
Para la discriminación entre personas, el modelo Rasch es considerado una herramienta de mucha utilidad. Vale la pena recalcar que en este estudio es utilizado por primera vez para analizar el EAT-40 en población costarricense.
Ajuste del modelo
Antes de llevar a cabo cualquier tipo de análisis, a fin de no caer en el error de interpretar cierto resultado proveniente de un modelo erróneo, se evaluó si el ajuste del modelo era satisfactorio (Tabla 4). Para esto se observaron los valores de la columna "Cuadro medio de ajuste interno". De acuerdo con los criterios generales, para que el ajuste sea adecuado para su utilización, todos los valores de la columna mencionada deben ser superiores a 0.7 pero inferiores a 1.3. El valor más pequeño que tenemos es de 0.83 y el más grande de 1.11; por lo tanto se concluyó que el presente modelo ajusta de acuerdo con los estándares establecidos y, en consecuencia, se procedió a realizar los diversos análisis del modelo de Rasch .
Mapeo de dificultad
Para poder determinar las diferencias entre las participantes que poseen riesgo de TCA de aquellas que no poseen, el modelo Rasch es capaz de colocar en una misma escala a todas las participantes para poder ver por medio de la dificultad cuáles grupos de participantes se diferencian entre las mismas. Además de la comparación entre las personas, es igualmente importante ver cuáles ítems se diferencian entre estos mismos, y aun más importante es ver cuáles reactivos corresponden a ciertas personas, y si son indicadores para estimar la presencia de riesgo de TCA en las jóvenes (Figura 1).
De acuerdo con la Figura 1, se observa una alta discriminación entre dos grupos de participantes: el primer grupo son las mujeres que no poseen riesgo de TCA (en la parte izquierda de la figura, las que están más abajo señalados con el símbolo #), y el otro grupo son las que poseen riesgo de TCA (el grupo que está señalado todo junto en una fila de #, en la parte superior). Vemos que la discriminación es alta: entre las personas que poseen el riesgo de TCA y aquellas que no, hay un espacio considerablemente largo, lo cual permite separar y entonces discriminar los dos tipos de grupos. Además, y no menos importante, los reactivos del EAT-40 están diseñados para identificar personas con riesgo de TCA; el modelo Rasch tiene la ventaja que para ciertas personas, se les puede asociar un número determinado de ítems que los identifica. Para este caso, las personas que resultaron tener riesgo de TCA se identifican con casi todas las preguntas del test (a la derecha se observa que casi todos los reactivos se asocian con estas personas). Por lo tanto, este es otro argumento que confirma la validez del EAT-40.
Curva característica de la prueba total
Una de las principales ventajas de la TRI con respecto a la TCT son sus herramientas gráficas, que facilitan en gran medida las interpretaciones de los resultados. Para este caso se utilizó la curva de discriminación total de la prueba (los 40 ítems), para conocer en qué medida esta separa a las participantes con riesgo de TCA de aquellas que no lo tienen (Figura 2).
De acuerdo con la Figura 2, vemos que la capacidad de discriminación es muy alta. En efecto, para tener una discriminación perfecta, para un punto dado θ, tenemos una recta totalmente vertical. En este caso, aunque no es totalmente vertical (hay una pequeño levantamiento, además de que la curva se deforma suavemente al subir), el nivel de discriminación no está muy lejos de ello. Este resultado, además del mapa de dificultad discutido anteriormente, es otra evidencia de la validez del EAT-40; el funcionamiento a nivel de detección de las personas con riesgo de TCA se considera como altamente confiable.
Curva de discriminación para los ítems de mayor problema
Finalmente, se discuten las curvas de discriminación para los ítems que causaron más problemas, dada la menor inclinación de la curva característica del ítem (CCI), y de ahí los peores niveles de discriminación. Estos fueron los ítems 13 ("Vomito después de haber comido"), 22 ("Pienso en quemar calorías cuando hago ejercicio"), 25 ("Me preocupa la idea de tener grasa en el cuerpo") y 40 ("Tengo ganas de vomitar después de las comidas"). De acuerdo con las curvas de discriminación para estos ítems, aunque son las peores curvas de discriminación con respecto al resto de las preguntas del EAT-40, sus representaciones para discriminar no son deficientes y aportan validez discriminante a la prueba total (Figuras 3, 4 , 5 y 6 ).
Discusión
Los principales resultados del análisis muestran que fue pertinente utilizar el modelo TRI de un parámetro tanto a nivel del ajuste del modelo, como en la discriminación de las participantes: el EAT-40 obtuvo una alta capacidad de diferenciación entre las personas con riesgo de TCA de aquellas que no lo poseían. La curva característica de la prueba, así como la de los ítems que poseían las curvas de menor discriminación, indican que en todos los casos las preguntas del EAT-40 presentan alta capacidad discriminante.
Asimismo, es importante señalar como una dificultad de la investigación, el reducido número de casos de personas diagnosticadas clínicamente con TCA. En nuestra investigación, estos casos fueron necesarios no para comparar la muestra clínica con el resto de participantes, sino para aumentar la variabilidad de las puntuaciones del EAT-40. Para obtener estos casos se utilizaron los datos de las pacientes internas o de consulta externa de tres hospitales de San José, Costa Rica, con su debido consentimiento informado y en un periodo de tres meses se logró contar con ese número de casos.
Las investigaciones en otros países con adolescentes, y principalmente en zonas industrializadas, señalan que los TCA han tenido en los últimos años un alto crecimiento en las mujeres y se encuentran muy cerca de definirse como epidemia social (Anderson-Fye & Becker, 2004; Beach, 1996; Gordon, 1990 citados en Zeledón, 2004; Rozenzweig & Spruill, 1987). Una gran cantidad de investigaciones han estimado su prevalencia del 1% al 8% de la población femenina (Abraham & Llewellyn-Jones, 1992; APA, 2000; Fairbun & Beglin, 1990; Hoek, 1993; Rand & Kuldau, 1992) y del 4.5% al 13% en estudios de comunidades modelos (Bhugra & Bhui, 2003; Halmi, Falk & Schwartz, 1980; Pyle et al., 1983). Sin embargo, los profesionales de la salud consideran que los números de prevalencia reales deben ser mucho mayores, pues quienes padecen estos trastornos tienden a esconderlos.
Esta situación se pudo apreciar en la presente investigación, donde se ve que los pocos casos que llegan a los hospitales centrales del país contrastan con las cifras determinadas en varios estudios. Por ejemplo, las investigaciones de Salazar (2010) y Rosabal (2005) arrogan niveles de prevalencia de riesgo de TCA de entre 19% y 20% en jóvenes del Área Metropolitana. De igual manera, en el estudio de Salazar y Prado-Calderón (2013) se observó cómo docentes de colegios de todo el país reportan casos, comentan la gravedad del problema, y solicitan tratamientos y programas de prevención. Asimismo, Prado-Calderón y Salazar (2014, Estudio 3) reportaron un 9.4% de prevalencia del riesgo de TCA en una muestra nacional de adolescentes escolarizadas.
A pesar de lo anterior, los resultados obtenidos en este estudio nos aportan evidencias de la validez del instrumento como una herramienta válida para discriminar la presencia del riesgo de TCA en mujeres jóvenes. El estudio realizado al EAT-40 utilizando el análisis de la TRI con el modelo Rasch es un ejemplo de las ventajas de utilizar este método. De este modo, se convierte en una herramienta válida para la investigación y creación de pruebas que permite construir instrumentos más adecuados y eficientes, principalmente en temas tan difíciles de estimar como la salud. Precisamente, John Michael Linacre (1998), en el Foro Nacional de Evaluación Educativa, presenta el tema del diseño de mejores pruebas utilizando la Técnica de Rasch. En este foro el autor expone que esta técnica resuelve el problema de las puntuaciones totales del test y abre las puertas a la solución de otros problemas. Asimismo, ofrece la siguiente reflexión:
"Mientras mejor entienda el diseñador de una máquina a la Ley del Movimiento, mejor será su máquina. Mientras mejor entienda el constructor de pruebas al modelo de Rasch, mejor será la prueba" (Linacre, 1998, párr. 21).