El empleo de pruebas psicológicas se presenta como una práctica necesaria en el ejercicio de la Psicología al comprender una diversidad de finalidades, como cuando se trata de establecer un diagnóstico, plantear objetivos terapéuticos, proponer un plan o conocer la eficacia de un tratamiento, realizar seguimiento, evaluar la aptitud de una persona para cubrir un puesto laboral, orientar a estudiantes en la búsqueda vocacional, realizar pericias judiciales o llevar adelante una investigación. Así, la selección y el uso de pruebas se realiza, muchas veces, sin considerar el país o la región de origen del test seleccionado, lo que puede generar repercusiones en los resultados e interpretaciones de las puntuaciones. En este sentido, es pertinente que el profesional contemple algunas consideraciones, al respecto, como son la adaptación y la tipificación disponibles de las pruebas que utiliza.
Conforme a lo expuesto por Seisdedos (2000), los procesos de adaptación y de tipificación de un test involucran acciones que sus constructores y las personas profesionales que lo emplean deben realizar con mucho cuidado a fin de evitar la pérdida de validez y/o de confiabilidad de la prueba.
El concepto de adaptación parece obvio cuando se piensa que un test debe adecuar sus contenidos e instrucciones a los sujetos a los que va destinado; así lo tiene en cuenta el autor que adapta el material de los elementos, su lenguaje y su dificultad a esos sujetos. Sin embargo, esta consideración puede olvidarse cuando el test proviene de otra cultura o de otra lengua; si procede de otra cultura, pero con igual lengua, a veces, se pasa por alto que el lenguaje o las situaciones que plantea no son exactamente los mismos en ambos contextos culturales; si en la cultura de origen del test nació con otra lengua, el traslado/traducción del test al país de destino exige algo más que una buena traducción literal de los contenidos de los elementos; es necesaria una buena adaptación, y en ocasiones tan laboriosa y costosa como lo fueron las fases de su primitiva construcción. (Seisdedos, 2000, p. 39).
La adaptación de un test es un proceso que se efectúa mediante diferentes etapas al involucrar un “proceso iterativo de generación de la versión del test en la población destino” (Elosua et al., 2014, p.119). Requiere de la participación de expertos (tras la realización de al menos dos traducciones), que deben verificar la equivalencia gramatical y semántica, la relevancia cultural, la adecuación lingüística, el formato y el diseño para luego proseguir con la prueba piloto, la validación y la baremación de la herramienta que se pretende adaptar, la cual deberá enmarcarse legalmente, considerar aspectos éticos y cumplimentar criterios psicométricos (Elosua et al., 2014). Por su parte, la tipificación es el proceso que se lleva adelante para establecer las normas de un test, que luego permite la interpretación de los resultados obtenidos por un individuo, en comparación con un grupo normativo (Yela, 1996); en otras palabras, la tipificación posibilita el establecimiento de los baremos de un test (Seisdedos, 2000).
Cabe destacar que comparar el desempeño de un individuo en una prueba estandarizada precisa contemplar que este forma parte de una determinada cultura que, muchas veces, es muy distinta a la del país de origen del test y por ello deja de lado algunas de las características propias del individuo evaluado (Romero, 2011). Entonces, cuando el profesional decide utilizar tests provenientes de otra región o país, debe considerar las características socioculturales de la población en la que pretende aplicarlo, pues es reconocida la influencia que el entorno puede tener en el ser humano; en este sentido, entran en escena la adaptación y la tipificación del instrumento por administrar, si se pretenden resultados legítimos y representativos de la muestra evaluada (Espósito et al., 2018).
Mendoza (2017) señala que en Honduras el uso de los test psicológicos es habitual, pero sus baremos son débiles u obsoletos, lo que deriva en interpretaciones y pronósticos desacertados, porque las valoraciones se efectúan al tomar datos normativos establecidos para la misma población ya desactualizados o baremos construidos en relación con otras poblaciones con características socioculturales disímiles. En sintonía, Elosua et al.(2014) plantean que generalizar un constructo de una cultura a otras es un error, porque los diferentes constructos psicológicos no son universales, sino que están influenciados por las peculiaridades de cada contexto sociocultural; en este punto, la variable Capacidad Intelectual (CI) derivada del constructo inteligencia también requiere dicha consideración, en tanto que la inteligencia puede definirse como “la capacidad de un individuo para actuar con una finalidad, pensar racionalmente y relacionarse adecuadamente con el entorno” (Wechsler, 1944, p.3).
La medición de la inteligencia ha sido foco de interés desde el inicio del desarrollo de las pruebas psicométricas; en este marco, las Escalas de Inteligencia de Wechsler (WISC) se han convertido en un instrumento muy utilizado en los ámbitos clínico y educacional, porque evidenciaron índices de validez y confiabilidad apropiados, además de proveer una elevada precisión en la valoración de las capacidades cognitivas y en el establecimiento de CI, así como por la posibilidad que brinda de establecer perfiles cognitivos (ver por ejemplo Fenollar-Cortés et al., 2015). En este sentido, las Escalas de Inteligencia de Wechsler tienen su origen en Estados Unidos con su versión más reciente en 2014, constituyendo la WISC-V (Wechsler, 2015), la cual cuenta con adaptaciones en España (Hernandez et al., 2015) y en Chile (Rosas & Pizarro, 2018). Mientras que, en su edición anterior, la WISC-IV cuenta con adaptación no solo para Estados Unidos y España, sino que también se encuentran disponibles datos normativos para México (Mendoza et al., 2007) y para Argentina (Taborda et al., 2011) al presentar buenas propiedades psicométricas.
Cabe destacar que la relevancia que posee la escala como instrumento de valoración cognitiva en los ámbitos clínico y educacional se evidencia en diferentes estudios, que han sometido a la WISC-IV a algún tipo de análisis. En este punto, Marín et al. (2016) evaluaron la validez de constructo en una muestra brasileña, mientras que en otro estudio se documentó su validez estructural para la evaluación de escolares mexicanos indígenas (Fernandez et al., 2019); a la vez, en Bolivia, se confeccionó un manual de aplicación y corrección adaptado al país (Ministerio de Educación de Bolivia [MEB], 2016). Además, en Colombia, Mejía (2012) comprobó la confiabilidad de la escala al utilizar baremos españoles en una muestra reducida (n = 40); mientras que Carreño (2014) estudió la pertinencia de uso de las versiones establecidas para México y Estados Unidos para la interpretación de la WISC-IV en la población colombiana, porque en el país no ha sido estandarizada; se concluye que ninguna de ellas es más apropiada que la otra, pero que ante la valoración cognitiva de un/a niño/a colombiano/a la mejor alternativa resulta ser la adaptación estadounidense. Por su parte, Brenlla (2013) realizó un análisis factorial confirmatorio de la adaptación argentina de la WISC-IV (Taborda et al., 2011). Se reporta que este instrumento evalúa los mismos constructos en los diferentes rangos de edad (6-16 años); al mismo tiempo, señala una limitación importante en la consideración de la muestra, pues la población involucrada solo representa un 32% de la población total de la Argentina, no se incluyen otras regiones; limitación que se convierte en punto de partida para emprender la estandarización de la WISC-IV en otras zonas del mismo país, porque “es importante notar no solo las similitudes sino también las discrepancias respecto de las habilidades cognitivas subyacentes en distintas culturas” (Brenlla, 2013, p.195).
En esta investigación, el foco de interés fue puesto en la adaptación argentina de la WISC-IV, cuyos baremos fueron establecidos a partir de una muestra estratificada y compuesta por 1444 participantes de 6 a 16 años pertenecientes al área Metropolitana de Buenos Aires (AMBA) (Taborda et al., 2011). No se abarcó el resto de la provincia. Sin embargo, Argentina presenta particularidades regionales a lo largo de su extensión, tal y como quedó documentado en el último Censo Nacional de Población, Hogar y Vivienda (INDEC, 2010). Particularmente, se evidencian diferencias importantes en aspectos relacionados con la educación, la ocupación (e.g., tasas de empleo y desocupación), las características de los hogares y viviendas (e.g., hacinamiento, cantidad de viviendas deficitarias), servicios básicos (e.g., disponibilidad de servicio de agua de red, disponibilidad de desagüe cloacal, disponibilidad de gas de red) y de tecnología (e.g., disponibilidad de computadora).
Conforme a lo precedentemente expuesto, las interrogantes que dieron curso a este estudio fueron las siguientes: ¿Los datos normativos establecidos para el AMBA resultan representativos para otras regiones del país? ¿La adaptación argentina es válida para todas las provincias del país, aún cuando solo se han evaluado niños/as del AMBA para su establecimiento? En este sentido, tanto en el ámbito clínico como en el educacional, ¿es pertinente interpretar los resultados de la WISC-IV de un/a niño/a de la provincia del Chaco con baremos establecidos para el AMBA? ¿El perfil cognitivo de ese/a niño/a será representativo de sus capacidades cognitivas? ¿Se estarán evaluando dichas capacidades cognitivas sin caer en errores de interpretación en cuanto a sub o sobreestimarlas?
La revisión de antecedentes relacionados a estos interrogantes permiten observar que el contexto y las características sociodemográficas, culturales y económicas poseen algún tipo de incidencia en las aptitudes cognitivas. Dicho aspecto queda evidenciado en estudios realizados con poblaciones de diferentes regiones que inclusive cuentan con adaptaciones de la WISC para sus países, como en el caso de Chile, donde Rodríguez et al.(2019) aplicaron la WISC-V y observaron que el funcionamiento cognitivo de los escolares rurales en cuanto a las habilidades de razonamiento fluido, razonamiento visoespacial y velocidad de procesamiento es similar a los niños de nivel socioeconómico medio y bajo de la zona urbana. Se hallaron diferencias estadísticamente significativas en razonamiento verbal entre los escolares rurales y los urbanos de nivel socioeconómico medio y alto. También, en México, Yañez et al. (2020) administraron la WISC (en su cuarta edición) a niños de 6 a 12 años, con diferentes características socioeconómicas (precarias, de mayor y de menor vulnerabilidad social). Se encontró que existen correlaciones negativas para con el desempeño cognitivo; también, Villareal et al. (2016) estudiaron el desempeño cognitivo de niños/as pertenecientes a una comunidad indígena. Se concluyó que el uso de los baremos estandarizados para México los deja en desventaja, dado que no contemplan los factores culturales y riesgos contextuales de estas comunidades (vivienda en zona rural, escasos ingresos, baja escolaridad, etc.). Por su parte, Gallo (2009) ha observado una elevada frecuencia de sujetos colombianos con CI por debajo del promedio y le atribuyó la diferencia de rendimiento cognitivo a la ausencia de estandarización de la WISC-IV para Colombia. Esta observación permitiría suponer la necesidad de contemplar los factores contextuales en su interpretación. Además, en Argentina, tiempo atrás, Contini (1999) evaluó a niños/as de diferentes niveles socioeconómicos con la WISC-III. Sentó un precedente interesante para el país, porque en su estudio determinó que el desempeño cognitivo se presentaría como el reflejo de las condiciones culturales más que una medida de sus habilidades intelectuales, dado que un elevado número de casos pertenecientes a un estrato socioeconómico bajo obtuvieron CI equivalente a categorías limítrofe e intelectualmente deficiente, mientras que en niveles socioculturales medio y/o alto los niños lograron puntuaciones CI elevadas.
Conforme a lo dicho, se considera que la estandarización de pruebas psicológicas en una determinada región constituye no solo un requerimiento de validez y confiabilidad, sino también involucra un aspecto ético-profesional necesario para evaluar a un sujeto de modo apropiado y se evita perjuicio alguno en cuanto a las valoraciones de sus resultados. Tal y como se recogen en las directrices establecidas por la International Test Commission (2014), en relación con el uso ético de los test y a su utilización adecuada.
Este estudio intenta aportar a la importancia de adaptar las pruebas psicológicas para la población destino. Para ello, se ha considerado la Escala WISC-IV por ser una herramienta de evaluación frecuentemente utilizada en el ámbito clínico y educacional para la valoración de CI, como así también para el establecimiento de perfiles cognitivos. Por tanto, el objetivo de esta investigación fue determinar la importancia de contar con baremos adaptados de la Escala WISC-IV para diferentes regiones de un mismo país. Se procuró analizar la presencia/ausencia de diferencias entre los resultados corregidos según diferentes baremos argentinos (Buenos Aires y Resistencia). Además, se estableció como hipótesis que se encontrarían diferencias estadísticamente significativas en las puntuaciones índices de la WISC-IV, según la corrección se realice con el baremo de Buenos Aires o de Resistencia.
Diseño
Se emprendió una investigación cuantitativa, no experimental, de alcance exploratorio-descriptivo.
Participantes
La muestra estuvo compuesta por 520 niños y adolescentes (261 mujeres), quienes asistían a diferentes establecimientos educativos en la ciudad de Resistencia (Chaco, Argentina). Los criterios de inclusión fueron los siguientes: (a) Pertenecer a una institución escolar de la ciudad de Resistencia, de gestión pública o privada, situada en una zona urbana o periférica; y (b) tener entre 6 y 14 años edad. Para todos los sujetos participantes, se obtuvo el consentimiento informado de parte de los padres o tutores.
Instrumento
La recolección de los datos se realizó mediante el uso de la WISC-IV. Dicha escala permite la valoración del funcionamiento intelectual general (CIT) en sujetos de 6 a 16 años. Además, posibilita obtener cuatro puntuaciones compuestas o índices: Comprensión Verbal (ICV), Razonamiento Perceptivo (IRP), Memoria Operativa (IMO) y Velocidad de Procesamiento (IVP), que involucran diferentes habilidades cognitivas. El ICV se compone por las subpruebas verbales de semejanzas, vocabulario y comprensión (y las opcionales información y adivinanzas), que posibilitan la valoración de razonamiento, comprensión y formación de conceptos. El IRP se compone por los subtest Construcción con Cubos, Conceptos y Matrices (y Completamiento de Figuras como opcional), que miden organización y razonamiento perceptivo como su nombre lo indica. El IMO involucra las pruebas de Retención de Dígitos, Letras y Números, y el subtest optativo Aritmética; permiten evaluar atención, concentración y memoria de trabajo. El IVP incluye los subtest de Claves y Búsqueda de Símbolos, (y Animales como opcional) y evalúan la velocidad de procesamiento grafomotor y mental (Wechsler, 2011).
En este estudio se administraron los subtest obligatorios, que permitieron la obtención de los diferentes índices. No se aplicaron los test optativos, que, si bien extienden el rango de las aptitudes cognitivas medidas, no contribuyen al objetivo de este estudio. Las puntuaciones compuestas o índices posibilitan una valoración cualitativa del rendimiento del sujeto en comparación a sus pares de edad. De este modo, si el sujeto obtuvo CI ≥ 130 su rendimiento se interpreta como muy superior; si el CI obtenido oscila entre 120 y 129 debe clasificarse como superior; si el CI oscila entre 110 y 119 se interpreta como medio alto; si el CI oscila entre 90 y 109 se interpreta como medio; si el CI se encuentra entre 80 y 89 como medio bajo; si el CI obtenido está dentro del rango 70-79 como inferior y si el CI obtenido es ≤ 69 se considera como extremadamente bajo (Wechsler, 2011).
Sobre la baremación de la WISC-IV en Argentina, realizada en una muestra de niños y adolescentes de la ciudad capital del país (Área Metropolitana de Buenos Aires) Taborda et al. (2011), se reportaron valores satisfactorios en relación con los coeficientes de fiabilidad de consistencia interna; los coeficientes se encontraron dentro del rango 0.74 - 0.88 para los subtests, mientras que oscilaron entre 0.86 - 0.95 para las puntuaciones compuestas. Los coeficientes de la estabilidad test-retest obtenidos se encontraron dentro del rango 0.70 - 0.86 para los subtest, mientras que variaron entre 0.76 - 0.89 para las puntuaciones compuestas; además, los coeficientes referidos al acuerdo entre calificadores independientes resultaron ser elevados (0.96 - 0.99) (Taborda et. al., 2011). Estos valores son similares a los encontrados en la baremación realizada en la ciudad de Resistencia. Específicamente, los coeficientes de fiabilidad promedio de los subtests de la WISC-IV se situaron dentro del rango 0.78 - 0.89, mientras que para las puntuaciones compuestas oscilaron entre 0.91 - 0.94.
Procedimiento
Este estudio se desprende de un proyecto de investigación más amplio denominado “Baremación de la Escala de Inteligencia para Niños de Wechsler-IV para Resistencia-Chaco”(Muchiut et al., 2014- 2019), cuyo objetivo fue el establecimiento de los baremos para la ciudad de Resistencia. Participaron 520 sujetos de diferentes edades (de 6 a 14 años), a los que estudiantes avanzados de la Licenciatura en Psicología y Licenciados en Psicología administraron individualmente la escala en los establecimientos escolares (privados y públicos), previa obtención de permisos y consentimientos correspondientes. Recabados los datos, se analizaron y se establecieron los baremos.
A los fines de este estudio, se utilizaron las puntuaciones compuestas de los índices de la WISC- IV a la luz de dos baremos correspondientes a dos regiones diferentes de Argentina (i.e., Buenos Aires y Resistencia); es decir, para cada participante se obtuvo la puntuación compuesta de cada índice según el baremo de Buenos Aires y de Resistencia. Luego, se conformaron tres grupos según rango de edad: 6-8 años, 9-11 años y 12-14 años. El tamaño de la muestra se redujo por las siguientes causas: (a) ausencia de fecha de nacimiento exacta (n = 36), (b) obtención de una puntuación CIT inferior a 65 (n = 9) y (c) obtención de una puntuación en el índice y grupo de edad evaluado equivalente a un z score mayor a 3 o inferior a -3 (IRP. 6-8 años: 3; 12-14 años: 1. IMO. 19-11 años: 1; 12-14 años: 1. IVP. 6-8 años: 1; CIT. 6-8 años: 1). Obtenidos los datos, el procesamiento estadístico se realizó con los programas IBM SPSS Statistics (versión 21.0) y Matlab (versión R2016a), se establecieron descriptivos y se realizaron los análisis de varianza.
Plan de análisis
Se evaluaron los supuestos de normalidad y homocedasticidad de cada una de las variables. La normalidad se evaluó mediante la observación de los histogramas, el cálculo de los descriptivos asimetría y curtosis, y la aplicación de la prueba de hipótesis Shapiro-Wilk para cada una de las puntuaciones compuestas pertenecientes a cada uno de los grupos de estudio (i.e., Edad: : 6-8 años, 9-11 años, 12-14 años x Baremo: Buenos Aires, y Resistencia).Además, se evaluó la homogeneidad de varianzas en el factor inter-sujeto (i.e., Edad) para cada una de las puntuaciones compuestas y tipo de baremo mediante la prueba de Levene.
Descriptivos
Se calculó la media, la desviación estándar, la mediana y los cuartiles 1 y 3 de cada una de las puntuaciones compuestas de la WISC-IV según el tipo de baremo y grupo de edad de los participantes.
Análisis de varianza.
Para explorar la existencia de diferencias en las puntuaciones de la WISC-IV, según el tipo de baremo aplicado y grupo de edad de los participantes, se realizó un ANOVA de diseño mixto 2 (Baremo: Buenos Aires, y Resistencia) x 3 (Edad: 6-8 años, 9-11 años, 12-14 años), con Baremo como factor intra-sujeto para cada una de las puntuaciones compuestas de la WISC-IV (i.e., CIT, ICV, IRP, IMO, y IVP). Por último, los intervalos de confianza de los contrastes por pares se ajustaron con la prueba para comparaciones múltiples Sidak (SPSS Statistics 21.0).
Aspectos éticos
En este estudio se tuvo presente, en primer lugar, lo establecido en la Ley de Protección Integral de los Derechos de las Niñas, Niños y Adolescentes N.° 26061 (Honorable Congreso de la Nación Argentina, 2005). En segundo lugar, lo reglamentado en el Código de Ética [C. E] de la Federación de Psicólogos de la República Argentina [Fe.P.R.A] aprobado en 1999 y modificado en 2013, para la Investigación (sección 4) y la Divulgación y Publicaciones (sección 6). En tercer lugar, la obtención de los respectivos consentimientos informados por parte de los tutores de los participantes y el resguardo de toda información identificatoria. Se consideró el respeto de los Derechos Humanos durante todo el proceso de investigación.
Resultados
Análisis de normalidad y de homocedasticidad de las varianzas
En primer lugar, se analizó la normalidad a partir de gráficos. En el Apéndice A se representa la distribución de los datos mediante un histograma, junto al gráfico de densidad normal estimado a partir de los datos para cada puntuación compuesta y grupo de estudio. Se puede observar que, en la mayoría de los histogramas, gran parte de los casos se encuentran dentro de su curva de densidad normal, lo cual podría sugerir que los datos se distribuyen normalmente. En segundo lugar, se evaluó la normalidad de los datos mediante los estadísticos descriptivos asimetría y curtosis. Los coeficientes de asimetría se situaron en un rango entre -0.473 y 0.321 (ver más detalles en Apéndice B); es decir, estuvieron dentro de un intervalo cercano a 0, lo cual indicaría una distribución de los datos bastante simétrica (Bulmer, 1979). Además, los coeficientes de curtosis oscilaron entre -0.664 y 0.874, lo cual indicaría una distribución de los datos alrededor de la media que no se alejaría significativamente de una distribución normal (Bulmer, 1979), dado que se encuentran dentro del intervalo -1:1. Por último, se analizó la normalidad mediante test de hipótesis. Concretamente, la prueba de normalidad Shapiro-Wilk indicó el cumplimiento del supuesto de normalidad para todas las variables en cada uno de los grupos (estadísticos entre 0.976 y 0.991, p > .01; ver más detalle en Apéndice B), a excepción de la variable IMO en el grupo de edad 12- 14 años y baremo de Resistencia donde la prueba indicó el incumplimiento de la normalidad (estadístico = 0.971, p < .01).
Las pruebas de Levene para evaluar la existencia de igualdad en las varianzas realizadas en el factor entre-sujetos Edad, dieron como resultado el cumplimiento de homocedasticidad de las varianzas en todas puntuaciones compuestas analizadas y tipos de Baremo (p > .05), a excepción de la variable IRP en el tipo de baremo de Buenos Aires (F = 7.202; p = .001) (ver Apéndice C).
Descriptivos
Los tamaños muestrales se situaron en un rango entre 150 y 175 participantes. El grupo con mayor cantidad de sujetos correspondió al de 6-8 años (en torno a 174), seguido por el de 9-11 años (en torno a 152) y el de 12-14 años (en torno a 151). Las puntuaciones compuestas promedio se ubicaron alrededor de 99.70 con un mínimo de 95.45 (IRP - grupo de edad: 12-14 años; baremo: Buenos Aires) y un máximo de 104.34 (ICV - grupo de edad: 6-8 años; baremo: Buenos Aires), mientras que los desvíos estándar de las puntuaciones compuestas oscilaron entre 11.80 (CIT - grupo de edad: 6-8 años; baremo: Buenos Aires) y 18.08 (IRP - grupo de edad: 12-14 años; baremo: Buenos Aires). El cuartil Q1 osciló alrededor de 89.78, con un mínimo de 83 (IRP - grupo de edad: 9-11 años; baremo: Buenos Aires) y un máximo de 94 (ICV - grupo de edad: 6-8 años; baremo: Buenos Aires), mientras que el cuartil Q2 estuvo alrededor de 109.57, dentro del rango 105 (IMO - grupo de edad: 6-8 y 9-11 años baremo: Buenos Aires; IVP -grupo de edad: 6-8 y 12-14 años; baremo: Buenos Aires) y 116 (ICV - grupo de edad: 6-8 años; baremo: Buenos Aires) (ver tabla 1).
Tabla 1 Estadísticas descriptivas de las puntuaciones compuestas según baremo y grupo de edad
Índice Edad | Baremo | n | M | DE | Mdn | Q1 | Q3 |
6-8 años | BSAS | 174 | 99.63 | 11.80 | 100 | 91 | 108 |
RCIA | 174 | 99.95 | 13.63 | 100 | 89 | 111 | |
CIT 9-11 años | BSAS | 152 | 97.44 | 13.33 | 98.5 | 88 | 107.5 |
RCIA | 152 | 101.96 | 13.79 | 104 | 93 | 111.5 | |
12-14 años | BSAS | 151 | 97.91 | 14.90 | 97 | 88.3 | 107 |
RCIA | 151 | 101.63 | 14.19 | 102 | 91 | 112 | |
6-8 años | BSAS | 175 | 104.34 | 15.20 | 104 | 94 | 116 |
RCIA | 175 | 99.82 | 14.03 | 100 | 88 | 109 | |
9-11 años | BSAS | 152 | 100.87 | 15.03 | 102 | 90 | 112 |
RCIA | 152 | 102.07 | 14.18 | 102 | 93 | 112 | |
12-14 años | BSAS | 151 | 98.79 | 15.40 | 98 | 86.5 | 110 |
RCIA | 151 | 101.13 | 14.34 | 102 | 93 | 112 | |
6-8 años | BSAS | 172 | 100.64 | 12.87 | 100 | 92 | 108 |
RCIA | 172 | 99.94 | 13.23 | 98 | 91 | 109 | |
IRP 9-11 años | BSAS | 152 | 94.79 | 16.04 | 96 | 83 | 106 |
RCIA | 152 | 101.06 | 14.93 | 100 | 91 | 111 | |
12-14 años | BSAS | 150 | 95.45 | 18.08 | 94 | 83 | 106 |
RCIA | 150 | 101.96 | 13.79 | 102 | 91 | 114 | |
6-8 años | BSAS | 175 | 96.19 | 14.87 | 96 | 87 | 105 |
RCIA | 175 | 99.90 | 14.64 | 100 | 88 | 109 | |
IMO 9-11 años | BSAS | 151 | 97.95 | 14.01 | 99 | 90 | 105 |
RCIA | 151 | 101.30 | 14.30 | 103 | 91 | 112 | |
12-14 años | BSAS | 150 | 102.49 | 16.17 | 102 | 90 | 114 |
RCIA | 150 | 100.93 | 15.27 | 103 | 91 | 112 | |
6-8 años | BSAS | 174 | 95.26 | 12.33 | 94 | 86 | 105 |
RCIA | 174 | 99.84 | 14.81 | 100 | 91 | 109 | |
IVP 9-11 años | BSAS | 152 | 97.49 | 12.61 | 97 | 89 | 108 |
RCIA | 152 | 101.62 | 13.06 | 103 | 94 | 112 | |
12-14 años | BSAS | 151 | 97.30 | 15.48 | 100 | 89.5 | 105 |
RCIA | 151 | 101.05 | 13.67 | 103 | 91 | 109 |
Nota. Q1 = cuartil 1 (percentil 25); Q3 = cuartil 3 (percentil 75); BSAS = baremos de Buenos Aires; RCIA = baremo de Resistencia; CIT = funcionamiento intelectual general; ICV = comprensión verbal; IRP= razonamiento perceptivo; IMO = memoria operativa; IVP = velocidad de procesamiento.
Análisis de la varianza
CIT. El análisis reveló un efecto principal del factor Baremo (F (1, 474) = 49.85, p < .001, n2 = 0.10) e indica la existencia de diferencias estadísticamente significativas en el CIT, según el tipo de baremo aplicado. Se observó una media mayor en el baremo de Resistencia (M = 101.18, DE = 13.87) en comparación con el baremo de Buenos Aires (M = 98.33, DE = 13.34). Además, no se encontró un efecto principal significativo del factor Edad (F (2, 474) = 0.002, p = .998, n2 = 0.00); es decir, el comportamiento del CIT resultó ser estadísticamente no diferente en los distintos grupos de edad. Asimismo, el análisis indicó la existencia de una interacción significativa de los factores Baremo x Edad (F (2,474) = 16.64, p < .001, n2 = 0.04); es decir, el comportamiento de la variable CIT resultó ser diferente según el tipo de baremo aplicado en los distintos grupos de edad. Los análisis de comparaciones múltiples indicaron la existencia de diferencias estadísticamente significativas (p < .001) dentro de los grupos de niños y niñas de 9-11 y 12-14 años. Concretamente, en ambos grupos, se observó una puntuación media mayor del CIT en el baremo de Resistencia (9-11 años: M = 101.96, DE = 13.79; 12-14 años: M = 101.63, DE = 14.19) respecto al baremo de Buenos Aires (9-11 años: M = 97.44, DE = 13.33; 12-14 años: M = 97.91, DE = 14.90) (ver figura 1).

Nota. Diagramas de caja y bigotes según tipo de baremo (A), grupo de edad (B), y según tipo de baremo y edad(C).
***: p < .001.
Figura 1 Funcionamiento Intelectual General
ICV. El análisis no indicó diferencias estadísticamente significativas en el ICV tanto para el factor Baremo (F (1, 475) = 0.18, p = .683, n2 = 0.00) como para el factor Edad (F (2, 475) = 1.35, p = .259, n2 = 0.006). Sin embargo, el análisis reveló la existencia de una interacción significativa de los factores Baremo x Edad (F (2, 475) = 7.31, p = .001, n2 = 0.03). Se sugiere un comportamiento diferente de la variable ICV según el tipo de baremo aplicado en los distintos grupos de edad. En particular, los análisis de contrastes dentro de cada grupo de edad indicaron diferencias estadísticamente significativas (p = .001) en el ICV solo para el grupo de niños y niñas de 6-8 años. Se observó una media mayor en el baremo de Buenos Aires (M = 104.34, DE = 15.20) en comparación con el baremo de Resistencia (M = 99.82, DE = 14.03) (ver figura 2).

Nota. Diagramas de caja y bigotes según tipo de baremo (A), grupo de edad (B), y según tipo de baremo y edad (C).
***: p < .001.
Figura 2.Índice de Comprensión Verbal
IRP. El análisis reveló un efecto principal del factor Baremo (F (1, 471) = 29.79, p < .001, n2 = 0.06), indica la existencia de diferencias estadísticamente significativas en el IRP según el tipo de baremo aplicado, observándose una media mayor en el baremo de Resistencia (M = 100.99, DE = 13.98) en comparación con el baremo de Buenos Aires (M = 96.96, DE = 15.66). Sin embargo, no se observaron diferencias estadísticamente significativas según el factor Edad (F (2, 471) = 1.51, p = .221, n² = 0.006). Además, el análisis indicó la existencia de una interacción significativa de los factores Baremo x Edad (F (2,471) = 10.74, p < .001, n² = 0.04). Sugiere un comportamiento diferente de la variable IRP según el tipo de baremo aplicado en los distintos grupos de edad. Los análisis post hoc de comparaciones múltiples indicaron la existencia de diferencias estadísticamente significativas (p < .001) dentro de los grupos de niños y niñas de 9-11 y 12-14 años. Se observó una puntuación media mayor en el baremo de Resistencia (9-11 años: M = 102.07, DE = 14.18; 12-14 años: M = 101.13, DE = 14.34) en comparación con el baremo de Buenos Aires (9-11 años: M = 100.87, DE = 15.03; 12-14 años: M = 98.79, DE = 15.40) (ver figura 3).

Nota. Diagramas de caja y bigotes según tipo de baremo (A), grupo de edad (B), y según tipo de baremo y edad (C).
***: p < .001.
Figura 3.Índice de Razonamiento Perceptivo
IMO. El análisis reveló un efecto principal del factor Baremo (F (1, 473) = 5.12, p = .024, n² = 0.01). Se indica la existencia de diferencias estadísticamente significativas en el IMO según el tipo de baremo aplicado. Se observó una media significativamente mayor en el baremo de Resistencia (M = 100.67, DE = 14.72) en comparación con el baremo de Buenos Aires (M = 98.73, DE = 15.23). Asimismo, se observó un efecto principal del factor Edad (F (2, 473) = 3.77, p = .024, n² = 0.02), lo cual indica la existencia de diferencias estadísticamente significativas en el IMO entre las edades, independientemente del baremo aplicado. De forma sucesiva, el análisis de contraste post hoc reveló diferencias estadísticamente significativas (p = .019) en el IMO solo entre los grupos de edad 6-8 años y 12-14 años. Por último, el análisis indicó la existencia de una interacción significativa de los factores Baremo x Edad (F (2,473) = 4.32, p = .014, n² = 0.02), es decir, el comportamiento de la variable IMO resultó ser diferente según el tipo de baremo aplicado en los distintos grupos de edad. Los análisis de contrastes post hoc indicaron la existencia de diferencias estadísticamente significativas dentro de los grupos de niños y niñas de 6-8 años (p = .006) y 9-11 años (p = .020), observándose una puntuación media mayor en el baremo de Resistencia (6-8 años: M = 99.90, DE = 14.64; 9-11 años: M = 101.30, DE = 14.30) en comparación con el baremo de Buenos Aires (6-8 años: M = 96.19, DE = 14.87; 9-11 años: M = 97.95, DE = 14.01) (ver figura 4).

Nota. Diagramas de caja y bigotes según tipo de baremo (A), grupo de edad (B), y según tipo de baremo y edad (C).
***: p < .001.
Figura 4.Índice de Memoria Operativa
IVP. El análisis reveló un efecto principal del factor Baremo (F (1, 474) = 26.70, p < .001, n² = 0.05), lo cual indicó la existencia de diferencias estadísticamente significativas en la variable IVP según el tipo de baremo aplicado, independientemente del grupo de edad. En concreto, se observó una puntuación media significativamente (p < .001) más alta en el baremo de Resistencia (M = 100.84, DE = 13.85) en comparación con el baremo de Buenos Aires (M = 96.69, DE = 13.47). No se observaron diferencias estadísticamente significativas en el IVP, tanto para el factor Edad (F (2, 474) = 1.68, p = .187, n² = 0.01) como para la interacción de los factores Baremo x Edad (F (2, 474) = 0.09, p = .913, n² = 0.00) (ver figura 5).
Discusión
Esta investigación intentó determinar la importancia de contar con baremos adaptados de la Escala WISC-IV para diferentes regiones de un mismo país; para ello se analizaron comparativamente los índices (CIT, ICV, IRP, IMO e IVP) obtenidos por 520 sujetos de Resistencia según dos baremos argentinos (Buenos Aires y Resistencia). Los resultados evidenciaron diferencias significativas según el baremo sea de Buenos Aires o de Resistencia, en 4 de los 5 índices de la WISC-IV (i.e. CIT, IRP, IMO, IVP). Asimismo, se observó que en la mayoría de los índices (CIT, ICV, IRP, IMO) las diferencias entre baremos se evidenciaron principalmente dentro de algunos grupos de edad, lo que sugirió comportamientos diferentes en los distintos índices según el tipo de baremo aplicado en los diferentes grupos de edad; en este sentido, el CIT y el IRP resultaron mayores en los sujetos de 9-11 y de 12-14 años de edad utilizando el baremo para Resistencia en comparación con el uso del baremo de Buenos Aires. Asimismo, el IMO fue mayor según el baremo de Resistencia para los grupos de 6-8 y 9-11 años en contraste con el baremo de Buenos Aires, mientras que el ICV reveló mayores puntuaciones con el baremo de Buenos Aires en los sujetos de 6-8 años.
Los resultados encontrados son consistentes con datos expuestos en otros estudios que contrastaron diferentes baremos de un mismo instrumento. Por ejemplo, Carreño (2014) comparó con la WISC- IV el rendimiento cognitivo en una misma población (estudiantes colombianos entre 6 y 16 años) aplicando baremos extranjeros (México y Estados Unidos) y encontró diferencias significativas entre las puntuaciones índice para cada adaptación. Asimismo, Van Wyhe (2012) comparó el desempeño en la Escala de Inteligencia de Wechsler Abreviada (WASI), en una muestra de adolescentes sudafricanos (entre 12 y 15 años) con los datos normativos de Estados Unidos, y encontró diferencias significativas en las puntuaciones de todas las subescalas e índices evaluados. Además, no se hallaron otros estudios similares en los que se utilicen distintos baremos de la WISC-IV en una misma muestra; pero se detectaron estudios en los que se empleó una misma adaptación para muestras diferentes, como el desarrollado por Rodriguez-Cancino et al. (2019), quienes reportaron diferencias significativas en algunos índices al aplicar la adaptación chilena de la WISC-IV (Rosas & Pizarro, 2018) a estudiantes de zonas urbana y rural pertenecientes a diferentes estratos socioeconómicos. Por su parte, Fernández et al. (2019) cuestionaron la validez de constructo de la WISC-IV en poblaciones indígenas mexicanas en cuanto a si esta escala mediría las mismas habilidades cognitivas en escolares indígenas que en aquel que constituyó la muestra tomada para la adaptación mexicana (Mendoza et al., 2007), y mediante análisis de las intercorrelaciones de las pruebas, análisis factorial exploratorio y otro confirmatorio reportaron que las puntuaciones índice medias obtenidas por los escolares yaquis se ubicaron por debajo de la media normativa. Existen estudios que permiten observar comportamientos diferentes en los índices que se obtienen en la WISC- IV vinculados a características poblacionales.
Los resultados alcanzados apoyan la hipótesis planteada para este estudio, la cual sostenía hallar diferencias estadísticamente significativas en las puntuaciones índices de la WISC-IV, según la corrección se realice con el baremo de Buenos Aires o de Resistencia. Por tanto, la aplicación de un baremo u otro aportaría modificaciones significativas a los resultados obtenidos mediante la aplicación de dicha escala, y afectaría la interpretación del desempeño de los niños y niñas, tanto en aspectos relacionados con el funcionamiento cognitivo general (i.e., CIT), como en campos más específicos (i.e., memoria de trabajo, velocidad de procesamiento y razonamiento perceptivo), es decir, que la corrección de la escala administrada a un/a estudiante de Resistencia según las normativas establecidas para Buenos Aires, aún correspondiendo a un mismo país, podría derivar en errores interpretativos de sus aptitudes cognitivas, por ejemplo, llegar a establecer conclusiones clínicas que dictaminen deficiencia al desfavorecer al sujeto; o - en sentido contrario- al determinar habilidades por encima de la media y sobreestimar su funcionamiento cognitivo lo que tampoco constituye una medida fiable de sus capacidades. En síntesis, los resultados alcanzados apuntan a la importancia de utilizar datos normativos establecidos localmente para interpretar el desempeño en pruebas de inteligencia.
En general, el desempeño de los niños y las niñas fue significativamente mayor cuando se aplicó el baremo de Resistencia, respecto a cuando se aplicó el de Buenos Aires. En otras palabras, las puntuaciones de los niños/as y adolescentes de Resistencia se situaron significativamente por debajo a las puntuaciones obtenidas por la muestra normativa de Buenos Aires en la mayoría de los índices. Tales diferencias podrían deberse a las características sociodemográficas de las poblaciones a la que pertenecían las muestras normativas de Resistencia y de Buenos Aires. Según información documentada en el Censo Nacional de Población, Hogar y Vivienda (INDEC, 2010), las dos regiones argentinas en consideración presentan diferencias en múltiples aspectos sociodemográficos tales como la educación, la ocupación, las características de los hogares y viviendas, y los servicios básicos y de tecnología, cuyas características resultan ser mayormente desfavorables para la región a la cual pertenece la muestra del presente estudio (i.e., Resistencia). Los resultados alcanzados son consistentes con datos de otros estudios que sugieren que experiencias contextuales desfavorables durante la niñez y la adolescencia, se asocian a modificaciones en el desempeño de tareas con demandas en diferentes aspectos de la cognición (e.g., aquellas medidas por pruebas de inteligencia) (Bradley & Corwyn, 2002; Farah, 2017; Leonard et al., 2015; Madhushanthi et al., 2020; Palacios-Barrios & Hanson, 2019; Von Stumm & Robert Plomin, 2015; Walker et al., 2009). En este sentido diferentes estudios han reportado desempeños más bajos en pruebas de inteligencia en niños/as y adolescentes provenientes de contextos con niveles socioeconómicos más bajos (e.g., familias con bajo nivel de educación bajo ingreso), respecto a aquellos de contextos con niveles socioeconómicos más altos (Madhushanthi et al., 2020; Kishiyama et al., 2009; Taborda et al., 2011; Van Wyhe, 2012; Von Stumm & Plomin, 2015). En los índices CIT, ICV y IMO se observan principalmente tales diferencias.
Un aspecto que ha mostrado estar particularmente asociado con el desempeño en inteligencia es la formación académica de la madre. En este sentido, Labin et al.(2015) realizaron un estudio en una muestra de niños y adolescentes entre 6 y 16 años, y encontraron que a medida que aumentan los años de educación materna, mejoran las puntuaciones de CIT y especialmente de ICV y sugieren que las diferentes capacidades cognitivas se enriquezcan por los estímulos ambientales que una madre mayormente capacitada en lo académico pueda ofrecer. Además, en otro estudio realizado en niños y adolescentes entre 6 y 12 años Taborda y Labin (2015) señalaron la incidencia del nivel educativo materno tanto en el CIT y el ICV, como en el IRP; mientras que en un estudio posterior en una muestra de niños entre 6 y 9 años de edad Hauser y Labin (2018) encontraron diferencias significativas según la variable educación de las madres en el IMO, como en el CIT, ICV y IRP. Por su parte, Brenlla y Taborda (2013) estimaron que el nivel educativo materno y el tipo de jornada escolar (jornada simple o completa) pueden ser predictores del rendimiento cognitivo y se podrían relacionar con la clase social a la que pertenece, en función de la cual el acceso a la escolarización inicial sería diferente. Si bien las características sociodemográficas de las poblaciones sobre las cuales se realizaron los baremos (Resistencia y Buenos Aires) resultan ser diferentes ( INDEC, 2010), no se contó con información para poder examinar la presencia de dichas diferencias entre las muestras analizadas y evaluar el impacto de las características socioambientales específicas, sobre las diferencias entre las puntuaciones de un baremo y otro.
Se tomó aquí la WISC-IV como instrumento de evaluación para la exposición de las conclusiones; sin embargo, se considera que los planteamientos presentados en relación con la importancia de adaptar una escala serían igualmente válidos para estudios venideros en lo que respecta al establecimiento de datos normativos de otras pruebas para poblaciones específicas. De esta forma, diferentes estudios han puesto de manifiesto la falta de baremos adaptados como problemática presente en diferentes regiones (Espósito et al., 2018; Grajeda, 2010; Mejía, 2012; Mendoza, 2016; Muchiut et al., 2019), pues los baremos suelen estar desactualizados o son propios de otras culturas, o no representan a un país en su conjunto sino a una parte (ver, por ejemplo, Villareal et al., 2016) .
En este sentido, pareciera conveniente pensar en la “regionalización” de baremos, entendiendo este término como “la acción y el efecto de regionalizar”, involucrando “organizar con criterios descentralizadores un territorio, una actividad, una entidad, etc.” (Real Academia Española, s.f.). Con base en ello, se propone “descentralizar” un test mediante su estandarización (adaptación y tipificación) en una región diferente en la que fue normativizada originalmente, con el objetivo principal de establecer baremos locales que contemplen las características socioculturales específicas de una zona geográfica determinada. Si bien “regionalizar” un instrumento sería lo ideal, coexiste con una realidad en la que no siempre se pueden emprender los procesos de adaptación debido al gran esfuerzo que conlleva, así como los recursos tanto humanos como materiales que requiere. Entonces, ante los impedimentos que se puedan presentar para la regionalización de un test, es de especial importancia que el profesional o investigador sea cauteloso en la interpretación de los resultados si ha decidido aplicar un test con baremos “no regionalizados”.
Limitaciones y líneas futuras de investigación
Esta investigación presenta limitaciones en relación con la versión original (estadounidense) de la Escala WISC-IV incluye las edades de 6 a 16 años como muestra para su normalización, así como también lo hace la adaptación argentina establecida para Buenos Aires. Mientras que los baremos para Resistencia solo se han establecido para las edades comprendidas entre los 6 y 14 años. Asimismo, la construcción del baremo se realizó sobre la población escolar, es decir no incluyó a alrededor del 4% de las personas que no asisten a un establecimiento educativo en la provincia del Chaco (INDEC, 2010).
Además, se considera que los baremos del WISC-IV establecidos para la ciudad de Resistencia no constituyen datos normativos de toda la provincia (Chaco) sino que es preciso la ampliación de la muestra a otras localidades a fin de establecer baremos mayormente representativos.
Si bien las características sociodemográficas de las poblaciones sobre las cuales se realizaron los baremos (Resistencia y Buenos Aires) resultan ser diferentes (INDEC, 2010), no es posible corroborar si tales diferencias se encuentran presentes entre las muestras analizadas, ni tampoco resulta posible determinar en qué medida tales características podrían explicar las diferencias en el desempeño del WISC-IV entre los dos baremos. Sin embargo, resulta preciso destacar que la interpretación de los resultados de pruebas psicológicas requiere la consideración del contexto socioambiental del sujeto, así como sus características individuales (e.g., motivación, estado anímico, impulsividad, ansiedad, temperamento), pues aspectos no relacionados con el funcionamiento intelectual pueden repercutir en su desempeño (Musci, 2020). En específico, Brenlla y Taborda (2013) señalaron como posibles variables explicativas de diferencias en el rendimiento de la WISC-IV los antecedentes académicos de la madre, la experiencia educativa inicial del niño, la estimulación posterior, la calidad educativa, el hacinamiento habitacional y la composición familiar. En futuros estudios sería útil incluir información no directamente relacionada con el funcionamiento intelectual, tanto individual como del entorno social del individuo, para desarrollar una interpretación más abarcativa del desempeño y determinar los factores que influyen en pruebas de inteligencia.
Se procura que este estudio inspire al emprendimiento de procesos investigativos que persigan la regionalización de baremos de pruebas psicológicas que han sido originalmente creadas y adaptadas en una determinada ciudad. Adicionalmente, quedan planteadas como propuestas para futuros estudios, la exploración más específica de los índices que provee la WISC-IV, y su comportamiento en diferentes poblaciones, residentes en regiones geográficas distintas y con edades y grados de escolarización diversos, así como también la consideración de múltiples variables contextuales.