Introducción
Para obtener evidencias de validez una medida utilizable en ciencias del deporte y ciencias aliadas, posiblemente la evaluación de la validez de contenido condiciona la obtención de otras de evidencias de validez de un instrumento (American Educational Research Association et al., 2014; Koller et al., 2017). Esto es debido a que las características de contenido del constructo son creadas a priori, vinculando la experiencia profesional, la racionalidad del investigador en el constructo de interés y la literatura relevante de este. La validez de contenido es una fase en la que se elaboran y seleccionan los contenidos de los ítems; tiene como medio el juicio y la racionalidad del investigador. La metodología cuantitativa también está implicada en este proceso y, en consecuencia, una de las decisiones es elegir el estadístico o coeficiente que cuantifique el grado de validez.
En la literatura empírica o de revisión, se han identificado varios de estos coeficientes (Aiken, 1980; Fitch et al., 2001; Hambleton, 1984; Hernández-Nieto, 2002; Lawshe, 1975; Lynn, 1986; Penfield y Miller, 2004; Rovinelly y Hambleton, 1977) o procedimientos combinados con estimadores del acuerdo (Claeys et al., 2012; Moscoso y Merino-Soto, 2017; Rubio et al, 2003), de tal modo que el usuario tiene la oportunidad de elegir y comparar sus resultados. Tales coeficientes conducen a obtener un solo número sumario (i. e. estimación puntual), que sirve para interpretar la relación entre el contenido del ítem y el dominio de contenido al cual puede pertenecer. Una vez calculado y acompañado con otras referencias numéricas (e. g. intervalos de confianza), la estadística parece que culmina aquí su papel.
Sin embargo, el análisis puede expandirse hacia la comparación de estos resultados, como ocurriría habitualmente en diseños de investigación en los que se comparan estadísticos muestrales (e. g. medias o varianzas). Las revisiones temáticas hispanas sobre la validez de contenido (Cabero y Llórente, 2013; Escobar y Cuervo, 2008; Pedrosa et al., 2013; Robles y Rojas, 2015; Urrutia et al., 2014) describen con variado detalle los métodos para cuantificar los juicios de los jueces expertos, pero no alcanzan a orientar la investigación hacia nuevos diseños, como la comparación de grupos usando como insumos los coeficientes de validez de contenido calculados. Esta comparación de grupos ha sido demostrada como relevante para exponer las potenciales diferencias, aun entre jueces expertos y jueces experienciales (Merino-Soto, 2016) o jueces expertos de distinto origen (Moscoso y Merino-Soto, 2017).
Por otro lado, en la indagación psicométrica que incluye la evaluación de la validez de contenido en ciencias de la actividad física y del deporte (Burgueño et al., 2020; Calonge-Pascual et al., 2020; Collet et al., 2018; Gamonales et al., 2018; Moreno y Gómez, 2017; Ortega et al., 2018; Robles et al., 2016; Rodríguez et al., 2015), tampoco es usual identificar grupos que pueden añadir variabilidad a las estimaciones de validez de contenido (por ejemplo, con el coeficiente V, Aiken, 1980). De este modo, se desconoce si la percepción de validez de contenido producida por el distinto estatus, la experticia o los conocimientos de los jueces produce o variabilidad en las estimaciones del coeficiente V. En contraste, en un estudio se reportaron apropiadamente coeficientes V para dos grupos de jueces (Calonge-Pascual et al., 2020), pero no fueron cuantificadas, mediante un método formal, las eventuales diferencias entre ambos.
Para afrontar el vacío, el presente manuscrito metodológico tiene por objetivo mostrar dos desarrollos metodológicos, uno de ellos publicado recientemente (Merino, 2016)c, on el afán de comparar coeficientes V (Aiken, 1980 obtenidos de dos grupos independientes. Esta presentación intenta acercar la técnica a la población de usuarios e investigadores en ciencias del deporte, pero incorporando otra propuesta relevante a la comparación de coeficientes V. En este sentido, la segunda propuesta es derivar la racionalidad para usar un estimador puntual estandarizado de la diferencia entre coeficientes V. En Hispanoamérica, el coeficiente V parece ser habitualmente utilizado en ciencias de la conducta y educación para cuantificar la validez de contenido obtenida de expertos, y dada esta relevancia contextual la técnica sugerida por Merino (2018 se ejemplifica y se extiende hacia otra implementación, ambas de potencial utilidad dirigida al trabajo investigativo en ciencias del deporte.
Desarrollo
Marco general. La comparación de estimaciones de validez de contenido entre dos grupos es apropiada cuando el investigador, a priori, estima que la pertenencia a cualquiera de los grupos puede ser fuente de variabilidad en la percepción del contenido evaluado. Esta diferencia asociada a los dos grupos de jueces puede actuar como un moderador de sus juicios de validez de contenido (Merino-Soto, 2016; por ejemplo, entre dos agrupaciones de jueces expuestos a experiencias claramente distintas como estatus profesional (e. g. entrenador vs. atleta), oportunidades educativas, recursos sociales y económicos, entre otros.
Propuesta metodológica. El método propuesto para comparar coeficientes V entre dos grupos independientes (Merino-Soto, 2018) utiliza la construcción de intervalos de confianza (IC) de diferencia de proporciones. Este método es la generalización de un procedimiento para construir IC para las diferencias entre parámetros que pueden conceptualizarse como indicadores de la magnitud del efecto (Newcombe, 2012; Zou y Donner, 2008). Los detalles de la racionalidad de dicha técnica se encuentran en Merino-Soto (2016) y el lector puede consultarlos libremente.
La segunda propuesta inédita relativa a la primera expresa que, junto con el método de IC para las diferencias, es posible calcular un estimador puntual de esta diferencia, pero expresada en unidades estandarizadas. Para esta finalidad, y debido a que el coeficiente V puede ser tratado como una proporción (Aiken, 1980; Penfield y Giacobbi, 2004), es admisible utilizar un coeficiente que estandarice la distancia entre proporciones y evitar la diferencia cruda de V (también manifestada como un contraste de proporciones), la cual no tiene un escalamiento intervalar constante (Cohen, 2008). La racionalidad de esta elección proviene del tratamiento usual que se hace al coeficiente V, esto es, como una proporción (Aiken, 1980; Penfield y Giacobbi, 2004) con límites naturales de 0 y 1. Tal proporción se origina en la ecuación de V y, por lo tanto, las transformaciones para las proporciones también son viables para el coeficiente V.
Consecuentemente, para la estimación puntual de la diferencia entre coeficientes V, se propone la diferencia arcoseno (h), método asociado al trabajo de Cohen (2008), pero que tiene más tiempo de existencia (Anscombe, 1948; Freeman y Tukey, 1950; McCullagh y Nelder, 1989). Esta contraste entre coeficientes V requiere primero su transformación arcoseno (Cohen, 2008) y, en segundo lugar, calcular la diferencia entre ellas. Esto tiene varias ventajas: a) tiende a ser menos sesgada en distribuciones muy asimétricas (Lipsey y Wilson, 2001) y, por ende, puede ser la más apropiada para el tipo de distribuciones que ocurren en las calificaciones de los jueces, esto es, de tipo asimétricasasimétricas en las cuales las calificaciones son más densas en las colas de la distribución (Penfield y Giacobbi, 2004; Penfield, y Miller, 2004; b) esta transformación habitualmente arroja estimaciones conservadoras (Lipsey y Wilson, 2001), lo que conduce a disminuir el error tipo I; c) por otro lado, maneja proporciones con 0 y 1 sin producir resultados inestimables, como ocurre cuando se utiliza las transformaciones logit y probit (Rücker et al., 2008; Rücker et al., 2009). Por estos motivos, la transformación arcoseno puede proporcionar resultados creíbles e interpretables.
La diferencia entre dos coeficientes V con previa transformación arcoseno permite operacionalizar su tamaño o magnitud, en una métrica estandarizada. Sin embargo, existen varios modelos estadísticos para definir las unidades intervalares en este coeficiente h, que varían de acuerdo con la distribución poblacional del estadístico de interés (en esta situación, una proporción), como la distribución logística o la normal. Se pueden sugerir otros tipos de transformaciones (e. g. probit, Glass et al., 1981; logitCox, Cox, 1970), pero existe alguna inconsistencia entre ellas, debido a que estudios de simulación han encontrado que h basado en la trasformación arcoseno subestima el valor poblacional, mientras que otros muestran poco sesgo con estas transformaciones cuando la distribución es normal (Sánchez-Meca et al., 2003; Warton y Hui, 2011). No obstante, como se mencionó, una distribución normal de V y sus diferencias es poco probable que ocurra cuando se obtienen las calificaciones de estudios de validez de contenido y, por ello, no sería óptima esta generalización. Si hay alguna duda sobre la elección apropiada de una de estas transformaciones, posiblemente es mejor una aproximación razonable que la exactitud cuestionable (Agresti y Brent, 1998).
Resultados
En un marco de análisis secundario de datos y para ejemplificar tanto la aplicación como la relevancia de la presente metodología, se compararon los coeficientes V del estudio de validez de contenido de dos indagaciones publicadas. En el primero, se utilizó una medida de autoeficacia para la investigación (Domínguez-Lara, 2017), con una muestra de dos grupos de jueces que evaluaron la claridad y la relevancia del contenido del instrumento: 10 investigadores y 34 estudiantes (15 del posgrado y 19 de pregrado); con el propósito de demostrar el método, aquí elegimos el grupo de estudiantes. Este artículo fue seleccionado puesto que 1) es uno de los pocos en los que aparece la información mínima y necesaria para efectuar análisis secundarios; 2) el periodo de construcción y revisión actual del instrumento es relativamente reciente, así como se pueden aprovechar los resultados del reanálisis con esta nueva propuesta metodológica, y 3) es relevante para la aplicación del procedimiento.
De acuerdo con los resultados del autor, se concluye la buena claridad de los ítems, dado que los coeficientes V puntuales y sus intervalos de confianza fueron altos o moderadamente altos para cada uno, así como para los coeficientes promedio de cada dimensión y el contenido total. Con un criterio liberal de aceptación de la relevancia y claridad del ítem (> = .50; Domínguez-Lara, 2017), es posible aceptar una gran cantidad de ítems en las fases iniciales de construcción, con el riesgo de aumentar el error tipo II, esto es, aceptar ítems que deberían ser rechazados. Por otra parte, la claridad de los ítems entre los grupos (posgrado y pregrado) fue evaluada comparativamente mediante interpretaciones impresionistas sobre las similitudes o diferencias entre sus coeficientes V, expuestos en la sección izquierda de su tabla correspondiente. El análisis formal de estas comparaciones, por medio del intervalo de confianza de las diferencias de V y el tamaño del efecto (transformación arcoseno, h) presentados en la tabla 1 de este manuscrito, arrojó que hay nueve ítems en los que los juicios de claridad difieren. Algunas de estas diferencias pueden ser consideradas grandes o moderadas (respectivamente: h ≥ |.80| y h ≥ |.50|; Cohen, 2008). Esto implica que la observación impresionista y la prueba formal no necesariamente coinciden, aun en el ojo experto.
Tabla 1 Reanálisis De Domínguez-Lara (2017): Intervalo De Confianza Para Diferencia Entre Coeficientes V De Validez De Contenido
1C de la diferencia | h | Conclusión | ||
---|---|---|---|---|
N° de ítem | Inferior | Superior | ||
1 | -.242 | .047 | -.261 | No diferente |
2 | -.093 | .199 | .163 | No diferente |
3 | -.192 | .144 | -.048 | No diferente |
4 | -.230 | .089 | -.165 | No diferente |
5 | -.203 | .084 | -.152 | No diferente |
7 | -.165 | .121 | -.048 | No diferente |
8 | -0.203 | .084 | -.152 | No diferente |
9 | -.331 | -.060 | -.607 | Diferente |
10 | -.331 | -060 | -.607 | Diferente |
11 | -.224 | .086 | -.166 | No diferente |
12 | -.268 | .028 | -.317 | No diferente |
13 | -.239 | .066 | -.217 | No diferente |
14 | -.306 | -.011 | -.429 | Diferente |
15 | -.217 | .066 | -.202 | No diferente |
16 | -.285 | .029 | -.319 | No diferente |
17a | -.330 | -.032 | -.484 | Diferente |
17b | -.242 | .047 | -.261 | No diferente |
18 | -0.241 | .017 | -.350 | No diferente |
19 | -.353 | -.076 | -.655 | Diferente |
20 | -.199 | .127 | -.076 | No diferente |
21 | -.172 | .125 | -.051 | No diferente |
22 | -.306 | -.011 | -.429 | Diferente |
23 | -.374 | -.030 | -.460 | Diferente |
24 | -0.426 | -.135 | -.811 | Diferente |
25 | 0.285 | 0.005 | -.381 | No diferente |
26 | 0.386 | -.093 | -.673 | Diferente |
27 | 0.239 | .087 | -.176 | No diferente |
Nota. h: diferencia estandarizada arcoseno. IC: intervalo de confianza
El otro ejemplo de aplicación se enfocó en el reporte bien documentado de validez de contenido de un instrumento de prescripción de la actividad física (Calonge-Pascual et al., 2020). En su tabla 6, se presentan en detalle los resultados de dos grupos de jueces expertos, médicos del deporte y enfermeros. La aplicación del método de intervalos de confianza para la diferencia a los resultados de su tabla sugiere que, predominantemente, los ítems son percibidos de manera similar por ambos grupos de expertos, excepto en el 18, 22 y 23; particularmente, la diferencia estandarizada expresada por h puede considerarse grande (Cohen, 2008). Estas diferencias no parecen observables en el simple examen visual de la tabla 6 de Calonge Pascual et al. (2020). Aunque todos los coeficientes V para el instrumento son altos, esta diferencia indica una discrepancia grande y focalizada, que merece más atención. Si el criterio de V para aceptar los ítems fuera más grande (V > .80), posiblemente la diferencia se percibiría con mayor claridad y llamaría a una revisión del ítem (tabla 2).
Tabla 2 Reanálisis de Calonge-Pascual et al. (2020): intervalo de confianza para diferencia entre coeficientes V de validez de contenido
I C de la diferencia | h | Conclusión | ||
---|---|---|---|---|
N° de ítem | Inferior | Superior | ||
1 | -.010 | .193 | .192 | No diferente |
2 | -.020 | .246 | .205 | No diferente |
3 | -.120 | .125 | -.132 | No diferente |
4 | -.040 | .182 | .094 | No diferente |
5 | -.040 | .169 | .070 | No diferente |
6 | -.040 | .207 | .139 | No diferente |
7 | -.050 | .186 | .058 | No diferente |
8 | -.040 | .169 | .070 | No diferente |
9 | -.190 | .042 | -.357 | No diferente |
10 | -.110 | .146 | -.051 | No diferente |
11 | -.200 | .006 | -.427 | No diferente |
12 | -.090 | .175 | .000 | No diferente |
13 | -.070 | .114 | -.070 | No diferente |
14 | -.130 | .039 | -.344 | No diferente |
15 | -.090 | .137 | -.058 | No diferente |
16 | -.100 | .089 | -.164 | No diferente |
17 | -.110 | .059 | -.287 | No diferente |
18 | -.170 | -.015 | -.528 | Diferente |
19 | -.060 | .152 | .000 | No diferente |
20 | -.120 | .022 | -.390 | No diferente |
21 | -.170 | .030 | -.354 | No diferente |
22 | -.200 | -.073 | -.927 | Diferente |
23 | -.190 | -.035 | -.579 | Diferente |
24 | -.050 | .225 | .124 | No diferente |
25 | -.160 | .020 | -.425 | No diferente |
26 | -.070 | .205 | .073 | No diferente |
27 | .000 | .266 | .263 | No diferente |
28 | -.090 | .166 | .000 | No diferente |
29 | -.170 | .030 | -.354 | No diferente |
30 | -.120 | .022 | -.390 | No diferente |
Nota. h: diferencia estandarizada arcoseno. IC: intervalo de confianza
Discusión y conclusiones
El método propuesto para evaluar las diferencias entre coeficientes V introduce un enfoque inédito en el diseño de estudios de validez de contenido y, por lo tanto, facilita la implementación de un análisis en el que se puedan comparar dos grupos independientes de jueces. Como un medio objetivo y cuantificable para presentar resultados y tomar decisiones con base empírica y en un marco exploratorio o confirmatorio (Merino, 2018), tal método hace viable la selección, a priori, de grupos de evaluadores, con el fin de que puedan ser comparados posteriormente. Por ejemplo, en el diseño de un estudio de validez de contenido de un nuevo instrumento de acoso, la percepción de representatividad de ítems sobre hostigamiento en la práctica deportiva puede orientarse hacia evaluadores varones y mujeres o entre entrenadores y entrenados.
Respecto a los ejemplos reanalizados (Calonge-Pascual et al., 2020; Domínguez-Lara, 2017), la aplicación del método propuesto reveló que los instrumentos pueden requerir una exploración adicional de su contenido para verificar su claridad o relevancia y, consecuentemente, planificar ajustes en la fase de elaboración. Esto es más necesario cuando se emplea un criterio fuertemente liberal para la selección inicial de ítems, en la que no hay suficiente garantía para la calidad de la representación del constructo o cuando existe una clara distinción entre grupos de jueces que pueden añadir variabilidad a las estimaciones de validez de contenido. Finalmente, los lectores interesados pueden solicitar gratuitamente al autor del presente manuscrito el software elaborado en sintaxis SPSS, para implementar el procedimiento