3 ESCALA DE CALIFICACIÓN

Cada variable debe ser susceptible de valoración o calificación, acorde con los criterios de alta/baja deseabilidad o de alto/bajo impacto de cada una de sus categorías.

Cuando se habla de calificación, deben distinguirse dos procesos: el de su definición —que es el que aquí se discute— del de su registro durante el diagnóstico de una UE particular —que se presenta en el capítulo 5—.

El proceso de calificación de las diferentes categorías de cada variable debe estar enmarcado en la(s) dimensión(es) de la(s) que forme parte, puesto que lo que resulte deseable para una dimensión no lo será necesariamente para otra.

Se recomienda una escala ordinal con niveles entre 1 y 5, la cual, además de ser fácilmente conceptualizable, puede adaptarse a las especificidades de cada variable.

Aunque el nivel más alto de la escala podría hacerse coincidir indistintamente con la condición de máxima deseabilidad/indeseabilidad, se recomienda hacerlo coincidir con el concepto general que se esté evaluando. Así, en un estudio de sostenibilidad, la máxima calificación deberá asignarse a las modalidades más sostenibles, lo que facilitará la posterior interpretación. De igual manera, en un estudio sobre el impacto de un incendio, las máximas calificaciones deberán asignarse a las condiciones de mayor impacto. Esta definición debe ser consistente para las diferentes variables.

La escala entre 1 y 5 resulta conveniente por contar con un nivel central (3), que sirve de referencia para valorar a partir del mismo lo que sea más deseable/severo o lo menos deseable/severo. Para facilitar su interpretación, pueden hacerse coincidir sus niveles guía con las siguientes etiquetas:

5: Máxima deseabilidad/severidad
4: Alta deseabilidad/severidad
3: Media deseabilidad/severidad
2: Baja deseabilidad/severidad
1: Mínima deseabilidad/severidad

Supóngase, por ejemplo, que, como parte de la dimensión ambiental en un proceso de beneficio de café, se define la variable recibo, la cual puede presentarse bajo alguna de las 5 categorías siguientes: tolva seca, separador hidráulico de tolva, tanque sifón sin recirculación, tanque sifón con recirculación y bomba sumergible.

A través de un ejercicio, como el que se detalla en la sección 3.1, considerando la deseabilidad/indeseabilidad de cada una de tales categorías, podrían asignarse las siguientes calificaciones a las modalidades identificadas para esta variable:

Tolva seca: 5
Separador hidráulico de tolva: 4.5
Tanque sifón sin recirculación: 1
Tanque sifón con recirculación: 3
Bomba sumergible: 3

Vale la pena señalar que la escala propuesta, aunque usa 5 niveles como guía, es realmente continua, pudiendo asignársele a una categoría específica de la variable cualquier calificación dentro del rango definido. Luego, sería perfectamente viable y adecuado asignarle, por ejemplo, una calificación de 1.3753 a una categoría dada. Por otra parte, no es necesario que la variable cuente con un número determinado de categorías, ni tampoco se requiere asignar calificaciones diferenciadas a estas. Las únicas condiciones que deben satisfacerse es que todas las calificaciones estén dentro de los límites definidos (entre 1 y 5 en la presente propuesta) y que haya al menos dos categorías con calificaciones diferentes3.

Así, en el presente ejemplo están claramente identificadas las condiciones de máxima deseabilidad (tolva seca: 5) y mínima deseabilidad (tanque sifón sin recirculación: 1). Asimismo, el equipo de personas encargado de construir la escala de calificación de esta variable definió que el recibo mediante separador hidráulico de tolva está entre una condición de alta y máxima deseabilidad; en consecuencia, se le hace corresponder una calificación de 4.5. Asimismo, puede notarse que las modalidades tanque sifón con recirculación y bomba sumergible fueron consideradas con una deseabilidad intermedia y similar, por lo que se les hizo corresponder una calificación de 3. Finalmente, puede notarse que, en la presente caracterización, aunque se identificó una modalidad de mínima deseabilidad, no se identificó ninguna de baja deseabilidad (calificación 2).

Para completar la ilustración de las posibilidades de esta escala, considérese a continuación, en el mismo contexto, la variable despulpado, que podría realizarse bajo dos modalidades: con agua o sin agua. Teniendo en cuenta que se está construyendo un índice ambiental, lo lógico es hacerle corresponder una calificación de 1 a la modalidad con agua (mínima deseabilidad), usando la calificación 5 para la modalidad sin agua (máxima deseabilidad).

Es muy recomendable hacer corresponder al menos una de las categorías de cada variable con el máximo nivel de la escala y otra con el mínimo. Esto les confiere consistencia a los índices que se calculen sobre diferentes UE, de manera que una UE específica en la que todas las variables evaluadas se presenten en las categorías de mayor deseabilidad/impacto obtenga el máximo ICI, mientras que alguna otra en la que todas las variables exhiban sus categorías de menor deseabilidad/impacto quede con el mínimo valor del ICI.

Esta recomendación se mantiene aun si se considera que el cambio entre dos categorías extremas es muy pequeño y que no se corresponde con el cambio entre un par de categorías de otra variable. Retomando el contexto del proceso de beneficio de café, podría considerarse la variable almacenamiento de la pulpa, con las categorías con techo y sin techo. Aunque desde el punto de vista ambiental es preferible que el almacenamiento de la pulpa se realice con techo a que realice sin techo, por lo que podría pensarse en hacerles corresponder calificaciones de 5 y 1 a tales categorías, podría dudarse al respecto si eventualmente se considerara que la distancia, desde el punto de vista ambiental, que hay entre realizar el almacenamiento de la pulpa con techo y sin techo no es tan grande como la que hay entre realizar el despulpado con agua y sin agua, por lo que podría pensarse en ‘resolver’ este conflicto asignado calificaciones de 4 y 2 (en lugar de 5 y 1) a las categorías con techo y sin techo, respectivamente. Esta ‘solución’, sin embargo, es inadecuada, puesto que los índices generados nunca alcanzarían ni los máximos ni los mínimos valores de la escala definida4. El conflicto entre las diferentes importancias de las variables despulpado y almacenamiento de la pulpa se resuelve de manera simple asignándoles diferentes ponderaciones a tales variables (cf. capítulo 4).

La estrategia de hacer corresponder una etiqueta descriptiva con cada uno de los valores enteros de la escala (1: mínima, . . . , 5: máxima) es una guía para la conceptualización, más que una camisa de fuerza. Así, si en un contexto de valoración de incendios en zonas con cobertura vegetal, una de las variables fuera daños a infraestructura y una de sus categorías fuera ninguno, obviamente se le haría corresponder la calificación 1 a dicha categoría, sin entrar en disquisiciones en cuanto a que no es lo mismo un daño ‘mínimo’ que un daño ‘nulo’. Si, en ese mismo contexto pudiera identificarse alguna categoría de muy bajo daño (por ejemplo, ahumamiento), se le haría corresponder una calificación mayor que 1.

Aunque los diseñadores de la herramienta podrían verse tentados a restringir las calificaciones para que nunca alcancen alguno de sus topes, esta estrategia no es adecuada. Así, en el contexto de evaluación de incendios en zonas con cobertura vegetal, los diseñadores de la herramienta podrían mostrarse reticentes a usar valoraciones 1, por considerar que, por más leve que sea un incendio siempre tendrá algún impacto. Aunque esto pueda ser cierto, no hay necesidad de restringir la escala de calificación; basta con asignarle la valoración 1 a esa situación de mínimo impacto.

Lógicamente, la máxima/mínima deseabilidad estarán enmarcadas en el estado del arte para el evento, proceso o fenómeno evaluado, acorde con las categorías definidas. Quizá, en algún otro momento, los avances tecnológicos y/o conceptuales podrán dar lugar a la aparición de otras categorías más deseables/indeseables, con lo cual habría que revaluar la correspondiente escala para el nuevo estado del arte (cf. sección 9.1).

No es necesario limitar la sencillez de una escala de calificación en aras de alguna otra escala que se tenga en mente para la expresión final de los índices. Al final, sin importar cuál escala se hubiera utilizado para calificar las variables, los índices de condición podrán reexpresarse en cualquier otra escala, acorde con lo ilustrado en la sección 6.2. Así, en el contexto de la valoración del impacto de los incendios en zonas con cobertura vegetal, los diseñadores de la herramienta bien podrían aplicar esta estrategia para presentar los resultados finales en una escala en la que, por ejemplo, el mínimo impacto fuera 20 y el máximo, 100. Esto no cambiaría la esencia de las valoraciones.

La elección de la escala de 1 a 5 o de cualquier otra responde a la facilidad con la que los expertos puedan conceptualizarla y usarla para calificar las diferentes categorías de las variables. Eventualmente, podría considerarse el uso de alguna otra escala alternativa con la que los expertos estuvieran más familiarizados.

En resumen, la escala de 1 a 5 es bastante flexible, permitiendo recoger las particularidades de cualquier variable que se pretenda valorar, sin importar su número de categorías ni la distancia entre sus valoraciones. Todas las variables deben tener al menos una categoría con calificación 1 y otra con calificación 5.

Finalmente, es importante anotar que debe propenderse por definir una serie de categorías exhaustivas y mutuamente excluyentes para cada una de las variables, lo que facilitará y objetivará el trabajo de los encuestadores. No obstante, tales categorías no siempre estarán tan claramente definidas como las que se propusieron para las variables relacionadas con el beneficio de café. Habrá situaciones en las que, tras iniciar el diagnóstico (capítulo 5), surja la necesidad de definir nuevas categorías o en las que incluso se considere improcedente definir categorías a priori, dejándose a criterio de los encuestadores asignar una valoración entre 1 y 5 a la situación observada en campo. La flexibilidad temporal en la que pueden desarrollarse algunos procesos (figura 1.2) permite incorporar esta circunstancia cuando así se requiera.

En cualquier caso, ya sea que cada variable esté desglosada en una serie de categorías claramente definidas o que la calificación surja de la valoración realizada por el encuestador en campo, es necesario elaborar una guía de calificación lo más completa y objetiva posible, de manera que una encuesta que sea aplicada por diferentes encuestadores sobre una UE produzca las mismas calificaciones. Dependiendo de las características de las encuestas y de las UE, las guías de calificación podrán incluir diferentes recursos tales como descripciones, medidas, límites, fotos, videos, etc.

3.1 Definición de la escala de calificación

Junto con las ponderaciones, la escala de calificación marca el enfoque de los índices. En tal sentido, los ejercicios para la definición de estos dos aspectos deben ser realizados por los diseñadores de la herramienta, con el apoyo de expertos en la temática.

Dependiendo de la complejidad del fenómeno y las especificidades de las dimensiones definidas, deberá considerarse si resulta más pertinente realizar un único taller con expertos holísticos o una serie de talleres especializados con los expertos de diferentes áreas (ambiental, técnica, económica…).

Ya sea que se elija la opción de un solo taller o de múltiples talleres, el ejercicio que se propone a continuación deberá abordarse dimensión por dimensión, analizando inicialmente todas las variables que definen una dimensión, antes de pasar a la siguiente. Cuando una variable contribuya a varias dimensiones, se hace necesario valorarla independientemente para cada una de ellas.

El análisis de las variables en el contexto de una dimensión específica permite focalizar la valoración de cada una de las categorías consideradas. Así, cuando se realice el ejercicio de valoración de una variable en el contexto de su participación en la dimensión ambiental, por ejemplo, deberá tenerse presente que el análisis de deseabilidad de las diferentes categorías está enmarcado en el contexto de la deseabilidad ambiental. Si en otra etapa del ejercicio apareciera nuevamente la variable en cuestión como parte, por ejemplo, de la dimensión económica, sería necesario valorar nuevamente la deseabilidad de sus diferentes categorías en el contexto económico, aun tratándose de la misma variable, con las mismas categorías.

A continuación se detalla una posible metodología para la realización de un ejercicio de definición de escalas de calificación, a partir de un panel de expertos.

  1. Tras haber convocado y reunido al grupo de expertos que tiene conocimiento y criterio sobre la temática abordada, el moderador expone lo concerniente a la escala que se utilizará para valorar las diferentes categorías de las variables. Debe indicarse la dirección de la escala, es decir, que 5 corresponde a la máxima deseabilidad/impacto, mientras que 1 corresponde a la mínima deseabilidad/impacto. Asimismo, debe resaltarse que cada variable deberá tener al menos una categoría a la que se le asigne la máxima calificación, y al menos otra a la que se le asigne la mínima5 .

    El moderador debe tener presente que suele ser difícil —aun para los expertos y diseñadores de la herramienta— desvincular lo concerniente a las escalas de calificación de las ponderaciones. Consecuentemente, debe enfatizarse que en esta etapa no se valora la importancia de cada variable (eso se hace en el ejercicio de ponderación: sección 4.1); lo único que se busca en este taller es generar una valoración de deseabilidad/impacto para las diferentes categorías en las que cada una de las variables puede aparecer en una UE.

    Seguidamente, se realiza un ejercicio independiente para cada una de las variables que conforman la encuesta.

  2. El moderador realiza una exposición sobre la variable y las diferentes categorías en las que puede presentarse, expresando el grado de deseabilidad/impacto de cada una de tales condiciones, en el marco de la dimensión que se esté considerando.

  3. A continuación puede abrirse un espacio de discusión en el que los participantes que lo deseen amplíen, puntualicen o rectifiquen lo expresado inicialmente por el moderador. Eventualmente podrían aparecer otras categorías de la variable que no hubieran sido consideradas inicialmente. Asimismo, podrían retirarse o fusionarse algunas otras. Cuando se considere que hay suficiente ilustración sobre la deseabilidad/indeseabilidad de cada una de las diferentes categorías de la variable, se pasará a proponer la calificación de cada una de ellas.

  4. Respetando los límites y la dirección de la escala definida, cada uno de los participantes del taller propondrá una calificación para cada una de las categorías que se hubieran identificado para la variable considerada. Con el fin de propiciar valoraciones independientes, podría usarse un formulario en línea, si las condiciones en las que se realiza el taller lo permitieran.

    En esta etapa, se les sugiere a los participantes que se abstengan de valorar variables o categorías sobre las que no se sientan muy seguros, acorde con sus experticias. Esto no limita el proceso, sino que, por el contrario, lo hace más objetivo, permitiendo que sean los verdaderos expertos en cada área los que definan las calificaciones.

  5. Usando alguna medida de tendencia central, se sintetizan las calificaciones propuestas por los expertos para cada una de las categorías identificadas. Para tal efecto, podría usarse la media; sin embargo, esta elección podría no ser la más conveniente, por la conocida falta de robustez de esta medida de tendencia central a la presencia de valores extremos. Consecuentemente, se sugiere usar la mediana, la cual recoge de mejor manera el carácter central de las diferentes calificaciones propuestas —sin la afectación que pudieran producir calificaciones extremas—, generando, en tal sentido, algo más cercano a una calificación consenso6 .

Al finalizar el taller, cada una de las categorías de las variables consideradas debe quedar asociada con una calificación.

Podría considerarse una variante de la anterior propuesta, en la que no se busque captar los criterios de los expertos de manera independiente, sino a través de un consenso. En tal caso, las diferentes exposiciones, tanto del moderador como de los expertos, irían abordando simultáneamente las diferentes categorías de la variable y sus calificaciones. Se esperaría que al final del análisis de cada variable, sus diferentes categorías quedaran asociadas con una calificación. Los diseñadores de la herramienta deberán evaluar la pertinencia de una u otra metodología (conceptos independientes vs. consenso), pudiendo incluso adaptar alguna metodología híbrida.

3.1.1 Cálculo de la escala de calificación

Considérense las calificaciones propuestas por un grupo de 10 expertos para 5 categorías de una variable.

Variable e1 e2 e3 e4 e5 e6 e7 e8 e9 e10
cat1 5 4 3 5 1 3 5
cat2 5 2.5 1 3.5 5 3
cat3 3 3 4 4
cat4 2 1 3 2 1 2
cat5 1 1 2 3 2.5 3 1

Puede observarse que, atendiendo las recomendaciones, algunos panelistas se abstuvieron de calificar algunas o todas las categorías. Asimismo, se observa que —saltándose la recomendación de identificar al menos una categoría de máxima deseabilidad y una de mínima— el experto 9 no identificó ninguna categoría de mínima deseabilidad.

Esta información está organizada en el libro ici_escal.xlsx, en cuya segunda hoja se presentan las siguientes calificaciones medianas por categoría:

Variable Calificación mediana
cat1 4
cat2 3.25
cat3 3.5
cat4 2
cat5 2

Puede observarse que el conjunto de resultados obtenido no está enmarcado entre 1 y 5, a pesar de que casi todos los panelistas realizaron propuestas que sí lo estaban (e incluso si todos lo hubieran hecho). Esto puede corregirse, sin embargo, transformando la calificación de cada categoría con base en la siguiente expresión:

\[ C_f=\frac{L_{Sf}-L_{If}}{L_{Si}-L_{Ii}}\left(C_i-L_{Ii}\right)+L_{If} \] donde:
\(C_f\): Calificación final escalada entre \(L_{If}\) y \(L_{Sf}\)
\(C_i\): Calificación inicial
\(L_{Ii}\): Límite inferior de la escala inicial
\(L_{Si}\): Límite superior de la escala inicial
\(L_{If}\): Límite inferior de la escala final
\(L_{Sf}\): Límite superior de la escala final

Al aplicar esta transformación, se obtienen las siguientes calificaciones escaladas (cf. columna N de la segunda hoja de ici_escal.xlsx):

Variable Calificación escalada
cat1 5
cat2 3.5
cat3 4
cat4 1
cat5 1

Aunque, en la mayoría de escenarios, este procedimiento resulta adecuado para generar las calificaciones consenso de cada categoría, muy eventualmente podría presentarse una situación en la que todas las calificaciones medianas coincidieran, lo que impediría escalar los resultados. Más allá de la obvia dificultad matemática para realizar el escalamiento (obsérvese que cuando \(L_{Si} = L_{Ii}\) el denominador del primer factor se hace cero), esta situación estaría evidenciando una de dos situaciones, que habría que resolver:

  1. Que los expertos tienen conceptos muy disímiles, que se mueven en direcciones contrarias: que las categorías que algunos consideran más indeseables son las más deseables para otros y viceversa.

  2. Que no existe una verdadera diferenciación en el nivel de deseabilidad/indeseabilidad de las categorías consideradas.

Cualquiera que sea la situación que se presente, será necesario resolverla. Se esperaría que, en un ejercicio que surja de una metodología como la propuesta, en la que se realiza una discusión previa del nivel de deseabilidad/indeseabilidad de cada categoría, no se diera la situación a. No obstante, aun así, seguiría siendo posible que se diera el escenario b, lo que estaría indicando que la ‘variable’ propuesta no es una verdadera variable, por no contar con un conjunto de categorías claramente diferenciadas en deseabilidad/indeseabilidad. En tal caso, podría realizarse una nueva ronda de discusión para tratar de definir por consenso un conjunto de calificaciones, o podría descartarse la ‘variable’ en cuestión.

La función ici_escal{ici}, programada en R, facilita la consolidación de las calificaciones propuestas. Para usarla, debe organizarse la información en un archivo Excel como el de la primera hoja de ici_escal.xlsx (no es necesario realizar ningún tipo de resaltado o iluminación de la información faltante). Tras cargar el paquete ici en memoria, se invoca la función, usando como argumento el nombre del libro con su correspondiente extensión, el cual deberá escribirse entrecomillado. Esta función escala automáticamente entre 1 y 5. No obstante, si el usuario necesitara escalar entre otros límites podría indicarlo mediante el argumento esc, usando un vector con el límite inferior y el límite superior de la escala deseada. Así, para escalar, por ejemplo, entre 0 y 7 se usaría el argumento esc = c(0, 7).

Para usar la opción de calificación en línea a partir de un formulario, debe generarse una hoja de cálculo de Google (Google Sheets7), con una hoja (sheet) por experto. La hoja correspondiente a cada experto estará marcada con su nombre o algún otro identificador y contendrá el nombre de cada una de las categorías en la columna A, y la calificación asignada por el experto en la columna B. La hoja correspondiente al tercer experto se vería así tras haber sido diligenciada.

Al usar hojas de cálculo de Google, debe prestarse especial atención al carácter de separación decimal, pues este podría no coincidir con el que estuviera usándose localmente en el equipo. El uso del carácter de separación incorrecto genera un error, puesto que tales lecturas dejan de reconocerse como números. Para verificar cuál es el carácter que se está reconociendo como separador decimal, basta con chequear mediante cualquier operación aritmética. Así, si al escribir =1*2.5 se obtiene el resultado esperado, mientras que al escribir =1*2,5 se obtiene un error, se sabrá que el separador decimal activo es el punto.

Para cambiar el separador decimal se ingresa por la siguiente ruta: Archivo > Configuración > General > Configuración regional. Al seleccionar un país, se cargará la configuración más común (según Google) del país en cuestión. Así, por ejemplo, España y Colombia usan la coma para separar decimales; Estados Unidos usa el punto como separador decimal. Cualquiera que sea el separador decimal que se use, debe informársele explícitamente a los expertos que diligenciarán la encuesta.

Se recomienda hacer uso de la funcionalidad de validación de datos que incorporan las hojas de cálculo de Google, de manera que únicamente admita valores numéricos.

Para aplicar la validación de datos, se marca el rango de celdas. Seguidamente, se hace clic derecho sobre el área marcada y se elige Ver más acciones de la celda > Validación de datos y se presiona el botón + Añadir regla. En la casilla criterios se elige Está entre; en los dos campos que aparecen se escribe 1 y 5.

Para evitar tener que repetir el proceso de validación en cada hoja, se recomienda generar la hoja de cálculo inicial con una sola hoja en la que se adecúe el formato, con la correspondiente validación. Seguidamente, se generan copias para cada uno de los experto que participen en el taller.

Para escalar entre 1 y 5 (por defecto) los datos almacenados en el libro ici_escal.xlsx, se ejecuta la siguiente instrucción:

ici_escal("ici_escal.xlsx")

Si las calificaciones hubieran sido consignadas en una hoja de cálculo de Google, se usarían como argumento el identificador de la hoja de cálculo (ID8), es decir, la parte larga de la dirección, que se encuentra entre las barras (también admite la URL completa).

Para el presente ejemplo, se usa la siguiente instrucción9:

ici_escal(ID = "1zudTqXp8_AyeDFgw1BH7477vFAgc828C_Nu-Jz9ezck")

Para leer información desde una hoja de cálculo Google, es necesario conceder autorización al paquete googlesheets4 para acceder a la cuenta de Google.

Cualquiera que sea el origen desde el que se lean las calificaciones, tras ejecutar la función con el argumento apropiado, se obtiene el siguiente resultado:

#>  Variable score
#>      cat1   5.0
#>      cat2   3.5
#>      cat3   4.0
#>      cat4   1.0
#>      cat5   1.0

Si se presentara el caso discutido anteriormente, en el que las calificaciones medianas de las diferentes categorías fueran iguales, todos los resultados aparecerían con la etiqueta NaN (not a number). Asimismo, aparecería un mensaje advirtiendo que las medianas de todas las calificaciones son coincidentes.