Introducción
La madera, uno de los pocos recursos naturales renovables, es predominante en nuestra vida cotidiana, así como en los procesos económicos (9). Una transformación mecánica primaria que este recurso comúnmente sufre para adquirir mayor utilidad y mayor valor agregado es el proceso de aserrado que ocurre generalmente en aserraderos.
Las propiedades físicas y mecánicas de este recurso natural pueden variar de forma inter e intraespecífica y en función de su posición en el mismo árbol. Estas propiedades intrínsecas, sumadas a factores ambientales y variaciones oriundas del aserrado y secado, proporcionan maderas aserradas de diversas calidades, generando la necesidad de su clasificación por clase de calidad para un uso más adecuado. Sin embargo, irregularidades, patrones no repetidos y defectos dificultan esa clasificación (18).
La clasificación es generalmente realizada por reglas o normas estandarizadas en todo el territorio nacional de un país (17). Hay dos tipos de clasificación: la visual y la mecánica (12). La calificación visual ocurre casi siempre en el aserradero (17) y se realiza de acuerdo con una determinada norma de clasificación generalmente basada en el número, tamaño y localización de defectos presentes en las piezas (2). Según (5), esta clasificación se basa en la premisa de que los defectos pueden ser observados y evaluados a simple vista. Su eficiencia depende de la experiencia del clasificador. La clasificación mecánica se realiza con pruebas no destructivas acompañadas de un análisis visual. Si bien este último tipo de clasificación es más eficiente, según (4), es costoso y demorado, razón por la cual la primera es ampliamente más usada. Por lo tanto, una clasificación visual eficiente y menos subjetiva es requerida.
Numerosas normas de clasificación de madera aserrada fueron propuestas e implementadas por países, grupo de especies (coníferas y latifolias) e incluso por especie. Una de las más conocidas es la norma americana, ASTM D245 (Standard Practice for Establishing Structural Grades and Related Allowable Properties for Visually Graded Lumber), propuesta específicamente para una clasificación visual (6). En Cuba, una de las normas utilizadas para clasificar la madera aserrada de coníferas es el clasificador propuesto por (11), el cual se basa en 24 variables. La evaluación visual de las exigencias técnicas contempladas en las normas y la decisión de la inclusión o no de una pieza en una determinada clase de calidad puede ser subjetiva, principalmente para piezas con características que la posicionan en el límite entre dos clases.
La alta velocidad (hasta 5 m.s-1) a la que las trozas son generalmente procesadas en los aserraderos exige una clasificación rápida y eficaz de la madera aserrada, la cual no es posible sin automatización de procesos (15). Los aserríos cubanos, incluyendo al aserrío Combate de Tenerías, objeto del presente estudio, son semiautomatizados. El proceso de aserrado inicia con una entrada automática de madera (trozas) y finaliza con la clasificación manual de la madera aserrada. La lentitud de esta clasificación manual confrontada a esta velocidad de aserrado obliga a los clasificadores a trabajar bajo presión, lo que aumenta la probabilidad de error en la clasificación. Esta clasificación se puede automatizar mediante la utilización de un medio informático rápido y preciso de clasificación de la madera aserrada (21). Estos sistemas automatizados anunciados por (15) ya son funcionales en numerosos aserraderos. Los mismos incluyen complejos mecanismos compuestos por cámaras, luces, láseres, rayos X, computadoras y otros dispositivos necesarios para identificar defectos en las piezas de madera aserrada. Para la automatización de este proceso en el aserrío Combate de Tenerías, un sistema similar al desarrollado por (24) puede ser montado y entrenado para el reconocimiento de los defectos en madera aserrada. El conjunto de salida de este sistema alimentará modelos cuyas entradas son los defectos identificados por un sistema de barrido láser. Según (16), esta automatización es imprescindible para agilizar el proceso y reducir la tasa de reclasificación de la madera que surge de divergencias recurrentes entre vendedores (los aserraderos) y compradores exigentes.
Entre las técnicas utilizadas para auxiliar el proceso de clasificación, se destacan: el modelo de regresión logística multinomial ordinal, cuya utilización ha crecido en los últimos años en el análisis de datos y cuya respuesta es presentada de forma categórica y ordenada (1); y las Redes Neuronales Artificiales (RNAs) cuya estructura permite la clasificación de datos en categorías o clases (7).
Ante el evidente problema de subjetividad en la clasificación visual de madera aserrada arriba expuesto, el presente trabajo tuvo como objetivo, obtener herramientas de auxilio a la clasificación de madera aserrada de Pinus caribaea var. caribaea en el aserrío Combate de Tenerías, por medio de ajustes de modelos de Regresión Logística Multinomial Ordinal y configuración de RNAs.
Materiales y métodos
Caracterización del local de estudio
El presente estudio se realizó en el aserrío Combate de Tenerías perteneciente a la Empresa Forestal Integral (EFI) Macurije ubicada en Pinar del Río, Cuba. La especie objeto de estudio fue el Pinus caribaea var. caribaea que representa el 90 % de la madera procesada en este aserrío (13). El predominio de esta especie en el sistema de producción de la empresa está en consonancia con las estadísticas nacionales según las cuales esta ocupa el primer lugar en los planes de reforestación y en los sistemas de producción de la isla (19). La tecnología instalada en el aserradero, con sierras de diferentes calibres y anchos, permite utilizar muchos esquemas de aserrado en dos líneas de producción: una de grandes dimensiones (trozas de 4 m) y otra de pequeñas dimensiones (trozas de 3 m) que operan con sierras de cintas verticales, dobles y de madera móvil durante 8 horas diarias.
Recolección de datos
Los datos utilizados en el estudio se obtuvieron durante el aserrado de trozas de Pinus caribaea var. Caribaea en el aserradero Combate de Tenerías en el mes de marzo de 2015. Estos datos proceden de la minuciosa clasificación visual de 259 tablas obtenidas al final del proceso de aserrado. Las variables independientes o predictoras consideradas en la elaboración de los modelos de predicción de la calidad de madera aserrada de Pinus caribaea var. caribaea, tanto los de regresión como los de RNAs, son las exigencias técnicas (variables) del clasificador de madera aserrada de coníferas de (11) (Cuadro 1 ). La variable dependiente fue la calidad, una variable categórica que cuenta con cuatro categorías. En orden decreciente, esas categorías son: selecta, Clase I, Clase II y Clase III. La clasificación de una pieza en determinada clase de calidad depende de la cantidad de defectos registrados en la misma. La probabilidad de que una pieza sea clasificada en la clase SELECTA disminuye con el aumento de la cantidad de defectos en esta. Los límites de inclusión de las piezas en cada clase de calidad se encuentran en el clasificador de (11).
Modelo de Regresión Logística Multinomial Ordinal (RLMO)
Dado que la variable respuesta (calidad) de la clasificación de la madera aserrada es discreta, con más de dos categorías ordenadas de mejor a peor (Selecta, Clase I, Clase II, Clase III), el modelo de regresión más adecuado para la clasificación es el de regresión logística ordinal también conocido como modelo de regresión logit-ordinal. Este modelo tiene una parametrización diferente del modelo logístico ordinario, ya sea binario o multinomial. La modelación se centra en la probabilidad de elegir una de las J categorías conociendo algunas variables explicativas y se basa en las probabilidades acumulativas. En el modelo RLMO, la probabilidad de que una pieza pertenezca a una categoría j o a una categoría inferior, ya que la misma es acumulativa, se determinó por medio de las ecuaciones 1 y 2.
Donde: y es la variable dependiente con j categorías; xi es la i-ésima variable predictora; aj es el parámetro de la j-ésima categoría y ß es el parámetro común a todas las categorías.
La ecuación de RLMO fue estimada usando el método de máxima verosimilitud (Ecuación 3) optimizada con el algoritmo de Newton-Raphson en XLSTAT versión 2016.
Dónde: y es la variable dependiente con j categorías; xi es la i-ésima variable predictora; aj es el parámetro de la j-ésima categoría y ß es un parámetro común a las categorías.
La significancia del modelo independiente (sólo el intercepto) fue analizada por la prueba de la Razón de Verosimilitudes (TRV) (Ecuaciones 4 y 5). En el mismo, se probó también si todos los coeficientes de regresión son todos nulos con excepción de la interceptación (b0).
En caso de rechazar la hipótesis nula, se concluye que al menos uno de los coeficientes es estadísticamente distinto de cero. La significancia de esta prueba conduce a la realización de la prueba de Wald para cada coeficiente (Ecuación 6).
Dónde: FMVMC= Función de Máxima Verosimilitud del Modelo Corriente (sólo variables deseadas); FMVMS=Función de Máxima Verosimilitud del Modelo Saturado (incluye todas las variables); bj es la estimación del parámetro asociado a la categoría j; Var(bj) es la varianza de la estimación del parámetro asociado a la categoría j.
Análisis factorial con las variables predictoras de la calidad de madera aserrada
Dada la gran cantidad de variables que involucra la clasificación de madera aserrada, la probabilidad de que exista multicolinealidad entre los predictores del modelo es alta. Aunque la presencia de este fenómeno genere ajustes aparentemente buenos, con altos coeficientes de determinación (R2), esta afecta significativamente la capacidad predictiva de los modelos elaborados. Para evitarla, se realizó un análisis factorial para reducir la dimensión del conjunto de datos sin una significativa pérdida de información. Los factores obtenidos se utilizaron como entradas de los modelos logit-ordinal.
El análisis factorial siguió los siguientes pasos: (1) suficiencia muestral determinada por (14), según el cual, la razón entre el número de observaciones y la cantidad de variables debe exceder de cinco a uno o más; (2) verificación de la adecuación de la aplicación de la técnica por la prueba de KMO (Kaiser-Meyer-Olkin), cuya interpretación se hizo con base en (10). Según este autor, un KMO entre 0,90 y 1 es considerado excelente; entre 0,80 y 0,89 es bueno; entre 0,70 y 0,79 es mediano; entre 0,60 y 0,69 es mediocre; entre 0,50 y 0,59 es malo y entre 0 y 0,49 es totalmente inadecuado. La técnica de extracción de factores utilizada fue la de componentes principales. Buscando un mayor grado de parsimonia, una mayor varianza explicada y cumpliendo con la exigencia de (20) de tener entre 20 y 50 variables, el número óptimo de factores fue determinado por el criterio de Kaiser, el cual establece que todos los factores extraídos tienen que presentar un autovalor por encima de 1 (uno). Para una mejor interpretación de los factores, se realizó una rotación ortogonal varimax, método propuesto por Kaiser (8). El análisis factorial se realizó con el Sistema de Análisis Estadístico - SAS (Versión 9.4, SAS Institute, NC).
Redes Neuronales artificiales para la clasificación de madera aserrada
Los entrenamientos de las RNAs se realizaron con el algoritmo Broyden-Fletcher-Goldfarb-Shanno (BFGS) conocido por su mejor tasa de convergencia y su capacidad de búsqueda más inteligente (3). Las RNAs entrenadas fueron del tipo Radial Basis Function (RBF) y Multi-Layer Perceptron (MLP) y las funciones de activación para las neuronas ocultas y de salida fueron las funciones seno, exponencial, identidad, logística y tangente hiperbólica. La base de datos se dividió en tres subconjuntos independientes con las siguientes proporciones: 50 % para el entrenamiento, 25 % para la validación y 25 % para la prueba. Para facilitar la convergencia de las RNAs, las variables se normalizaron para los intervalos (0,1) o (-1,1) a través de la transformación lineal. Los entrenamientos se realizaron en el programa Statistica versión 8.0 (Stat Soft, Inc., Tulsa, OK, USA).
El análisis de la importancia de cada una de las variables predictoras en la clasificación de madera aserrada, también conocido como análisis de sensibilidad, se realizó calculando la contribución de cada variable j con las ecuaciones 7 y 8 (22).
Dónde: Contj (%)= contribución de cada variable; Senjn=sensibilidad para cada variable de entrada j (j=1,…,N_inp) con relación a la salida para un dado ejemplo n (1,…,N); Ninp = número total de neuronas o variables en la capa de entrada; Nout = número de neuronas en la capa de salida.Wkj = pesos sinápticos que conectan la capa ocultada la capa de entrada y Wik = pesos sinápticos que conectan la capa de salida a la capa oculta. f´ (neti) y f´ (netk ) son las derivadas de las funciones de activación de las neuronas de las capas de salida y oculta, respectivamente; ei (n)= error en la capa de salida.
Criterios de evaluación y selección de los modelos de regresión y de las RNAs
Las mejores RNAs fueron las que presentaron un mayor porcentaje de acierto de clasificación. Los modelos de regresión logística politómica ordinal, basándose en estimaciones de la máxima verosimilitud, los criterios utilizados para su evaluación fueron: el criterio de información bayesiano - BIC o SBC (Ecuación 9) y los pseudo-R² como el R²-McFadden (Ecuación 10); el R²- Cox y Snell (Ecuación 11) y el R² - Nagelkerke (Ecuación 12). Estos pseudo-R² se interpretan similarmente al coeficiente de determinación (R2) de un análisis de regresión ordinaria. Siendo así, análogamente, cuando mayores sean sus valores, mejor es el ajuste.
En que: f (xnIIø) es el modelo elegido, p y n son el número de parámetros y de observaciones, respectivamente.
Donde: L0= Log-verosimilitud del modelo nulo; Lf= Logverosimilitud del modelo final.
Resultados y discusión
Modelo de regresión logística ordinal para la clasificación de madera aserrada de Pinus caribaea var. Caribaea
Un previo análisis de multicolinealidad indicó la necesidad de excluir dos variables de la base de datos: las desviaciones positivas permisibles en el ancho (DPSM_L+) y las desviaciones positivas permisibles en el grosor (DPSM_G+). La significancia de la prueba de la razón de verosimilitudes (Cuadro 3 ) es un indicativo de que al menos un coeficiente, diferente del intercepto, no es nulo. Esta significancia condujo a la realización de la prueba de Wald, el cual fue significativo sólo para la variable DPSM_C+ (desviaciones positivas permisibles en la longitud de la madera). Esto indica que en la ecuación logit-ordinal obtenida, sólo esta variable tiene una relación estadísticamente significativa con la calidad de la madera aserrada. Se puede concluir entonces una falta de consistencia de las estimaciones de los parámetros. En cuanto a los pseudo-R² (Cuadro 2 ), sus valores indican que un buen porcentaje de varianza de la calidad de la madera aserrada es explicado por las ecuaciones de regresión logística ordinal obtenidas. Los valores de BIC indican que el modelo completo (intercepto + variables predictoras) es superior al modelo independiente (sólo el intercepto).
La validación de la ecuación de regresión logística ordinal obtenida indicó un porcentaje de clasificación correcta del 54,44 % (Cuadro 4). Se supone que este porcentaje de acierto relativamente bajo es causado por la no significancia de la participación de la mayoría de las variables en el modelo.
Para abordar el problema de no significancia de la casi totalidad de los parámetros del modelo, la introducción de los datos de una forma más reducida fue considerada. Por ello, se realizó un análisis factorial descrito en la sección subsecuente para la obtención de factores cuyos scores serían las nuevas entradas del modelo.
Análisis factorial para la reducción de la dimensionalidad del conjunto de entrada
El valor del KMO de la muestra fue de 0,962, considerado excelente según la clasificación de (10). Este valor indica que los datos son adecuados para la aplicación el análisis factorial. El criterio de Kaiser sugirió la extracción de tres factores. Estos tres factores explican el 77,93 % de la varianza total de las variables. La aplicación del método de rotación VARIMAX (Figura 1 y Cuadro 5) permitió la inclusión de otros dos factores que proporcionaron el aumento de la varianza total explicada del 77,93 % al 85,3 %.
Figure 1. Eigenvalues scree plot before (a) and after (b) the varimax rotation.
El primer factor presentó un autovalor de 12,77, responsable por el 65,13 % de la varianza total; el segundo factor presentó un autovalor de 2,70 y explica cerca de 8,47 % de la varianza; el tercero, con un autovalor de 1,73, es responsable del 4,32 % de la varianza; el cuarto con un autovalor de 1,28 es responsable del 4,10 % de la varianza y el quinto y último, con un autovalor de 1,005, es responsable del 3,30 % de la varianza.
Se puede observar que después de la rotación varimax, el mayor cambio ocurrió al alrededor de los cinco primeros factores. La rotación permitió una redistribución de la varianza entre factores obteniendo así cinco factores con los autovalores encima de uno. Por ello, los cinco primeros factores se retuvieron para describir las relaciones de covarianza entre las variables involucradas.
El primer factor (F1) presentó una fuerte correlación positiva con las variables DPSM_C+, DPSM_C-, DPSM_L+, DPSM_L-, DPSM_G+, DPSM_G-, DPSM_G+ y G (Cuadro 5 ). La naturaleza de estas variables permite asociar ese factor con los defectos de aserrado en la madera aserrada (Cuadro 6 ). Las variables NSPAnA, BR, PERP y DM se correlacionaron fuertemente con el Factor F2 asociado con los defectos de consistencia de la madera aserrada (Cuadro 5 y 6). El factor F3 está correlacionado con las variables LBC y CBC y por la naturaleza de esas variables, fue asociado a los defectos de estética de la madera aserrada (Cuadro 6 y 7). Las variables DRch y CC están fuertemente correlacionadas con el factor F4 y la variable CL con el factor F5, etiquetando estos dos factores como descriptores de los defectos de secado (Cuadro 5 y 6).
Modelo de regresión logística ordinal basado en los factores
Los ajustes obtenidos con los factores fueron similares a los anteriores, con una diferencia en el BIC, el cual fue mejor con la introducción de los factores (Cuadro 7 y 8).
A diferencia del modelo anterior, en este modelo, todas las variables predictoras (factores seleccionados por el criterio de Kaiser) fueron significativos ( Cuadro 9 ).
La contribución de esos factores siendo significativa, las estimaciones de los parámetros asociados ( Cuadro 10 ) pueden ser consideradas confiables y su interpretación realizada.
En la clase II, para el factor F1 relacionado con los defectos de aserrado, para un aumento de una unidad se espera un aumento de 14,806 en las probabilidades de estar en una clase peor (clase III) cuando todos los otros factores se mantienen constantes. Esta interpretación se puede realizar en todas las clases para analizar la influencia de los factores en la inclusión o no de las piezas de madera aserrada en determinada clase. El aumento del porcentaje de acierto de 54,44% ( Cuadro 4 ) a 84,55 % ( Cuadro 11 ) indica consistencia y mejor capacidad predictiva del modelo ajustado con los factores.
RNAs para la clasificación de la madera aserrada de Pinus caribaea var. Caribaea
Las cinco mejores RNAs fueron del tipo RBF ( Cuadro 12 ). Este resultado está en consonancia con (22) que alega que este tipo de RNAs (RBFs) son generalmente superiores a las del tipo MLP en las tareas de clasificación. Esta superioridad se atribuye a su propia estructura que requiere un entrenamiento no supervisado para determinar las estimaciones de los parámetros de las funciones de base radial de la capa oculta y un entrenamiento supervisado para ajustar los pesos que unen la capa oculta a la de salida. En el entrenamiento no supervisado, el algoritmo de clusterización utilizado permitió la identificación de grupos potenciales, con la capacidad de identificación de relaciones no lineales. La segunda fase del entrenamiento de las redes neuronales RBF, que (22) compara con una red ADALINE, sigue el entrenamiento supervisado estándar.
Esto se resume al abordaje realizado en la sección anterior (modelo de regresión logística ordinal basado en los factores) haciendo previamente un análisis factorial y usando después los factores en la regresión logística, con la gran diferencia que la red logra captar complejas relaciones no lineales entre las variables (23). La superioridad de las RNAs es atribuida también a su mayor parsimonia y, principalmente, a su capacidad de separar los efectos combinados entre las variables de entrada por el paralelismo de su estructura (23), evitando así los problemas de multicolinealidad enfrentados en los modelos clásicos. La RNA 4, de arquitectura RBF 24-8-4, fue la que presentó el mejor aprendizaje ( Cuadro 12 ) y la mejor capacidad de generalización ( Cuadro 13 y Figura 2 ).
Figure 2. Performance of the different models in the classification of P. caribaea sawnwood.
Los resultados de la Figura 2 confirman la significativa mejora que el análisis factorial ha traído al desempeño del modelo de RLMO propuesto y la superioridad del desempeño de las RNAs. Los porcentajes generales de aciertos fueron de 54,44 %, 84,55 % y 89,55 % para los modelos RLMO, RLMO (precedida de factorial) y RBF 24-8-4, respectivamente ( Cuadro 4 , 11 y 13). Además, la RNA RBF 24-8-4 presentó un porcentaje de sobrevalores (clasificaciones en clases superiores a la correspondiente) de 2,98 %, el cual es inferior al 5%, límite generalmente adoptado para la seguridad de los consumidores.
El análisis de la importancia o contribución de las variables predictoras (Figura 3 ) indicó que las más importantes fueron: CL (curvatura del Largo), DRch (diámetro de las grietas) y LRch (ancho de las grietas) relacionados con los defectos de secado de la madera aserrada; PERP (podredumbre externa reducida a polvo), DM (daños mecánicos) y DFibr (desviación de las fibras) relacionados con la consistencia de la madera aserrada, MFC (manchas de hongos en el cerne) relacionada con la estética y la gema (G) que es un defecto de aserrado de madera que afecta también la estética.
Figure 3. Importance of the predictors of P. caribaea lumber quality.
El resultado anterior indica que medidas deben ser tomadas para controlar, principalmente, los defectos de secado, consistencia y estética ya que son los más influyentes en la calidad de la madera aserrada. La mayoría de las variables pertenecientes a estos factores caracteriza defectos que aparecen con el tiempo cuando determinados cuidados no se observan en el almacenamiento de la madera aserrada.
Conclusiones
La regresión logística ordinal precedida de un análisis factorial fue viable para la modelación de la clasificación de la madera aserrada.
La ecuación de regresión logística politómica ordinal (con los factores) auxilió eficientemente la clasificación de madera aserrada de Pinus caribaea Morelet var. caribaea Barr. & Golf. en el aserrío Combate de Tenerías de la EFI Macurije.
Las Redes Neuronales Artificiales de tipo RBF, con apenas 8 neuronas en una capa oculta, fueron superiores a los modelos de regresión logística politómica ordinal en la clasificación de madera aserrada.
Las variables de mayor contribución en la clasificación de la madera aserrada fueron: la curvatura en la anchura (CL), el diámetro de las grietas (DRch), la podredumbre externa reducida a polvo (PERP), la gema (G) y los daños mecánicos (DM).