ARTÍCULO ORIGINAL

 

DOI: 10.17230/ingciencia.11.22.6

 

Efecto de datos influyentes en el análisis de diseños factoriales de efectos fijos 3ω

 

Effect of Influential Data in 3ω Fixed FactorialDesigns

 

Oscar O. Melo 1,Carlos A. Falla 2 y José A. Jiménez 3

1 Universidad Nacional de Colombia, Bogotá, Colombia, oomelom@unal.edu.co.

2 BI Technical Consultant en Conexia SA, Bogotá, Colombia, cafallag@unal.edu.co.

3 Universidad Nacional de Colombia, Bogotá, Colombia, josajimenezm@unal.edu.co

 

Recepción: 10-02-2015 | Aceptación: 06-06-2015 | En línea: 31-07-2015

MSC: 62K15, 62E15, 62-07, 62J20

 


Resumen

En este trabajo se establece una metodología alternativa para la detección de observaciones influyentes en diseños factoriales de efectos fijos 3ω, a través del planteamiento de la estadística de prueba (Fq) y la caracterización de los efectos de dichas observaciones sobre el análisis, las sumas de cuadrados y los estimadores del modelo que describe el diseño experimental.

Palabras clave: diseño factorial; datos influyentes; análisis de varianza; datos atípicos; sumas de cuadrados.


Abstract

This paper provides a methodology alternative for the detection of influential observations in factorial design of fixed effects 3ω. Our proposal is developed through the approach of the test statistic (Fq), and the characterization of the impact of such observations on the analysis, the sums of squares and the estimators of the model that describes the experimental design.

Key words: factorial design; influential data; variance analysis; outliers data; sums of squares.


 

1  Introducción

El diseño experimental es usado frecuentemente en la investigación, principalmente en la industria, biología y ciencias agropecuarias, en las áreas del desarrollo de producción y control de calidad. Para la elaboración de un producto se deben tener en cuenta los ingredientes o componentes que éste requiera y las condiciones bajo las cuáles se fabrica. El objetivo de la experimentación es estudiar los efectos de la variación de los factores que se involucran en la elaboración y determinación de la mejor combinación de ellos.

Muchos experimentos tienen en cuenta dos o más factores, por lo que cada observación es respuesta de una de las posibles combinaciones de los niveles experimentales de dichos factores. Para estos casos, se recomienda la aplicación de un diseño con arreglo factorial como una alternativa más eficiente, que los métodos donde se estudian los factores en forma separada. Estos diseños investigan todas las posibles combinaciones de los niveles de los factores en cada ensayo completo o réplica del experimento. El efecto de un factor se define entonces como el cambio en la respuesta producido por un cambio en el nivel del factor.

En muchas áreas y procedimientos metodológicos de la estadística, el tema de observaciones influyentes es común y en cada uno de ellos existen elaboraciones teóricas para su tratamiento y análisis. Jiménez [1] dice que la presencia de estas observaciones puede distorsionar severamente la interpretación del análisis de varianza, pues afecta directamente las sumas de cuadrados que permiten construir las estadísticas de prueba para rechazar o no las hipótesis planteadas, y por lo tanto, podrían tener una gran influencia sobre la decisión que se tome con respecto a ellas.

El objetivo de este trabajo es desarrollar un procedimiento de análisis de influencia en diseños factoriales 3ω, acompañado de los métodos de análisis de varianza. Como los modelos estadísticos por lo general tienen algún grado de aproximación, es importante la evaluación de la influencia de la menor perturbación de un modelo hipotético [2]. Los resultados del análisis de influencia se pueden utilizar para identificar los problemas implícitos en un estudio con el fin de juzgar si una decisión es posiblemente engañosa y para tener una visión más completa de las conclusiones que se obtienen. Por lo tanto, el análisis de la influencia es considerado como un componente importante en el análisis de un diseño experimental 3ω. Aunque el análisis de la influencia ha sido durante mucho tiempo un tema importante en varios modelos estadísticos (véase, [3],[4],[2],[5],[6],[7],[8],[9],[10],[11],[12],[13]), se ha trabajado muy poco en los diseños factoriales simétricos, y en particular, en los diseños 3ω.

En este artículo se aborda los diseños factoriales de efectos fijos 3ω con el fin de identificar los efectos de las observaciones influyentes sobre las hipótesis de interés, específicamente sobre las sumas de cuadrados y las estadísticas de prueba; planteando una metodología para su identificación y aplicándola en un caso de estudio, estableciendo patrones y características en su análisis.

El artículo esta organizado como sigue: en la sección 2 se presenta brevemente los principales temas relacionados con diseños factoriales, análisis de varianza, datos influyentes y sus métodos de detección. Además, se presenta la estadística Fq y su distribución, a partir de la cual se pueden identificar observaciones influyentes o conjuntos de observaciones influyentes en diseños factoriales de efectos fijos 3ω. En la sección 3 se presenta la construcción teórica de la estadística Fq y se describe la forma de calcularla a partir de las sumas de cuadrado del diseño factorial de efectos fijos 3ω.

En la sección 4 se caracterizan algunos de los posibles efectos que tienen las observaciones influyentes sobre las sumas de cuadrados utilizadas en el análisis de varianza, que soporta el experimento y sobre la estadística de prueba; la sección 5 muestra un ejemplo de aplicación de la metodología propuesta y la sección 6 presenta las conclusiones correspondientes a la metodología propuesta.

 

2  Diseños factoriales y análisis detección de datos influyentes

Los diseños factoriales en general, se basan en el análisis de los diferentes factores que puedan intervenir en un experimento, encontrando la(s) mejor(es) combinación(es) de los niveles que éstos presentan. La selección de dicha(s) combinación(es), se realiza mediante la comprobación de hipótesis apropiadas con respecto a ellas, llegando así a una estimación de su efecto sobre el experimento.

Para probar las hipótesis, se plantea un modelo estadístico lineal que permita escribir cada una de las respuestas obtenidas en el experimento, a través de la suma de un parámetro común a las combinaciones de los niveles de los factores, un parámetro único para cada una de ellas (efecto de tratamiento) y una componente aleatoria de error, este modelo se denomina de ''análisis de varianza'' [14].

Sin perdida de generalidad, en este artículo se toma en particular los diseños factoriales simétricos 33 y posteriormente, se hace una generalización a los diseños 3ω. Por lo tanto, se tienen tres factores cada uno con tres niveles, lo que genera un total de 27 combinaciones llamadas tratamientos. La respuesta observada en cada uno de los tratamientos es una variable aleatoria que depende de los niveles de los factores, por lo cual, resulta útil describir las observaciones mediante el siguiente modelo estadístico lineal:

donde i=1,2,3, j=1,2,3, k=1,2,3, l=1,2,…n, las yijkl son las respuestas al tratamiento ijk-ésimo en la replicación l-ésima, con n replicaciones de cada tratamiento, μ es un parámetro común a todos los tratamientos denominado media global, αi es un parámetro del i-ésimo nivel del factor A, βj es el parámetro del j-ésimo nivel del factor B, γk es el parámetro del k-ésimo nivel del factor C. Los términos en paréntesis son los respectivos efectos de la interacción entre los diferentes niveles de los tres factores y εijkl es la componente aleatoria del error, la cual se supone normal con media cero y varianza constante σ2.

El procedimiento adecuado para probar las hipótesis de interés acerca de que los efectos de los tratamientos son cero o no, es el análisis de varianza (ANOVA). La denominación análisis de varianza resulta de descomponer la variabilidad total de los datos en sus componentes. La suma total de cuadrados corregida (SCT) se usa como medida de la variabilidad total de los datos, esta es:

donde (SCTrata) es la suma de cuadrados de los tratamientos y (SCE) es la suma de cuadrados del error. La forma usual de calcular dichas sumas está determinada por:

donde N denota el total de observaciones en el diseño. Además, se tiene que

SCE = SCT - SCTrata

El procedimiento se prueba en una tabla de análisis de varianza para el modelo trifactorial de efectos fijos. Luego, se rechaza la hipótesis nula H0 si su correspondiente valor F0 (obtenido de los datos observados) es mayor que un valor tabulado FTab, con un valor crítico α.

Hasta el momento no se ha juzgado cuál de los niveles o combinación de niveles de los factores es el mejor. Para esto se desarrollan los estimadores de los parámetros del modelo dado (1) en mediante el método de mínimos cuadrados, partiendo de contrastes construidos con los promedios de los niveles de los factores. De esta forma, también se pueden determinar las estimaciones de los efectos de interacción.

2.1  Detección de datos influyentes

La veracidad de los modelos, se comprueba a través del análisis de los residuales. Este análisis permite identificar datos atípicos, observaciones por fuera del conjunto de datos, o de otra forma observaciones que no se comportan como lo hacen la mayoría de los datos, y que podrían afectar los parámetros del modelo [15], es decir, que cambiarían notablemente las estimaciones de dichos parámetros si se realizara el análisis sin contar con ellas.

Hay que tener cuidado en la notación, pues εi es el i-ésimo error del modelo, mientras que ei es el i-ésimo residual del mismo. La idea es identificar si los residuales se comportan como los errores del modelo ya que los ei son valores observables y los εi son no observables, así los εi tienen distribución normal con media 0 y varianza σ2, es decir que tienen distribución normal estándar con media 0 y varianza 1. Luego los se deberían comportar normal estándar, con 0 ≤ hii < 1, el i-ésimo elemento diagonal de la matriz , las propiedades de esta matriz son dadas en Hoaglin y Welsch [16].

Es posible cuantificar el impacto que sobre los coeficientes tiene la eliminación de una observación, mediante diferentes métodos como: Distancia de Cook, Distancia DFFITS definida por Belsley [15], estadística DFBETAS, entre otros métodos; éstos se pueden consultar de manera detallada en Peña-Sánchez [17] ó en Draper y Smith [18].

Draper y John [19] desarrollaron una metodología para detectar un grupo de q observaciones influyentes o atípicas, equivalente a la propuesta por Bartlett [20] para estimar los parámetros del modelo de regresión lineal cuando existen observaciones faltantes en la variable respuesta. Jiménez [21] desarrolló una propuesta para imputar valores no influyentes en modelos de regresión lineal múltiple con información incompleta, con un modelo alterado que excluye del análisis el dato o conjunto de datos influyentes, de tal forma que la suma de cuadrados de los residuales del modelo modificado es:

Así, la variación en las sumas de cuadrados, dada por la influencia de las observaciones es expresada como:

Esta estadística, presentada en Draper y John [19], muestra a Qq expresada en función de los residuales estimados. Partiendo de las expresiones (4) y (5), se llega a que la estadística Qq=1, expresada de la siguiente manera:

la cual tiene una distribución t con (N−r) grados de libertad, en donde s es la raíz cuadrada del estimador insesgado de σ2 dado por . Sin embargo, por teoría estadística se sabe que este cociente tiene una distribución t cuando las dos variables son independientes, pero en Jiménez [22] se prueba que no lo son.

2.2  Estadística Fq para los diseños factoriales de efectos fijos 33

Sin pérdida de generalidad, los resultados anteriores se pueden particularizar para los diseños factoriales de efectos fijos 33. De acuerdo a Jiménez [22] se encuentra que son independientes, en donde

Luego, se define:

donde Qq corresponde a la diferencia entre la suma de cuadrados del modelo (SCE) planteado en (1) y la suma de cuadrados del modelo reducido , es decir, sin las q observaciones consideradas influyentes o atípicas.

Como se observa en (8), la estadística Fq depende del número de observaciones que se estén considerando como influyentes. En particular si q=1, es decir, que se evalúe si la observación, notada por , es influyente o no, Qq notada ahora como Q1, resulta ser igual al cuadrado del error correspondiente a dicha observación

donde . Al tomar raíz cuadrada de F1 se obtiene

Ahora, el interés cuando se desea establecer si un grupo de observaciones es influyente o no, es probar la hipótesis:

H0 : Ninguna de las q observaciones es influyente. Ha : Por lo menos una de las q observaciones es influyente.

Luego, la hipótesis nula H0 se rechaza a un nivel de significancia α% si Fq > F(q,N−27−q,α).

 

3  Estadística Fq a partir de las sumas de cuadrados del diseño factorial 33

Como se menciono anteriormente, el análisis de varianza se deriva de la partición de la variabilidad total en sus componentes (2). Partiendo de las ecuaciones planteadas en (3), se puede descomponer la suma de cuadrados de los tratamientos en la suma de cuadrados de cada uno de los factores principales y las interacciones.

Para el caso específico de los diseños factoriales de efectos fijos 33, se tiene las sumas de cuadrados de los factores principales y sus interacciones son:

donde n es el número de repeticiones dentro de cada tratamiento, yi2 es el cuadrado del total de los datos sobre el nivel i del factor A, y.j..2 es el cuadrado del total de los datos sobre el nivel j del factor B, y..k.2 es el cuadrado del total de los datos sobre el nivel k del factor C, yij..2 es el cuadrado del total de los datos sobre los niveles i y j de la interacción AB, yi.k.2 es el cuadrado del total de los datos sobre los niveles i y k de la interacción AC, y.jk.2 es el cuadrado del total de los datos sobre los niveles j y k de la interacción BC, yijk.2 es el cuadrado del total de los datos sobre los niveles i, j y k de la interacción ABC y y….2 es el cuadrado de la suma de todos los datos en el diseño. Para mayores detalles de estas sumas de cuadrado véase Montgomery [14]. Bajo estas expresiones, la suma de cuadrados de los errores está dada por:

SCE = SCT - SCSubtotales

La expresión del lado derecho es la diferencia entre la suma de cuadrados total presentada en (3) y la suma de cuadrados de los subtotales dada por:

Por lo tanto, otra expresión para la suma de cuadrados del error es:

3.1  Sumas de cuadrados del error para el diseño factorial de efectos fijos 33 reducido a una observación (q=1)

Sea la ijkl-ésima observación del conjunto total de observaciones del diseño, que va a ser extraída para evaluar si es influyente o no. El subíndice (ijkl)* corresponde entonces a una de las 27n posibles observaciones de los niveles i,j,k de los factores A, B, C y las n réplicas en cada combinación, con i=1,2,3, j=1,2,3, k=1,2,3 y l=1,2,…,n.

Al eliminarse dicha observación del conjunto de datos, se tiene como resultado que el diseño se convierte en un diseño factorial desbalanceado de efectos fijos 33. En éste diseño sigue siendo posible aplicar el análisis de varianza, pero deben hacerse ligeras modificaciones en las fórmulas de las sumas de cuadrados. Por lo tanto, las sumas de cuadrados del total, de los tratamientos y del error, son respectivamente:

donde nijk es el número de observaciones en el tratamiento ijk−ésimo, de modo que Cabe anotar que para todo caso nijk=n, excepto en el tratamiento del cual se extrajo la observación, en donde es igual a n−1. Las expresiones y*….y N*=N−1, corresponden respectivamente a la suma total y al número total de observaciones sin el dato , respectivamente1.

Igual que en el diseño balanceado, la suma de cuadrados de los tratamientos puede descomponerse en sumas de cuadrados de efectos principales e interacciones; por lo tanto, las expresiones de las sumas de cuadrados para el modelo desbalanceado son:

Bajo éstas expresiones, la suma de cuadrados de los errores está dada por

La expresión del lado derecho es la diferencia entre la suma de cuadrados total y la suma de cuadrados de los subtotales esta dada por:

Otra expresión para la suma de cuadrados del error es entonces:

en donde es el total del tratamiento, elevado al cuadrado, de donde se extrajo la observación sobre el número actual de observaciones que ahora existe allí. Analizando el término de la derecha, se tiene que el primer sumando puede escribirse como el primer sumando de la ecuación (11) menos la observación , es decir:

Por otro lado, el segundo término de la ecuación, se puede expresar como el segundo término de la ecuación (11) menos el total del tratamiento en donde se encuentra la observación (notado por yQ), en el modelo balanceado, elevado al cuadrado y dividido por n, es decir:

Al sustituir (14) y (15) en (13), se tiene

3.2  Cálculo de la estadística Fq

Recordando que la estadística Q1 es la diferencia entre la suma de cuadrados residuales y la suma de cuadrados residuales del diseño excluyendo la observación (diseño reducido), puede encontrarse una nueva expresión para ella a partir de las ecuaciones de las sumas de cuadrados del diseño factorial.

A través de la diferencia , entre las expresiones (11) y (16), se obtiene:

Es decir que la estadística se puede encontrar a partir de la diferencia entre el cuadrado de la observación y el total elevado al cuadrado y dividido por n del tratamiento en donde se encuentra dicha observación en el diseño balanceado, más el total elevado al cuadrado y dividido por n−1 del tratamiento del diseño desbalanceado en donde se encontraba .

Una vez obtenida Q1, el cálculo de F1 puede hacerse a partir de:

Sin pérdida de generalidad, el estadístico F1 para probar si una observación es influyente o no en un diseño factorial de efectos fijos 3ω, es decir, un diseño con ω factores cada uno a tres niveles es:

donde (ijk…wl)* hace referencia a un punto específico, ubicado en el nivel i del factor A, j del factor B, k del factor C, y así hasta el nivel w del factor ω, en la replicación l, con i=1,2,3, j=1,2,3, k=1,2,3,…, w=1,2,3 y l=1,2,…,n.

Por otra parte, puede demostrarse que para el caso de q observaciones consideradas influyentes, es posible calcular la estadística Qq a partir de la siguiente ecuación:

es decir, la diferencia entre la suma de los cuadrados de las q observaciones consideradas influyentes, indicadas por el subíndice t=1,2,…,q, y la suma de los totales de los S tratamientos (s=1,2,…,S) en donde se encuentran distribuidas dichas observaciones en el diseño balanceado, elevados al cuadrado y divididos por n; más la suma de los totales de los S tratamientos del diseño desbalanceado, en donde se encontraban las q observaciones, elevados al cuadrado y divididos por su correspondiente tamaño ns. Luego, el cálculo de Fq puede hacerse a partir de (8).

Sin pérdida de generalidad, puede decirse que la estadística Fq para evaluar la influencia de q observaciones en un diseño factorial de efectos fijos 3ω, es:

 

4  Efecto de datos influyentes en las sumas de cuadrados y el análisis de varianza

A partir de las sumas de cuadrados descritas en la sección anterior, pueden construirse las Tablas 1 y 2 de análisis de varianza para el modelo balanceado y el modelo desbalanceado resultante de la extracción de la observación del conjunto de datos.

Los valores tabulados FTab y , utilizados para determinar el resultado de las pruebas de hipótesis para realizar el análisis de varianza planteado en las Tablas 1 y 2, tienen (26,N−27) y (26,N−28) grados de libertad, respectivamente. Como los grados de libertad del numerador para ambos valores en los diseños factoriales de efectos fijos son 26, entonces la diferencia entre los valores que tomen FTab y dependerá exclusivamente de los grados de libertad del denominador.

No importa el número de observaciones a evaluar como influyentes, los grados de libertad para serán menores que los grados de libertad de FTab en el modelo completo (N−27) > (N−27−q) para el caso de q observaciones, q ≥ 1. Luego, al observar en una tabla de distribución F, el comportamiento para dichos grados de libertad con un valor α determinado, se puede concluir que:

para el caso de q observaciones, q ≥ 1.

Como el objetivo es rechazar la hipótesis nula, de manera que se compruebe la diferencia de los efectos generados por los tratamientos, para en un siguiente nivel del experimento, poder seleccionar la mejor combinación de ellos, se busca que F0 > FTab. Si el caso es buscar si una observación resulta ser influyente, al aislarla del análisis, el valor tabulado a usar en la prueba es , es decir, para rechazaría la hipótesis nula de no influencia de un grupo de observaciones si F0 > . Por lo tanto, uno de los efectos que tendría una observación influyente () sobre el análisis, es que si FTab < F0 < entonces puede rechazarse la hipótesis nula cuando en realidad no hay evidencia suficiente para hacerlo.

Por otra parte, cabe anotar que a medida que el valor de q tiende a ser muy grande, la diferencia entre los valores tabulados también aumenta. Sin embargo, es de esperar que el número de observaciones consideradas influyentes en un experimento no sea muy grande en relación al número total de observaciones.

4.1  Efecto sobre las sumas de cuadrados del modelo

Una forma clara de observar el efecto que tendrían las observaciones influyentes sobre las sumas de cuadrados del modelo, es analizar la diferencia entre las ecuaciones de éstas en el modelo balanceado y sus ecuaciones en el modelo desbalanceado. Partiendo de este punto, si se hace la diferencia entre la suma de cuadrados de los tratamientos planteada mediante la ecuación presentada (3) y la suma de cuadrados de los tratamientos del modelo reducido, en una observación, se tiene que:

pero la primera expresión de la suma de cuadrados de los tratamientos del modelo desbalanceado, se puede expresar en términos del primer sumando de la ecuación de la suma de cuadrados de los tratamientos del modelo balanceado, es decir:

el término corresponde al total del tratamiento ijk-ésimo en donde se encuentra la observación considerada influyente en el modelo balanceado, elevado al cuadrado y dividido por n, y el termino corresponde al total del mismo tratamiento ijk-ésimo pero en el modelo desbalanceado, notado por (ijk)* y dividido por el número de observaciones resultantes allí (n−1).

Reemplazando (19) en (18) y luego, desarrollando y despejando se llega a que:

Por consiguiente, se tiene que la suma de cuadrados de los tratamientos en el modelo completo, es decir bajo la influencia de la observación , se puede expresar como la suma de cuadrados del modelo desbalanceado (modelo sin influencia) más el efecto de dicha observación sobre el tratamiento que la contiene (dado por la diferencia entre el cuadrado del total del tratamiento que la contiene en el modelo balanceado y el cuadrado del total del mismo tratamiento en el modelo desbalanceado, cada uno sobre el número de observaciones que contiene), corregido por el efecto de la observación sobre el total general del modelo dado por la diferencia entre el cuadrado del total del modelo balanceado, dividido por el número total de observaciones (N), y el cuadrado del total del modelo desbalanceado, dividido por su número total de observaciones (N−1).

De esta manera, es claro que el efecto que tiene la observación influyente sobre las sumas de cuadrados de los tratamientos, es significativa a medida que la influencia sobre el total del tratamiento en donde se encuentre la observación, sea grande, es decir si la observación guarda amplia diferencia con los valores de las demás réplicas en el mismo tratamiento.

Un resultado muy importante es la generalización de este hecho, para q observaciones influyentes en un diseño de efectos fijos con ω factores a tres niveles cada uno:

El primer término corresponde a la diferencia entre la suma de los S totales de los tratamientos (s=1,2,…, S), donde se encuentren distribuidas las q observaciones influyentes en el modelo balanceado, elevados al cuadrado y dividido por el número de réplicas hechas en ellos; y la suma de los mismos S totales de los tratamientos pero del modelo desbalanceado, es decir, sin las q observaciones; elevados al cuadrado y ponderados por el número de observaciones en cada uno. El segundo término corresponde al efecto de las observaciones al nivel de los totales del modelo y el último a la suma de cuadrados del modelo reducido.

El subíndice s entonces, hace referencia a una combinación de los niveles de los ω factores involucrados, que conforman un tratamiento específico, es decir s=(i,j,k,…,w).

Al igual que con la suma de cuadrados de los tratamientos, puede analizarse el efecto de las observaciones influyentes, sobre las sumas de cuadrados de los efectos principales, las sumas de cuadrados de los efectos de las interacciones dobles y triples, realizando la diferencia entre las ecuaciones (10) y las ecuaciones (12). Los resultados se presentan a continuación:

Similarmente, resulta muy importante la generalización de este hecho para q observaciones influyentes en un diseño de efectos fijos con ω factores a tres niveles cada uno:

Las ecuaciones para mostrar los efectos sobre las sumas de cuadrados de las interacciones dobles, triples y las demás combinaciones de los factores, no se presentan por ser compleja su escritura. Sin embargo, se aclara que la interpretación y los resultados básicamente son los mismos encontrados para las sumas de cuadrados de los efectos principales.

4.2  Efecto sobre las estimaciones de los parámetros del modelo

Las estimaciones de los parámetros del modelo planteado en (1) están dadas en términos del promedio general, de los promedios de los tratamientos y de las interacciones entre los mismos [23]. Los estimadores para los parámetros del modelo desbalanceado se calculan de igual forma, como se muestra a continuación:

Por lo tanto, el efecto que sobre el estimador de la media general del modelo μ, pudieran causar las observaciones influyentes está dado por:

Teniendo en cuenta que las expresiones correspondientes a estos dos sumandos son:

con nijk=N*=Nq, en donde q es el número de observaciones consideradas influyentes.

La media estimada del modelo reducido se puede escribir en términos del modelo completo partiendo de la siguiente igualdad:

con s=1,2,…,q, y ys la suma total de los valores de las observaciones influyentes en el modelo completo. Luego, la diferencia planteada en (20), puede expresarse como:

Desarrollando algebraicamente y despejando se llega a que:

Lo que dice esta expresión es que la estimación del parámetro de la media global, involucrando las observaciones influyentes, resulta igual a la estimación del parámetro sin ellas presentes, ponderada por la proporción de observaciones no influyentes, más la suma de los valores de las observaciones influyentes, divididas por el número total de observaciones.

4.2.1  Efecto sobre las estimaciones de los efectos principales Se puede demostrar que al igual que en el caso del parámetro de la media general del modelo, la estimación del parámetro de un efecto principal en el modelo completo, es igual a la estimación del parámetro para el mismo efecto en el modelo reducido, ponderada por la proporción de observaciones no influyentes que contienen los tratamientos en donde se involucra dicho factor; más la suma de los valores de las observaciones influyentes en el nivel considerado, divididas por número total de observaciones de dicho nivel. Adicionalmente, se le resta el efecto dado por la diferencia entre las medias globales de ambos modelos, ponderada por el porcentaje de observaciones no influyentes en el grupo considerado.

4.2.2  Efecto sobre las estimaciones de los efectos dobles y triples De manera general, tomando la diferencia entre cualquier estimador de un parámetro del modelo completo, y el estimador del mismo parámetro en el modelo reducido, puede verse que la estimación del primero está dada en términos del segundo, más un término que corresponde a la suma de las observaciones influyentes, y sustrayendo la diferencia entre las medias globales de ambos modelos, ponderada por la proporción de observaciones no influyentes.

Es decir, que si existen observaciones influyentes, los estimadores de los parámetros del modelo, serán las estimaciones de los parámetros del modelo que excluye dichas observaciones más unos términos correspondientes al peso del número de observaciones influyentes y a su efecto en la media general; que modifican significativamente el valor del estimador si no se consideraran las observaciones influyentes.

 

5  Aplicación

A continuación se presenta un ejemplo de un diseño factorial 33, citado por Melo, López y Melo [24] y estudiado por Méndez [25]. En una planta industrial se estudió el efecto de los factores días, operadores y concentraciones de solventes en el rendimiento de la planta. Días y operadores eran efectos cualitativos y las concentraciones fueron 0.5, 1.0 y 2.0, que aunque no son igualmente espaciadas, sus logaritmos si son igualmente espaciados, y éstos se usan si se desea observar la forma de la respuesta a través de este factor.

El diseño experimental fue completamente aleatorizado y los factores se consideraron fijos. Se hicieron tres repeticiones de cada uno de los 27 tratamientos. Los datos codificados, a los que se les restó 20 para simplificar los cálculos se presentan en la Tabla 3.

Como primera medida, se hizo una revisión gráfica de la información con el fin de observar si existen interacciones entre los niveles de los factores. En la Figura 1 se observa que los tres factores interactúan entre sí. Por otro lado, el interés es evaluar la existencia de observaciones influyentes dentro del conjunto de datos, de tal forma que si es afirmativa, pueda verse algunos de los efectos causados sobre las sumas de cuadrados, las estimaciones y las hipótesis a probar. Para el ejemplo, después de realizar una PROC GLM en el software estadístico SAS, se realizaron las pruebas mencionadas en la sección 3, sobre detección de datos influyentes, con el fin de comparar los resultados con los arrojados por la estadística Fq. El procedimiento para evaluar si una observación es influyente o no a través de la estadística F1, es similar al utilizado en la distancia de Cook. Es decir, que deben evaluarse las N observaciones de modo que resultan N estadísticas F1.

Luego de realizar las evaluaciones para cada una de las observaciones, podría pensarse en realizarla para grupos de observaciones, pero este caso va sujeto al conocimiento del experimentador o un análisis más detallado de la información. Para el caso del ejemplo, se evaluaron una a una cada observación obteniendo los resultados presentados en la Tabla 4, en donde se aprecian los valores de la distancia de Cook, los Dffits y los valores para la estadística F1, calculados para los datos del ejemplo; a través de los cuales se puede observar la validez de la metodología propuesta.

La estadística F1 en este caso, debe probarse contra una F(1,53,0.05)=4.023, de tal forma que las observaciones con valores F1 mayores a este valor, pueden considerarse influyentes. Según las distancias de Cook, las observaciones que resultan influyentes son: 31, 32, 33 y 70. Esto concuerda totalmente con el criterio de la metodología propuesta, en donde las observaciones con valores F1 mayores a 4.023, corresponden a las mismas detectadas por Cook. Incluso al observar el criterio de Cook y el de los Dffits con el de la estadística F1 en la observación 30, es claro que coinciden al determinar como nulos esos valores (ver Figura 2).

Como se observa en el gráfico, comparados a escala, los resultados son similares. La observación número 31, correspondiente al valor 7.0 del rendimiento de la planta, es la observación con mayor influencia, según lo dice la estadística F1. Las estimaciones de los parámetros realizadas con el modelo completo se presentan en la Tabla 5, junto a las estimaciones del modelo reducido (excluyendo la observación 31). Es claro que hay diferencias significativas en las estimaciones del modelo cuando se excluye la observación influyente. Sin embargo, el efecto de ésta se ve reflejado en las características del modelo.

Este resultado dice que el modelo rechaza la hipótesis nula de que los efectos de los tratamientos son iguales un nivel de significancia del 5% y una FTab=1.701636.

Este resultado dice que el modelo rechaza la hipótesis nula de que los efectos de los tratamientos son iguales un nivel de significancia del 5% y un =1.71. Aunque el resultado es el mismo, es decir, ambos modelos rechazan la hipótesis nula superando los valores FTab=1.70 y =1.71, con F0=62.5 y F0*=100.8. Sin embargo, la diferencia entre estos dos últimos es grande, es decir, F0* casi duplica a F0.

El efecto de la observación 31, influyente en este caso, sobre el estadístico de prueba del análisis de varianza, si fuese el valor tabulado más pequeño que el del ejemplo, podría llevar a conclusiones erróneas. Es decir, si el valor tabulado estuviese entre 62.5 y 100.8, el análisis del modelo completo no rechazaría la hipótesis nula y diría que los efectos de los tratamientos son los mismos, mientras que al excluir la influencia, sería claro que no es así.

Por otra parte, cabe anotar que las características de los modelos varían significativamente. El modelo balanceado ajustado (ver Tabla 6) tiene un R2=0.9678 y un coeficiente de variación de 14.822, mientras que el modelo desbalanceado ajustado (ver Tabla 7) tiene un R2=0.9801 y un coeficiente de variación de 11.488; lo que indica que el modelo ajustado, excluyendo la influencia, es mucho mejor que cuando ésta se tiene en cuenta.

 

6  Conclusiones

Se ha cerrado un primer paso en la construcción de una herramienta estadística que es útil como monitor de alerta a la influencia de observaciones, en conjuntos de datos con un diseño factorial de efectos fijos 3ω. Esta herramienta se refiere a la estadística Fq, que a un nivel de significancia α% sigue una distribución F con q y N−27−q grados de libertad y rechaza la hipótesis nula si Fq > F(q,N−27−q,α).

Por otra parte, se ha mostrado que la eficiencia de la estadística, presenta un criterio igualmente objetivo y sólido como el de otras alternativas y técnicas reconocidas en la detección de observaciones influyentes. Sin embargo, al momento del análisis, se sugiere no excluir el uso de dichas técnicas, de tal manera que en la aplicación siempre se comparen sus resultados con el estadístico propuesto en este artículo.

Como este trabajo constituye una propuesta teórica, se sugiere que trabajos posteriores sometan los resultados a estudios comparativos y de aplicación. Adicionalmente, el desarrollo teórico y práctico de la estadística Fq para diseños factoriales 3ω, no resulta complicada, por lo que puede realizarse el mismo desarrollo para diseños factoriales con otro número de niveles, con la garantía de obtener resultados como los logrados en este trabajo.


Footnotes:

4Cuando se desea evaluar no solo una, sino q observaciones a fin de comprobar si son o no influyentes, y….* es la suma total de las observaciones del modelo sin las q evaluadas y N*=N−q.


 

Agradecimientos

Los autores agradecen los comentarios y sugerencias de los evaluadores anónimos por sus valiosas contribuciones. Este trabajo fue parcialmente apoyado por el grupo de Estadística Aplicada en la Investigación Experimental, Industria y Biotecnología de la universidad Nacional de Colombia.

 

References

[1] M. T. Jiménez, ''Ajuste de factoriales 2k con presencia de observaciones influyentes y valores faltantes mediante modelos de regresión,'' Master's thesis, Universidad Nacional de Colombia, Bogotá, 2000.

[2] C. R. Cook, ''Assessment of Local Influence (with discussion),'' Journal of the Royal Statistical Society, Series B, vol. 48, pp. 133-169, 1986.

[3] C. R. Cook, ''Robust Test for the Equality of Variantes,'' Technometrics, vol. 19, pp. 15-18, 1977.

[4] A. P. Dempster, N. M. Laird, and D. B. Rubin, ''Maximum Likelihood from Incomplete Data Via the EM Algorithm (with discussion),'' Journal of the Royal Statistical Society, Series B, vol. 39, no. 1, pp. 1-38, 1977.

[5] Thomas W. and R. D. Cook, ''Assessing Influence on Regression Coefficients in Generalized Linear Models,'' Biometrika, vol. 76, no. 4, pp. 741-749, 1989. [Online]. Available: http://www.jstor.org/stable/2336634

[6] Thomas W. and R. D. Cook, ''Assessing Influence on Predictions from Generalized Linear Models,'' Technometrics, vol. 32, no. 1, pp. 59-65, 1990. [Online]. Available: http://dx.doi.org/10.2307/1269845

[7] A. J. Lawrence, ''Local and Deletion Influence,'' in Directions in Robust Statistics and Diagnostics, Part I, W. S. . S. Weisberg, Ed. Berlin: Springer, 1991, pp. 141-157.

[8] E. B. Andersen, ''Diagnostics in Categorical Data Analysis,'' Journal of the Royal Statistical Society, Series B, vol. 54, no. 3, pp. 784-791, 1992. [Online]. Available: http://www.jstor.org/stable/2345858

[9] F. Critchley, R. A. Atkinson, G. Lu, and E. Biazi, ''Influence Analysis Based on the Case Sensitivity Function,'' Journal of the Royal Statistical Society, Series B, vol. 63, no. 2, pp. 307-323, 2001. [Online]. Available: http://dx.doi.org/10.1111/1467-9868.00287

[10] H. T. Zhu and S. Y. Lee, ''Local Influence for Incomplete Data Models,'' Journal of the Royal Statistical Society, Series B, vol. 63, no. 1, pp. 111-126, 2001. [Online]. Available: http://www.jstor.org/stable/2680637

[11] R. Tsai and U. Böckenholt, ''Two-Level Linear Paired Comparison Models: Estimation and Identifiable Issues,'' Mathematical Social Science, vol. 43, no. 3, pp. 429-449, 2002. [Online]. Available: http://dx.doi.org/10.1016/S0165-4896(02)00019-7

[12] S. Y. Lee and N. S. Tang, ''Local Influence Analysis of Nonlinear Structural Equation Models,'' Psychometrica, vol. 69, no. 4, pp. 573-592, 2004. [Online]. Available: http://dx.doi.org/10.1007/BF02289856

[13] L. Xu, W. Y. Poon, and S. Y. Lee, ''Influence Analysis for the Factor Analysis Model with Ranking Data,'' British Journal of Mathematical and Statistical Psychology, vol. 61, no. 1, pp. 133-161, 2008. [Online]. Available: http://dx.doi.org/10.1348/000711006X169991

[14] D. C. Montgomery, Design and Analysis of Experiments, 8th ed. New York: John Wiley & Sons, 2012.

[15] D. A. Belsley, Regression Diagnostics: Identifying Influential Data and Sources of Collinearity.    New York: John Wiley & Sons, 1980.

[16] D. C. Hoaglin and R. E. Welsch, ''The Hat Matrix in Regression and ANOVA,'' The American Statistician, vol. 32, no. 1, pp. 17-22, 1978.

[17] D. Peña-Sánchez, Estadística Modelos y Métodos. Madrid: Alianza Editorial, 1995.

[18] N. R. Draper and H. Smith, Applied Regresión Analysis, 3rd ed.    New York: John Wiley & Sons, 1998.

[19] N. Draper and J. A. John, ''Influential Observations and Outliers in Regression,'' Technometrics, vol. 23, no. 1, pp. 21-26, 1981.

[20] M. S. Bartlett, ''Some Examples of Statistical Methods of Research in Agriculture y Applied Botany,'' Journal Royal of the Statistical Society B, vol. 4, pp. 137-170, 1937.

[21] J. A. Jiménez, ''Propuesta metodológica para imputar valores no influyentes en modelos de regresión lineal múltiple con información incompleta,'' Master's thesis, Universidad Nacional de Colombia, Bogotá, 1999.

[22] J. A. Jiménez, ''Un criterio para identificar datos atípicos,'' Revista Colombiana de Estadística, vol. 27, no. 2, pp. 109-121, 2011. [Online]. Available: http://www.revistas.unal.edu.co/index.php/estad/article/view/28709

[23] D. C. Montgomery, Introduction to Linear Regression Analysis. New York: John Wiley & Sons, 1992.

[24] O. O. Melo, L. A. López, and S. E. Melo, Diseño de Experimentos: Métodos y Aplicaciones, 1st ed. Bogotá: Facultad de Ciencias, Universidad Nacional de Colombia, 2007.

[25] I. Méndez, ''Diseño de Experimentos,'' in Memorias del X Coloquio Distrital de Matemáticas y Estadística, Bogotá, 1993.