sábado, 24 de mayo de 2008

CORRECCION DE SHEPPARD PARA LA VARIANZA



El calculo de la desviacion tiene algo de error, debido al agrupamiento de los datos en clases (error de agrupamiento). Para ajustarnos a la realidad se utiliza la varianza corregida.

Donde c es el tamaño del intervalo de clase. La correccion introducida se conoce como CORRECCION DE SHEPOARD. Se utiliza en distribucines continuas donde las colas "colas" van gradualmente a cero en ambas direcciones.

Los estadisticos difieren en lo que se refiere a cuando y si debe aplicarse la correcion Shepard. Ciertamente no debe aplicarse sin haber hecho un examenen completo de la situacion. Esto se debe a que frecuentemente se tiene a sobrecorregir y asi sutituir unos errores por otros. Esn este libro.

COMENTARIO: En distintos procesamientos de datos, en ocasiones encontramos algunos problemas, ya sea en algunas clases que tengan de frecuencia a cero, pueda que esta influya a tener error al calcular la varianza, y para poder corregirla vamos a utilizar la formula que di a conocer, pues tambien se da el error al momente de calcular el intervalo y se aproxima a dos decimales, pues debe de contarse con todos los decimales o mas de dos, para que esta resulte mas confiable.
VARIANZA: La varianza nos muestra la variacion que va subriendo en la distancia de los datos, ya sea que sufra varios cambios.
DESVIACION ESTANDAR: es la distancia equitativa que existe entre los datos de la distribucion, como su mismo nombre lo dice se deistribuye de una forma estandar.

domingo, 18 de mayo de 2008

CARACTERISTICAS DEL DIAGRAMA DE CAJAS:

Los diagramas de caja proporcionan información completa visual sobre cómo se distribuyen los datos. Pueden ser de gran utilidad como técnica de análisis exploratorio de datos.En un simple gráfico se suministra información sobre la mediana (o media), sobre el 50% y 90% de los datos, sobre la existencia de empresas con ratios atípicos, así como de la simetría de la distribución.

Además se incluye dos barras verticales (Bigotes), los cuales determinan la distancia o rango del 95% de los casos; adicionalmente el procedimiento anexa algunos símbolos representativos de los valores atípicos y extremos. La utilidad de este tipo de gráficos radica en la posibilidad de resumir el comportamiento y las principales medidas de una o varias variables de escala, mediante un solo diagrama.



CARACTERISTICAS DEL DIAGRAMA DE CAJAS: - Esta compuesta o incluye dos bigotes o limites inferiores o superiores a los lados del rectángulo, - Mientras mas larga la caja y los bigotes, mas dispersa es la distribución. - La mediana se presenta por una línea que divide en dos partes iguales de la distribución e indica la simetría. - Puede dibujarse de forma horizontal o vertical. - En los extremos del rectángulo se localizan los cuartiles. - La media puede coincidir con los cuartiles. - La media se representa por un punto dependiendo de la cantidad o valor de la misma. EJEMPLO:

RELACION EXISTENTE ENTRE “BOXPLOT” Y LAS CURVAS: Para la creación de este diagrama debemos utilizar algunos datos que nos sirven para ubicar los datos mas representativos, tal es el caso de la Mediana que representa lo mismo, como también es necesario la utilización del promedia de los datos, dando a conocer los datos que están en la Oria de las graficas, siendo estos los datos atípicos representándose en los extremos o entre las dos cercas mientras que en la grafica estará en la cola. Sirve para localizar datos.

domingo, 11 de mayo de 2008



¿Qué es y qué medidas se usan en su construcción? Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción se usan cinco medidas descriptivas de los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor máximo y valor mínimo.
¿Qué información muestra? Esta presentación visual, asocia las cinco medidas que suelen trabajarse de forma individual. Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos. A estas observaciones se les conoce como valores atípicos.

Por su facilidad de construcción e interpretación, permite también comparar a la vez varios grupos de datos sin perder información ni saturarse de ella. Esto ha sido particularmente importante a la hora de escoger esta representación para mostrar la opinión de los estudiantes respecto a la actuación docente a través de las diversas preguntas del instrumento utilizado.

Partes del Boxplot: El nombre original del gráfico introducido por Jhon Tukey en 1977 es Box and whisker plot, es decir, diagrama de caja y bigote. En efecto, el gráfico consiste en un rectángulo (caja) de cuyos lados superiores e inferior se derivan respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes).

La caja y los bigotes están ubicados paralelos a un eje rotulado, que en este caso está en la escala del 1 al 5 e indica el puntaje obtenido en una pregunta según la opinión de los estudiantes que llenaron el instrumento de opinión.

Las partes del Boxplot se identifican como sigue:
1.-Límite superior: Es el extremo superior del bigote. Las opiniones por encima de este límite se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.

2.-Tercer cuartil (Q3): Por debajo de este valor se encentran como máximo el 75% de las opiniones de los estudiantes.

3.-Mediana: Coincide con el segundo cuartil. Divide a la distribución en dos partes iguales. De este modo, 50% de las observaciones están por debajo de la mediana y 50% está por encima.

4.-Primer cuartil (Q1): Por debajo de este valor se encuentra como máximo el 25% de las opiniones de los estudiantes

5.-Límite inferior: Es el extremo inferior del bigote. Las opiniones por debajo de este valor se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.

6.-Valores atípicos: Opiniones que están apartadas del cuerpo principal de datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro.
Se colocan en la gráfica con asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Se utiliza un superíndice numérico para indicar el número de veces que aparece ese dato como atípico. NOTA: Esta presentación en línea del Boxplot está en primera versión y aun en proceso de mejora. Se señalan los datos atípicos con una circunferencia (o) en el caso de ser única la observación. En caso contrario, usted sólo verá un triángulo ($). Si esto sucede, debe remitirse al reporte numérico para verificar la cantidad de observaciones atípicas por pregunta.

7.-Media aritmética: Es lo que tradicionalmente se conoce como promedio. Originalmente no forma parte del boxplot, sin embargo, se consideró su inclusión para dar una idea del puntaje general obtenido por pregunta. Actualmente se trabaja en la elaboración de estadísticos más representativos que la media aritmética para describir el conjunto de datos.

¿Cómo se interpreta? Tenga en cuenta las siguientes consideraciones a la hora de interpretar el boxplot:

.-Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

.-La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media aritmética) puede variar, sin embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el límite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de elementos se ve levemente modificada.

.-La línea que representa la mediana indica la simetría. Si está relativamente en el centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a la izquierda (asimétrica negativa respectivamente. Esto suele suceder cuando las opiniones de los estudiantes tienden a concentrase más hacia un punto de la escala.

.-La mediana puede inclusive coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto, en este caso, cuando muchos estudiantes opinan igual en determinada pregunta. Pudiera ser este un caso particular de una distribución sesgada o el caso de una distribución muy homogénea.

.-Las opiniones emitidas como No aplica (N/A) cuando en realidad sí aplica o las opiniones nulas (cuando el estudiante no opina en una pregunta), no son tomadas en cuenta para elaborar el boxplot de esa pregunta. Por esta razón encontrará que en ocasiones no hay igual número de opiniones para todas las preguntas.

.-Debe estar atento al número de estudiantes que opina en cada pregunta. Lo que pareciera ser dispersión en los resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño: pocos estudiantes opinaron. Debe ser cauteloso a la hora de interpretar. En estos casos se sugiere remitirse al reporte numérico.

.-En términos comparativos, procure identificar aquellas preguntas cuyos boxplot parecen diferir del resto. Pudiera con esto encontrar fortalezas o debilidades en su actuación según la opinión de los estudiantes.

Se observa una variabilidad muy grande en cuanto a las impresiones que los estudiantes tienen del profesor en los diferentes aspectos de su actuación. Esto se concluye porque no existe una tendencia homogénea en las respuestas por pregunta.

Las opiniones son muy homogéneas y positivas en la pregunta 5: Logra comunicarse efectivamente con el estudiante. Este aspecto resalta en la actuación del docente y además todos los estudiantes encuestados coinciden en ello.

También se considera muy positiva la impresión que los estudiantes tienen en cuanto a los aspectos que se refieren a las preguntas 2, 6, 9, 12 y 13; salvo un par de opiniones que difieren del resto en las preguntas 2 y 6, las respuestas son homogéneas. Note que estas opiniones separadas son datos atípicos pues se alejan del cuerpo de datos. Note también que por el proceso de mejora que sufren los gráficos presentados en línea, debe remitirse al reporte numérico en la pregunta 2 para verificar el número de respuestas atípicas dado que el símbolo representativo por el momento es ($), mas no así en la 9 pues ya se comentó que el símbolo (¡) se refiere a sólo un dato atípico y en este caso vale “2”.

Observe que según la opinión de los estudiantes el aspecto de la pregunta 17: Realiza la entrega y revisión oportuna de los resultados de las evaluaciones revela el puntaje más bajo respecto al resto de las pregunta, lo cual pudiera ser un aspecto a considerar por el docente dado que además el 50% de los estudiantes le otorga el puntaje más bajo. Note que aquí la mediana es “1”, lo que indica que la mitad de las observaciones está allí (no por debajo porque no hay valor más bajo)

Note que algunos boxplot no tienen bigotes. En estos casos, como por ejemplo en la pregunta 19, el límite inferior coincide con el Q1 y el límite superior coincide con el Q3. En esta pregunta se evidencia simetría y bastante variabilidad.

El resto de las preguntas presentan alta variabilidad por lo que deben leerse cuidadosamente en función del punto donde se concentra la mayor cantidad de información, esto es, viendo la posición de la mediana (véase Simetría). Esta alta variabilidad indica que la opinión de los estudiantes respecto a los planteamientos es bastante heterogénea.

Glosario

Cuartiles: Son valores que dividen a la distribución en cuatro partes iguales en cuanto a la cantidad de datos. Así, tenemos que el Primer cuartil (Q1), es el valor por debajo del cual ocurre el 25% de las observaciones y el Tercer cuartil (Q3) es aquel por debajo del cual ocurre el 75% de las observaciones. Siguiendo en esta línea, el Segundo cuartil (Q2) coincide con la mediana de la distribución.

Dispersión: Indica la variabilidad del conjunto de datos: cómo se distribuyen los datos de estudio. Una dispersión grande indica un conjunto de datos heterogéneos e implica poca utilidad de una medida de tendencia central únicamente para describir la distribución.
Estadísticos: son valores representativos que proporcionan información sobre la serie en cuanto a su posición en la escala de medición, agrupamiento en torno a un valor, distribución de los datos y concentración en una región entre otros. Los estadísticos proveen información sobre una muestra. Cuando se trabaja con toda la información (población) se le denomina parámetro.

Mediana: Es medida de tendencia central. Es un dato de la distribución que la divide en dos partes iguales de forma tal que por debajo y por encima de ella se encuentra como máximo el 50% de los datos de estudio. Por ejemplo, si las opiniones de cinco estudiantes (en puntaje del 1 al 5) fueron: 1-1-3-4-5, entonces 3 es la mediana; o si los puntajes fueron: 1-1-3-4-5-5, la mediana está entre 3 y 4 y la consideramos como 3,5.

Media aritmética o promedio: Es un estadístico de tendencia central. Representa una especia de punto de equilibrio para el conjunto de datos. Para calcularlo se emplean todos los datos de la distribución por lo que tiene la desventaja de verse afectada por datos muy grandes o pequeños, lo que conlleva a que en ocasiones no sea representativa de la distribución. Resulta de sumar todos los datos de la distribución y dividirlos entre el total de datos.

Simetría: Indica la forma del conjunto de datos, lo cual implica observar dónde se concentra la información. Para el estudio de la forma de una distribución, también se usan los términos sesgo o asimetría. Una distribución puede ser:
.-Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden y los datos se distribuyen de igual forma a ambos lados de estas medidas. En el contexto, hay igual número de opiniones por encima que por debajo de la mediana.
.-Asimétrica positiva o sesgada a la derecha: los datos tienden a concentrarse hacia la parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser mayor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje menor y las de mayor puntaje están más dispersas. .-Asimétrica negativa o sesgada a la izquierda: los datos tienden a concentrarse hacia la parte superior de la distribución y se extienden más hacia la izquierda. La media suele ser menor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje mayor y las de menor puntaje están más dispersas.

Medida de Tendencia central: Estadístico que procura aportar información sobre la localización central de la distribución de datos. Son: la media aritmética, la moda, la mediana, la media geométrica y la media armónica, y se emplean de acuerdo al objetivo del estudio y al tipo de dato que se tenga.
Valor Mínimo o Máximo: Es el dato más pequeño o más grande de la distribución, respectivamente. En este contexto, es el puntaje más bajo o más alto otorgado por los estudiantes en determinada pregunta.

Sobre la construcción de los límites y los valores atípicos
Tukey (1997) sugiere una regla sencilla para determinar los límites de los bigotes. Tomando en cuenta que el Rango Intercuartílico (RI) es la diferencia entre el Tercer y el Primer Cuartil, tenemos que existen límites interiores y límites exteriores. Los primeros son barreras hasta las cuales se “permiten” datos de la muestra, por estar muy cerca del resto. Estos son los límites que definen los extremos de los bigotes. De sobrepasar esta barrera se le considera valor atípico. Los segundos límites indican cuándo un dato se aleja en exceso del resto y, siendo también atípico, se le considera fuera del límite exterior permitido y se dice que es aún más atípico.
Se construyen así:

Límite interior inferior = Límite del bigote inferior = Q1 - 1,5RI
Límite interior superior = Límite del bigote superior = Q3 + 1,5RI
Límite exterior inferior = Q1 - 3RI
Límite exterior superior = Q3 + 3RI

CONCEPTO PERSONAL DEL DIAGRAMA DE CAJAS: El diagrama de cajas que utilizamos en estadística, también le denominamos “Box Plot”, consiste en ilustrar gráficamente las ubicaciones de algunos datos estadísticos pudiendo dar a conocer el centro y el alejamiento de estas, para poder realizar debemos contar con el procesamiento de los datos, tales como la media y la mediana o bien puede ser el Q2, también el Q1 y el Q3 haciendo utilidad de los datos extremos de la distribución. Y en si damos a mostrar el alejamiento de los del centro.

lunes, 5 de mayo de 2008

EJEMPLOS DEL AREA BAJO LA CURVA


Se paso un test de inteligencia a 400 estudiantes, al analizarlos esta





























































dísticamente se obtuvieron los siguientes resultados media=105 y desviación estandar=5.

1. Hallar el porcentaje que hay entre la media y 115








2. Encontrar el numero de alumnos que hay entre 115 y 120














3. Encontrar el numero de alumnos que hay exactamente en 95














4. Hallar el porcentaje y el numero de alumnos que tienen menos de 115