estadística: marzo 2012

domingo, 25 de marzo de 2012

Medidas de Tendencia Central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización.

Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre éstas están la media aritmética, la moda y la mediana.

La Media Aritmética

Conocida como promedio, es la suma de todos los datos divididos entre el número de ellos.

Definición formal

Dado un conjunto numérico de datos, x₁, x₂, ..., x_n, se define su media aritmética como ~~$\overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}$~~

Moda

La moda es el dato más repetido, el valor de la variable con mayor frecuencia Absoluta.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo $n_{i}$ la frecuencia absoluta del intervalo modal y $n_{i-1}$ y $n_{i+1}$ las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, alLas calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):

Calificaciones	1	2	3	4	5	6	7	8	9
Número de alumnos	2	2	4	5	8	9	3	4	2

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.⁷ Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

$\underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \; \underbrace{\color{Red} 2, }_{Mediana \;} \; \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}$

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los anteriores: $\underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \; \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \; \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}$ Se toma como mediana $1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}$ Existen métodos de cálculo más rápidos para datos más númerosos (véase el articulo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

domingo, 11 de marzo de 2012

Histograma

En estadística , un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

El Histograma representa la frecuencia con la que se presentan los diferentes grupos de datos de la variable objeto de estudio. Es un conjunto de rectángulos, los cuales representan a cada una de las clases. En el eje de abscisas se representan las clases definidas y en el eje de ordenadas la frecuencia de cada una de ellas. La amplitud del intervalo de las clases se halla dividiendo el Recorrido entre el número de clases. El Histograma proporciona mucha información respecto a la estructura de los datos. Por tanto, es importante analizar la situación del centro del Histograma y el ancho del mismo que definen la tendencia central y la variabilidad del conjunto de datos respectivamente, así como la forma del Histograma que identifica algunas de las características del proceso en estudio.

Polígono de Frecuencia

Un polígono de frecuencia es un gráfico que se realiza a través de la unión de los puntos más altos de las columnas en un histograma de frecuencia (que utiliza columnas verticales para mostrar las frecuencias).

Los polígonos de frecuencia para datos agrupados, por su parte, se construyen a partir de la marca de clase que coincide con el punto medio de cada columna del histograma. Cuando se representan las frecuencias acumuladas de una tabla de datos agrupados, se obtiene un histograma defrecuencias acumuladas, que permite diagramar su correspondiente polígono.

Por ejemplo: un polígono de frecuencia permite reflejar las temperaturas máximas promedio de un País en un periodo de tiempo. En el eje X (horizontal), pueden señalarse los meses del año (enero, febrero, marzo, abril, etc.). En el eje Y (vertical), se indican las temperaturas máximas promedio de cada mes (24º, 25º, 21º…). El polígono de frecuencia se crea al unir, con un segmento, todas las temperaturas máximas promedio.
Los polígonos de frecuencia se suelen utilizar cuando se desea mostrar más de una distribución o la clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en un mismo gráfico.

El punto con mayor altura de un polígono de frecuencia representa la mayor frecuencia, mientras que el área bajo la curva incluye la totalidad de los datos existentes. Cabe recordar que la frecuencia es la repetición menor o mayor de un suceso, o la cantidad de veces que un proceso periódico se repite por unidad de tiempo.

Ojiva

La ojiva es una gráfica asociada a la distribución de frecuencias, es decir, que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.

La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que.

Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial):

Un extremo de la ojiva no se “amarra” al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.

En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase “4:00″ se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría, sin errores de gramática: después de las 4:00). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).

domingo, 4 de marzo de 2012

STURGES

Cuando los datos son numerícos y la variable toma un gran número de valores distintos, presentando dificultad para interpretarlo, por lo que se recomienda reducirlos mediante la formación de grupos y frecuencias, los cuales deben mostrar claramente las frecuencias con que se distribuyen entre las clases.
Esta distribución, considera grupos o clases, los cuales atienden tres puntos:

*El número de grupos o clases en que se han de agrupar los datos.
*Clasificar los datos en el grupo que le corresponde.
*Conteo del número de casos de cada clase.

          NOTA

Generalmente para agrupar los datos en clase se siguen las siguientes reglas:

*No utilizar menos de cinco o más de veinte clases, el número apropiado depende de la naturaleza de los datos y el intervalo que cubre.
*Las clases deben formarse de tal modo que todos los datos se puedan incluir.
*Debe aceptarse que cada valor se ubique en una sola clase, evitando confusiones entre limites superiores o inferiores.
*Es aconsejable que los intervalos de clase se tomen de igual amplitud, también es deseable que sean múltiplos de 5, 10 ó 100 para facilitar su operación.

Intervalo ---------------> Amplitud de cada clase
Limite Inferior ----------> Valor más pequeño de cada clase
Limite Superior ---------> Valor más grande de cada clase

STURGES

m = 1 + [ ( 3.3 ) ( log "n" ) ]

m = número apróximado de clases
n = número total de observaciones

I = x máx - x mín
             m

I         = intervalo de clase
x mín = valor más pequeño de los datos observados
x máx = valos más grande de los datos observados

Conceptos II (regla de Sturges)

*CLASE
Son divisiones o categorias en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan variables comprendidas entre dos limites.

*RANGO
Es el limite dentro del cual estan comprendidos todos los valores de la serie de datos, en otras palabras, es el númerode diferentes valores que toma la variable en un estudio o investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que esta toma en una investigacion cualquiera.

*LIMITES DE CLASE
Representan el tamaño de cada clase. El limite inferior de la primer clase toma el valor de el dato menor de la colección de datos, para obtener el limite inferior de la clase siguiente, se suma al limite inferior de la clase anterior el tamaño de clase.

*REGLA DE STURGES
Si se dispone de "n" datos muestrales, se suele usar la regla de sturges

k = [ ( 3.3 ) ( log "n" ) ] + 1

Distribución de frecuencias

*DISTRIBUCION DE FRECUENCIAS
Método mediante el cual se forman cuadros y tablas donde se ocurren los datos recabados, consiste en agrupar valores iguales (series de frecuencias) o agrupar los valores en clases de dos limites prefijados para cada uno de los valores distintos o al número de valores que quedan comprendidos entre los limites de cada clase.

Conceptos

ESTADISTICA
*DESCRIPTIVA
*INFERENCIAL
FUENTE DE INFORMACION
*INTERNA
*EXTERNA
       *primaria
       *secundaria
       *pública
       *privada

*FUENTES DE INFORMACION INTERNA Se refiere a las actividades de una empresa como son datos de producción, ventas y actividades propias de la misma, estas se encuentran en los archivos de la organización.

*FUENTES DE INFORMACION EXTERNA Comprende información de actividades que ocurren fuera de la empresa, principlamente de publicaciones privadas y/o publicas.

*FUENTE DE INFORMACION PRIMARIA Cuando los datos son publicados por una organización se le denomina fuente primaria.

*FUENTE DE INFORMACION SECUNDARIA Resultan también importantes, abundan más que las primarias.

*FUENTE DE INFORMACION PUBLICA El principal productor de información de estadística en el sector público es el gobierno, el organismo que proporciona información es el INEGI.

*FUENTE DE INFORMACION PRIVADA Ese tipo de información es publicada por empresas no gubernamentales, tales como cámaras de comercio, revistas especializadas, etc.

*POBLACION Denomida también universo, se refiere al total de elementos en estudio que presentan características comunes, es decir, se refiere a la totalidad de opciones o medidas consideradas en una situación dada.

*MUESTRA Es un subconjunto representativo de una población, esta constituida por elementos que componen la poblacion, seleccionados aleatoriamente o por procedimientos encaminados a obtener representatividad del conjunto.

VARIABLES
*CUALITATIVAS
*CUANTITATIVAS

*VARIABLE
Es una característica de cada elemento individual de una población o de una muestra.

*CUALITATIVAS
Son aquellos datos no numerícos que solamente pueden describirse mediante palabras, ejemplo: nacionalidad, ocupación, religión, estado civil, etc. Un atributo no aparece en la misma forma en todos los elementos observados, varia de uno a otro, por ejemplo: no todas las personas tienen la misma ocupación o estado civil.

*CUANTITATIVAS
Son aquellas obtenidas mediante conteos o mediciones, por ejemplo: némero de artículos producidos, edad, etc.

*DISCRETAS
Son aquellas que solamente pueden tomar valores dentro de un intervalo y no es posible llegar a tomar ningún valor entre dos números enteros consecutivos, ejemplo: el número dehijos de una familia, porque solamente se pueden tener: o, 1, 2, 3, etc.

*CONTINUAS
Aquellas que se consideran factibles y puede tomar cualquier valor dentro de un intervalo, generalmente se expresan en medidad de longitud, peso, volumen, tiempo, masa, temperatura.

Clasificacion de la Estadística

La estadística se puede clasificar en dos grandes ramas:
* Estadística descriptiva o deductiva.
* Estadística inferencial o inductiva.

La primera se emplea simplemente para resumir de forma numérica o gráfica un conjunto de datos. Se restringe a describir los datos que se analizan. Si aplicamos las herramientas ofrecidas por la estadística descriptiva a una muestra, solo nos limitaremos a describir los datos encontrados en dicha muestra, no se podrá generalizar la información hacia la población.

La estadística inferencial permite realizar conclusiones o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la población o universo. Por ejemplo, a partir de una muestra representativa tomada a los habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación.

Historia de la Etadística

La estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Historia Desde los comienzos de la civilización han existido formas sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el 594 a.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa.