Histograma
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Tipos de histograma
- Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa.
- Diagramas de barras compuesta
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.
- Diagramas de barras agrupadas
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.
Es un gráfico de líneas que se usa para presentar las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.
Es un gráfico acumulativos, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.
En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer miembro un corchete y en el segundo un parentesis, por ejemplo: (10-20]
Construcción de un histograma
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.
Establecer la longitud de clase: es igual al rango entre el número de clases.
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relación al resultado del PASO 2 en intervalos iguales.
Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados.
Sea u una imagen de tamaño NxN, la función de distribución del histograma es: Fu(l) = (Numerodepixels(i,j)talesqueu(i,j) < = l) / N2
Ejemplos de otros tipos de representaciones gráficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.
Distribución de frecuencias
Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.
Elementos fundamentales para elaborar una distribución de frecuencia:
1) RANGO.
Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos.
R = N_max - N_min
Ejemplo.
Dados los números: 5, 10, 12, 8, 13, 9, 15
R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumándole 1 al rango.
AT = (R+1)
3) LAS CLASES.
Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama límite superior. hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
4)EL NUMERO DE CLASES.
Se determina a través de la formula de stuger, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula.
Nc= 1 + 3.33log ( N )
Donde:
Nc es el número de clases. N es la cantidad de muestras tomadas.
5) VALOR DEL INTERVALO O AMPLITUD
Se Obtiene por medio de la ecuación de dicta:
Vi = AT / Nc
Donde:
Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase
Distribución de frecuencias
Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.
Elementos fundamentales para elaborar una distribución de frecuencia:
1) RANGO.
Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos.
R = N_max - N_min
Ejemplo.
Dados los números: 5, 10, 12, 8, 13, 9, 15
R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumándole 1 al rango.
AT = (R+1)
3) LAS CLASES.
Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama límite superior. hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
4)EL NUMERO DE CLASES.
Se determina a través de la formula de stuger, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula.
Nc= 1 + 3.33log ( N )
Donde:
Nc es el número de clases. N es la cantidad de muestras tomadas.
5) VALOR DEL INTERVALO O AMPLITUD
Se Obtiene por medio de la ecuación de dicta:
Vi = AT / Nc
Donde:
Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase
ESTADÍGRAFOS, MEDIDAS DESCRIPTIVAS ó DE RESUMEN
DEFINICION:
Después de haber ordenado y descrito un conjunto de datos, aún el análisis resulta todavía un tanto incompleto; es necesario entonces resumir la información y facilitar así su análisis e interpretación utilizando ciertos indicadores.
A estos indicadores se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN, permiten hallar un valor numérico, el mismo que representa a toda la población o muestra en estudio.
CLASIFICACIÓN:
Las medidas de resumen más importantes se clasifican en tres grupos:
- Medidas de tendencia central : Media, mediana, moda
- Medidas de posición : Deciles, cuartiles, percentiles
- Medidas de dispersión : Desviación standard, varianza,
coeficiente de variación
MEDIDAS DE TENDENCIA CENTRAL: Son los valores numéricos que indican el "centro" de un conjunto de datos, describen a todo el conjunto señalando una característica que destaca. Los estadígrafos de tendencia central más importantes son:
MEDIA ARITMETICA O PROMEDIO ARITMÉTICO: Es el punto de equilibrio de una serie de datos, el valor que tendrían todos los datos de no existir diferencias entre ellos.
a) Para datos no agrupados: Se obtiene sumando los valores de todos los datos y dividiendo esta suma entre el número total de datos. La fórmula es:
n
S x i
i = 1
X = -----------
n
b) Para datos agrupados: La media se obtiene sumando el producto que se obtiene del valor medio del intervalo de clase por la frecuencia de esa clase y dividiendo esta suma entre el número total de datos. El valor medio del intervalo de clase se obtiene sumando el límite inferior más el límite superior de la clase y dividiendo esta suma entre dos. La fórmula es:
n
S n h . x h
--- h=1
X = ------------------
å n h
Ejemplos
La media tiene como ventajas cuando los datos están distribuidos normal o simétricamente, es de gran estabilidad porque toma en cuenta todos los datos y nos permite estimar y probar parámetros en inferencias.
Sin embargo, también tiene algunas desventajas como que al incluir todos los datos, puede ser afectado por valores extremos, por ello no es recomendable calcular la media en datos agrupados que tienen clases abiertas en los extremos.
. MEDIANA: Es un valor numérico de posición central, que nos determina que el 50 % de las observaciones sea menor o igual que él y el otro 50 % sea mayor o igual. Para obtenerlo se deben seguir los siguientes pasos:
a) Para datos no agrupados:
A. Ordenar los datos de menor a mayor.
B. Determinar la posición con:
pMd = n+1 = E + f (Entero + fracción)
2
C. Calcular el valor de la mediana con:
vMd = xE + fD donde D = (xE+1 - xE)
b) Para datos agrupados:
A. Obtener Nh (número de datos acumulado)
B. Determinar la posición de la mediana (y marcar la clase que la contiene), con:
pMd = Nh
2
C. Calcular el valor de la mediana con:
Ejemplos
vMd = LMdi + IMd (Nh/2) - N(Md-1)
nMd
Donde:
LMdi = Límite real inferior (por redondeo) de la clase que contiene la mediana
IMd = Tamaño del intervalo de la clase Mediana.
N(Md-1) = Número de datos acumulado hasta la clase anterior a la clase mediana
nMd = Número de datos de la clase mediana.
La mediana no está afectada por valores extremos, es útil cuando los datos agrupados tienen clases abiertas en los extremos. Se aplica también a variables de la escala ordinal.
MODA: Es el valor que más se repite, ó, en una distribución de frecuencias, es el valor de más alta frecuencia. Si hay dos o más valores con esta característica, se dice entonces que el conjunto de datos es bi o multimodal. Si la cantidad de elementos que se repiten es mayor que n/2, entonces se afirma que no hay moda.
a) Para datos no agrupados: La moda es el valor más frecuente o el que más se repite.
b) Para datos agrupados:
A. La posición de la moda está en la clase de frecuencia máxima, a ella se le denomina clase moda.
pMo = nmáx
B. El valor de la moda se calcula con:
vMo = LMoi + IMo D1
D1 + D2
Ejemplos
Donde:
LMoi = Límite real inferior (por redondeo) de la clase moda
IMo = Tamaño del intervalo de la clase moda
D1 = nMo - n(Mo-1)
D2 = nMo - n(Mo+1)
nMo = Valor de la clase moda
n(Mo-1) = Valor de la clase anterior a la clase moda
n(Mo+1) = Valor de la clase posterior a la clase moda.
MEDIDAS DE POSICION RELATIVA: Llamados también CUANTILES, son aquellos valores de las variables que dividen una distribución de frecuencias o serie de números en 4, 10 ó 100 partes iguales, tomando la denominación de QUARTILES, DECILES ó PERCENTILES. Determinan la dispersión alrededor de la mediana. Se obtienen de la siguiente manera:
a) Para datos no agrupados:
A. Ordenar los datos de menor a mayor.
B. Encontrar la posición con:
M
pCj = jn + 2 = E + f
M
Donde M = número de partes en que se divide la distribución
C. Calcular el valor con:
vCj = xE + fD donde D = (xE+1 - xE)
MEDIDA SIMBOLO POSICION PARTES
------------------------------------------------------------------------------
CUANTILES C j M
CUARTILES Q 1, 2, 3 4
DECILES D 1, 2, 3,....8, 9 10
PERCENTILES P 1, 2, 3,...98, 99 100
-----------------------------------------------------------------------------
Ejemplos
b) Para datos agrupados: Se realizan los siguientes pasos:
A. Obtener Nh (número de datos acumulado)
B. Determinar la posición del cuantil j (y marcar la clase que lo contiene), con:
pCj = jNh
M
C. Calcular el valor del cuantil con:
vCj = LCji + ICj (jNh/M) - N(Cj-1)
nCj
Donde:
LCji = Límite real inferior (por redondeo) de la clase que contiene el cuantil j
ICj = Tamaño del intervalo de la clase cuantil j
N(Cj-1) = Número de datos acumulado hasta la clase anterior a la clase cuantil j
NCj = Número de datos de la clase cuantil j.
2.3. MEDIDAS DE DISPERSION: Son aquellas que miden cuánto se alejan de la media cada uno de los valores de la variable.
A. VARIANZA: Es el promedio de la suma de las desviaciones al cuadrado con respecto a la media. Sirve para comparar dos o más distribuciones. Se obtiene de la siguiente manera:
a) Para datos no agrupados:
n
S (x i - x)2
i = 1
S2= n
Ejemplos
b) Para datos agrupados:
S2 = I2 [N S nh dh2 - ( S nh dh)2]
N2
B. DESVIACION STANDARD: Es igual a la raíz cuadrada de la varianza, tiene algunos principios que mencionamos:
a) A mayor dispersión alrededor de la media, mayor valor de la desviación standard.
b) Las desviaciones extremas con respecto a la media, pesan mucho para determinar el valor de la desviación standard.
c) Para distribuciones normales:
El 68,97 % de las observaciones está en X ± 1 S
El 95,45 % de las observaciones está en X ± 2 S
El 99,73 % de las observaciones está en X ± 3 S
C. COEFICIENTE DE VARIACIÓN: Mide la homogeneidad de una muestra.
CV = S x 100
X .
Se da en porcentaje, el resultado es la heterogeneidad de la población; el resto de 100 % es la homogeneidad
Ojiva (estadística)
una ojiva secante de foco
En estadística
La ojiva es una gráfica asociada a la distribución de frecuencias, es decir, que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial):
Un extremo de la ojiva no se “amarra” al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase “4:00″ se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría, sin errores de gramática: después de las 4:00). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).
Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que que se acaba de usar, pero con una distribución porcentual:
POLÍGONOS DE FRECUENCIAS
Este gráfico se utiliza para el caso de variables cuantitativas, tanto discretas como continuas, partiendo del diagrama de columnas, barras o histograma, según el tipo de tabla de frecuencia manejada.
Ejemplo de polígonos de frecuencias
Realizar un polígono de frecuencia a partir de la tabla de frecuencia dada en el ejemplo anterior:
|
Lm
|
Ls
|
Frecuencia
|
MC
|
|
2.0
|
6.1
|
12
|
4.1
|
|
6.1
|
10.1
|
15
|
8.1
|
|
10.1
|
14.1
|
21
|
12.1
|
|
14.1
|
18.1
|
24
|
16.1
|
|
18.1
|
22.1
|
21
|
20.1
|
|
22.1
|
26.1
|
12
|
24.1
|
|
26.1
|
28.0
|
8
|
28.1
|
|
Total
|
92
|
|
SOLUCIÓN
PASO 1: Crear un histograma (tabla tipo B) o gráfico de columnas (tabla tipo A).
PASO 2: Trazar líneas rectas entre los puntos medios de los techos de columnas contiguas, partiendo desde el punto de origen (0,0) hasta el punto final definido en el eje horizontal.
Nuestro polígono de frecuencias sin el histograma quedaría de la siguiente forma:
3.4.2 Características de los polígonos de frecuencias
- No muestran frecuencias acumuladas.
- Se prefiere para el tratamiento de datos cuantitativos.
- El punto con mayor altura representa la mayor frecuencia.
- Suelen utilizarse para representar tablas tipo B.
- El área bajo la curva representa el 100% de los datos. El polígono de frecuencia esta diseñado para mantener la misma área de las columnas. Analicemos una porción de nuestro gráfico para probar esta afirmación:
Observe que cada línea corta una porción de la columna, pero a su vez, agrega una porción adicional. Ambas porciones son iguales (triangulo rectángulos iguales), manteniendo el área global en el gráfico.
Parámetro estadístico
La media aritmética como resumen de la vejez de un país y, por ende, de su nivel de desarrollo.
En estadística se llama valor representativo de la población parámetro estadístico, medida estadística o parámetro poblacional a un valor representativo de una población,[1] como la media aritmética, la proporción de individuos que presentan determinada característica, o la desviación típica.[2]
Un parámetro es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable estadística.[3] El cálculo de este número está bien definido, usualmente mediante una fórmula aritmética obtenida a partir de datos de la población.[4] [5]
Los parámetros estadísticos son una consecuencia inevitable del propósito esencial de la estadística: modelizar la realidad.[6]
El estudio de una gran cantidad de datos individuales de una población puede ser farragoso e inoperativo, por lo que se hace necesario realizar un resumen que permita tener una idea global de la población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas contribuyen de modo esencial los parámetros estadísticos.
Por ejemplo, suele ofrecerse como resumen de la "juventud" de una población la media aritmética de las edades de sus miembros, esto es, la suma de todas ellas, dividida por el total de individuos que componen tal población.
Enfoque descriptivo
Gráficas de distribuciones normales para distintos valores de sus dos parámetros
Un parámetro estadístico es, como se ha dicho, un número que resume una cantidad de datos. Este enfoque es el tradicional de la Estadística descriptiva.[7] [8] [9] En este sentido, su acepción se acerca a la de medida o valor que se compara con otros, tomando una unidad de una determinada magnitud como referencia.
Por su parte, la facción más formal de la Estadística, la Estadística matemática y también la Inferencia estadística utilizan el concepto de parámetro en su acepción matemática más pura, esto es, como variable que define una familia de objetos matemáticos en determinados modelos. Así se habla, por ejemplo, de una distribución Normal de parámetros μ y σ como de una determinada familia de distribuciones con una distribución de probabilidad de expresión conocida, en la que tales parámetros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Otro ejemplo común en este sentido es el de la distribución de Poisson, determinada por un parámetro, λ; o la Distribución binomial, determinada por dos parámetros, n y p. Para los ojos de la Estadística matemática el hecho de que estas distribuciones describan situaciones reales y los citados parámetros signifiquen un resumen de determinado conjunto de datos es indiferente.
Controversia
Como se ha dicho, los parámetros estadísticos, en el enfoque descriptivo que aquí se adopta, substituyen grandes cantidades de datos por unos pocos valores extraídos de aquellos a través de operaciones simples. Durante este proceso se pierde parte de la información ofrecida originalmente por todos los datos. Es por esta pérdida de datos por lo que la estadística ha sido tildada en ocasiones de una falacia. Por ejemplo, si en un grupo de tres personas una de ellas ingiere tres helados, el parámetro que con más frecuencia se utiliza para resumir datos estadísticos, la media aritmética (del número de helados ingeridos por el grupo), sería igual a 1 ( ), valor que no parece resumir fielmente la información. Ninguna de las personas se sentiría identificada con la frase resumen "he ingerido un helado de media".[10]
Un ejemplo menos conocido, pero igual de ilustrativo acerca de la claridad de un parámetro es la distribución exponencial, que suele regir los tiempos medios entre determinados tipos de sucesos. Por ejemplo, si la vida media de una bombilla es de 8.000 horas, más del 50% de las veces no llegará a esa media. Igualmente, si un autobús pasa cada 10 minutos de media, hay una probabilidad mayor del 50% de que pase menos de 10 minutos entre un autobús y el siguiente.
Otro ejemplo que suele ofrecerse con frecuencia para argumentar en contra de la estadística y sus parámetros es que, estadísticamente hablando, la temperatura media de una persona con los pies en un horno y la cabeza en una nevera es ideal.
Benjamín Disraeli, un descreído de las estadísticas.
Quizás por situaciones como estas, que en general muestran un profundo desconocimiento de lo que los parámetros representan en realidad y de su uso conjunto con otras medidas de centralización o dispersión, el primer ministro inglés Benjamín Disraeli sentenció[11] primero y Mark Twain popularizó más tarde[12] la siguiente afirmación:
Hay mentiras, grandes mentiras y estadísticas.
Benjamín Disraeli
Hay otros personajes que también han advertido sobre la simplificación que supone la estadística, como el profesor Aaron Levenstein, quien afirmaba:
Las estadísticas son como los bikinis, lo que muestran es sugerente, pero lo que esconden es vital.
Aaron Levenstein
Por su parte, el escritor y comediante inglés Bernard Shaw sentenció:[13]
La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.
George Bernard Shaw;
o el personaje ficticio Homer Simpson de la popular serie de televisión Los Simpson en una entrevista acerca de las proporciones en uno de sus capítulos:[14]
¡Oh!, la gente sale con estadísticas para probar cualquier cosa, el 14% del mundo lo sabe.
Guionistas de la serie Los Simpson
Propiedades deseables en un parámetro
Según Yule[15] un parámetro estadístico es deseable que tenga las siguientes propiedades:
- Se define de manera objetiva, es decir, es posible calcularlo sin ambigüedades, generalmente mediante una fórmula matemática. Por ejemplo, la media aritmética se define como la suma de todos los datos, dividida por el número de datos. No hay ambigüedad: si se realiza ese cálculo, se obtiene la media; si se realiza otro cálculo, se obtiene otra cosa. Sin embargo, la definición de moda como el "valor más frecuente", puede dar lugar a confusión cuando la mayor frecuencia la presentan varios valores distintos.
- No desperdicia, a priori, ninguna de las observaciones. Con carácter general, un parámetro será más representativo de una determinada población, cuántos más valores de la variable estén implicados en su cálculo. Por ejemplo, para medir la dispersión puede calcularse el recorrido, que sólo usa dos valores de la variable objeto de estudio, los extremos; o la desviación típica, en cuyo cálculo intervienen todos los datos del eventual estudio.
- Es interpretable, significa algo. La mediana, por ejemplo, deja por debajo de su valor a la mitad de los datos, está justo en medio de todos ellos cuando están ordenados. Esta es una interpretación clara de su significado.
- Es sencillo de calcular y se presta con facilidad a manipulaciones algebraicas. Se verá más abajo que una medida de la dispersión es la desviación media. Sin embargo, al estar definida mediante un valor absoluto, función definida a trozos y no derivable, no es útil para gran parte de los cálculos en los que estuviera implicada, aunque su interpretación sea muy clara.
- Es poco sensible a las fluctuaciones muestrales. Si pequeñas variaciones en una muestra de datos estadísticos influyen en gran medida en un determinado parámetro, es porque tal parámetro no representa con fiabilidad a la población. Así pues es deseable que el valor de un parámetro con esta propiedad se mantenga estable ante las pequeñas oscilaciones que con frecuencia pueden presentar las distintas muestras estadísticas. Esta propiedad es más interesante en el caso de la estimación de parámetros. Por otra parte, los parámetros que no varían con los cambios de origen y escala o cuya variación está controlada algebraicamente, son apropiados en determinadas circunstancias como la tipificación.
Principales parámetros
Habitualmente se agrupan los parámetros en las siguientes categorías:
Medidas de posición.[16]
Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. Entre ellos se distinguen:
- Las medidas de tendencia central: medias, moda y mediana.
- Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).
Medidas de dispersión.[17]
Resumen la heterogeneidad de los datos, lo separados que estos están entre sí. Hay dos tipos, básicamente:
- Medidas de dispersión absolutas, que vienen dadas en las mismas unidades en las que se mide la variable: recorridos, desviaciones medias, varianza, desviación típica y meda.
- Medidas de dispersión relativa, que informan de la dispersión en términos relativos, como un porcentaje. Se incluyen entre estas el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana.
Medidas de forma.[18]
Su valor informa sobre el aspecto que tiene la gráfica de la distribución. Entre ellas están los coeficientes de asimetría y los de curtosis.
Otros parámetros.
Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy concretas, como son las proporciones, los números índice, las tasas y el coeficiente de Gini.
Medidas de posición
Las medidas de posición son las más utilizadas para resumir los datos de una distribución estadística. Se trata de valores de la propia variable[19] que, en cierto modo, sustituyen la información provista por los datos.
Medidas de tendencia central o centralización [editar]
Artículo principal: Medidas de tendencia central
Son valores que suelen situarse hacia el centro de la distribución de datos. Los más destacados son las medias o promedios (incluyendo la media aritmética, la media geométrica y la media armónica), la mediana y la moda.
Media aritmética o promedio
La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
Artículo principal: Media aritmética
La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.[20]
Dado un conjunto numérico de datos, x1, x2, ..., xn, se define su media aritmética como
Esta definición varía, aunque no sustancialmente, cuando se trata de
Dejar un comentario
(1)