Conceptos básicos de estadística

La estadística es una rama de las matemáticas que nos brinda herramientas  para recopilar, analizar, interpretar y presentar datos, su aplicación se extiende en múltiples disciplinas, desde la economía hasta la medicina, pasando por la ingeniería, la psicología y el deporte entre otras ramas.

Comprender los conceptos básicos de estadística no solo enriquece el conocimiento profesional, sino que también potencia la capacidad de tomar decisiones basadas en evidencia, una habilidad indispensable en el mundo contemporáneo. En la economía, por ejemplo, la estadística permite prever tendencias de mercado y comportamientos del consumidor, mientras que, en la medicina, facilita la interpretación de resultados de estudios clínicos y la efectividad de tratamientos.

En el ámbito deportivo, la estadística ha revolucionado la industria, actualmente los equipos y los entrenadores utilizan análisis estadísticos para mejorar el rendimiento, desarrollar estrategias y/o minimizar el riesgo de lesiones por ejemplo. En el deporte, cada acción y cada resultado puede ser cuantificado y transformado en datos, los cuales si son analizados adecuadamente, pueden incrementar el éxito deportivo.

Nos enfocaremos en explorar los conceptos básicos de la estadística, explicando cada uno de ellos para lograr una mejor comprensión de esta rama de las matemáticas y su relevancia como una herramienta que transforma los datos en información clara y fundamentada para la toma de decisiones.



Población

La población en estadística se refiere al conjunto completo de sujetos o eventos que se desean estudiar y que comparten características comunes, establece el universo sobre el cual se realizan las observaciones y el análisis. Ejemplo: En un estudio de mercado, la población podría ser todos los consumidores de una región específica.

Muestra

Una muestra es un subconjunto seleccionado de la población, elegida de manera aleatoria y significativa, asegurando que las inferencias hechas a partir de la muestra sean válidas para toda la población. Ejemplo: De todos los empleados de una empresa, se selecciona un grupo de 200 para participar en una encuesta sobre la satisfacción laboral.



Variables

Las variables son características que se observan y pueden variar entre los individuos de una muestra o población.

Cuantitativas

Son variables que implican cantidades numéricas por lo tanto se pueden medir. Se dividen en:

  • Discretas: Son aquellas que toman valores específicos y no admiten valores intermedios. Son contables y a menudo se presentan en números enteros. Ejemplo: El número de casas de una ciudad.
  • Continuas: Pueden tomar cualquier valor dentro de un rango continuo y permiten una precisión ilimitada. Ejemplo: La temperatura medida durante un experimento científico.



Cualitativas

Estas variables describen categorías o etiquetas y no implican cantidades numéricas. Se dividen en:

  • Nominales: No tienen un orden inherente y se utilizan para clasificar datos sin implicar una jerarquía. Ejemplo: El tipo de vehículo (coche, camión, motocicleta).
  • Ordinales: Tienen un orden claro y son especialmente útiles para clasificar niveles o rangos. Ejemplo: Nivel de educación (primaria, secundaria, universitaria).



Dependientes 

Es el resultado o efecto que se investiga. Cambia en respuesta a la variable independiente. Ejemplo: Cantidad de ventas, que podría variar en respuesta a una nueva campaña de marketing.

Independientes

Es el factor que se presume afecta o determina la variable dependiente. Ejemplo: El tipo de campaña de marketing implementada


Frecuencia

Frecuencia Absoluta

Es el número de veces que aparece un valor en un conjunto de datos. Ejemplo: Si en una encuesta, 40 personas dicen beber café diariamente, esa es la frecuencia absoluta del consumo diario.

Frecuencia Relativa

Esta métrica ofrece una perspectiva más profunda al mostrar la proporción que representa cada categoría dentro del total general, se calcula dividiendo la frecuencia absoluta de cada categoría por el número total de observaciones. Esta proporción ajusta la perspectiva de los datos al tamaño de la muestra, permitiendo comparaciones equitativas entre conjuntos de datos de diferentes magnitudes. Por ejemplo, si otro centro deportivo tiene 400 miembros y también registra la participación en las mismas actividades, la frecuencia relativa nos permitirá comparar directamente la popularidad de las actividades entre ambos centros, independientemente de la diferencia en el número total de miembros.

Frecuencia Porcentual

La frecuencia porcentual lleva a la frecuencia relativa un paso más allá al convertir la proporción en porcentaje, esto es útil cuando se requiere una interpretación más directa y visual de los datos. Calcular la frecuencia porcentual implica simplemente multiplicar la frecuencia relativa por 100, lo que resulta en una cifra que indica el porcentaje de cada categoría respecto al total. Adicionalmente, esta conversión facilita la toma de decisiones y la planificación basada en los resultados obtenidos.

Frecuencia Acumulada

Es la suma de las frecuencias absolutas de todos los valores hasta un cierto punto. Ejemplo: Si 10 personas beben café una vez a la semana, 30 dos veces y 40 todos los días, la frecuencia acumulada para dos veces o menos sería 10 + 30 = 40.



Media

La media, o promedio, se calcula sumando todos los valores individuales de un conjunto de datos y dividiendo esa suma por la cantidad total de valores. La fórmula para calcular la media es: 

Me = (x1 + x2 + ... + xN) / N

Este indicador es útil para obtener una visión general del comportamiento de los datos en una distribución. Por ejemplo, si tenemos las edades de un grupo de estudiantes que son 18, 20, 22, y 24 años, la media de las edades es (18+20+22+24)/4 = 21 años. 

Moda

La moda es una medida de tendencia central que indica el valor que aparece con mayor frecuencia en un conjunto de datos. Es el valor más común y su identificación no requiere cálculos complejos. Por ejemplo, si el color más frecuente en un conjunto de camisetas es el rojo, entonces la moda es roja. 

Mediana

La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor. Si el número de observaciones es impar, la mediana es el valor central directamente. Por ejemplo, si hay 7 valores, la mediana está en la posición que resulta de (7+1)/2, es decir, posición 4.

Si el número de observaciones es par, se identifican los dos valores centrales, y la mediana será el promedio de estos. Por ejemplo, para 8 valores, las posiciones centrales son 4 y 5, y la mediana se calcula como el promedio de los valores en estas posiciones.



Medidas de Dispersión

Varianza

La varianza es una medida de dispersión que describe cuánto varían los valores de un conjunto de datos respecto a la media. Es útil para saber cuánto se alejan los valores de la media y se mide en unidades al cuadrado. La fórmula para calcular la varianza (𝑆2) es:

𝑆2=∑(𝑥𝑖𝑥ˉ)2𝑛−1S2

Donde ∑ denota la sumatoria de los valores, xi​ representa cada valor individual en el conjunto de datos, 𝑥ˉ es la media de los valores, y 𝑛 es el número total de valores.

Pasos para medir la varianza:

  1. Calcular la media de los valores.
  2. Restar la media a cada valor individual para obtener cada desviación.
  3. Elevar al cuadrado cada desviación.
  4. Dividir la suma de las desviaciones al cuadrado entre el número total de valores menos uno.

Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza y se calcula para obtener una medida de dispersión en las mismas unidades que los datos originales. La fórmula para la desviación estándar (S) es:


𝑆=sqrt∑(𝑥𝑖𝑥ˉ)2𝑛−1


Pasos para calcular desviación estándar:

  1. Calcular la media de los valores.
  2. Restar la media a cada valor individual para obtener cada desviación.
  3. Elevar al cuadrado cada desviación.
  4. Dividir la suma de las desviaciones al cuadrado entre el número total de valores menos uno.
  5. Calcular la raíz cuadrada de la varianza obtenida.

Interpretación de la desviación estándar

  • Desviación estándar = 0: No hay variabilidad; todos los valores son iguales a la media.
  • Desviación estándar baja (0-1): Datos muy concentrados alrededor de la media.
  • Desviación estándar moderada (1): Aproximadamente 68% de los valores están dentro de 1 desviación estándar de la media (distribución normal).
  • Desviación estándar moderada (1-2): Aproximadamente 95% de los valores están dentro de 2 desviaciones estándar de la media.
  • Desviación estándar moderada (2-3): Aproximadamente 99.7% de los valores están dentro de 3 desviaciones estándar de la media.
  • Desviación estándar alta (>3): Gran variabilidad de datos, probable presencia de valores atípicos.


Distribución Normal (Campana de Gauss)

En la Campana de Gauss, la distribución normal describe la forma en la que se distribuyen los valores de un conjunto de datos alrededor de un valor medio (la media). Esta distribución es simétrica alrededor de la media, con la mayoría de los datos acumulándose cerca del valor medio y menos datos presentes a medida que nos alejamos hacia ambos extremos de la media, formando así una figura similar una campana.

Un ejemplo clásico de la distribución normal en teoría es la altura de las personas en una población. Si recolectamos datos sobre la altura de una gran cantidad de individuos, es probable que encontremos que la mayoría tiene una altura cerca de la media (valor central) y las alturas extremadamente bajas o altas son menos comunes. Es importante mencionar que en la vida real no existe una distribución simétrica de datos.






Cuantiles

Los cuantiles son valores que dividen un conjunto de datos ordenados en partes iguales, con la misma proporción de datos. Estos valores son fundamentales para describir y analizar la distribución de un conjunto de datos ya que proporcionan información sobre la posición relativa de los valores dentro de la distribución. Al entender dónde se posicionan ciertos cuantiles, podemos identificar patrones, comparar grupos y tomar decisiones informadas basadas en datos. Los cuantiles son especialmente útiles en el análisis estadístico para resumir grandes conjuntos de datos y facilitar la comparación entre diferentes distribuciones.

Cuartiles

Los cuartiles son un tipo específico de cuantiles que dividen los datos en cuatro partes iguales, cada una representando un 25% de los datos. Hay tres cuartiles importantes en cualquier conjunto de datos:

  • Primer Cuartil (Q1): Este cuartil marca el 25% inferior de los datos. Por ejemplo, en un conjunto de datos sobre edades, si el Q1 es 30 años, significa que el 25% de las personas tienen 30 años o menos.
  • Segundo Cuartil (Q2) o Mediana: Divide los datos en la mitad, indicando el valor medio del conjunto. Si el Q2 es 45 años, eso indica que la mitad de las personas son más jóvenes y la otra mitad más viejas que 45 años.
  • Tercer Cuartil (Q3): Señala el 75% inferior de los datos. Si el Q3 es 60 años, el 75% de las personas tienen 60 años o menos.

Rango Intercuartílico (IQR)

Es una medida de dispersión que se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Esto nos muestra dónde se concentra la mitad central de los datos, excluyendo los valores atípicos. Si en un conjunto de datos, Q1 es 23 y Q3 es 26, entonces IQR = 26 - 23 = 3.

Percentiles

Los percentiles son otro tipo de cuantiles que dividen el conjunto de datos en 100 partes iguales, cada percentil representa el porcentaje de datos que se encuentra por debajo de determinado valor. El percentil 25 (P25), por ejemplo, coincide con el primer cuartil (Q1). Así, el percentil 50 (P50) es la mediana del conjunto, y el percentil 75 (P75) es equivalente al tercer cuartil. Los percentiles son ampliamente utilizados en pruebas estandarizadas para comparar un individuo o un resultado específico con una población más amplia.

Deciles

Similar a los cuartiles y percentiles, los deciles dividen los datos en diez partes iguales, cada decil representa el 10% de los datos, existen nueve deciles (D1 a D9) que proporcionan una comprensión más granular de la distribución de los datos. Por ejemplo, el quinto decil (D5) es equivalente al segundo cuartil o mediana, lo que significa que el 50% de los datos son menores o iguales a este valor. Los deciles son útiles para detallar la dispersión en conjuntos de datos donde se desea una resolución más fina que la que ofrecen los cuartiles.

Aplicaciones Prácticas

Estos conceptos son esenciales para el análisis estadístico en diversos campos, incluyendo finanzas, comercio electrónico, estudios económicos y más. Por ejemplo, en finanzas, los deciles pueden ayudar a identificar el rendimiento de las acciones al clasificarlas en deciles según su retorno​.






Diagramas de Caja (Box Plots)

Los diagramas de caja, también conocidos como box plots, son una herramienta gráfica que permite visualizar la distribución de los datos a través de sus cuantiles, estos diagramas son útiles para comparar distintos conjuntos de datos y para identificar valores atípicos o extremos de manera rápida y efectiva.

Componentes de un Diagrama de Caja

  • Mediana (Q2): La línea que cruza el diagrama de caja representa la mediana, que es el valor central de un conjunto de datos ordenados. Divide el conjunto en dos partes iguales.
  • Cuartiles:
    • Primer Cuartil (Q1): También conocido como el cuartil inferior, representa el valor que corta al 25% de los datos inferiores del conjunto.
    • Tercer Cuartil (Q3): O cuartil superior, marca el valor por encima del cual se encuentran el 25% de los datos superiores.
    • Rango Intercuartílico (IQR): Es la distancia entre el primer y el tercer cuartil (Q3 - Q1). Este rango ayuda a medir la dispersión de la mitad central de los datos.
  • Bigotes: Los extremos de las líneas que se extienden desde el cuadro central representan los "bigotes", que se extienden hasta el dato más lejano dentro del 1.5 IQR desde el borde del cuartil. Los datos fuera de este rango se consideran valores atípicos.
  • Valores Atípicos: Son aquellos puntos que caen fuera de los bigotes. Estos puntos se trazan individualmente en el gráfico como pequeños círculos o asteriscos y representan valores que son inusualmente altos o bajos en comparación con el resto del conjunto de datos.

Ejemplo:

Imaginemos que estamos analizando las edades de un grupo de estudiantes de un colegio, si las edades son 10, 12, 14, 14, 15, 16, 18, 20, y 22 años:

  • La mediana (Q2) es 15 años.
  • El primer cuartil (Q1) sería 12 años (el 25% de los datos son menores o iguales a 12).
  • El tercer cuartil (Q3) sería 18 años (el 75% de los datos son menores o iguales a 18).
  • El rango intercuartílico sería 6 años (18 - 12).
  • Los bigotes podrían extenderse desde el mínimo valor, 10, hasta el máximo valor, 22

Los diagramas de caja ofrecen una manera clara de visualizar la centralidad, dispersión y tendencia de los datos, así como identificar comportamientos atípicos de manera rápida, haciendo de ellos una herramienta valiosa en el análisis estadístico.






Medidas Z (Z-Score)

Las medidas Z, también conocidas como Z-Score, son útiles para indicar cuántas desviaciones estándar está un valor por encima o por debajo de la media en una distribución normal, se utilizan para estandarizar datos y facilitar su comprensión. El cálculo de la medida Z se realiza restando la media del valor y dividiendo el resultado por la desviación estándar.

Interpretación:

  • Un puntaje Z de 1 significa que el valor está a una desviación estándar por encima de la media.
  • Un puntaje Z de -2 indica que el valor está a dos desviaciones estándar por debajo de la media.

Ejemplo:

Si las alturas de una especie de jirafas son normalmente distribuidas con una media de 4.88 metros y una desviación estándar de 0.61 metros, y una jirafa en particular mide 4.57 metros, el puntaje Z se calcularía de la siguiente forma:

𝑧 = (4.57 − 4.88) / 0.61

𝑧 = −0.5

Esto significa que esta jirafa está a 0.5 desviaciones estándar por debajo de la media

Inferencias 

Error Típico de la Media (SE)

El error típico de la media, o error estándar, es una medida de la variabilidad de las medias muestrales. Representa la desviación estándar de la distribución muestral de la media y se calcula como la desviación típica dividida por la raíz cuadrada del tamaño de la muestra.

Interpretación:

  • Un error típico mayor indica una mayor variabilidad en las medidas muestrales.
  • Un error típico menor indica una menor variabilidad en las medidas muestrales.
  • Se utiliza para construir intervalos de confianza y realizar pruebas de hipótesis sobre la media poblacional.

Intervalos de Confianza

Los intervalos de confianza son rangos de valores alrededor de una estimación puntual que indican el nivel de confianza de que un valor se encuentre dentro de ese rango. Por ejemplo, un intervalo de confianza del 95% para la media de una población indica que hay un 95% de probabilidad de que la verdadera media esté dentro de ese intervalo. Para calcular un intervalo de confianza, se necesita conocer la media, la desviación estándar y el tamaño de la muestra, y se aplica una fórmula estadística.

Ejemplo:


Imagina que deseas estimar el peso promedio de una especie de pájaros. Si el intervalo de confianza al 95% está entre 4 y 6 gramos, esto indica que hay un 95% de probabilidad de que el peso promedio verdadero esté dentro de ese rango. Los intervalos de confianza son importantes porque ayudan a evaluar la precisión de las estimaciones y permiten tomar decisiones con mayor certeza.




Intervalo de Confianza para la Media

El intervalo de confianza para la media es un rango de valores que tiene una probabilidad específica, o nivel de confianza, de contener la verdadera media poblacional. Se construye utilizando la media muestral y el error típico de la media.

Interpretación:

  • Un intervalo de confianza amplio indica una mayor incertidumbre sobre la estimación de la media poblacional.
  • Un intervalo de confianza estrecho indica menor incertidumbre sobre la estimación de la media.
  • El nivel de confianza, generalmente del 95%, representa la probabilidad de que el intervalo contenga la verdadera media poblacional.


Intervalo de Confianza para la Desviación Típica

Un intervalo de confianza para la desviación típica es un rango de valores que tiene una probabilidad específica, o nivel de confianza, de contener la verdadera desviación típica poblacional. Se construye utilizando la desviación típica muestral y la distribución chi-cuadrado.

Interpretación:

  • Un intervalo de confianza amplio indica mayor incertidumbre sobre la estimación de la desviación típica poblacional.
  • Un intervalo de confianza estrecho indica menor incertidumbre sobre la estimación de la desviación típica.
  • El nivel de confianza, generalmente del 95%, representa la probabilidad de que el intervalo contenga la verdadera desviación típica poblacional.

Intervalo de Confianza para la Varianza

El intervalo de confianza para la varianza es un rango de valores que tiene una probabilidad específica, o nivel de confianza, de contener la verdadera varianza poblacional. Se construye utilizando la varianza muestral y la distribución chi-cuadrado.

Interpretación:

  • Un intervalo de confianza amplio indica una mayor incertidumbre sobre la estimación de la varianza poblacional.
  • Un intervalo de confianza estrecho indica menor incertidumbre sobre la estimación de la varianza.

  • El nivel de confianza, generalmente del 95%, representa la probabilidad de que el intervalo contenga la verdadera varianza poblacional.


Opciones de Intervalo de Confianza de Bootstrap

Bootstrap es un método de remuestreo utilizado para construir intervalos de confianza. Implica generar múltiples muestras con reemplazo a partir de la muestra original y calcular el estadístico de interés para cada muestra.

Interpretación:

  • Las opciones de intervalo de confianza de Bootstrap incluyen el método percentil, el método BCa (sesgo corregido y acelerado) y el método t de Student.
  • El método percentil utiliza los percentiles de la distribución bootstrap para construir el intervalo de confianza.
  • El método BCa ajusta el intervalo de confianza teniendo en cuenta el sesgo y la asimetría de la distribución bootstrap.
  • El método t de Student utiliza la distribución t de Student para construir el intervalo de confianza.
  • Bootstrap es útil cuando no se cumplen los supuestos de normalidad o cuando el tamaño de la muestra es pequeño.

Correlación

La correlación indica la fuerza y la dirección de la relación entre dos variables. Un coeficiente cercano a 1 indica una correlación positiva fuerte, mientras que un coeficiente cercano a -1 indica una correlación negativa fuerte. Un coeficiente cercano a 0 sugiere una correlación débil.

Ejemplo:


Supongamos que estás estudiando la relación entre el tiempo de estudio y las calificaciones. Si el coeficiente de correlación es 0.8, esto indica una fuerte correlación positiva, lo que significa que a mayor tiempo de estudio, generalmente, mejores son las calificaciones.

Regresión Lineal


La regresión lineal se utiliza para encontrar una relación lineal entre una variable independiente (predictora) y una variable dependiente (respuesta). El objetivo es predecir o explicar el valor de la variable dependiente en función de la independiente.

Ejemplo:
Imagina que deseas predecir el precio de una casa basado en su tamaño. En este caso, el tamaño sería la variable independiente y el precio la variable dependiente. Una regresión lineal te permitiría analizar cómo el tamaño de la casa afecta su precio.



Hipótesis Nula

La hipótesis nula es una afirmación que asume que no hay diferencia o efecto significativo entre dos grupos, variables o condiciones en un estudio estadístico. La hipótesis nula, también conocida como 𝐻0, es el supuesto comúnmente aceptado y se contrasta con una hipótesis alternativa para determinar si hay suficiente evidencia para rechazarla.

Ejemplo: supongamos que se está comparando el cambio en la densidad ósea entre un grupo que recibe un medicamento para la osteoporosis y un grupo de control que no lo recibe. La hipótesis nula en este caso afirmaría que el cambio en la densidad ósea es igual en ambos grupos, mientras que la hipótesis alternativa sugeriría que hay una diferencia.

Metodología:

  1. Formulación de la hipótesis nula.
  1. Selección de la prueba estadística.
  1. Establecimiento del nivel de significancia.
  1. Recopilación de datos.
  1. Análisis de datos.
  1. Interpretación de resultados.


Hipótesis Alternativa

La hipótesis alternativa, también conocida como 𝐻𝐴HA​ o 𝐻1H1​, es una afirmación que contradice a la hipótesis nula y sugiere que existe un efecto en la población. Se formula para ofrecer una posible respuesta a una pregunta de investigación y se utiliza para realizar pruebas estadísticas y verificar si hay una relación o diferencia entre las variables en estudio. La hipótesis alternativa se plantea cuando se sospecha que hay una relación significativa entre las variables. Puede ser una hipótesis de una cola, que prueba una diferencia en una sola dirección, o de dos colas, que prueba una diferencia en ambas direcciones.
Ejemplo: un investigador quiere probar si un nuevo método de enseñanza mejora las calificaciones de los estudiantes en comparación con el método tradicional. En este caso, la hipótesis alternativa sería que el nuevo método mejora las calificaciones, mientras que la hipótesis nula sería que no hay mejora o que las calificaciones no son diferentes con el nuevo método. Si el resultado de la prueba apoya la hipótesis alternativa, puede indicar que hay un cambio significativo respecto a la hipótesis nula.



P-valor

El p-valor es una medida en estadística que indica la probabilidad de obtener un resultado igual o más extremo que el observado si la hipótesis nula es cierta. Se usa comúnmente en pruebas de hipótesis y se compara con el nivel de significancia, que suele ser 0.05, para decidir si se rechaza o no la hipótesis nula.

Interpretación

  • El p-valor nos dice con qué frecuencia se esperaría ver un resultado similar o más extremo, asumiendo que la hipótesis nula es verdadera. Cuanto más pequeño es el p-valor, menos probable es que el resultado haya ocurrido por casualidad. Si el p-valor es menor que el nivel de significancia establecido (por ejemplo, 0.05), se considera que hay evidencia suficiente para rechazar la hipótesis nula.

Ejemplo: supongamos que estamos investigando si un nuevo medicamento tiene un efecto en reducir la presión arterial. La hipótesis nula sería que el medicamento no tiene efecto, mientras que la hipótesis alternativa sería que el medicamento tiene un efecto. Si realizamos una prueba estadística y obtenemos un p-valor de 0.02, podemos interpretarlo como evidencia suficiente para rechazar la hipótesis nula y concluir que el medicamento probablemente tiene un efecto.


Conclusión

Los conceptos básicos de estadística, como medidas de tendencia central, dispersión, pruebas de hipótesis y análisis de correlación, forman la base fundamental para el análisis de datos en diversos campos. Estos conceptos, bien comprendidos y aplicados, permiten realizar afirmaciones basadas en evidencia y tomar decisiones informadas. Esto es crucial en áreas como la investigación científica, la medicina, la economía y la psicología, donde se necesitan conclusiones precisas y confiables para impulsar el progreso y mejorar los resultados.



Comentarios