sábado, 1 de septiembre de 2018

Resumen estádistica para dummies

Recientemente he terminado el libro Estadística para dummies, la verdad, es que a pesar de conocer la marca para dummies, nunca me había decidido a leer un libro suyo, como dicen los ingleses cover to cover, o como diríamos aquí, de cabo a rabo y la verdad es que me alegro de haberlo hecho. Creo que no somos conscientes de cuánto afecta la estadística a nuestras vidas y el libro muestra un buen número de ejemplos.

Aunque el libro pueda ser más útil a estudiantes de secundaria, bachillerato o universidad que tengan que cursar alguna asignatura de estadística, recomiendo este libro a cualquier persona ya que la lecturas es muy amena y como he dicho anteriormente estamos hablando de una materia muy importante y de la cual todos deberíamos, al menos, tener unos conocimientos básicos.

Aquí os dejo algunas de las frases que más me han llamado la atención, pero de todos modos, recomiendo leer el libro completo.

La media no es siempre la mejor medida del centro de un conjunto de datos, sino que la mediana es a menudo una elección más acertada.

A fin de establecer unas condiciones objetivas cuando se quiere medir la frecuencia con que ocurre un determinado suceso, todos los números deben convertirse a porcentajes dividiendo por el total para obtener lo que los estadísticos llaman una tasa. Las tasas generalmente son preferibles a las cifras absolutas porque permiten realizar comparaciones ecuánimes cuando los totales son diferentes.

Recuerda que una anécdota es en realidad una muestra no aleatoria con un tamaño igual a uno.

“De todas las personas que permanecieron hasta el final del estudio...”. ¿Y qué pasa con las que abandonaron, sobre todo si es de medicina? ¿Se cansaron de los efectos secundarios del fármaco experimental y dejaron de tomarlo? En tal caso, la pérdida de esa persona supondrá un sesgo hacia un resultado positivo.

En un buen estudio, los investigadores definen la población de forma muy clara, mientras que en uno malo la población no está bien definida.

La manera de seleccionar una muestra de la población puede marcar la diferencia entre obtener resultados correctos y acabar con un montón de basura.

El resultado de todos estos problemas es el sesgo, el favoritismo sistemático de determinadas personas o determinados resultados del estudio.

¿Cómo debe seleccionarse una muestra de forma que se evite el sesgo? La palabra clave es aleatoriedad. Una muestra aleatoria es aquella que se selecciona con igualdad de oportunidades, es decir, cada muestra posible del mismo tamaño que la tuya tiene la misma probabilidad de ser seleccionada de la población. El significado real de aleatorio es que ningún grupo de población se ve

La media puede no ser una representación ecuánime de los datos, ya que se ve influenciada fácilmente por los valores atípicos (valores muy grandes o muy pequeños que se alejan mucho de otros valores del conjunto de datos).

La próxima vez que te den la cifra correspondiente a una media, mira a ver si también te dicen cuál es la mediana. Si no es así, ¡pide que te la den!

No te conformes con saber la media. Asegúrate de preguntar también cuál es la desviación estándar.

Por ejemplo, si te dicen que tu puntuación está en el percentil 90, significa que el 90% de las personas que hicieron la misma prueba obtuvieron una puntuación inferior a la tuya

La mediana está justo en el centro de un conjunto de datos, de manera que representa el percentil 50.

El proceso de convertir un número en una puntuación estándar se llama normalización o estandarización.

Error de muestreo (también llamado error muestral), que ocurre simplemente porque los investigadores no están preguntando a todo el mundo.

Intervalo de confianza Una de las aplicaciones más importantes de la estadística consiste en estimar un parámetro poblacional utilizando un valor muestral.

Cuando coges un estadístico de la muestra (por ejemplo la media muestral o un porcentaje muestral) y sumas/restas un margen de error, obtienes lo que en estadística se llama intervalo de confianza

Un valor p pequeño (por lo general, ≤0,05) indica una prueba sólida en contra de la hipótesis nula, de manera que puedes rechazar dicha hipótesis.

Por desgracia, los comunicados de prensa que anuncian “avances revolucionarios” tienen mucha repercusión en los medios, mientras que los estudios posteriores que refutan esos resultados casi nunca aparecen en portada.

Pero la correlación como estadístico no puede explicar por qué existe una relación entre dos variables x e y; tan sólo nos dice que existe.

A la mediana no le afectan los valores atípicos.

La variancia es otra forma de medir la variación en un conjunto de datos; la pega es que se indica en unidades cuadradas.

La desviación estándar tiene las mismas unidades que los datos originales.

La desviación estándar de una población entera de datos se designa con la letra griega σ. Cuando utilizo el término desviación estándar me refiero a s, la desviación estándar de la muestra.

Rango intercuartílico, que es similar al rango pero con una diferencia importante: elimina los problemas causados por los valores atípicos y el sesgo al fijarse únicamente en el 50% central de los datos y calcular el rango de esos valores.

El percentil k es un número del conjunto de datos que divide los datos en dos partes: la parte inferior contiene el k% de los datos, y la parte superior contiene el resto de los datos.

La mediana es el percentil 50.

Una cosa buena de los percentiles es que tienen una interpretación universal.

Un percentil no es un porcentaje; un percentil es un número.

Cuando entres a trabajar en un sitio nuevo negocia el sueldo más alto que puedas, porque los aumentos que te den en el futuro también supondrán una cantidad mayor.

El RIC es igual a Q3–Q1 (es decir, el percentil 75 menos el percentil 25) y refleja el espacio ocupado por el 50% central de los datos. Si el RIC es pequeño, sabes que muchos datos están próximos a la mediana. Si el RIC es grande, sabes que los datos están más dispersos en torno a la mediana.

Para los estadísticos, 1 de cada 10 no es lo mismo que 100 de 1.000, por mucho que en ambos casos se trate del 10%

Los gráficos de sectores generalmente no mencionan el tamaño total de la muestra. Debes comprobar siempre este dato, sobre todo si los resultados son importantes para ti.

Si “estiras” la escala (por ejemplo, que cada centímetro de una barra represente 10 unidades en lugar de 50 unidades), puedes distorsionar la verdad, hacer que las diferencias parezcan mayores o exagerar los valores.

En el caso de los gráficos de sectores, en cambio, no es posible alterar la escala para poner un énfasis excesivo en los resultados (o para quitarles importancia). Da igual cómo dividas un gráfico de sectores: siempre estarás cortando en porciones una tarta y la proporción correspondiente a cada trozo no cambiará, ni siquiera si dibujas la tarta más grande o más pequeña.

En un histograma las barras están conectadas entre sí, a diferencia de un gráfico de barras

La parte más compleja de interpretar un histograma consiste en saber qué se representa en los ejes x e y. En este sentido, resulta útil emplear buenas etiquetas descriptivas.

Un histograma no representa datos a lo largo del tiempo, sino todos los datos existentes en un momento determinado.

medida de variabilidad llamada rango intercuartílico (RIC), que resulta más adecuada cuando tienes datos sesgados.

Si el histograma está sesgado a la derecha, la media es mayor que la mediana.

Si el histograma es casi simétrico, la media y la mediana están muy cerca una de otra.

Si el histograma está sesgado a la izquierda, la media es menor que la mediana.

La regla empírica dice que si los datos tienen una distribución normal, aproximadamente el 68% de los valores se encuentran a no más de una desviación estándar de la media, aproximadamente el 95% de los valores se encuentran a no más de dos desviaciones estándares de la media, y el 99,7% de los valores se encuentran a no más de tres desviaciones estándares de la media. Estos porcentajes son válidos para la distribución normal (datos con forma de campana) exclusivamente y no pueden aplicarse a conjuntos de datos que tengan otras formas.

Que un lado de la caja sea más largo que el otro no significa que contenga más datos. De hecho, no puedes saber el tamaño de la muestra con sólo mirar un diagrama de cajas (se basa en porcentajes, no en cifras).

Si una de las secciones es más larga que otra, significa que el rango de los valores de los datos en esa sección es mayor (es decir, los datos están más dispersos).

Si la mediana divide la caja en dos partes no iguales, los datos de la parte más grande son más variables que los de la otra parte (en lo que se refiere al rango de los valores).

Cuando analices o crees un diagrama de cajas, asegúrate siempre de que en el título se mencione siempre el tamaño de la muestra (n). Si no te lo dan, no es posible saberlo de otro modo.

No hay que confundir la variabilidad en un histograma con la variabilidad en un cronograma.

La escala del eje vertical influye mucho en el aspecto del cronograma.

Una variable aleatoria es una característica, una medida o una cifra de recuento que cambia aleatoriamente dentro de un determinado conjunto o con arreglo a una determinada pauta.

En estadística, el término “aleatorio” significa que no sabes exactamente cuál será el siguiente resultado, pero sí sabes que ciertos resultados ocurren con más frecuencia que otros; la probabilidad de que ocurra algo y de que no ocurra no es la misma

Todas las distribuciones normales tienen ciertas propiedades.

Su desviación estándar es la distancia entre la media y el punto de inflexión (el lugar donde la curva pasa de ser convexa a cóncava).

Convertir un valor x en un valor z se llama normalizar. La denominada “fórmula z” para convertir un valor x en un valor z es:

Normalizar permite comparar números de distribuciones diferentes.

Es que la distribución t se utiliza a menudo para analizar la media de una población cuando dicha población tiene una distribución normal.

Cuando los medios de comunicación presentan estadísticas como el precio medio de un litro de gasolina o el porcentaje de viviendas vendidas durante el mes pasado, sabes que no incluyeron en su muestra todas las gasolineras del país ni todas las casas que se vendieron. La pregunta es la siguiente: ¿cuánto cambiarían esos resultados si se seleccionara una muestra distinta?

La media de la población formada por todas las medias muestrales posibles es igual que la media de la población original.

La variabilidad en la media muestral se mide con errores estándares.

Aquí la palabra “error” no significa que alguien se haya equivocado. Significa que existe una divergencia entre la población y los resultados de la muestra.

Los tiempos medios no varían de una muestra a otra tanto como varían los tiempos individuales de una persona a otra.

Otras muestras más grandes proporcionan una precisión aún mayor.

Si la muestra es muy grande, sabes que la media muestral será muy parecida a la media poblacional.

Estimar la media poblacional es más difícil cuando la población varía mucho (resulta mucho más sencillo cuando los valores de la población son más uniformes).

Cuando la desviación estándar de la población es mayor, el error estándar de la media muestral también es mayor.

Cuantos más lanzamientos haga este millón de personas, más cerca estarán sus distribuciones unas de otras y también de la distribución de X.

Lo importante de todo esto es que da igual si partes de una distribución sesgada o incluso de una distribución totalmente disparatada para X. Como los tamaños muestrales (número de lanzamientos) eran grandes, las distribuciones de los resultados de las distintas muestras acaban pareciéndose mucho, de manera que sus promedios serán similares, estarán cerca unos de otros y cerca de una distribución normal. En jerga estadística: la distribución de es aproximadamente normal siempre y cuando n sea suficientemente grande. Y todo ello se deriva del teorema del límite central.

Toda buena estimación de un parámetro poblacional incluye, además del estadístico, un margen de error.

Te sorprendería lo pequeña que puede ser una muestra utilizada para tomar el pulso a la población.

Nunca aceptes los resultados de una encuesta o estudio si no te dan el margen de error.

Las dos ideas más importantes en relación con el tamaño muestral y el margen de error son las siguientes: El tamaño muestral y el margen de error tienen una relación inversa. A partir de cierto punto, incrementar n deja de ser tan provechoso.

Si lo piensas, tiene sentido que cuanta más información tengas, más exactos serán los resultados

“Si entra basura, sale basura”.

La palabra “error” (en el término “margen de error”) no significa que alguien se haya equivocado ni que los datos sean inválidos. Simplemente quiere decir que los resultados de una muestra no son exactamente iguales a los que habrías obtenido si hubieras incluido a toda la población.

Todo contraste de hipótesis consta de dos afirmaciones opuestas. La primera hipótesis se denomina hipótesis nula, y se designa como H0. La hipótesis nula siempre dice que el parámetro poblacional es igual al valor propuesto. Existen tres posibilidades para la hipótesis alternativa, designada como Ha. El parámetro poblacional es distinto del valor propuesto (Ha: μ ≠ 5). El parámetro poblacional es mayor que el valor propuesto (Ha: μ>5). El parámetro poblacional es menor que el valor propuesto (Ha: μ

¿Cómo sabes qué hipótesis poner en H0 y en Ha? La hipótesis nula dice que no ocurre nada nuevo; el resultado previo no varía o los grupos tienen la misma media (la diferencia es igual a cero). En general, se supone que una afirmación es verdadera hasta que se demuestre lo contrario. Así pues, la pregunta debe ser: ¿puedes demostrar lo contrario? Dicho de otro modo, ¿tienes pruebas suficientes para rechazar H0?

¡una probabilidad pequeña sigue siendo una probabilidad!

Supongamos que una empresa de mensajería asegura que entrega sus paquetes en el plazo de dos días, en promedio, y tú sospechas que tarda más tiempo. Las hipótesis son H0: μ = 2 contra Ha: μ

Cuantos más datos tienes, menor es el peaje que tienes que pagar.

Casi todos quedamos convencidos por las encuestas porque tenemos la sensación de que los resultados reflejan las opiniones de personas iguales a nosotros (aunque quizá nunca hayamos participado en una).

Cuando analices los resultados de una encuesta, comprueba si el tipo de encuesta utilizado es el más apropiado para la situación.

En la vida es fundamental elegir siempre el momento adecuado, y lo mismo ocurre con las encuestas.

Se ha comprobado que la redacción de las preguntas influye directamente en el resultado de la encuesta.

Cuando la población es muy grande (del orden de varios miles, por ejemplo), lo que importa es el tamaño de la muestra, no el tamaño de la población.

Garantizar la confidencialidad significa que podría relacionar tu información con tu nombre en mi informe, pero me comprometo a no hacerlo. Garantizar el anonimato significa que no tengo manera de relacionar tu información con tu nombre en mi informe, aunque quisiera.

Cuando examines los resultados de una encuesta, fíjate siempre en la tasa de respuesta. Si es muy baja (muy inferior al 50%), es probable que los resultados estén sesgados, en cuyo caso deben cogerse con pinzas o incluso descartarse.

Aunque el porcentaje de adolescentes de la muestra que dijeron consumir éxtasis fue inferior al del año anterior, los investigadores consideraron que esa diferencia no era estadísticamente significativa cuando intentaron extrapolarla a la población formada por todos los adolescentes del país.

¿Puede un solo estadístico medir la fuerza y la dirección de una relación lineal entre dos variables? La respuesta es sí. Los estadísticos utilizan el coeficiente de correlación para medir la fuerza y la dirección de la relación lineal entre dos variables numéricas X e Y. El coeficiente de correlación para una muestra de datos se designa con la letra r.

La correlación r siempre está comprendida entre +1 y –1. Para interpretar varios valores de r (aquí no existen regla fijas, tan sólo la regla práctica de Rumsey), tienes que ver cuál de los siguientes valores es el más próximo a tu correlación: Exactamente –1. Una relación lineal descendente (negativa) perfecta. –0,70. Una relación lineal descendente (negativa) fuerte. –0,50. Una relación lineal descendente (negativa) moderada. –0,30. Una relación lineal descendente (negativa) débil. 0. No existe relación lineal. +0,30. Una relación lineal ascendente (positiva) débil. +0,50. Una relación lineal ascendente (positiva) moderada. +0,70. Una relación lineal ascendente (positiva) fuerte. Exactamente +1. Una relación lineal ascendente (positiva) perfecta.

Una correlación de –1 significa que los datos forman una línea recta perfecta, la relación lineal más fuerte que puede existir. El signo “–” (menos) simplemente indica que la relación es negativa, una línea descendente.

La fórmula para la recta de mejor ajuste (o recta de regresión) es y=mx+b, en la que m es la pendiente de la recta y b es el punto de intersección con el eje y (ordenada en el origen). Aunque esta ecuación es la misma que se utiliza en álgebra para encontrar una línea recta, debes tener presente que en estadística los puntos no dibujan una línea perfecta; la línea es un modelo alrededor del cual están situados los datos cuando existe una tendencia lineal fuerte.

Aunque un diagrama de dispersión revele una tendencia clara y se compruebe que los datos presentan una correlación fuerte, eso no significa necesariamente que exista una relación de causa y efecto entre las dos variables.

Después de crear la tabla de contingencia (según lo indicado en el apartado anterior), calculas porcentajes a partir de los datos con el fin de responder a las preguntas formuladas.

Analizar todos los grupos: una distribución conjunta Permíteme que te cuente una anécdota: cierto fabricante de automóviles realizó una encuesta para averiguar qué características buscan los consumidores en las camionetas pickup. Vieron que el color favorito para estas camionetas era el rojo, y la opción más popular era la tracción a las cuatro ruedas. Como respuesta a estos resultados, la empresa empezó a fabricar más camionetas rojas con tracción a las cuatro ruedas. ¿Sabes qué pasó? Metieron la pata hasta el fondo; esas camionetas no se vendían. Resulta que los clientes que compraban camionetas rojas eran en su mayoría mujeres, y las mujeres no elegían la tracción a las cuatro ruedas tanto como los hombres. Los clientes que compraban camionetas con tracción a las cuatro ruedas eran en su mayoría hombres, y en general preferían el color negro antes que el rojo. Por tanto, el resultado preferido de la primera variable (color) combinado con preferido de la segunda variable (opciones del vehículo) no da lugar necesariamente a la combinación más apreciada de las dos variables.

Una limitación de las distribuciones conjuntas es que no permiten comparar de manera equitativa dos grupos entre sí (por ejemplo, las personas que van de cámping con mascota y las que van de cámping sin mascota), ya que este tipo de distribuciones otorgan más peso a los grupos más grandes.

Dos variables categóricas son independientes si los porcentajes correspondientes a la segunda variable (que generalmente representa los resultados que quieres comparar, por ejemplo estar a favor o en contra) no difieren de los porcentajes correspondientes a la primera variable (que generalmente representa los grupos que quieres comparar, por ejemplo, hombres frente a mujeres).

La fila 1 de la tabla 199 muestra la distribución condicional de la orientación de voto para los varones. Como puedes ver, el 40% de ellos votaron por el presidente actual y el 60%, no. De forma similar, la fila 2 de la tabla muestra la distribución condicional de la orientación de voto para las mujeres; igual que los hombres, el 40% de ellas votaron por el presidente actual y el 60%, no. Como estas distribuciones son idénticas, los hombres y las mujeres votaron igual; el sexo y la orientación del voto son independientes.

Los porcentajes comparados por medio de datos procedentes de una muestra reflejan las relaciones existentes dentro de esa muestra.

Mucho ojo si ves un sector del gráfico llamado “Otros”; se utiliza como cajón de sastre. Si este sector es demasiado grande (más grande que otros sectores), el gráfico es demasiado vago. En el otro extremo, los gráficos que tienen un gran número de sectores muy pequeños proporcionan demasiada información.

Ten cuidado con las distorsiones propias de los gráficos tridimensionales. El sector que está en primer plano parece más grande de lo que es en realidad debido al ángulo en que se presenta.

Busca el número total de elementos que forman el gráfico de sectores, para poder determinar cuál era el tamaño de la muestra antes de que la dividieran en porciones. Si el tamaño del conjunto de datos (el número de personas encuestadas) es demasiado pequeño, la información no es fiable.

Fíjate en la escala del eje vertical (cantidad) y del eje horizontal (línea temporal); simplemente alterando la escala se puede conseguir que los resultados parezcan más o menos significativos de lo que son en realidad.

Sesgo en la estadística es el resultado de un error sistemático que sobrestima o subestima el valor real.

(por ejemplo, recuerdo un anuncio de chicles en el que decían: “Cuatro de cada cinco dentistas encuestados recomiendan la marca tal a sus pacientes”. ¿Y qué pasa si en realidad sólo preguntaron a cinco dentistas?).

Hay una gran diferencia entre decir “4 de cada 5” y decir “4.000 de cada 5.000”. Aunque ambas fracciones equivalgan al 80%, la última representa un resultado mucho más preciso (repetible) porque está basada en un tamaño muestral mucho mayor (suponiendo que los datos sean válidos, por supuesto). Si alguna vez te has preguntado cuál es la diferencia entre las matemáticas y la estadística, aquí tienes la respuesta.

El término estadístico “correlación” se utiliza exclusivamente en el contexto de dos variables numéricas (por ejemplo, la altura y el peso). No se aplica a dos variables categóricas (por ejemplo, sexo y filiación política).

Pregúntate si el estadístico utilizado era el apropiado. Por ejemplo, supongamos que el número de delitos ha aumentado, pero la población también. En lugar de comunicar el número total de delitos, los medios deberían comunicar la tasa de delincuencia (el número de delitos por habitante).

La práctica engañosa de analizar datos hasta encontrar algo es lo que en estadística se llama rastreo de datos, pesca de datos o uso selectivo de datos.

¿Cómo puedes protegerte de resultados engañosos debidos la pesca de datos? Busca más información sobre el estudio, empezando por cuántas pruebas se hicieron en total y cuántas de esas pruebas se consideraron no significativas. Dicho de otro modo: intenta averiguar toda la verdad para así poder ver con perspectiva los resultados significativos.

No pasa nada por tomar algunas decisiones a partir de anécdotas, pero las decisiones importantes deben estar basadas en estadísticas y en datos reales procedentes de estudios bien diseñados e investigaciones fiables.

Una anécdota es en realidad un conjunto de datos con un tamaño muestral igual a uno. No tienes información con la que establecer una comparación, ni estadísticas que analizar, ni posibles explicaciones ni información que seguir, sino tan sólo una historia aislada. No permitas que las anécdotas te influyan mucho. Es mejor que te fíes de estudios científicos y de información estadística basada en muestras aleatorias de personas que representen a sus poblaciones objetivo (no una situación aislada).

No hay comentarios:

Publicar un comentario