¿Qué es el valor sigma?

Artículo publicado por David L. Chandler el 9 de febrero de 2012 en MIT News

¿Cómo saber cuándo es significativo un nuevo hallazgo? El valor sigma puede decírtelo – pero cuidado con los peces muertos.

Es una cuestión que surge con virtualmente cada gran nuevo hallazgo en ciencia o medicina: ¿Qué hace que un resultado sea lo bastante fiable como para tomarse en serio? La respuesta tiene que ver con su significado estadístico – pero también con los juicios sobre qué estándares tienen sentido en una situación dada.

La unidad de medida que se ofrece normalmente cuando se habla de significado estadístico es la desviación estándar, expresada con la letra griega minúscula sigma (σ). El término se refiere a la cantidad de variabilidad en un conjunto de datos dado: si los datos apuntan todos a una zona conjunta o están muy dispersos.

Distribución normal

Distribución normal


En muchas situaciones, los resultados de un experimento siguen lo que se conoce como “distribución normal”. Por ejemplo, si lanzas una moneda 100 veces y cuentas cuántas veces sale cara, el resultado medio será 50 veces. Pero si realizas esta prueba 100 veces, la mayor parte de los resultados estará cerca de 50, pero no será exactamente ese valor. Tendrás casi los mismos casos de 49 ó 51. También tendrás unos pocos de 45 o 55, pero casi ninguno de 20 o de 80. Si dibujas las 100 pruebas en una gráfica, tendrás una forma bien conocida llamada curva de campana, que es más alta en el medio y más baja en los extremos. Ésto es una distribución normal.

La desviación es lo lejos que está un punto dado respecto a la media. En el ejemplo de la moneda, un resultado de 47 tiene una desviación de tres respecto al valor medio de 50. La desviación estándar es la raíz cuadrada de la media de todas las desviaciones al cuadrado. Una desviación estándar, o un sigma, dibujado por encima o debajo del valor medio en tal curva de distribución normal, definiría una región que incluye el 68 por ciento de todos los puntos de datos. Dos sigmas por encima o debajo incluirían aproximadamente un 95 por ciento de los datos, y tres sigmas el 99,7 por ciento.

Entonces, ¿cuándo un punto de datos concreto – o resultado de investigación – se considera significativo? La desviación estándar puede ofrecernos una regla: Si un punto de datos está a unas pocas desviaciones estándar del modelo que se está poniendo a prueba, ésto es una prueba sólida de que dicho punto de datos no es consistente con el modelo. Sin embargo, cómo usar esta regla depende de la situación. John Tsitsiklis, Profesor Clarence J. Lebel de Ingeniería Eléctrica en el MIT, que enseña el curso de Fundamentos de Probabilidad, dice que: “la estadística es un arte, con mucho espacio para la creatividad y los errores”. Parte del arte consiste en decidir qué medidas tienen sentido para una configuración dada.

Por ejemplo, si estás haciendo una encuesta sobre cuánta gente planea votar en unas elecciones, la convención aceptada es de dos desviaciones estándar por encima o debajo de la media, lo cual da un nivel de confianza del 95 por ciento, lo que es razonable. El intervalo de dos sigmas es a lo que los encuestadores se refieren cuando dicen “el margen de error de la muestra”, como un 3 por ciento, en sus conclusiones.

Esto significa que si preguntas a toda la población y obtienes un resultado concreto, y haces la misma pregunta a un grupo aleatorio de 1000 personas, hay un 95 por ciento de posibilidades de que los resultados del segundo grupo estén a dos sigma de los resultados del primero. Si una encuesta encuentra que el 55 por ciento de toda la población está a favor del candidato A, entonces el 95 por ciento de las veces, los resultados de la segunda encuesta estarán en algún punto entre el 52 y el 58 por ciento.

Por supuesto, esto también significa que el 5 por ciento de las veces, el resultado estaría fuera del rango de dos sigmas. Este grado de incertidumbre está bien para una encuesta de opinión, pero puede que no para el resultado de un crucial experimento que desafía la comprensión de los científicos sobre un importante fenómeno – como el anuncio del pasado otoño de la detección de neutrinos que se movían más rápido que la velocidad de la luz en un experimento del Centro Europeo de Investigación Nuclear (CERN).

Seis sigmas pueden estar equivocadas

Técnicamente, los resultados de ese experimento tenían un nivel de confianza muy alto: seis sigmas. En la mayor parte de casos, un resultado de cinco sigmas se considera como el estándar de significación, que corresponde aproximadamente a una posibilidad en un millón de que los hallazgos sean sólo el resultado de variaciones aleatorias: seis sigmas se traduce como una posibilidad entre 500 millones de que el resultado sea una fluctuación aleatoria. (Una estrategia común de gestión de negocios conocida como “Seis Sigma” se deriva a partir de este término, y se basa en instaurar procedimientos rigurosos de control de calidad para reducir los residuos).

Pero en ese experimento del CERN, el cual tenía el potencial de dar un vuelco a un siglo de física aceptada y confirmada en miles de pruebas de distintos tipos, aún no es lo bastante bueno. Por una razón, asume que los investigadores han realizado el análisis correctamente y no han pasado por alto alguna fuente de error sistemático. Y debido a que los resultados son tan inesperados y revolucionarios, esto es exactamente lo que la mayoría de físicos creen que ha pasado – alguna fuente de error no detectada.

Es interesante señalar que un conjunto de resultados distinto procedente del mismo acelerador de partículas del CERN se interpretó de manera bastante diferente.

También se anunció el año pasado una posible detección de algo llamado bosón de Higgs – una partícula subatómica teórica que ayudaría a explicar por qué las partículas tienen masa . Este resultado tenía sólo un nivel de confianza de 2,3 sigmas, correspondiente a, aproximadamente, una posibilidad entre 50 de que el resultado fuese un error aleatorio (nivel de confianza del 98 por ciento). Debido a que encaja con lo esperado, basándonos en la física actual, la mayor parte de físicos cree que el resultado probablemente es correcto, a pesar de que su nivel de confianza estadística es mucho menor.

Significativo pero falso

Pero se complica más en otras áreas. “Donde el tema se pone realmente complicado es en las ciencias sociales y en la ciencia médica”, dice Tsitsiklis. Por ejemplo, un artículo de 2005 muy citado y publicado en Public Library of Science – titulado “Why most published research findings are wrong” (Por qué la mayor parte de las conclusiones de investigación publicadas son incorrectas) — daba un análisis detallado de una variedad de factores que podrían llevar a conclusiones injustificadas. Sin embargo, esto no se tiene en cuenta en las medidas estadísticas usadas normalmente, incluyendo el “significado estadístico”.

El artículo señala que al observar grandes conjuntos de datos de formas lo bastante diferentes, es fácil encontrar ejemplos que pasen los criterios habituales de significado estadístico, incluso aunque sean realmente simples variaciones aleatorias. ¿Recuerdas el ejemplo de la encuesta, donde una vez de cada 20 un resultado cae aleatoriamente fuera de los límites “significativos”? Bueno, incluso con un nivel de significación de cinco sigmas, si un ordenador genera millones de posibilidades, se descubrirán patrones totalmente aleatorios que encajen con esos criterios. Cuando esto sucede, “no publicas aquellos que no pasan” el test de significación, dice Tsitsiklis, pero algunas correlaciones aleatorias tendrán la apariencia de ser hallazgos reales – “por lo que finalmente terminarás publicando los errores estadísticos.

Un ejemplo de ésto: Muchos artículos publicados en la última década han afirmado encontrar correlaciones significativas entre cierto tipo de comportamientos o procesos mentales y las imágenes cerebrales captadas en imágenes de resonancia magnética, o IRM. Pero a veces estas pruebas pueden encontrar correlaciones aparentes que simplemente son el resultado de fluctuaciones naturales, o “ruido”, en el sistema. Un investigador en 2009 duplicó uno de dichos experimentos, sobre el reconocimiento de expresiones faciales, sólo que en lugar de sujetos humanos escaneó un pez muerto – y encontró resultados “significativos”.

“Si miras en suficientes lugares, puedes tener un resultado de ‘pez muerto’”, dice Tsitsiklis. Inversamente, en muchos casos un resultado con un bajo significado estadístico puede, sin embargo, “decirte algo que merezca la pena investigar”, comenta.

Así que ten en mente que simplemente porque algo encaje con la definición aceptada de “significativo”, no implica necesariamente que lo sea. Todo depende del contexto.


Autor: David L. Chandler
Fecha Original: 9 de febrero de 2012
Enlace Original

Comparte:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Twitter
  • Google Bookmarks
  • Bitacoras.com
  • Identi.ca
  • LinkedIn
  • Meneame
  • Netvibes
  • Orkut
  • PDF
  • Reddit
  • Tumblr
  • Wikio
This page is wiki editable click here to edit this page.

Like This Post? Share It

Comments (17)

  1. ramossonia

    Muy buen post,

    Un repaso a la implicación “real” de sigma, muchas veces nos creemos que la estadística da una respuesta firme porque hemos aplicado p<0.001 y, claro que hay "muchas posibilidades" pero no es una "verdad absoluta" y a veces, de la emoción, se nos olvida.
    Me encanta el ejemplo contrapuesto de la encuesta y del Bosón de Higgs con "sólo" 2.3 sigmas… es muy aclarador.

    No obstante, cuando dices que el nivel de incertidumbre de 0.05 está bien para una encuesta no estoy del todo de acuerdo. Una cosa es el nivel de incertidumbre que se haya establecido como aplicable para determinados trabajos (lo mismo aplicable a trabajos experimentales sometidos a una fuerte variación externa) y otra muy diferente que nos olvidemos que ese 5% esté ahí. Si la encuesta fuera realizada para temas médicos, por ejemplo, tampoco estaría tan bien…

    Me ha gustado mucho la extrapolación de la teoría de los seis sigmas, realmente es algo que está muy de moda a nivel empresarial y que por ejemplo se aplica cada vez más a temas de calidad y que se está incorporando a empresas alimentarias.

    Enhorabuena por el post,

    Sonia

    • Muchas gracias por el comentario, Sonia. Efectivamente, incluso en encuestas de opinión hay que establecer un margen significativo dependiendo de para qué son, el contexto lo es todo. El ejemplo creo que es válido, ya que se habla de una encuesta de intención de voto, así que incluso un 5% me parece extremadamente generoso ;)

      Un saludo

  2. Marta

    Por ejemplo, si estás haciendo una encuesta sobre cuánta gente planea votar en unas elecciones, la convención aceptada es de dos desviaciones estándar por encima o debajo de la media, lo cual da un nivel de confianza del 95 por ciento, lo que es razonable.– El intervalo de dos sigmas es a lo que los encuestadores se refieren cuando dicen “el margen de error de la muestra”, como un 3 por ciento, en sus conclusiones.–

    Creo que esta explicación esta muy difusa para hablar en términos estadísticos, da mucha confusión entre el margen de error y el nivel de significación, no creo que se trate de lo cierto ni que se debe hablar de los encuestadores, ya que estos no tienen porque ser necesariamente estadísticos o matemáticos

  3. [...] "CRITEO-300×250", 300, 250); 1 meneos ¿Qué es el valor sigma? http://www.cienciakanija.com/2012/02/10/que-es-el-valor-sigma/&nbsp; por MrCorn hace [...]

  4. Información Bitacoras.com…

    Valora en Bitacoras.com: Artículo publicado por David L. Chandler el 9 de febrero de 2012 en MIT News ¿Cómo saber cuándo es significativo un nuevo hallazgo? El valor sigma puede decírtelo – pero cuidado con los peces muertos. Es una cuestión ……

  5. Buen artículo, aunque refleja las pocas ganas que hay de aceptar la existencia del Bosón de Higgs… Una cosa buena, que mayores medidas afianzarán más la hipótesis inicial. Saludos:
    Alejandro Álvarez

  6. Hay un punto que esta entrada no discute y que es importante (p.ej. para la búsqueda del Higgs): el intervalo o región donde se busca comprobar la hipótesis.

    Si yo busco el bosón de Higgs en el intervalo de masas entre 110 y 600 GeV (como hace el LHC con colisiones a 7 TeV) una cierta significación local de un Higgs con cierta masa a digamos 4 sigma puede ser una simple fluctuación estadística. De hecho, en 2012 el LHC funcionará a 8 TeV con lo que se buscará el Higgs entre 110 y 800 GeV, y la misma evidencia local de antes resultará que en lugar de ser de 4 sigma será solo de unos 3 sigma, ¡¡siendo los datos de colisiones exactamente los mismos!! Pero como el intervalo considerado más grande…

    Si busco el Higgs en el intervalo de 110 a 145 GeV y observo eventos en exceso que indican una significación local de un Higgs con una masa de 125 GeV a 4,3 sigma, los mismos eventos pero interpretados en el intervalo 110 a 600 GeV me dan solo una significación de 2 sigmas. ¡¡Los eventos observados son los mismos!!

    Cuando se dice que un descubrimiento del Higgs requiere 5 sigma se está hablando de forma impropia (yo mismo lo he hecho en mi blog). Exigir una significación de 5 sigma en el intervalo de 110 a 600 GeV es equivalente a casi 10 sigmas de significación local. Los 5 sigma locales fueron una buena elección para la búsqueda del quark top pero para el Higgs se quedan muy cortos; la susy y otra física exótica requerirán muchísimos más sigmas de significación (es decir, se observarán gran número de falsos descubrimientos a 5 sigma).

    Esta cuestión puede parecer académica, pero no lo es. El bosón de Higgs se descubrirá cuando los expertos se pongan de acuerdo sobre cuántos sigmas quieren aceptar para la hipótesis local (el número aceptado para el top ya sabemos que no es correcto pues ya hay evidencia local a 4,3 sigma del Higgs); ello implica un cierto número de sigmas globales en un cierto intervalo y ahora mismo hay mucha discusión al respecto. No existe la solución. La estadística no es tan exacta como 2+2=4.

    En el contraste de hipótesis hay que elegir unos límites de certeza que dependen del campo y de la hipótesis a validar. Esta elección, muchas veces, no se puede hacer a prori; hay que hacerla sobre la marcha, conforme se analizan los resultados que se van obteniendo.

    Saludos
    Francis

  7. singladura

    Este tema de la estadistica es la bestia negra de muchos cientificos. Una consideracion que no se tiene nunca en consideracion en la mayoria de los trabajos es la del tiempo empleado en, por ejemplo, buscar relaciones entre variables, sin obtener ningun resultado util. La significacion de lo hallado deberia de tener en cuenta los innumerables experimentos fallidos, para ver si cae o no dentro de la aleatoriedad de los resultados.

  8. Tom Wood

    Rapidito: A ver si con este entupido símil, los lectores entienden mejor lo que esta pasando con el Giggs, las sigmas o en el CERN. Porque las estadísticas se ven mejor, si vemos el caos que se vive, cuando los hombres deciden hacer ciencia real.
    Podemos pensar que tenemos un antiguo castillo y que sus paredes tienen una “superficie” total de 1 “Tera metro cuadrado”. Pero este antiguo castillo fue pintado a lo largo de su existencia, por los distintos dueños que ha tenido. Y el millonario que lo compro, quiere construir un museo en el, pero quiere que cada salón refleje la época en que tuvo su mayor esplendor…. Se sospecha por distintas fuentes de las epocas, que podría haber obras o pinturas de valor, por lo que no se puede raspar las pinturas a lo loco. Así, que contrata a unos especialistas (limitados) y unos químicos especiales y caros, por lo que solo pueden usar “unas libras fentobar inversos por día”(una cantidad limitada por día). Estos químicos en cada frotación, solo sustraen una capa de pintura del grueso de los manómetros. Así, que ya por ahí hay trabajo para rato. Supongamos que después de estudiarnos la épocas, y el castillo de 1 “tera metros cuadrado”, decidimos explorar, un salón (zona) de unos 100 “GeV de superficie de pared”. Por lo que ponemos a los especialistas a frotar esa superficie, pero cubriéndola toda, para que cada color desaparezca lo mas continuo posible y que no se maltrate el que le sigue. Además, ponemos a alguien que registre las frotaciones que recibe cada cuadrante de superficie. Con los días comienzan a surgir zonas de distintos colores, por lo que el equipo se reúne para analizar si es pintura o una obra de arte. Así, cada vez que se descubre un color nuevo surgen controversias, sobre si profundizar perjudicaría la obra de arte, que si eso es solo pintura, que si deben usar el químico de ese día para otra zona en la que se observa 2,8 sigmas de color, y que algunas investigaciones históricas dicen que podría ser mas probable que halla pinturas. Otros dicen que hay una fuente sobre que en algunas épocas algunos salones fueron raspados, y por lo tanto no hay pintura ninguna. O que unos pequeños puntos coloreados a 3 “sigmas de intensidad” se ajustan a colores de esa época. Otros dicen que es mejor usar los químicos que van llegando, en buscar en otras habitaciones, aunque esto disminuya, la “sigma del salón principal” (zona) o mas probable que este la obra, ya que podrían haber otras pinturas mas interesantes, mas reveladoras de la las época, en otros salones mas prometedores. También otros quieren fabricar químicos mejores (aceleradores), o que se produzcan mas, de estos mismos. También podrían usarse químicos mas abrasivos, pero algunos alegar que hay pinturas frágiles que podrían romperse y parar el trabajo. En resumen, todo un caos por la alta incertidumbre que genera lo desconocido y la complejidad de la forma en que hay que buscarlo; pero el perro tiene cuatro patas y aun así tiene que coger un solo camino. Así, que en cada reunión, se discute casi lo mismo, y no por el simple placer de darle a la legua.
    Si usamos todos los químicos en el salón principal, al cabo de muchos días podremos aumentar nuestra seguridad de que esta o no esta lo buscado. Si usamos los mismos químicos, para otras habitaciones, podremos tener muchas zonas exploradas y días acumulados, pero casi seguro que nos demoraremos mas en cada capa, además de que cada habitación no tiene porque tener igual numero de capa. Así, que una sigma alta regada por todo el castillo, no es mucho mejor que una menor, de menos salones. Por eso el tiempo y la paciencia son los que tienen la última palabra. Decidirse por una situación es el pan nuestro de cada día, de los físicos. Esto se conoce, como establecer una relación de compromiso. Esta relación de compromiso es difícil de tomar, porque las informaciones que se tienen, tienen diferentes certidumbres y según se mezclen unas posibilidades con otras, pueden disminuir las incertidumbres de una y aumentar las de otras. Por lo que se trabaja con la información teórica (histórica) de diferentes fuentes y los datos que se van revelando sobre la marcha. Todo para no ir a tontas y a locas, aunque así es realmente de incierto. En ocasiones no queda otro remedio que seguir la intuición que da la experiencia, una corazonada, o coger entre varias al azar, porque pesan igual estadísticamente o tienen incertidumbres parecidas. La física real es tan aberrante que puede que todo el esfuerzo sea en vano. Tal ves esto sirva, para que muchos entiendan que decir, que una certidumbre aquí, es mejor que halla, no es solo cuestión de numero, sino de experiencia y criterios; los cuales, por supuesto son mas reales cuando lo acompañan las matemáticas. Incluso ya al nivel que estamos, y en la medida que sigamos profundizando, la distancia entre una maquina y otra ira en aumento. Tal vez lo que medimos hoy, pasaran cada día mas generaciones, para volver a medirse; por lo que debemos estar mas seguro que antes, que lo obtenido es la realidad. Antes era fácil para la comunidad de físicos repetir los experimentos en otros laboratorios. Incluso, cualquier fracaso físico a este nivel, costaría millones. Por eso no creo que ninguna otra rama sea más compleja. Por lo que la certidumbre que necesitaremos, implica subir sigmas. Incluso el método científico, exige que lo que se da aquí, se de allá; y como ese periodo cada vez será mas grande, esto no se va ha cumplir para la misma generación. Es decir, cada generación deberá hacer bien su trabajo, para que los teóricos puedan pisar tierra firme, sin mirar para atrás. Lo dejo ahí, perdonen pero no tengo tiempo de revisarlo, pero como la idea central esta ahí, así se va.

  9. Bueno, està muy bien esplicada por Kanijo sobre el valor sigma, pero esto no se aplica mecànicamente y creo que Francis hace un excelente esboso sobre su aplicaciòn en la bùsqueda del Bosson de Higgs que me deja satisfecho, con lo que veo la enorme dificultad que estriba encontrar esta escurridiza partìcula, porque hay que peinarlo todo entre los rangos descritos y aumentar la confianza de los resultados obtenidos, cosa nada facil.

  10. Albert Einstein descubrió que el tiempo y el espacio eran relativos a los observadores.

    Pronto sabremos que es el tiempo el que se desplaza por nuestro cuerpo y pensamiento.

    Sabremos por qué Sirio era visto como una estrella roja en la antigüedad.

    Gracias a esos descubrimientos sabremos que nuestra evolución por fin será pacífica. Sabremos de dónde venimos, a dónde vamos y qué camino hemos de seguir.

    Descubran la correlación del color con el espacio, el tiempo y la velocidad de la luz.

    Descubran que luz y sonido son ondas de una misma naturaleza que nuestros sentidos captan a diferentes frecuencias.

    No juzguen ni prejuzguen, simplemente aceptemos el cambio para recibirlo pacíficamente y no volver a repetir la historia.

    Llevo soñando con este momento hace mucho tiempo, pero necesito la ayuda de todos para encontrar las fórmulas que demuestran que esto es así.

    Si conoces a alguien que pueda ayudar: findelmundo.net@gmail.com

    Esto no se acaba

  11. Helena Gómez

    Los neutrinos “superlumínicos” se han detectado mediante un experimento en el que los relojes se han puesto en hora mediante el GPS. El GPS tienen en cuenta la relatividad para dar la posición y la hora de forma lo más exacta posible. Los resultados obtenidos con los neutrinos ponen en tela de juicio la relatividad. ES COMO SI MEDIMOS CON UNA CINTA MÉTRICA UNA CIERTA LONGITUD Y OBTENEMOS UNOS RESULTADOS QUE PONEN EN CUESTIÓN LA MÉTRICA DE LA LONGITUD.

  12. Helena Gómez

    Si la forma en que los neutrinos son transmitidos o absorbidos por la roca que atraviesan no es homogenea para todos los neutrinos, se podría dar que los detectados en el experimento no fueran una muestra representativa, sino una muestra sesgada, cosa que podría dar lugar a resultados erroneos en el experimento.

  13. [...] Lo de las cinco sigmas tiene que ver con la desviación típica, que a su vez tiene que ver con la distribución normal y la estadística. Es algo que aparece aquí por el gran número de experimentos realizados y la naturaleza estadística del asunto, y es algo habitual en experimentos de este tipo. Puedes leer una buena explicación de este asunto en esta entrada de Kanijo. [...]

  14. […] con ciencias sociales (e incluso medicina) se selecciona como estadísticamente significativo un intervalo de confianza del 95%, que en en el caso de España corresponde a una puntuación entre 492 y 500 (intervalo que […]

  15. […] de una fluctuación estadística accidental y no de que provenga del efecto buscado. Aquí y aquí hay explicaciones básicas sobre este asunto –que realmente está lleno de sutilezas en las que […]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *