top of page

DIBUJANDO LA ALEATORIEDAD II: PUNTO DE VISTA DE TEST ESTADÍSTICOS

  • fjroar
  • 25 ene
  • 3 Min. de lectura

Continuando la parte del anterior post véase:



Se había conseguido con los programas de R proporcionados generar 2 vectores con distribuciones pseudo-aleatorias a lo largo de sus componentes de los números 1, 2 y 3.


En este sentido se había observado que mientras la distribución dada por R permitía dibujar el fractal conocido como triángulo de Sierpinski, sin embargo, se observó que las distribuciones de los vectores que finalmente generan las figuras, el basado en el algoritmo Mersenne – Twister que usa R por defecto y el basado en la sucesión de Fibonacci visualmente mostraban vectores con los números 1, 2 y 3 aparentemente bien distribuidos.


Por tanto, la pregunta es ¿Pueden los test estadísticos decidir con un número la presencia de aleatoriedad o no? Si se observa, por ejemplo, la distribución de los vectores generados, se obtienen los siguientes diagramas de barras:



Salvo un “pelín” de acumulación en el 2 cuando se trata de los números pseudo-aleatorios tipo Fibonacci básicamenonte la distribución es análoga.


No obstante, para contrastar realmente la aleatoriedad debe aplicarse algún test de rachas, que en R se podría hacer (de modo no paramétrico) mediante el uso de la función runs.test() de la librería tseries. Para aplicar este test de rachas se escogen los datos de los vectores que generan los anteriores gráficos y se aplica el modulo 2 a sendos vectores ya que esta función analiza rachas en variables binarias, por lo que si se hace tal transformación se alcanzan los siguientes resultados:



Donde básicamente se obtiene aleatoriedad en ambas secuencias de números al ser el p-valor muy elevado y no poderse rechazar la hipótesis de no aleatoriedad.


Otra comprobación adicional que se podría hacer es una basada en correlaciones mediante el establecimiento de un modelo de regresión lineal, en este sentido cabe generar una variable que se puede denominar t y que va desde 1 hasta 100000 (dado este caso) y que serviría para ordenar las observaciones. Así pues, si se ponen los datos obtenidos (números del 1 al 3) que genera el triángulo de Sierpinski y el otro en función de la variable t debería pasar que el la pendiente del modelo debería ser en todo caso nula y con mínima o nula significatividad, mientras que la constante debería tomar un valor próximo a 2 como de hecho ocurre:


Lo anterior nos muestra, que hay que tener mucho cuidado con los test estadísticos porque claramente no nos están dando una información suficientemente precisa y hay que investigar siempre más.


También cabe indicar que a la luz de los anteriores test son lo mismo las 2 sucesiones (incluso en esta última prueba la distribución tipo Fibonacci podría decirse que es incluso más aleatoria), pero gráficamente hemos visto que no tienen nada que ver por el modo de escoger los 3 vértices para generar los puntos del triángulo de sierpinski, por tanto, y para concluir, ojito que no todo lo que hay que saber de estadística (o sobre data scientist) está en un único libro (ni mucho menos en Chat GPT) y cosas aparentemente inconexas pueden estar más conectadas de lo que creemos.


PD Intenté usar Chat GPT para esto, pero si en algo me ayudó, se confunde un montón con el tema de los test y los resultados dando respuestas falsas que continuamente corrige y al final te hace ir a las fuentes y a libros fiables.

Comments


© 2021 by Francisco J. Rodríguez Aragón. Proudly created with Wix.com

bottom of page