Estadística
El Proyecto Arecibo C3 desarrolla una estrategia de observación conocida como Bee Hunting para localizar colmenas de abejas silvestres (Apis mellifera) en entornos naturales. La recolección de datos de tiempo y ángulos de vuelo de las abejas, permitirá identificar patrones que permitan estimar la ubicación de sus colmenas.
Fase I. Recolección de datos.
Durante esta fase, se desarrolló una aplicación para registrar la información recolectada en el proceso de observación de las abejas. En ella, se documenta el número de abeja y la hora correspondiente al momento en que ingresa al alimentador. Asimismo, al momento de la salida, se registra nuevamente el número de abeja, la hora y el ángulo de vuelo observado. Esta herramienta permite realizar la captura de datos de manera eficiente.
Enlace a la aplicación
Haz clic aquí para acceder a la aplicación de recolección de datos.
Fase II. Estadística Descriptiva
En esta fase se realiza un análisis preliminar de los datos recolectados con el objetivo de identificar patrones generales en el comportamiento de las abejas. Se emplean representaciones gráficas y medidas numéricas adaptadas a datos circulares para describir las direcciones de vuelo observadas, considerando su naturaleza cíclica. Esta exploración permite tener una visión inicial de la distribución de los ángulos y de posibles valores atípicos, lo que orienta el análisis posterior.
Medidas de tendencia central circulares
Para calcular las medidas de tendencia central y dispersión en datos circulares, es necesario transformar previamente cada ángulo a coordenadas cartesianas. Esta conversión permite representar cada ángulo como un punto en el plano unitario, utilizando sus componentes seno y coseno. Este procedimiento es fundamental, ya que las operaciones aritméticas tradicionales no son apropiadas para datos circulares debido a su naturaleza cíclica.
Coordenadas cartesianas
Los datos circulares pueden ser representados como ángulos o como puntos en la circunferencia de un círculo unitario. La posición direccional puede determinarse de manera única mediante dos coordenadas. Para este propósito, podemos utilizar el sistema de coordenadas rectangulares con origen \( O \).
Cualquier punto \( P \) en el plano puede ser representado como \( (X, Y) \) en términos de sus coordenadas rectangulares o como \( (r, \alpha) \) en términos de sus coordenadas polares, donde \( r \) es la distancia al origen y \( \alpha \) su dirección.
Para convertir las coordenadas polares en coordenadas rectangulares y viceversa, se utilizan las funciones trigonométricas seno y coseno.
Tomando un punto \( P \) con coordenadas polares \( (r, \theta) \), las coordenadas rectangulares del punto \( P \) se calculan como:
\( x = r \cdot \sin(\theta), \quad y = r \cdot \cos(\theta) \)
En el análisis direccional interesa la dirección y no la magnitud del vector, por lo que tomamos los vectores como de longitud unitaria (es decir, r = 1) por conveniencia. Cada dirección corresponde así a un punto P en la circunferencia del círculo unitario. Alternativamente, este punto en la circunferencia de un círculo unitario se puede especificar simplemente mediante el ángulo.
Media Circular
La media y la desviación estándar, sufren de una fuerte dependencia de la elección de la dirección cero y del sentido de rotación. El siguiente ejemplo ilustra por qué son inapropiados como medidas descriptivas del centro para datos circulares.
A partir de este ejemplo, queda claro que la media aritmética, que es comúnmente utilizada para datos lineales, no es tanto una medida central para un conjunto dado de direcciones observadas, sino que es una función de la elección de la dirección cero y del sentido de rotación. Por lo tanto, debe evitarse como medida central para direcciones. La desviación estándar, que depende de la media, también sufre del mismo problema y, por lo tanto, se necesitan medidas de tendencia central y dispersión alternas al tratar con datos circulares.
Para calcular el promedio o la media de un conjunto de datos circulares \( \theta_1, \theta_2, \dots, \theta_n \), se necesitan las coordenadas \( x \) y \( y \) para cada ángulo. Por lo tanto, para el ángulo \( \theta_1 \) las coordenadas serían: \( x_1 = \sin(\theta_1) \), \( y_1 = \cos(\theta_1) \).
La fórmula para calcular la media de un conjunto de datos circulares es: \[ \bar{\theta} = \text{atan2}(\bar{y}, \bar{x}) \] donde: \[ \bar{x} = \frac{1}{n} \sum_{j=1}^{n} \sin(\theta_j), \quad \bar{y} = \frac{1}{n} \sum_{j=1}^{n} \cos(\theta_j) \]
La función \(\text{atan2}{(x)}\) devuelve el ángulo (en radianes) entre el eje Y positivo y el vector que va desde el origen (0,0) hasta el punto promedio de coordenadas \( (\bar{x}, \bar{y}) \). Es decir, te da la dirección promedio del conjunto de vectores. Esta función es útil porque maneja correctamente los casos en los que \( y \) es cero o negativo.
En Excel, usamos la fórmula:
=MOD(DEGREES(ATAN2(AVERAGE(V3:V24), AVERAGE(U3:U24))) + 360, 360)
se utiliza DEGREES para convertir el ángulo a grados, porque \(\text{atan2}{(x)}\) devuelve el ángulo en radianes.
Además, el uso de \(MOD(... + 360, 360)\) garantiza que el resultado esté en el rango [0, 360).
Si el ángulo fuera negativo, esta parte lo convierte en un valor positivo equivalente.
Desviación circular
En el caso de la desviación estándar para datos circulares, se utiliza la siguiente fórmula:
\[ \bar{\sigma} = \sqrt{-2 \ln\left(\sqrt{\bar{x}^2 + \bar{y}^2}\right)} \]
En Excel, usamos la fórmula:
=DEGREES(SQRT(-2*LN(SQRT(AVERAGE(V3:V24)^2 + AVERAGE(U3:U24)^2))))
En esta fórmula:
AVERAGE(V3:V24)representa los valores de \( \bar{y} \)AVERAGE(U3:U24)representa los valores de \( \bar{x} \)LNcalcula el logaritmo naturalDEGREESconvierte el resultado de radianes a grados
Datos atípicos
Para identificar los datos atípicos en datos circulares, primero se necesita calcular la distancia angular entre el ángulo específico y el ángulo promedio.
En Excel, esta distancia se calcula con la fórmula:
=MOD(ángulo específico – ángulo promedio + 180, 360) – 180
El uso de MOD(..., 360) asegura que los ángulos se mantengan dentro del rango estándar de 0° a 360°.
La suma y resta de 180° se realiza para que el resultado final esté en el rango \([-180^\circ, 180^\circ)\),
lo que representa la distancia mínima entre dos direcciones circulares.
Un ángulo se considera atípico si su distancia angular es mayor que dos veces la desviación angular estándar:
\[ \text{distancia angular} > 2 \cdot \bar{\sigma} \]
En Excel, esto se implementa con la fórmula:
=IF(ABS(C70) > 2 * C$64, "Atípico", "")
Donde:
C70es la celda que contiene la distancia angular.C64es la celda que contiene la desviación angular estándar \( \bar{\sigma} \).
Sección con Software
Introducción sobre la herramienta tecnológica creada en R para la interpretación de datos en el proyecto.
Enlace a la aplicación
Haz clic aquí para acceder a la aplicación de interpretación de datos.