📊⛏Picanúmeros

@Picanumeros
7 Followers
236 Following
172 Posts

Ayer me dió por investigar cómo nos distribuimos en las distintas instancias de Mastodon, a partir del listado de instances.social (no exhaustivo, creo). #Datos clave:

- 4 instancias tienen más cuentas que todas las demás juntas
- Hay 14 instancias que acumulan dos tercios del total de cuentas de Mastodon
- El índice de Gini del número de cuentas, que mide la desigualdad de una distribución (0 si fuese perfectamente uniforme, 1 si todas las cuentas estuviesen en un solo servidor)... es de 0.957

Ah, y que se me olvidaba: buenos días a todo el mundo y toda la fuerza y el ánimo para quienes os manifestáis en Madrid por una sanidad pública digna ✊

Ayer me dió por investigar cómo nos distribuimos en las distintas instancias de Mastodon, a partir del listado de instances.social (no exhaustivo, creo). #Datos clave:

- 4 instancias tienen más cuentas que todas las demás juntas
- Hay 14 instancias que acumulan dos tercios del total de cuentas de Mastodon
- El índice de Gini del número de cuentas, que mide la desigualdad de una distribución (0 si fuese perfectamente uniforme, 1 si todas las cuentas estuviesen en un solo servidor)... es de 0.957

No doy más pistas. Pensad en mastodon.social y la representatividad que tenga. Este ejemplo creo que se acerca bastante más a los que nos crean más problemas en la realidad, donde sabemos que puede haber sesgo pero no tenemos tan claro para donde tira 🤭

Buenas respuestas hasta ahora. Os veo en forma  

Vamos a cambiar el enunciado. Supongamos que queremos estimar el porcentaje de nuevas cuentas que son hispanohablantes, pero ahora las opciones son estas dos:

1) Elegir 1.000 cuentas recientes con #muestreo completamente aleatorio.

2) Analizar todas las cuentas recientes (pongamos que fueran 50.000 en total -ficticio 100%-) que se han alojado en la instancia mastodon.social.

¿Qué opción crees que sería la mejor ahora? #encuestas

La opción 1)
72.5%
La opción 2)
27.5%
Poll ended at .

Vamos con una de #encuestas y #muestreo:

Imaginad que quiero *estimar* qué porcentaje de las nuevas cuentas llegadas a Mastodon (~1 millón) tootean en idioma español.

Para ello, sólo puedo elegir una de estas opciones:

1) Elegir 1.000 cuentas recientes de manera completamente aleatoria.

2) Analizar todas las cuentas (10.000 en total) que se alojan en la instancia "AquiSeHablaEspañol.org"

¿Qué opción crees que sería la mejor? (y si quieres desarrollar por qué, adelante)

La opción 1)
97.7%
La opción 2)
2.3%
Poll ended at .
Así las cosas, dado que los registros entre las 8 y las 10 de la mañana hoy han estado en torno a las 2500 cuentas, pues se espera que la media de registros por hora de hoy esté sobre esa cifra, lo que supondría un número de registros hoy de 2500*24 = 60000 (por supuesto, con un rango de incertidumbre que se podría calcular).

De hecho, si pasamos a mirar los datos de nuevos registros cada hora en Mastodon desde el día 26, se observa el mismo patrón del gráfico anterior: pocos registros durante la madrugada europea, más registros durante la tarde-noche europea.

Ha habido algunos días de aluvión donde el patrón se ha roto un poco, pero más o menos se ha respetado ese fenómeno.

¡Buenas! Ayer aumentó el número de registros en Mastodon (100940) con respecto al jueves. Sin embargo, esta madrugada hemos tenido un "valle" muy acusado, y posiblemente hoy andaremos sobre los 60-62000 registros.

Estos "valles" se conocen en estadística por estacionalidad: el patrón se repite con periodo fijo (en nuestro caso, cada 24 horas pasa lo mismo).

La estacionalidad de los registros cada hora en Mastodon la tenéis en el siguiente gráfico: el pico, por la noche. El valle, de madrugada.

Lo subo aquí ya que, pese a que por este mapa me funaron, me funaron más fuerte y me volvieron a funar en su día en la red del pajarito, es uno de mis favoritos personales. Aprendí de mis errores y tiene anotaciones extra, que conste.