Metodología, datos y definiciones de la plataforma CivicLytics

CivicLytics le permite comprender problemas cívicos complejos al escuchar las percepciones y preocupaciones de millones de ciudadanos de América Latina y el Caribe en tiempo real. Procesamos y analizamos los datos cívicos abiertos que los ciudadanos expresan en Internet (redes sociales, blogs, chatbot). Desde el Grupo BID, sumamos esta información apoyando a gobiernos, ciudadanos y sector privado para impulsar soluciones inclusivas para la recuperación local y regional.

Aquí puede leer más sobre cómo se recopilan los datos, cómo se procesan los datos, qué considerar al usar los datos y una definición más detallada de los términos utilizados.

La plataforma está impulsada por Citibeats, una plataforma de análisis de texto especializada en comprensión social. Puede encontrar más información en citibeats.com.


Recopilación de datos

Fuentes de datos

Los datos se recopilan diariamente de conversaciones en línea en fuentes disponibles públicamente, incluidos Twitter, foros en línea, comentarios de noticias y blogs, en inglés, francés, español, portugués y holandés para 26 países.

Agregamos fuentes de datos continuamente. Si tiene una sugerencia de una fuente de datos para agregar a la iniciativa, háganoslo saber aquí.

Normalización y muestreo

Los datos de las opiniones de las personas de fuentes disponibles públicamente requieren normalización, muestreo y limpieza para que sean utilizables, e incluso entonces, debemos ser conscientes de las limitaciones.

Dado que cada país tiene diferentes tamaños de población, así como diferentes niveles de acceso a Internet y participación en las redes sociales, debemos hacerlos comparables. Normalizamos los datos de forma que al comparar entre países, siempre estaremos comparando la proporción relativa de la conversación capturada en ese país.

El muestreo se utiliza principalmente para controlar la cantidad de datos que procesamos (en lugar de con fines de comparabilidad, que está cubierto por la normalización). El muestreo está determinado por la "consulta" de datos que utilizamos para definir qué opiniones se recopilan de las fuentes de datos. En este caso, la consulta contiene palabras clave sobre temas cívicos, adaptadas a cada idioma. Esto significa que si alguien comparte una opinión pero no menciona explícitamente las palabras clave definidas (o palabras clave estrechamente relacionadas), no se incluirá en nuestra muestra. Cualquier cambio significativo en el muestreo se actualizará en el registro de cambios y se notificará automáticamente a los usuarios de la API.

Representatividad

Los datos son representativos de poblaciones que utilizan fuentes en línea para compartir opiniones sobre temas cívicos. Es difícil brindar información precisa sobre la representatividad, ya que las opiniones no contienen información demográfica (solamente la podemos inferir) y la utilización de las fuentes de datos por demografía varía significativamente según el país. Cabe señalar que, como resumen global de nuestros datos, las mujeres están subrepresentadas (esta información está desagregada y las diferencias se hacen visibles en la brecha de género), al igual que las personas de mayor edad y la población de bajos ingresos.

Esta plataforma de escucha social está pensada como una herramienta de detección y un sistema de alerta temprana, pero esta limitación de representatividad debe tenerse en cuenta.

Las estadísticas a nivel de país sobre la penetración de Internet, el uso de plataformas y la demografía se pueden encontrar en: www.datareportal.com.

Privacidad

Todos los datos se presentan de forma anónima y agregada. Anónimo significa que no se comparten los nombres de los autores de las opiniones. Agregado significa que mostramos estadísticas resumidas, en lugar de opiniones individuales, por lo que no se comparte públicamente ningún texto sin procesar. Además, cabe señalar que los datos de esta opinión provienen de datos disponibles públicamente y no de datos privados sensibles.

Atribución geográfica de datos

La atribución de los datos por país depende de la fuente de datos.

En algunos casos (como Twitter), los usuarios proveen estos datos en la información de su perfil. En otros, esto se infiere de los dominios de nivel superior del país (por ejemplo, ".co.uk" para el Reino Unido) o de las referencias locales mencionadas en el texto. Esto debe tenerse en cuenta como una limitación de la precisión de los datos.


Procesamiento de datos

Categorización

Las categorías han sido definidas como temas de interés por expertos en políticas públicas y desarrollo, así como a través de un análisis “bottom-up” de los datos. Las categorías se pueden ajustar, agregar o eliminar durante el servicio, y se notificará a través de github.

Los datos se clasifican automáticamente, con controles de calidad humanos. Esto se logra mediante el aprendizaje automático semi-supervisado. Esto significa que a partir de ejemplos iniciales introducidos por humanos que definen una categoría, el sistema aprende e infiere qué opiniones pertenecen a esa categoría. La revisión humana regular garantiza el control de calidad.

El sistema de categorización aprende e infiere en cada contexto local (en este caso, en cada país), para adaptarse a la terminología y referencias hechas en cada país, teniendo en cuenta las diferencias en el uso del idioma y el contexto social.

Brecha de género

Los datos de mujeres y hombres se estiman utilizando perfiles agregados y anónimos (por ejemplo, de nombres, biografías). Se puede leer más sobre la desagregación por género estimada de Citibeats aquí.

Detección de intenciones

Es posible filtrar los resultados por "intención". La intención se refiere a las opiniones compartidas con un propósito particular; en este caso, estamos monitoreando "preguntas" y "quejas". Las intenciones son detectadas automáticamente por el sistema Citibeats, basado en modelos de aprendizaje automático y ajustados al contexto latinoamericano.


¿Cómo se deben utilizar estos datos?

Uso previsto

La Plataforma CivicLytics se ha diseñado pensando en los profesionales de las políticas públicas, que necesitan instantáneas periódicas (normalmente semanales) de la conversación pública.

Cambio de registro

Tenga en cuenta que, dependiendo de cómo evolucione la conversación, se pueden cambiar las definiciones de las categorías o agregar nuevas categorías (cambiando así las proporciones relativas de la conversación), para que el análisis siga siendo relevante.

Tenga en cuenta que si se realizan tales cambios, se rompería la coherencia del análisis. Por ejemplo, si comenzamos con 14 categorías en el mes 1 y agregamos 2 categorías nuevas en el mes 3, ya que estamos trabajando con la proporción de la conversación, no sería completamente consistente comparar las proporciones de conversación del mes 3 para una categoría que tiene apareció durante todos los meses. Cualquiera de estos cambios se documentará en github.

Frecuencia de actualizaciones de datos

Los datos se actualizarán diariamente, a las 6:00 am UTC.

Diferencias entre los datos de opiniones y los datos socioeconómicos objetivos

Dado que la Plataforma CivicLytics está destinada a ser utilizada por profesionales de políticas públicas, es importante reflexionar sobre las diferencias de este tipo de datos en comparación con los tipos de datos típicos analizados por la comunidad.

Lo más importante es que los datos de opiniones son solo eso: opiniones subjetivas. Si la categoría principal para un país determinado en la plataforma es "Categoría X", no significa necesariamente que la "Categoría X" sea el tema que los profesionales de las políticas públicas deben considerar como la máxima prioridad. La categoría X puede ser la más mencionada por las personas, pero no necesariamente la más importante para ellos; Además, si la Categoría X es la más importante en la mente del público en general, puede que no sea necesariamente la más importante para la comunidad de políticas públicas. Estas son señales que los profesionales de la información deben utilizar dentro del contexto y su conocimiento de la situación actual.

Diferencias entre big data público y encuestas

Mientras que en una encuesta las preguntas formuladas y las respuestas recopiladas generalmente están estructuradas, ese no es el caso al analizar las opiniones de las personas a partir de big data públicos, que no están estructurados. Los beneficios de analizar el big data social es que es en tiempo real y tiene una gran cobertura geográfica y temática. Esto debe tenerse en cuenta: este enfoque es adecuado como un sistema de "detección" o "alerta temprana", en lugar de una herramienta de medición precisa.

Nivel de profundidad de la información

La Plataforma CivicLytics está pensada como un recurso sencillo para los profesionales de las políticas públicas. Para un análisis más profundo de los macrodatos públicos de su país, puede considerar la posibilidad de configurar su propia plataforma de escucha social.


Definiciones

Definiciones de categorías

01 Gobernanza

Reacciones, dudas y críticas ciudadanas a las medidas de contención de la pandemia y la reactivación de la economía. Refleja la responsabilidad de las instituciones para implementarlas y anticipar oportunidades de salida de la crisis.

02 Seguridad Alimentaria

Percepciones respecto al riesgo de desabastecimiento de bienes alimenticios y suministros básicos (agua, energía), así como el riesgo de hambruna a consecuencia de la pérdida de ingresos entre los más vulnerables.

03 Economía doméstica

Seguimiento del impacto de la crisis en la economía doméstica, reflejando el riesgo de pobreza para los más afectados. Incluye testimonios de empleados, desempleados, autónomos y cuidadores. Demuestra también la percepción de la brecha de género en el ámbito laboral

04 Mercados y PyMEs

Peticiones de política económica y fiscal en base a la percepción del impacto de la crisis en los mercados, reactivación de PyMEs y empresas de mayor dimensión.

05 Sistema de salud

Percepción de la capacidad del sistema sanitario (incluyendo personal, infraestructura sanitaria y autoridades), para hacer frente a la pandemia. Incluye comentarios sobre la falta de insumos médicos y acceso a tratamientos y vacunas

06 Seguridad ciudadana y riesgo

Efectividad de protocolos por parte de espacios, empresas y grupos para evitar contagios. Seguridad ciudadana en desplazamientos urbanos en la "nueva normalidad"

07 Opciones de consumo

Hábitos, límites y cambios de consumo: bienes no básicos, movilidad, turismo y ocio en la nueva normalidad

08 Empleo y desigualdad

Percepciones sobre el futuro del trabajo: digitalización de las empresas, afianzamiento del teletrabajo y barreras para ello. Además, mide problemas laborales como el desempleo, irregularidad, precarización y desigualdad de género en el trabajo y nuevas oportunidades.

09 Acceso a la educación

Impacto de la crisis en la educación, desde la infancia hasta la universidad, así como la pérdida de nivel educativo por la brecha digital y el aislamiento especialmente entre las poblaciones rurales y mujeres.

10 Salud mental

Casos y preocupaciones sobre los cambios en la salud mental debido a la crisis, incertidumbre y perspectivas hacia futuro. Atención a diferencias de impacto por género.

11 Colectivos vulnerables

Colectivos o individuos en situación de vulnerabilidad; obstáculos para su reinserción económica y social: mujeres, inmigrantes, grupos de pueblos indígenas, afrodescendientes.

12 Impacto cambio climático

Impacto del decrecimiento económico y de desplazamientos debido a emergencias ambientales que agravan la crisis de colectivos vulnerables, familias, empresas (inundaciones, riadas, catástrofes naturales, incendios, deforestación).

13 Reactivación e innovación

Iniciativas e innovaciones cívicas y empresariales que responden a necesidades cívicas en la nueva normalidad, generación de nuevos empleos y oportunidades.

14 Noticias falsas

Difusión de información sanitaria o política falsa, manipulando la opinión pública para inducir pánico, caos o discriminar a minorías.

"Opiniones"

Una "opinión" se considera una contribución única. No incluimos interacciones sociales (por ejemplo, retuits, me gusta, acciones) en nuestro análisis.

"Categoría superior"

"Categoría principal" muestra qué categoría contiene más opiniones, en comparación con otras categorías de ese país. Los valores son proporciones (%) de la conversación, donde todas las categorías suman el 100% para cada país.

"Creciente"

Muestra en qué país la categoría seleccionada es una "prioridad creciente". "Prioridad" se refiere a la proporción de la conversación para esa categoría, en comparación con las otras categorías en ese país. "Aumento" significa el cambio de prioridad, comparando los últimos 7 días con los 7 días anteriores.

Es importante señalar que el "aumento" aquí es relativo a las otras categorías en ese país. Por ejemplo, si el país A duplicó el número de opiniones en todas y cada una de las categorías desde la semana 1 hasta la semana 2, "aumento" no mostraría ningún aumento.

Esta definición de "en aumento" se utiliza para permitir la comparabilidad entre países. Si está interesado en el aumento absoluto (en lugar de relativo), puede verlo en la página Informe de país en "Tendencias".

"Brecha de género"

Muestra de qué categorías hablan más las mujeres que los hombres (marrón), y más los hombres que las mujeres (azul), como proporción de la conversación de ese género.

Los valores son la diferencia entre las proporciones de mujeres y hombres (%) de la conversación por categoría. Entonces, todas las categorías femeninas% s suman 100%, todas las categorías masculinas% s suman 100%, y mostramos la diferencia entre estos números.

Los datos de mujeres y hombres se estiman utilizando perfiles agregados y anónimos (por ejemplo, de nombres, biografías). Aprende más.

Citibeats reconoce que las mujeres y los hombres no son los únicos géneros.

"Intenciones"

Filtra solo las opiniones que son preguntas y destaca dónde están los países atípicos, según la proporción de la conversación por categoría. Los valores son proporciones (%) de la conversación, donde todas las categorías suman el 100% para cada país.

Las "preguntas" se definen aquí como una frase expresada para obtener información, incluida la expresión de las dudas sobre algo o la verificación de su validez o precisión.

Las "quejas" se definen aquí como declaraciones de que algo es insatisfactorio o inaceptable, y que tienen cierto potencial para ser procesable.