Metodología

La pregunta de investigación

El Índice de datos abierto de Ciudades intenta responder la siguiente pregunta:

¿Cuál es el estado de apertura de datos en los municipios de Argentina?

A partir de esta pregunta, surgen otras cuestiones importantes, como:

Los datos abiertos tienen dos aspectos clave:

La apertura legal y técnica: ¿Cuál de estos dos - y qué requisitos específicos, a saber, la licencia abierta, la legibilidad de la máquina, el acceso a granel - es el más difícil para los editores de datos? Por ejemplo, ¿los gobiernos encuentran fácil publicar datos legibles por máquina pero tienen dificultades para aplicar una licencia abierta?

Existen cuatro formas diferentes de evaluar la apertura de los datos: contexto, datos, uso e impacto. El Índice de datos abiertos de Ciudades de Argentina limita intencionalmente su investigación a la publicación de conjuntos de datos por los gobiernos municipales.

En contraste con ediciones pasadas, el índice ahora también busca obtener información sobre la apertura práctica, es decir, la búsqueda de datos y la usabilidad. Estas preguntas actualmente no son calificadas, pero esto proporciona valiosa información tanto para los gobiernos como para los usuarios.

Selección de los municipios evaluados

Para la selección de los municipios se respetaron los 36 que ya habían sido evaluados en el índice de 2018 para hacer un seguimiento continuado sobre la apertura de datos en estos municipios. Dichos municipios son:

Por otra parte, teniendo en cuenta el gran auge de los portales de datos durante los últimos años, se hizo un relevamiento de todos los municipios que contaban con sitios web y/o portales de datos hasta diciembre de 2018. En este sentido se incluyeron a:

Elección de los datasets

Respecto a los datasets relevados, estos se eligieron teniendo en cuenta que muchos municipios estaban dando sus primeros pasos en términos de apertura con la creación de portales de datos abiertos. En este sentido, seleccionamos 11 conjuntos de datos que, a nuestro parecer, eran básicos de presentar a la ciudadanía. Se pedía que los conjuntos de datos analizados estén actualizados hasta diciembre de 2017 inclusive, a excepción del dataset de Presupuesto de gobierno, que son los gastos que el gobierno planea hacer de cara al próximo año, es decir de cara al 2018. En ese caso, se pedía que esté el presupuesto del año 2018. Las definiciones de conjuntos de datos son cruciales para permitir que los encuestados evalúan con precisión los conjuntos de datos y lo hagan de una manera comparable entre municipios.

Los datasets a evaluar fueron:

Presupuesto de Gobierno: Presupuesto del gobierno municipal a un nivel alto de desagregación. Esta categoría se ocupa de los presupuestos, es decir, del gasto gubernamental previsto para el próximo año, y no del gasto real.

Gasto Público: Registros del gasto real (pasado) del gobierno municipal en un nivel transaccional detallado. Una base de datos de contratos adjudicados o similares no es considerada suficiente. Esta categoría de datos se refiere a datos detallados en curso sobre los gastos reales.

Obras públicas: Información sobre el estado de las obras públicas, las empresas responsables, los costos y los tiempos estimados y reales.

Compras y Contrataciones: Todas las licitaciones, contrataciones y compras directas del poder ejecutivo municipal desagregado por oficina pública.

Funcionarios Públicos: Listas de los sueldos funcionarios públicos hasta el rango de director/a.

Límites Administrativos: Datos sobre unidades administrativas o áreas definidas para el propósito de administración por el gobierno (local).

Lugares Públicos: Listados sobre centros de salud, comisarías, establecimientos educativos, centros de atención ciudadana y los espacios públicos de la ciudad. Incluyendo nombre, ubicación geográfica, contacto y dirección.

Medio Ambiente: Concentración de contaminantes perjudiciales para la salud humana en agua y aire. Estaciones de monitoreo de aire y monitoreo de fuentes de agua.

Ordenanzas: Esta categoría de datos requiere que todas las leyes y los estatutos municipales sancionados por el Honorable Concejo Deliberante estén disponibles en línea.

Resultados Electorales: Esta categoría de datos requiere resultados de las últimas elecciones municipales desagregadas por mesas electorales.

Transporte Público: Horarios del transporte público y los recorridos de cada línea de transporte.

Para la edición 2019 se decidió incluir cuatro nuevos dataset

Declaraciones Juradas: Se incluyen las declaraciones juradas del intendente y de sus funcionarios, a partir de secretarios/as hasta el rango de director/a.

Pauta publicitaria: En esta categoría de datos se requieren los gastos destinados a la contratación de publicidad.

Comercios Se incorpora el listado de comercios habilitados por rubro.

Pedidos de Acceso a la Información Pública: Esta categoría de datos se requiere los pedidos de Acceso a la Información Pública unificados por:

Evaluación y puntuación de los datasets

Cada conjunto de datos en cada lugar se evalúa utilizando un conjunto de preguntas que examinan la apertura de los conjuntos de datos basados ​​en la definición abierta y la Carta de Datos Abiertos.

En 2016, se presentó la nueva encuesta del Global Open Data Index (GODI) y la misma fue utilizada para el índice de datos abiertos de Ciudades de Argentina.

La nueva puntuación sigue dos ideas principales:

Suponemos que cada pregunta de nuestra encuesta mide una característica crucial de la "apertura" legal, técnica y práctica de los datos. La puntuación sigue una evaluación de la ponderación (ver más abajo) en la cual se describe por qué una pregunta es importante para los datos abiertos y cómo una puntuación puede reflejar esta importancia. También se cuenta de los casos por los que no debemos darle el puntaje total a una pregunta. Con este enfoque pretendemos reducir el sesgo potencial hacia aspectos únicos de la apertura.

La nueva puntuación otorga un total de 40 puntos para abrir licencias / estado de dominio público y formatos de archivo legibles por máquina. Estos aspectos técnicos y legales de la apertura son el núcleo de la Definición Abierta 2.1 y se busca mantener un fuerte énfasis en ellos. Sin embargo, aspectos como publicación oportuna, disponibilidad de datos y accesibilidad son igualmente importantes para acceder y usar datos abiertos. Las preguntas sobre la accesibilidad de los datos reciben una puntuación total de 60 puntos.

Preguntas y Puntuación

Preguntas no puntuadas:

¿Los datos son recogidos por el gobierno (o un tercero relacionado o vinculado al gobierno)?

i) Los datos son recolectados por organizaciones que no representan al gobierno

Ii) Los datos se recogen, pero no para el nivel gubernamental pertinente

Iii) Los datos no se recogen en absoluto

Justificación: La recogida de datos por sí misma no es una característica de los datos "abiertos". Nuestro conocimiento de casos puntuales o excepciones a la regla (como los arreglos legales de publicación de datos en casos de asociaciones público-privadas) es demasiado limitado para desarrollar declaraciones válidas sobre un puntaje razonable.

¿Los datos están disponibles en línea?

Justificación: En la actualidad no pretendemos recompensar el registro obligatorio. Los procesos administrativos pueden implicar términos de uso que contradicen los datos abiertos.

¿Dónde encontraste los datos?

Ejemplo: Si encuentra datos en el sitio web de un departamento financiero, complete: "Sitio web del Departamento Nacional de Finanzas".

A veces se pueden encontrar datos en muchos lugares de la web. Para limitar su búsqueda, indíquenos las 5 primeras URL que puede encontrar fácilmente para cada tipo de fuente. Asegúrese de que las URL sean de una fuente gubernamental oficial. Justificación: Esta es una evaluación subjetiva. Los resultados pueden verse afectados por la experiencia o la familiaridad del remitente con los sitios web del gobierno.

¿Cuán de acuerdo estás con la siguiente afirmación? "Fue fácil para mí encontrar los datos"

¿Cuánto esfuerzo humano se requiere para usar los datos? (1 = poco o ningún esfuerzo es requerido, 3 = se requiere un esfuerzo extenso)

Ejemplo: "Tengo que reformatear los datos".

Justificación: La pregunta es una evaluación subjetiva. Además, la usabilidad depende del contexto y de los propósitos para los que una persona desea utilizar los datos.

Preguntas Puntuadas:

¿Están los datos disponibles en línea sin necesidad de registrarse o solicitar acceso a los datos?

Justificación: La disponibilidad en línea es un requisito para la apertura: todo el mundo tiene que tener acceso en línea a datos específicos. Es una condición para todas las preguntas siguientes. El registro obligatorio puede disuadir a la gente de usar los datos (enfoque en la perspectiva del usuario). Ponemos énfasis en el requisito adicional de que los datos también deben estar disponibles sin registro obligatorio. Puntuación: 15.

¿Los datos están disponibles gratuitamente? Los datos son gratuitos si no hay que pagar por ellos.

Justificación: los datos tienen que ser gratuitos para ser accesibles a todos. No podemos esperar que los usuarios paguen por conjuntos de datos para poder evaluarlos. Algunos datos (especialmente cuando se proporcionan en formatos de archivo legibles por máquina) tienen que ser pagados. Puntuación: 15.

¿Los datos se pueden descargar a la vez?

Justificación: Puntuación si un conjunto de datos se puede descargar a la vez. Por lo tanto, esta pregunta recompensa la posibilidad técnica de recuperar todos los datos de Internet sin tener que descargar docenas de pequeñas piezas de información, acceder a los datos a través de una interfaz de búsqueda, enviar solicitudes, tener captchas u otros límites para descargar.

Nota importante: los datos pueden dividirse en sub-conjuntos más pequeños. Esto se aplica, por ejemplo, a largas series temporales o grandes datos geoespaciales. Es importante que estos sub-conjuntos estén enlazados de forma lógica y que sea posible recuperar datos automáticamente de una o varias URL. Puntuación: 15

Los datos deben actualizarse cada [Intervalo de tiempo]: ¿Los datos están actualizados? Por favor base su respuesta en la fecha en la cual usted responde a esta pregunta.

Justificación: Algunos de los datos que evaluamos son los más valiosos inmediatamente después de sus lanzamientos, como pronósticos meteorológicos a corto plazo, resultados electorales o datos presupuestarios. La provisión oportuna de estos datos es crucial. Algunos datos no son tan sensibles al tiempo como otros. Nuestro puntaje quiere lograr un equilibrio entre ambos casos y por lo tanto suma 15 puntos, para no evitar un énfasis excesivo en esta categoría. Puntuación: 15

¿Están los datos abiertamente licenciados / en dominio público? Esta pregunta mide si a alguien se le permite legalmente usar, modificar y redistribuir datos para cualquier propósito. Sólo entonces los datos se consideran verdaderamente "abiertos" (ver Definición Abierta).

Justificación: La usabilidad legal de los datos es un requisito básico de la definición abierta. - Es un requisito previo para la usabilidad sin restricciones para todos. Nuestro viejo puntaje fue bastante alto, enfatizando la usabilidad legal de los datos. El puntaje actual se reduce para darnos un cierto espacio para tensionar otros aspectos de la franqueza. Esta pregunta no perderá su importancia para la apertura. Puntuación: 20

¿Los datos están en formatos de archivo abiertos y legibles por máquina? Los comparamos automáticamente con otros formatos de archivo que se consideran legibles por la máquina y abiertos. Un formato de archivo se considera legible por máquina si su computadora puede procesar, acceder y modificar elementos únicos en un archivo de datos. El índice considera que los formatos están "abiertos" si pueden procesarse completamente con al menos un software libre y de código abierto herramienta. Potencialmente, estos formatos permiten a más personas utilizar los datos porque la gente no necesita comprar software específico para abrirlo. El código fuente de estos formatos no tiene que estar abierto.

Justificación: Ambos rasgos (legible por máquina y formato abierto) son aspectos clave de la definición abierta. La legibilidad por máquina es una mejora importante de la usabilidad técnica. Sin embargo, si un archivo sólo es utilizable con software propietario (como ArcGIS) los usuarios "normales" están exentos de usarlos. Los formatos abiertos no ponen derechos de autor, restricciones monetarias u otras restricciones en su uso (importante para las personas que no pueden / no quieren) Para permitir el software propietario). Puntuación: 20

Etapas de recolección de datos

Recolección de la información

La recolección de información se llevó a cabo entre los meses de enero y mayo. La misma consistió en buscar vía online los datos disponibles por los municipios en cualquier formato posible. En aquellos municipios que contaban con un portal de datos abiertos, se buscó la información disponible allí. Cuando la información no estaba publicada en los portales o en los municipios que no contaban con un portal, se indagó en sus páginas webs y en última instancia utilizamos el buscador para ver conseguir dicha información.

Revisión con municipios

Una vez realizada la evaluación se decidió ponerla a disposición de cada municipio para que puedan enviar comentarios, críticas y tuvieran la oportunidad de acercar información que no había sido relevada. Se envió mails a los puntos de contacto dentro de cada municipio que trabajan con el acceso a la información, los datos abiertos y mantuvimos un diálogo con aquellos que respondieron y se interesaron en el índice.

Cómo leer los resultados finales

Como se explica en las secciones anteriores, el índice examina datos específicos utilizando preguntas específicas de la encuesta. El resultado es una puntuación final que debe leerse detenidamente. En primer lugar, se refiere exclusivamente a los datos con características obligatorias. Si no se puede encontrar ningún conjunto de datos en línea que coincida con estas características, los datos no se considerarán disponibles (igualando una puntuación de 0%). Además, las preguntas de la encuesta verifican diferentes aspectos del acceso a los datos y la usabilidad. Esto significa que detrás de puntuaciones bastante altas a menudo no encontramos datos abiertos, sino datos controlados por el acceso, o datos públicos en formatos mal estructurados o no legibles por máquina. La puntuación, por lo tanto, no muestra un incremento lineal de apertura. En su lugar, destaca las áreas donde el gobierno puede mejorar la publicación de datos abiertos. Un ejemplo: Podemos evaluar los datos presupuestarios en formato PDF que pueden ser de dominio público, disponibles en línea de forma gratuita, pero en un formato que lo hace prácticamente inutilizable. Estos datos se presentan como un 80% abierto. La puntuación sugiere un grado bastante alto de apertura, pero de hecho, los datos no están abiertos. Sólo el 100% significa que los datos están abiertos. La razón de esto es que no agregamos muchos filtros, como la consideración exclusiva de datos que son legibles por máquina, aunque podría dar una imagen más realista de los datos abiertos. Con este enfoque, el Índice pretende demostrar qué datos ya están disponibles y cómo se puede mejorar aún más. Por lo tanto, es importante leer atentamente cómo se publican los datos.

Dependiendo los resultados de la encuesta, encontramos que:

Ejemplos: Los datos pueden tener licencia abierta y descargarse como PDF, pero no en un formato legible por máquina. Algunas veces es posible descargar textos y otra información en formatos legibles por máquina (por ejemplo, XML). Aunque está disponible como acceso abierto, esta información no tiene licencia abierta y por lo tanto no es 100 % datos abiertos.