accesskey_mod_content

O uso do big data no sector público da Unión Europea

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

04 agosto 2023

O uso do big data axuda ao sector público da Unión Europea a superar os desafíos relacionados cos datos

A Comisión Europea está a axudar a abordar o desafío da reutilización de datos do sector público (RISP) a nivel europeo cun servizo chamado  infraestrutura de proba de big data(Abre en nova xanela)  (BDTI) . A BDTI ofrece ás administracións públicas un conxunto de ferramentas de código aberto convencionais para o almacenamento, procesamento e análise de datos, aloxadas na nube e de forma gratuíta. Ofrécese aos funcionarios de todos os niveis de goberno en Europa para que poidan executar de forma autónoma proxectos piloto que demostren o valor que os datos poden achegar á formulación de políticas ou a administración. A sociedade civil, a academia e mesmo o sector privado poden unirse aos proxectos piloto, sempre que un organismo da administración pública estea no centro do caso de uso.

Esta historia de datos profunda no servizo BDTI e as súas capacidades. Despois de presentar o servizo e as súas características, un caso de uso mostrará a implementación práctica e as capacidades da plataforma. O caso de uso demostra a aplicación dunha variedade de ferramentas de código aberto, reutilizando múltiples conxuntos de datos abertos, complementados con varios conxuntos de datos ficticios. Como a plataforma baséase en ferramentas de código aberto, esta historia de datos ofrece información valiosa para calquera persoa interesada na reutilización de software e datos.

A Infraestrutura de Probas de Big Data da UE: que é e como funciona

A Infraestrutura de Probas de Big Data da UE , BDTI,  creouse en 2019, como parte de o   Programa Europa Dixital(Abre en nova xanela) , que ten como obxectivo acelerar a recuperación económica de Europa e dar forma á transformación dixital da sociedade e a economía de Europa, aumentando a fácil dispoñibilidade, calidade e usabilidade dos datos públicos. información do sector en cumprimento dos requisitos de a  directiva europea de datos abertos(Abre en nova xanela) .

O propósito da BDTI é fomentar a reutilización dos datos do sector público e permitir un sector público informado os datos nos Estados membros da UE. Ao proporcionar unha contorna de proba de análise gratuíta con ferramentas de código aberto, a BDTI permite ás administracións públicas crear prototipos de solucións antes de implementalas na contorna de produción nas súas propias instalacións.

As aplicacións BDTI ofrécense como un servizo na nube, o que permite aos usuarios experimentar con datos nun proxecto piloto. Unha vez que finaliza o proxecto, os usuarios poden levar o código fonte e os datos para continuar o traballo utilizando a nube da súa elección ou outros recursos. A plataforma consta de ferramentas de código aberto e a infraestrutura de nube necesaria, que inclúe máquinas virtuais, clústeres de análises, instalacións de almacenamento e instalacións de rede. Para obter máis información sobre as ferramentas dispoñibles, pode consultar  a páxina de oferta de servizos(Abre en nova xanela) .

Casos de uso e casos de éxito

Para demostrar como funciona a plataforma e como usala, presenta varias  historias de éxito(Abre en nova xanela)  da vida real . A figura 1 proporciona unha lista destas historias de éxito. Por exemplo,  Eurostat e os seus socios(Abre en nova xanela)  utilizaron o BDTI para experimentar con datos no desenvolvemento de estatísticas oficiais. Neste proxecto piloto, utilizáronse datos abertos de anuncios de emprego en liña para proporcionar información oportuna sobre os mercados laborais europeos.

Outras historias de éxito da vida real son a minaría de textos por parte dos servizos de Saúde da cidade de Valencia, a  optimización da contratación pública por parte da Axencia Norueguesa de Dixitalización(Abre en nova xanela)  , os esforzos de intercambio de datos por parte da European Blood Alliance e o traballo para facilitar a  comprensión do impacto de Covid-19. sobre a cidade de Florencia(Abre en nova xanela)  .

Resumo das historias de éxito de BDTI

Ademais, o sitio web de BDTI proporciona múltiples  casos de uso(Abre en nova xanela)  que mostran as capacidades da plataforma, baseados ​​en datos abertos. Por exemplo, o  caso de uso de análise de procura(Abre en nova xanela)  baséase en o conxunto de datos abertos  de CORDIS(Abre en nova xanela) , e o caso de uso de análise de código baixo funciona con  EMHIRES  (serie temporal de xeración de RES de alta resolución derivada de meteoroloxía europea para escenarios presentes e futuros) - conxunto de datos aberto sobre xeración de enerxía solar.

Nas seguintes seccións desta historia de datos, presentamos o caso de uso ficticio de 'gasto público', que foi desenvolvido con fins de demostración polo equipo de BDTI para mostrar como se poden aplicar as capacidades e ferramentas do servizo para xerar información valiosa a partir dos datos. O proxecto está dispoñible como código aberto en  GitLab(Abre en nova xanela) , o repositorio de código fonte aberto e a plataforma de desenvolvemento de software colaborativo .

O caso de uso do 'gasto público'

O caso de uso de 'gasto público' desenvolvido polo equipo BDTI consta de tres etapas típicas dun proxecto de ciencia de datos: (1) inxesta de datos; (2) visualización e análise; e (3) toma de decisións (Figura 2). O suxeito do caso de uso ficticio é o municipio de Dublín. O caso de uso de demostración baséase en datos abertos sempre que sexa posible, complementados con datos ficticios. Os datos de gasto público de Dublín obtéñense de  data.smartdublin.ie(Abre en nova xanela) . Os datos de tráfico históricos recupéranse de  data.gov.ie(Abre en nova xanela) , e o prognóstico do tempo recupérase de  open-meteo.com(Abre en nova xanela) . Pola contra, os datos de gasto público utilizados neste caso de demostración como punto de referencia son ficticios e refírense a dúas cidades de referencia ficticias, a cidade A e a cidade B. As notas metodolóxicas desta historia de datos brindan detalles sobre como acceder á documentación completa sobre os conxuntos de datos utilizados.

Nos pasos 1 e 2 deste caso de uso de demostración, as ferramentas de BDTI utilízanse para inxerir e visualizar datos de gasto público. O paso 3 utiliza a aprendizaxe automática para crear unha solución co obxectivo de reducir o gasto en iluminación pública.  Os seguintes parágrafos proporcionan máis explicacións de cada etapa.

O caso de uso de demostración da 'gasto público' y las metodologías aplicadas

Inxestión de datos

O primeiro paso do caso de uso de demostración é a inxestión de datos de gasto público. O desafío específico que debe abordarse relaciónase coas facturas de enerxía, que só están dispoñibles en formato PDF no noso escenario. Estas facturas en PDF non legibles por máquina deben transformarse en datos que poidan procesarse facilmente máis adiante.

Para resolver este desafío, constrúese unha solución utilizando unha ferramenta dispoñible no BDTI. Esta ferramenta é un software de código aberto que ten unha interface visual intuitiva e non require codificación, incluídas as funcións de recoñecemento óptico de caracteres. O recoñecemento óptico de caracteres é unha tecnoloxía que interpreta documentos legibles por humanos e transfórmaos en datos legibles por máquinas.

A táboa de saída pódese reutilizar para seguir procesando e analizando os datos. BDTI ofrece unha solución para almacenar os datos de saída en preparación para o seguinte paso en un sistema de base de datos relacional.

Visualización e análise

Despois de completar a inxestión de datos, o seguinte paso é visualizar e analizar os datos de gasto público. Para iso, utilizamos a ferramenta de código aberto sobre exploración e visualización de datos dispoñible na BDTI.

O resultado é un taboleiro que visualiza os datos reais de gasto público de Dublín, presentando a proporción de gasto para cada categoría en relación co gasto total. Aínda que esta información é interesante en si mesma, non axuda a entender se o gasto é alto ou baixo.

Para brindar máis contexto aos datos de gasto do goberno de Dublín, creamos unha comparación do gasto de Dublín con dúas cidades similares, pero ficticias (cidade de referencia A e cidade de referencia B). Esta comparación revela que Dublín destina unha parte relativamente importante do seu orzamento á iluminación pública. Este tipo de avaliación comparativa non nos dirá directamente onde Dublin gasta demasiado ou demasiado pouco, pero pode darnos pistas sobre que investigar máis a fondo.

Toma de decisións

O terceiro e último paso do caso de uso ten como obxectivo construír unha solución para a toma de decisións baseada en datos sobre a iluminación pública en relación cos niveis de tráfico esperados. Utilizamos tres ferramentas de código aberto dispoñibles en BDTI para construír esta solución. Grazas a esta combinación de ferramentas, podemos construír unha solución que axude aos funcionarios a lograr aforros na iluminación pública.

Para chegar a unha solución, primeiro adestramos un modelo de aprendizaxe automática que predí o tráfico para a próxima semana. A ferramenta utilizada para iso pódese aplicar á ciencia de datos, o modelado estatístico e máis. O modelo de aprendizaxe automática que creamos utiliza datos meteorolóxicos e de tráfico, o que require o procesamento de grandes volumes de datos. O BDTI está deseñado para procesar grandes datos, polo que o axudará a procesar conxuntos de datos moi grandes como estes.

Despois de adestrar e executar o modelo de aprendizaxe automática, os datos de saída almacénanse para crear un taboleiro. O taboleiro permite aos usuarios analizar os aforros que resultan de apagar a iluminación pública cando menos necesítase luz. Para determinar cando e onde se necesita menos iluminación, usamos os niveis de tráfico prognosticados como un indicador da actividade nunha rúa. Canto menor sexa a actividade nunha rúa, menor será a necesidade de iluminación.

Fonte orixinal da noticia(Abre en nova xanela)

  • Intelixencia Artificial e Blockchain
  • Información e datos do sector público