accesskey_mod_content

Ferramentas gratuítas para traballar aspectos relacionados coa calidade dos datos

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

13 outubro 2022

A “Guía práctica para a mellora da calidade de datos abertos” inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe.

Garantir a calidade dos datos é unha tarefa primordial para calquera iniciativa open data. Antes da súa publicación, é necesario validar os conxuntos de datos para comprobar que non conteñen erros, duplicidades, etc. Desta maneira, o seu potencial de reutilización crecerá.

A calidade dos datos está condicionada por moitos aspectos. Nese sentido, no marco de de a Iniciativa Achega elaborouse a “Guía práctica para a mellora da calidade de datos abertos”(Abre en nova xanela) , que proporciona un compendio de directrices para actuar sobre as distintas características que definen a calidade e impulsar a súa mellora.

A guía inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe. Neste artigo mostrámosche algúns exemplos. Trátase de ferramentas útiles para traballar aspectos concretos relacionados coa calidade, polo que o seu maior ou menor utilidade dependerá dos datos cos que esteas a traballar e as súas características.

  • Utf-8 tools(Abre en nova xanela) . Trátase dunha colección de ferramentas en liña para realizar tarefas de conversión de formatos e codificación de caracteres. Podes seleccionar entre distintos conversores, pero destacamos as ferramentas para traballar coa codificación UTF8(Abre en nova xanela) . Esta colección compila un amplo catálogo de ferramentas ferramentas de programación(Abre en nova xanela) , que ofrecen funcionalidades de conversión, encriptación, xeración de contrasinais, edición e xestión de textos e imaxes, conversión de datas e horas, realización de operacións matemáticas, etc. Todas as ferramentas son gratuítas, sen anuncios intrusivos, e fáciles de usar grazas a unha interface de usuario sinxela. Ademais, cada unha delas inclúe exemplos de uso.
  • CSV-LINT(Abre en nova xanela) . Xestionada polo Open Data Institute, esta ferramenta en liña permite comprobar se un arquivo CSV é legible por máquinas e verificar que inclúe as columnas e os tipos de valores que debería. Tamén permite engadir esquemas aos arquivos de datos. Tras a análise, xera un informe cos resultados e unha marca que pode ser embebida no portal de datos desde o que se serve o dataset avaliado. Aínda que é moi sinxela de utilizar (só hai que cargar o arquivo que se quere verificar e facer clic no botón de validar), a web inclúe un apartado de axuda(Abre en nova xanela) . Traballa ben con arquivos de ata 100 Mb de tamaño. Tamén ofrece un sinxelo manual con directrices sobre como crear un arquivo en formato CSV correctamente e evitar os erros máis comúns.
  • DenCode(Abre en nova xanela) . Ofrece ferramentas de codificación e descodificación en liña. Entre as funcionalidades que ofrece destaca esta ferramenta que axuda aos publicadores na conversión de datos tipo data ao formato ISO 8601(Abre en nova xanela) , que é o estándar internacional que facilita a homogenización deste tipo de datos e a súa interoperabilidade. A ferramenta é moi intuitiva, xa que só é necesario escribir, no apartado habilitado para iso, a data e hora a converter.
  • XML Escape / Unescape(Abre en nova xanela) . Esta é unha ferramenta en liña de código aberto, utilizada para o “escapado” ou enmascaramiento de caracteres especiais en XML e a realización do proceso inverso. A ferramenta encárgase de eliminar os rastros daqueles caracteres que poderían ser interpretados erroneamente. Do mesmo xeito que no caso anterior, a ferramenta é moi intuitiva. Só é necesario copiar e pegar o fragmento a tratar no editor.
  • JSONlint(Abre en nova xanela) . Este é un validador e reformulador para JSON, que permite chequear se o código é válido de acordo á este especificación. Conta cun editor onde escribir ou copiar e pegar o código, aínda que tamén se pode introducir directamente una url para a súa validación. JSONLint analizará este código para atopar e suxerir a corrección dos erros explicando, ademais, os multiples motivos polos que se poden producir. A ferramenta tamén pode ser utilizada como compresor, reducindo desta forma o tamaño dos arquivos. Na súa web inclúe información sobre boas prácticas á hora de traballar co formato JSON, así como información sobre erros comúns.
  • Open Refine(Abre en nova xanela) . É unha ferramenta pensada para o tratamento e enriquecemento de datos: permite limpalos, transformar o seu formato e amplialos con servizos web e datos externos. Unha dos seus principais características é que utiliza unha linguaxe propia, GREL (Google Refine Expression Languaje), que permite realizar tarefas de depuración avanzadas. Está dispoñible en máis de 15 idiomas. Na súa páxina web ofrece varios vídeos(Abre en nova xanela) que explican o seu funcionamento. Tamén conta cunha sección de documentación documentación(Abre en nova xanela) con cursos en liña, guías e preguntas frecuentes. Ademais, os usuarios poden recorrer á ampla comunidade(Abre en nova xanela) e aos grupos de discusión en  Google(Abre en nova xanela) , Gitter(Abre en nova xanela) e Stackoverflow(Abre en nova xanela) , para solucionar dúbidas e compartir experiencias.
  • GraphDB OntoRefine(Abre en nova xanela)OpenRefine permite engadir diferentes extensións. Unha delas(Abre en nova xanela) é a que permite transformar datos tabulares a un esquema RDF a través dun punto SPARQL. Os formatos concretos cos que permite traballar son: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF como XML e Google sheet. A interface visual guía na elección dos predicados, a definición dos mapeos de tipos de datos a RDF e a implementación de transformacións complexas utilizando a linguaxe GREL. Na web(Abre en nova xanela) inclúe información sobre como utilizar a ferramenta, así como casos de uso.
  • JSON Schema Generator(Abre en nova xanela) . Esta ferramenta permite xerar e validar JSON schemas a partir de arquivos JSON. Estes esquemas permiten describir formatos de datos existentes, proporcionando unha documentación clara e legible tanto para as persoas como para as máquinas. Na web de JSON Schema tes distintos materiais formativos(Abre en nova xanela) á túa disposición, incluíndo exemplos, e información sobre distintas implementacións(Abre en nova xanela) . Tamén podes aprender máis sobre JSON schema no seu perfil de Github Github(Abre en nova xanela) .
  • SHACL Playground(Abre en nova xanela) . Trátase dunha ferramenta en liña de validación para a especificación SHACL, estándar do W3C para validar grafos RDF contra un conxunto de condicións(Abre en nova xanela) expresadas en SHACL. Do mesmo xeito que nas ferramentas anteriores, só é necesario cortar e pegar o código para que se proceda á súa validación. A ferramenta ofrece algúns exemplos de uso. Ademais, todo o código está dispoñibles en Github Github .
  • Swagger(Abre en nova xanela) . É unha ferramenta para a edición e validación de especificacións que seguen o estándar OpenAPI. Aínda que conta cunha versión de pago con máis funcionalidades, os usuarios poden crear unha conta gratuíta que lles permitirá deseñar a documentación de APIS de forma rápida e estandarizada. Dita versión gratuíta conta con funcionalidades de detección intelixente de erros e autocompletado de sintaxes.
  • Sphinx(Abre en nova xanela) . Este é un software de código aberto para xerar calquera tipo de documentación sobre os datos. Permite crear estruturas xerárquicas de contidos e índices automáticos, así como ampliar as referencias cruzadas a través do marcado semántico e as ligazóns automáticas para funcións, clases, citas, termos de glosario e pezas de información similares. Utiliza a linguaxe de marcado reStructuredText(Abre en nova xanela) por defecto, e pode ler MyST markdown(Abre en nova xanela) a través de extensións de terceiros. A través da súa web(Abre en nova xanela) podes acceder a unha gran cantidade de tutoriales e guías. Ademais, conta cunha importante comunidade de usuarios.
  • ReadTheDocs . Trátase dun software de código aberto para aloxar e documentar a semántica dos datos, similar ao anterior. O seu obxectivo é simplificar a xeración de documentación do software ao automatizar a creación, o control de versións e o aloxamento de documentacións. Conta cun extenso tutorial(Abre en nova xanela) onde indica os pasos a seguir para crear un proxecto de documentación.
  • Title Case(Abre en nova xanela) . Esta ferramenta permite converter as palabras que integran un texto en maiúsculas e/ou minúsculas. O usuario só ten que introducir un texto e a ferramenta convérteo a distintos formatos: todo maiúsculas, todo minúsculas, Title Case (onde todas as palabras importantes comezan con maiúsculas, mentres que os termos menores, como artigos ou preposicións, van en minúsculas) ou AP-Style Title Case (onde todos os termos comezan con maiúsculas).

Isto é só un exemplo dalgunhas ferramentas en liña que poden axudar a traballar sobres aspectos relacionados coa calidade dos datos. Se queres recomendar algunha outra ferramenta, podes deixar un comentario ou escribir a dinamizacion@datos.gob.es dinamizacion@datos.gob.es .

Fonte orixinal da noticia(Abre en nova xanela)

 

  • Información e datos do sector público