Esplosione di dati geografici: analisi del primo rilascio di OvertureMaps Foundation in Italia
una analisi dei quattro temi di dati geografici proposti
Le origini e l’obiettivo di OvertureMaps Foundation e primo importante rilascio
Nel panorama in continua evoluzione dell’informazione geografica, il mondo ha assistito a un evento di risonanza globale a dicembre 2022 con la formazione dell’ OvertureMaps Foundation. Questa fondazione, che vanta il coinvolgimento di giganti dell’industria come Amazon, Meta, Microsoft e TomTom, insieme a nuovi partner di spicco come ESRI, ha abbracciato la missione ambiziosa di potenziare i prodotti cartografici attuali e futuri. Il loro obiettivo? Creare dati cartografici aperti, affidabili, facili da usare e interoperabili, proiettando un’ombra di incertezza su come tutto ciò si tradurrà in realtà.
Ora, a luglio 2023, è giunto il momento di gettare uno sguardo più approfondito su quello che rappresenta il primo rilascio di dati di questa iniziativa. Conosciuto come Overture 2023–07–26-alpha.0, questo rilascio offre un ricco tesoro di informazioni geografiche globali suddivise in categorie intriganti, tra cui confini amministrativi, luoghi di interesse, edifici e reti di trasporto. Ma come si confrontano questi dati con le aspettative e cosa offrono di nuovo al mondo dell’informazione geografica? Scopriamolo insieme mentre esploriamo i dettagli di questo affascinante rilascio.
Dati Geografici di Overture: Le quattro categorie scelte
Le categorie di dati scelte sono molto “sexy”, fra quelle più richieste in assoluto, tant’è che sono entrate nella lista dei dataset ad alto valore della direttiva europea sugli open data.
D’altronde sono alla base delle necessità nella creazione dei prodotti e dei servizi per l’informazione geografica.
Se l’elencare le sole categorie già aumenta l’interesse, per capire al meglio i dati è necessario andare a guardarli per vedere quanto realmente siano sexy.
Un primo indizio viene dal comunicato di OMF (OvertureMapsFoundation) che elenca queste caratteristiche: i confini amministrativi sono a livello nazionale e regionale con i nomi tradotti in 40 lingue, i luoghi di interesse sono 59 milioni di punti distribuiti su tutto il globo, gli edifici invece sono 780 milioni rappresentati nel loro perimetro con informazioni sulle altezze, ed infine, i dati delle reti di trasporto si presentano elaborate ed uniformate per essere utilizzate al meglio dai software che si occupano del calcolo di percorsi potendo quindi integrare sui singoli segmenti informazioni di traffico in tempo reale o di limiti di velocità.
Inoltre spiega anche quali sono le sorgenti principali: dati raccolti, creati e in possesso di Meta, Microsoft, ESRI, TomTom e tanto, tantissimo, da OpenStreetMap.
Ogni dataset è accompagnato da documentazione dettagliata, che include informazioni sulla geometria (espressa in latitudine e longitudine WGS84) di un oggetto e le relative proprietà. Queste proprietà sono organizzate in sottocategorie, consentendo un maggior dettaglio
Ad esempio:
un luogo è composto dalle sue coordinate (geometria) ed avere nelle sue proprietà l’attributo del nome che, a sua volta, può presentarsi in tre alternative: nome ufficiale, nome comune e nome alternativo, per poi avere per ciascuna il corrispettivo nome in diverse lingue.
Tutto questo naturalmente è espresso nella sintassi di oggetti JSON.
Il formato di distribuzione e l’accesso via sistemi cloud
I dati sono distribuiti nel formato parquet, con un download totale di oltre 200 GB. Inoltre, è possibile interrogarli senza scaricarli utilizzando strumenti come Amazon Athena, Microsoft Synapse, Apache Sedona e DuckDB.
Questa soluzione si presenta molto performante ed intelligente, anche se attualmente non sono ancora presenti accessibili da chi utilizza i classici software GIS.
La documentazione, soprattutto quando si utilizza DuckDB, fornisce istruzioni chiare su come convertire questi dati in formati tradizionali come il vecchio e ancora diffuso ESRI Shapefile, nonché in formati più moderni come geopackage o geoparquet.
La sfida principale di OvertureMaps è coprire l’intero globo, e attualmente, l’unica fonte che riesce a farlo è OpenStreetMap. Quindi, non sorprende che i dati distribuiti seguano uno schema definito da OMF con una corrispondenza sulle geometrie e molti degli attributi.
Allo stato attuale quelli che derivano totalmente da OpenStreetMap sono quelli delle reti di trasporto pubblico. Anche quelli degli edifici derivano da OpenStreetMap ma a loro volta sono integrati con quelli offerti da Microsoft e dalla distribuzione DayLightMap (una copia dei dati di OpenStreetMap rivisitata e gestita da Meta con strumenti di controllo e verifica) dove hanno stimato le altezze su alcune città statunitensi. Per questa ragione, queste due categorie, fanno uso della licenza ODbL.
I prodotti luoghi di interesse e i confini amministrativi invece vengono dalle aziende che aderiscono ad OMF e la licenza usata è CDLA-Permissive — una licenza di tipo attribuzione molto agevole e che supera alcuni vincoli della CC-BY.
I luoghi di interesse provengono, per la maggiore, da Facebook e sono tutti quei dati in cui, gli iscritti alla piattaforma, hanno segnalato la propria attività commerciale, o segnalato luoghi, ristoranti, associazioni ed altro ancora in una forma georiferibile come un numero civico o un punto su una mappa.
I confini invece sono un prodotto di TomTom.
Andando più nello specifico ho analizzato i dati all’interno del confine italiano estraendo i dati con DuckDB una volta scaricati (questa risulta la soluzione che occupa più spazio disco ma con i tempi di attesa più rapidi).
Tutti i comandi utilizzati ed i dati convertiti in formato geopackage divisi per regione ed arricchiti dagli attributi ISTAT come codice regione, codice provincia, codice e nome del comune, sono raggiungibili a questa pagina GitHub — https://github.com/napo/overturemaps_italy
Senza entrare nei dettagli di confronto degli oggetti contenuti con altre sorgenti dati con copertura nazionale (in particolare in DBSN dell’Istituto Geografico Militare) le considerazioni finali sono le seguenti:
Un’analisi dettagliata: confini amministrativi, edifici e altro
Confini Amministrativi
il valore aggiunto della risorsa offerta da OvertureMaps è quello di avere i nomi in più di una lingua (fino a 40), informazione che è comunque disponibile anche da quanto offerto da NaturalEarthData.
Rimane comunque alto il problema della precisione dei confini e dei continui cambiamenti.
In Italia, negli ultimi anni, ci sono state regioni che hanno cambiato i loro confini, pertanto — qualora si voglia operare solo nel confine italiano — la risorsa dei limiti amministrativi di ISTAT rimane molto più efficace.
Edifici
Quello che affascina del comunicato di OMF riguardo gli edifici è la possibilità di vedere integrate in quanto già offre OpenStreetMap anche quelli di Microsoft e, più in particolare, le altezze stimate.
Purtroppo però, sul territorio italiano, gli edifici disponibili sono esattamente quelli di OpenStreetMap senza ulteriore aggiunta di informazioni.
Pertanto, le altezze, sono quelle inserite da chi contribuisce al progetto o che derivano da dati importati.
Nei dati si può trovare sia il valore dell’altezza in metri che il numero di piano. Molti sono quelli vuoti.
Il fatto che la comunità si sia attivata ad inserire anche il numero di piani dipende anche molto dalle rappresentazioni che vengono da streets.gl: basta capire quale è l’edificio, andare in OpenStreetMap, inserire il numero di piani e tornare in streets.gl per vederlo apparire in 3D.
La mappa della copertura evidenzia inoltre anche dove si ha una maggiore concentrazione di contributi in OpenStreetMap vedendo quindi il nord italia e alcune regioni del sud (in particolare la Puglia) particolarmente ricche di dettagli ed altre meno ricche.
Qui, l’attuale risorsa italiana con una copertura maggiore è quella del DBSN dell’Istituto Geografico Militare ma è comunque priva delle altezze. Una informazione molto importante che permette di migliorare la pianificazione delle città in particolare su questioni come energia, cambiamento climatico, rumore ecc…
Reti di Trasporto
qui la risorsa, come scritto in precedenza, è totalmente basata su OpenStreetMap e si divide in due categorie: archi stradali e punti di collegamento.
Qui il valore aggiunto che offre OMF è quella del lavoro di suddivisione in archi che permette così, a chi lavora nel settore dei trasporti, di trovarsi davanti ad un prodotto pre-confezionato utile per gli esperti di dominio.
Allo stato attuale attributi come numero di corsie, larghezza della strada, tipo di pavimento, limiti di velocità, tipologia di mezzi che possono accedere, ecc… sono presenti ma non in maniera uniforme.
Luoghi di Interesse
Viste le premesse il prodotto dei luoghi di interesse appare essere quello in assoluto più nuovo in quanto cattura una esigenza del quotidiano ( = conoscere un luogo da raggiungere che sia una piazza, una attività commerciale o una biblioteca o …) e lo fa sulla base dei dati con cui gli utenti popolano Facebook.
Ci si aspetterebbe quindi un ampio elenco di punti con numerose tipologie, aggiornato e ben curato.
In realtà non è così ed il motivo è abbastanza semplice: quando si crea una pagina Facebook o si compila il proprio profilo, si comincia a fare attenzione a tutta una serie di informazioni fra cui l’indirizzo dove si trova l’attività. C’è chi inserisce un punto su una mappa, chi si accontenta del suggerimento, anche perché poi spesso ci si chiede quale sia il punto significativo da mostrare (es. una società sportiva mette la sede legale o il campo di gioco principale?) e quindi poi non completa l’iscrizione, inoltre, quando poi una attività funziona, i dati della posizione vengono poi “dimenticati” e quando, purtroppo, chiude (e con il covid ne abbiamo avute molte) la pagina continua a rimanere aperta.
Si aggiungono poi questioni di profili goliardici, luoghi inesistenti, luoghi ridondanti (es. una piazza di una città) ed altro ancora.
Sicuramente la fonte principale non è solo Facebook (si trovano riferimenti anche a Microsoft) e, molto probabilmente, si tratta anche di dati importati da altre fonti (es. i musei del ministero dei beni culturali), il risultato però è che si hanno dati di luoghi inesistenti o di attività che non esistono più o — ancora peggio — mal posizionati.
Brandon Liu ha creato una mappa che mostra questi dati.
I punti sono talmente mal posizionati che alcuni finiscono in mare….
i dati sono completi anche di un valore di confidenza da 0 a 1 che indica quanto un punto esiste realmente … solo che, anche se può dare indicazione che il luogo realmente esista, anche su un intervallo di confidenza molto alto (es. 0,98) qualche punto continua a rimanere in mezzo al mare….
I dati messi a disposizione nel repository GitHub che ho creato hanno i soli punti che si trovano sulla terra ferma.
Si tratta comunque di una risorsa molto importante e che può decisamente essere utile.
Conclusione
Questo rilascio alpha zero di OvertureMaps ci mostra cosa sta bollendo in pentola ed offre un lavoro importante di riorganizzazione di sorgenti dati a cui le aziende che ne fanno parte possono accadere.
L’attenzione che ci stanno mettendo è anche molto alta al fine di creare prodotti riusabili, la dipendenza verso OpenStreetMap è molto alta, in particolare in luoghi come l’ Italia.
Allo stato attuale il lavoro più grosso è in quello di creare uno schema condiviso, il successivo sarà sicuramente quello dell’ integrazione fra più sorgenti e di strumenti di verifica della qualità.
Si tratta di un lungo percorso nella creazione di una nuova sorgente opendata che si spera aiuti il movimento (a partire dalle quelle leggi che lo sostengono), aumenti la qualità e continui a dare energia ad OpenStreetMap.
Tuttavia, riguardo a quest’ultimo aspetto, sarà compito della comunità anche fare valere i propri diritti
Per chi, intanto, vuole curiosare sui dati senza download il consiglio è quello di guardare la mappa creata da Mike Barry: i dati sono mostrati nella loro forma grezza con tutti gli attributi disponibili.
Originally published at https://de.straba.us on September 3, 2023.