Selezionare una collezione di documenti
Inserire dei termini per la ricerca
Le web ontology sono strumenti che consentono di organizzare e descrivere le informazioni presenti sul Web in modo strutturato e formalmente definito, così da renderle interpretabili anche ai sistemi informatici. Considerate come modelli concettuali condivisi, sono utili a identificare gli elementi rilevanti di uno specifico dominio e a definirne esplicitamente le relazioni. Grazie all'adozione di vocabolari comuni, le ontologie riescono inoltre a ridurre l'ambiguità tipica del linguaggio naturale e a facilitare l'integrazione e l'interoperabilità dei dati tra sistemi differenti.
Le ontologie costituiscono la base concettuale dei knowledge graph, ovvero rappresentazioni della conoscenza basate su reti di entità e relazioni semanticamente definite. I knowledge graph utilizzano le ontologie per strutturare i dati e attribuire loro significato, favorendo così una migliore integrazione delle informazioni e forme più avanzate di ricerca, analisi e ragionamento automatico. Attraverso l'elaborazione del knowledge graph creato per il progetto, è stato possibile rappresentare, in forma di nodi interconnessi, sia i rapporti tra i soggetti artefici dei documenti, sia la gerarchia delle collezioni tematiche.
La creazione di un'ontologia si basa generalmente sulle tecnologie del Semantic Web, tra cui il Resource Description Framework (RDF), che costituisce il livello fondamentale per la rappresentazione dei dati sotto forma di triple soggetto-predicato-oggetto, e il Web Ontology Language (OWL), linguaggio che consente di definire in modo più espressivo classi, proprietà, vincoli e relazioni semantiche. Nel progetto l'ontologia è stata serializzata nel formato Turtle (TTL), una sintassi compatta e leggibile dall'essere umano che permette di rappresentare in modo chiaro le triple RDF e di facilitarne la gestione, la manutenzione e l'interrogazione semantica.
L'interrogazione dei dati descritti tramite ontologie e knowledge graph avviene comunemente attraverso SPARQL (SPARQL Protocol and RDF Query Language), il linguaggio standard per la consultazione di dataset basati su RDF. SPARQL consente di formulare query strutturate per individuare entità, relazioni e pattern specifici all'interno del knowledge graph, adattandosi alla natura semantica e reticolare dei dati. Per il progetto è stato programmato un endpoint SPARQL, cioè un servizio web che permette di interrogare remotamente il knowledge graph, accessibile anche attraverso un'interfaccia web.
Il portale offre un'interfaccia interattiva che consente di mostrare la distribuzione cronologica dei documenti, collocandoli su una linea temporale.
I metadati sono stati convertiti in un formato compatibile con TimelineJS, uno strumento open-source sviluppato dal Knight Lab della Northwestern University.
Con il termine topic modelling si fa riferimento a un insieme di tecniche di analisi automatica del linguaggio naturale volte a far emergere i "temi latenti" presenti in una collezione di documenti testuali. Queste tecniche rientrano nel campo del machine learning non supervisionato, ovvero l'utilizzo di algoritmi su dati privi di etichette o classificazioni predefinite. In generale, il topic modelling consente di identificare pattern di significato nei dati testuali, individuando strutture semantiche ricorrenti che vengono interpretate come argomenti, o topic. I documenti che condividono pattern simili vengono quindi accorpati nello stesso topic.
Nel progetto, le analisi di topic modelling eseguite sui documenti trascritti hanno permesso di classificare dei documenti sulla base del loro contenuto e automatizzare l'estrazione di parole chiave. Sulla base di tali risultati sono stati creati anche grafici esplicativi.
Nello specifico progetto, è stato impiegato BERTopic, un approccio moderno al topic modelling che non si basa, come per le tecniche più tradizionali, sull'analisi di frequenze e co-occorrenze di termini, ma sfrutta i progressi dei modelli Transformer. In particolare, ogni documento viene rappresentato tramite embedding semantici, ovvero rappresentazioni numeriche caratterizzate da un grandissimo numero di dimensioni. Questi embedding vengono inseriti in uno spazio vettoriale e raggruppati tramite algoritmi di clustering per individuare, analizzando le distanze tra i documenti, insiemi semanticamente simili che corrispondono ai diversi topic. Infine, per ciascun cluster vengono estratte le parole più rappresentative mediante un algoritmo che evidenzia i termini distintivi di ogni cluster rispetto all'intero corpus, rendendo i topic interpretabili.