Selezionare una collezione di documenti
Inserire dei termini per la ricerca
Le web ontology sono strutture formali che servono a rappresentare la conoscenza sul Web in modo esplicito e condiviso, definendo concetti e relazioni all'interno di uno specifico dominio. Fornendo un vocabolario comune, permettono a sistemi diversi di interpretare i dati in maniera coerente e di ridurre l'ambiguità tipica del linguaggio naturale.
Nel Web Semantico, le ontologie sono descritte tramite linguaggi standard come RDF, RDFS e OWL, che consentono di modellare informazioni in modo formale e di supportare meccanismi di inferenza automatica, favorendo l'interoperabilità e l'integrazione dei dati.
Visualizza i knowledge graph:
Il portale utilizza TimelineJS, uno strumento open-source sviluppato dal Knight Lab della Northwestern University, per offrire un'interfaccia interattiva che consente di esplorare i documenti digitalizzati lungo una linea temporale. Questa visualizzazione facilita la navigazione cronologica e permette di contestualizzare i contenuti nel tempo.
Il topic modelling è un insieme di tecniche di machine learning non supervisionato che hanno l'obiettivo di individuare automaticamente i temi latenti presenti in una collezione di documenti testuali, senza richiedere etichette o categorie predefinite. In generale, queste tecniche cercano di identificare strutture ricorrenti nei dati testuali, facendo emergere gruppi di parole o documenti che condividono contenuti semantici simili, così da fornire una rappresentazione sintetica dei principali argomenti trattati nel corpus.
BERTopic è un approccio moderno al topic modelling che sfrutta i progressi dei modelli Transformer. In particolare, ogni documento viene rappresentato tramite embedding semantici densi, che catturano il significato del testo oltre alla semplice frequenza delle parole. Questi embedding vengono poi raggruppati tramite algoritmi di clustering per individuare insiemi di documenti semanticamente simili, che corrispondono ai diversi topic. Infine, per ciascun cluster vengono estratte le parole più rappresentative, rendendo i topic interpretabili dal punto di vista umano.