Selezionare un gruppo di documenti
Inserire dei termini per la ricerca
Il portale utilizza il tool open-source TimelineJS, sviluppato dal Knight Lab della Northwestern University, per offrire una interfaccia in cui navigare cronologicamente i documenti digitalizzati.
Il topic modelling è un insieme di tecniche di machine learning non supervisionato che permettono di scoprire automaticamente i temi principali all'interno di collezioni di testi, senza che questi temi siano etichettati in anticipo. Analizzando le frequenze e le co-occorrenze dei termini, permettono di individuare gruppi di parole che tendono a ricorrere insieme, e quindi a far emergere pattern tematici latenti.
Latent semantic analysis (LSA) trova pattern latenti tramite decomposizione matematica della matrice termini-documenti.
Latent Dirichlet allocation (LDA) modella i documenti come combinazioni di topic e i topic come distribuzioni di parole.
BERTopic usa embedding prodotti da modelli Transformer e clustering.