Linkoln, il software per l'estrazione automatica di riferimenti normativi dai testi legislativi italiani.

     

Il progetto, promosso e finanziato nel 2015 dal Servizio Informatica del Senato della Repubblica e realizzato dall'Istituto di Teoria e Tecniche dell'Informazione Giuridica del CNR (ITTIG), è finalizzato allo sviluppo di uno strumento che migliori le prestazioni di xmLegesLinker, il precedente parser di riferimenti normativi sviluppato e distribuito da Ittig dal 2005.

Obiettivi primari del nuovo sviluppo sono:

Partecipazione

Il progetto si propone di coinvolgere la comunità degli utilizzatori, a partire dai soggetti istituzionali (Parlamento, Presidenza del Consiglio, Ministeri, Regioni, Autorità, Istituto Poligrafico), per la segnalazione dei casi non coperti, dei bug e per richiedere l'implementazione di nuove features, oltre a fornire la possibilità di accedere e contribuire al codice sorgente dell'applicazione.

È possibile testare Linkoln liberamente ed inviare le opportune segnalazioni riguardanti casi di citazioni non rilevate o identificatori errati attraverso questa pagina.

Gli identificatori

I riferimenti estratti dai testi sono rappresentati tramite identificatori standard per la legislazione che consentono la risoluzione e il reperimento in rete del documento citato o di sue specifiche partizioni. Gli standard attualmente supportati da Linkoln sono:

È inoltre previsto l'allargamento del supporto a due ulteriori formati di identificazione, non appena le specifiche saranno consolidate e adottate ufficialmente:

Il software

Linkoln è un progetto open-source sviluppato in Java, rilasciato con licenza GPL ver. 3 e disponibile sotto forma di libreria jar. La libreria può essere facilmente integrata all'interno di web applications o in applicazioni stand-alone, oppure può essere utilizzata direttamente da linea di comando.

Il processo di riconoscimento dei riferimenti normativi effettuato da Linkoln è basato sul lavoro di diversi moduli specializzati nell'identificazione dei singoli campi che compongono la citazione testuale. I moduli vengono attivati in serie e producono una marcatura interna e temporanea del testo piatto. Tale marcatura viene sfruttata per verificare se una determinata porzione di testo sia o meno un riferimento normativo attraverso il confronto con dei pattern prestabiliti. Infine Linkoln si occupa di produrre gli identificatori standard in urn:nir e CELEX per i riferimenti normativi trovati. I moduli di Linkoln sono stati implementati con la libreria JFlex, che, attraverso la definizione di espressioni regolari, regole e stati, permette la realizzazione di analizzatori lessicali efficienti.

Linkoln è disponibile in versione dimostrativa attraverso questa web demo. Dalla stessa pagina è inoltre possibile inviare segnalazioni riguardanti errori o mancati riconoscimenti. Il software utilizza testo piatto come input e fornisce due tipi di output:

Copertura e valutazione

Compito del software di riconoscimento delle citazioni legislative testuali è quello di garantire la massima copertura della estrema variabilità negli stili di citazione (ordine dei campi della citazione, uso di forme abbreviate, modalità di numerazione, citazioni multiple, utilizzo di alias, etc.), delle diverse tipologie di documento citato e delle numerose possibili autorità emananti, inclusa la copertura dello storico e del pregresso.

In fase di analisi è stata selezionata da un corpus eteroegeneo di documenti normativi un'ampia casistica di forme di citazione testuale, tipologie di documento normativo e autorità emananti. Un campione delle forme di citazione testuale individuate è consultabile nella tabella di copertura prodotta nel corso del progetto allo scopo di valutare i miglioramenti di Linkoln rispetto ai precedenti software. La copertura di ulteriori forme di citazione può essere testata tramite la demo on-line, e i casi non coperti segnalati utilizzando la form.

Copyright & Licenza

Copyright © (2016) ITTIG-CNR Istituto di Teoria e Tecniche dell'Informazione Giuridica - Consiglio Nazionale delle Ricerche - Italy

Linkoln è rilasciato con licenza GNU GENERAL PUBLIC LICENSE Version 3.

Contacts & Credits

Progetto coordinato da Tommaso Agnoloni (ITTIG) e Carlo Marchetti (Senato della Repubblica). Linkoln è sviluppato da Lorenzo Bacci (ITTIG). Per segnalazioni: linkoln@ittig.cnr.it oppure Github issues.