Linkoln by Ittig

--ATTENZIONE-- il progetto Linkoln è stato aggiornato, maggiori informazioni all'indirizzo: https://linkoln.gitlab.io

Linkoln, il software per l'estrazione automatica di riferimenti normativi dai testi legislativi italiani.

Il progetto, promosso e finanziato nel 2015 dal Servizio Informatica del Senato della Repubblica e realizzato dall'Istituto di Teoria e Tecniche dell'Informazione Giuridica del CNR (ITTIG), è finalizzato allo sviluppo di uno strumento che migliori le prestazioni di xmLegesLinker, il precedente parser di riferimenti normativi sviluppato e distribuito da Ittig dal 2005.

Obiettivi primari del nuovo sviluppo sono:

la realizzazione di una libreria Java rilasciata con codice sorgente aperto;
l'allargamento della copertura delle autorità emananti italiane, compresi i Ministeri;
il supporto al riconoscimento di citazioni multiple, sia a interi testi legislativi che a partizioni;
il supporto al riconoscimento delle citazioni della legislazione europea;
la capacità di riconoscere alias normativi nazionali ed europei;
l'utilizzo di identificatori standard nazionali ed europei.

Partecipazione

Il progetto si propone di coinvolgere la comunità degli utilizzatori, a partire dai soggetti istituzionali (Parlamento, Presidenza del Consiglio, Ministeri, Regioni, Autorità, Istituto Poligrafico), per la segnalazione dei casi non coperti, dei bug e per richiedere l'implementazione di nuove features, oltre a fornire la possibilità di accedere e contribuire al codice sorgente dell'applicazione.

È possibile testare Linkoln liberamente ed inviare le opportune segnalazioni riguardanti casi di citazioni non rilevate o identificatori errati attraverso questa pagina.

Gli identificatori

I riferimenti estratti dai testi sono rappresentati tramite identificatori standard per la legislazione che consentono la risoluzione e il reperimento in rete del documento citato o di sue specifiche partizioni. Gli standard attualmente supportati da Linkoln sono:

urn:nir, il formato in uso in Italia per l'identificazione delle risorse legislative, adottato e supportato anche dal portale della legislazione vigente Normattiva;
CELEX, l'identificatore univoco dei documenti ospitati su EUR-Lex, il portale per l'accesso al diritto dell'Unione europea.

È inoltre previsto l'allargamento del supporto a due ulteriori formati di identificazione, non appena le specifiche saranno consolidate e adottate ufficialmente:

urn:lex, la specifica internazionale nata come evoluzione dello standard urn:nir per l'attribuzione di un nome uniforme alle risorse giuridiche;
ELI (European Legislation Identifier), l'identificatore unico della legislazione nazionale europea in formato URI HTTP che gli Stati membri possono implementare su base volontaria definendo le proprie specifiche.

Il software

Linkoln è un progetto open-source sviluppato in Java, rilasciato con licenza GPL ver. 3 e disponibile sotto forma di libreria jar. La libreria può essere facilmente integrata all'interno di web applications o in applicazioni stand-alone, oppure può essere utilizzata direttamente da linea di comando.

Il processo di riconoscimento dei riferimenti normativi effettuato da Linkoln è basato sul lavoro di diversi moduli specializzati nell'identificazione dei singoli campi che compongono la citazione testuale. I moduli vengono attivati in serie e producono una marcatura interna e temporanea del testo piatto. Tale marcatura viene sfruttata per verificare se una determinata porzione di testo sia o meno un riferimento normativo attraverso il confronto con dei pattern prestabiliti. Infine Linkoln si occupa di produrre gli identificatori standard in urn:nir e CELEX per i riferimenti normativi trovati. I moduli di Linkoln sono stati implementati con la libreria JFlex, che, attraverso la definizione di espressioni regolari, regole e stati, permette la realizzazione di analizzatori lessicali efficienti.

Linkoln è disponibile in versione dimostrativa attraverso questa web demo. Dalla stessa pagina è inoltre possibile inviare segnalazioni riguardanti errori o mancati riconoscimenti. Il software utilizza testo piatto come input e fornisce due tipi di output:

l'elenco dei riferimenti normativi nell'ordine in cui questi compaiono nel testo;
il testo originale con i riferimenti evidenziati sotto forma di link HTML.

Copertura e valutazione

Compito del software di riconoscimento delle citazioni legislative testuali è quello di garantire la massima copertura della estrema variabilità negli stili di citazione (ordine dei campi della citazione, uso di forme abbreviate, modalità di numerazione, citazioni multiple, utilizzo di alias, etc.), delle diverse tipologie di documento citato e delle numerose possibili autorità emananti, inclusa la copertura dello storico e del pregresso.

In fase di analisi è stata selezionata da un corpus eteroegeneo di documenti normativi un'ampia casistica di forme di citazione testuale, tipologie di documento normativo e autorità emananti. Un campione delle forme di citazione testuale individuate è consultabile nella tabella di copertura prodotta nel corso del progetto allo scopo di valutare i miglioramenti di Linkoln rispetto ai precedenti software. La copertura di ulteriori forme di citazione può essere testata tramite la demo on-line, e i casi non coperti segnalati utilizzando la form.

Copyright & Licenza

Linkoln è rilasciato con licenza GNU GENERAL PUBLIC LICENSE Version 3.

Contacts & Credits

Progetto coordinato da Tommaso Agnoloni (ITTIG) e Carlo Marchetti (Senato della Repubblica). Linkoln è sviluppato da Lorenzo Bacci (ITTIG). Per segnalazioni: linkoln@ittig.cnr.it oppure Github issues.