Estrazione Semantica

Exeura
Campo d'impiego
Pubblica Amministrazione
Tipologia
Information Extraction e Classificazione Normative agro-alimentari
In Breve
Il sistema permette la classificazione e l'estrazione documentale a partire da sorgenti informative non strutturate ed eterogenee (documenti contenenti i B.U.R.) in modo preciso ed accurato. Alla base del sistema vi è un motore semantico che permette la classificazione in base a determinate categorie di interesse.
Folksonomia
Information Extraction, Classificazione Normative
Semantic Information Extraction da Bollettino Unico Regione Calabria/Exeura

Descrizione

Il progetto prevede l’uso di due tecnologie semantiche messe a disposizione da Exeura:

  • la suite Olex, un sistema che consente la classificazione semantica dei documenti testuali, ovvero l’individuazione dei concetti espressi all’interno dei documenti soggetti ad analisi;
  • il sistema HiLex, una tecnologia in grado di effettuare in maniera automatica l’annotazione, il wrapping e l’estrazione di informazioni da sorgenti informative in formato semi strutturato e non strutturato.

L’utilizzo di olex, quale sistema di semantic document classification, consente di classificare i documenti acquisiti rispetto a diverse categorie semantiche. Inoltre, sulla base della natura del documento acquisito ed identificabile tramite i risultati di classificazione semantica, il documento stesso viene poi processato da sistema HiLex al fine di operare un task di Semantic Information Extraction coerente con la natura stessa del documento.

I documenti possono essere acquisiti manualmente (mediante copia degli stessi nel repository documentale del sistema) o automaticamente, usando un web crawler, ovvero uno strumento per l’esplorazione del web ed il salvataggio dei contenuti interessanti.

I modelli di conoscenza utilizzati si sostanziano nei thesauri e negli schemi di classificazione. Il Modellatore di Conoscenza è un tool grafico per la creazione di modelli di dominio destinato al Knowledge Engineer, e mette a disposizione funzionalità per la creazione e manipolazione di modelli di dominio e la specificazione concettuale delle regole di classificazione dei contenuti sulla base dei metadati descrittivi;

Il Motore di Ricerca Semantica è il modulo che consente l’esecuzione delle ricerche all'interno della Content Base. Le ricerche sono eseguite su base quadridimensionale:

  • Per metadati;
  • Per parole chiave (contenuti testuali);
  • Sulla base dei termini rilevanti estratti in fase di analisi semantica;
  • Sulla base delle categorie individuate in fase di classificazione.

Il motore mette a disposizione la possibilità di eseguire ricerche “ibride”, che combinano le quattro modalità descritte in precedenza.

  • Struttura web-based composta da una web application che espone le funzionalità della piattaforma olex e da un database di supporto.
  • Microsoft Windows 2003 Server o superiore – Compatibilità con hardware e software in uso presso l'ente – MySQL server – Internet Explorer o browser compatibili.