Information Extraction

L’Information extraction ha come obiettivo l’estrazione automatica di informazioni da documenti strutturati e/o semistrutturati. Allo stato attuale, le tecniche utilizzate per lo scopo prevedono l’addestramento di reti neurali che hanno come input documenti con layout simili. Questo studio si focalizza sull’implementazione di un sistema capace di essere indipendente dal layout fornendo dunque un approccio generalizzato al problema.
In questo articolo analizzeremo il procedimento proposto per l’ottenimento un sistema capace di rendere efficace l’estrazione delle informazioni.

L’estrazione delle informazioni nei documenti è un argomento cruciale per molte applicazioni, come:

  • Invoice Automation
  • Information Retrieval
  • Knowledge management and preservation

Lo stato dell’arte prevede l’addestramento di reti neurali legate al layout dei documenti stessi. Questo approccio è congeniale per documenti con layout simile ma riscontra problematiche quando l’informazione non ha uno schema ben preciso, oppure quando il font usato è diverso o ancora quando il field sizes non è fisso. Una ricerca pubblicata il 14 Agosto 2020 propone un approccio layout indipendente. La soluzione proposta prevede una pipeline che ha come concetto chiave la definizione dell’informazione: un insieme di entità caratterizzata da una coppia <etichetta, valore> messe in relazione dalla parola is.

La pipeline proposta prevede:

  1. Preprocessing per migliorare la qualità dell’immagine
  2. Character recognition tramite OCRopus 2.0
  3. Vettorizzazione delle stringhe tramite Word2vec + CBOW
  4. Addestramento della rete neurale

E’ stato utilizzato un Dataset Ghega composto da 136 brevetti e 116 datasheet ed un approccio 80/20 Train/Test per verificare gli esperimenti. I risultati sono davvero promettenti. L’accuratezza è stata:

  • Nel peggiore dei casi 93% per i datasheets e 92% per i brevetti
  • Nel migliore dei casi 96% per i datasheets e 93% per i brevetti.

Risultati così incoraggianti denotano il successo della ricerca in quanto approccio innovativo all’estrazione dell’informazione. Possiamo affermare che la soluzione layout-independent rappresenti davvero un passo avanti al modo di trattare questa tematica in modo che possa essere vista in modo generalizzato.

In questo processo si rende decisivo l’utilizzo di OCR (Optical character recognition) per il riconoscimento di caratteri. Si tratta di un sistema che converte il testo in codice macchina. Un sistema OCR si basa principalmente sull’estrazione e conseguente classificazione di caratteristiche (feature) basate su schemi (patterns) prestabiliti. In generale, il sistema OCR si basa sulla costruzione e addestramento di reti neurali artificiali che si occupano del vero e proprio processo di riconoscimento dei caratteri. Tra gli obiettivi futuri, per questo approccio, uno dei campi più studiati è il raggiungimento dell’indipendenza dalla lingua in cui è scritto il testo analizzato.

Bibliografia
Shehzad K., Ul-Hasan A., Malik M.I., Shafait F. (2020) Named Entity Recognition in Semi Structured Documents Using Neural Tensor Networks. In: Bai X., Karatzas D., Lopresti D. (eds) Document Analysis Systems. DAS 2020. Lecture Notes in Computer Science, vol 12116. Springer, Cham. https://doi.org/10.1007/978-3-030-57058-3_28

J. Memon, M. Sami, R. A. Khan and M. Uddin, “Handwritten Optical Character Recognition (OCR): A Comprehensive Systematic Literature Review (SLR),” in IEEE Access, vol. 8, pp. 142642-142668, 2020, doi: 10.1109/ACCESS.2020.3012542.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: