L'estrazione delle informazioni (IE) è il recupero automatico di informazioni specifiche relative a un argomento selezionato da uno o più corpi di testo.
Gli strumenti di estrazione delle informazioni consentono di estrarre informazioni da documenti di testo, database, siti Web o più fonti. IE può estrarre informazioni da testo non strutturato, semi-strutturato o strutturato, leggibile dalla macchina. Di solito, tuttavia, IE viene utilizzato nell'elaborazione del linguaggio naturale (PNL) per estrarre testo strutturato da testo non strutturato.
L'estrazione delle informazioni dipende dal riconoscimento dell'entità denominata (NER), uno strumento secondario utilizzato per trovare informazioni mirate da estrarre. Il NER riconosce le entità prima come una delle diverse categorie come ubicazione (LOC), persone (PER) o organizzazioni (ORG). Una volta riconosciuta la categoria di informazioni, un'utilità di estrazione delle informazioni estrae le informazioni correlate dell'entità nominata e costruisce un documento leggibile dalla macchina, che gli algoritmi possono elaborare ulteriormente per estrarre il significato. IE trova il significato attraverso altre attività secondarie tra cui la risoluzione dei co-riferimenti, l'estrazione delle relazioni, l'analisi del linguaggio e del vocabolario e talvolta l'estrazione dell'audio.
IE risale ai primi giorni dell'elaborazione del linguaggio naturale degli anni '1970. JASPER è un sistema per IE che per Reuters della Carnegie Melon University è un primo esempio. Gli attuali sforzi nell'elaborazione di documenti multimediali in IE includono l'annotazione automatica e il riconoscimento del contenuto e anche l'estrazione da immagini e video potrebbe essere visto come IE.
A causa della complessità del linguaggio, IE di alta qualità è un compito impegnativo per i sistemi di intelligenza artificiale (AI).