Tagger parte del discorso (tagger PoS)

Un tagger per parte del discorso (PoS) è uno strumento software che etichetta le parole come una delle diverse categorie per identificare la funzione della parola in una data lingua. Nella lingua inglese, le parole rientrano in una delle otto o nove parti del discorso. Le categorie di parti del discorso includono nome, verbo, articolo, aggettivo, preposizione, pronome, avverbio, congiunzione e interiezione.

I tagger PoS utilizzano algoritmi per etichettare i termini nei corpi di testo. Questi tagger creano categorie più complesse di quelle definite come PoS di base, con tag come "sostantivo-plurale" o anche etichette più complesse. La categorizzazione della parte del discorso viene insegnata ai bambini in età scolare nella grammatica inglese, dove i bambini eseguono l'etichettatura PoS di base come parte della loro istruzione.

I tagger PoS classificano i termini nei tipi PoS in base alla loro posizione relazionale in una frase, relazione con i termini vicini e dalla definizione della parola. I tagger PoS rientrano in quelli che utilizzano metodi stocastici, quelli basati sulla probabilità e quelli basati su regole.

Uno dei primi tagger PoS sviluppati è stato il tagger E. Brill, uno strumento di tagging basato su regole. E. Brill è ancora comunemente usato oggi. Altri strumenti che eseguono il tagging PoS includono Stanford Log-linear Part-Of-Speech Tagger, Tree Tagger e POS Tagger di Microsoft. Il tagging della parte del discorso viene anche definito come disambiguazione delle categorie di parole o tagging grammaticale.

Il tagging PoS viene utilizzato nell'elaborazione del linguaggio naturale (NLP) e nella comprensione del linguaggio naturale (NLU).