Legge di Zipf

La legge di Zipf è una distribuzione statistica in determinati set di dati, come le parole in un corpus linguistico, in cui le frequenze di determinate parole sono inversamente proporzionali ai loro ranghi. Prende il nome dal linguista George Kingsley Zipf, che intorno al 1935 fu il primo ad attirare l'attenzione su questo fenomeno, la legge esamina la frequenza delle parole nel linguaggio naturale e come la parola più comune si presenti il ​​doppio della seconda parola più frequente, tre volte più spesso come la parola successiva e così via fino alla parola meno frequente. La parola nella posizione n appare 1 / n volte più spesso di quella più frequente.

Quando le parole vengono classificate in base alle loro frequenze in una raccolta di testi sufficientemente ampia e quindi la frequenza viene tracciata rispetto al rango, il risultato è una curva logaritmica. (Oppure, se si traccia un grafico su una scala logaritmica, il risultato è una linea retta.)

La parola più comune in inglese è "the, " che compare circa un decimo delle volte in un testo tipico; la prossima parola più comune (rango 2) è "di," che appare circa un ventesimo delle volte. In questo tipo di distribuzione, la frequenza diminuisce drasticamente all'aumentare del numero di rango, quindi un piccolo numero di elementi appare molto spesso e un numero elevato si verifica raramente.

Una distribuzione zipfiana delle parole è universale nel linguaggio naturale: può essere trovata nel discorso dei bambini di età inferiore a 32 mesi così come nel vocabolario specializzato dei libri di testo universitari. Gli studi dimostrano che questo fenomeno si applica anche in quasi tutte le lingue.

Individualmente, né la sintassi né la semantica sono sufficienti per indurre una distribuzione Zipfian da sole. Tuttavia, la sintassi e la semantica lavorano insieme per una distribuzione Zipfian.

Solo di recente la legge di Zipf è stata testata rigorosamente su database sufficientemente grandi da garantire la validità statistica. I ricercatori del Centre de Recerca Matematica, parte della rete CERCA del governo della Catalogna, che sono collegati al Dipartimento di Matematica dell'Universitat Autonoma de Barcelona, ​​hanno analizzato l'intera raccolta di testi in lingua inglese nel Progetto Gutenberg, un database gratuito con più di 30,000 opere. Quando le parole più rare venivano tralasciate, la legge di Zipf si applicava a più della metà delle parole.

La legge può essere applicata a campi diversi dalla letteratura. Le distribuzioni Zipfian sono state trovate nei ranghi della popolazione delle città di vari paesi, dimensioni delle società, classifiche dei redditi e ranghi del numero di persone che guardano lo stesso canale TV.