I dati semi-strutturati sono dati che non sono stati organizzati in un repository specializzato, come un database, ma che tuttavia hanno informazioni associate, come i metadati, che lo rendono più suscettibile di elaborazione rispetto ai dati grezzi.
La differenza tra dati strutturati, dati non strutturati e dati semi-strutturati:
I dati non strutturati non sono stati organizzati in un formato che ne semplifichi l'accesso e l'elaborazione. In realtà, pochissimi dati sono completamente non strutturati. Anche le cose che sono spesso considerate dati non strutturati, come documenti e immagini, sono strutturate in una certa misura. I dati strutturati sono fondamentalmente l'opposto di quelli non strutturati: sono stati riformattati e i suoi elementi organizzati in una struttura di dati in modo che gli elementi possano essere indirizzati, organizzati e accessibili in varie combinazioni per utilizzare meglio le informazioni. I dati semi-strutturati si trovano da qualche parte tra i due. Non è organizzato in un modo complesso che renda possibile un accesso e un'analisi sofisticati; tuttavia, potrebbero essere associate informazioni, come la codifica dei metadati, che consentono di indirizzare gli elementi contenuti.
Ecco un esempio: un documento di Word è generalmente considerato un dato non strutturato. Tuttavia, puoi aggiungere tag di metadati sotto forma di parole chiave e altri metadati che rappresentano il contenuto del documento e rendere più facile trovare quel documento quando le persone cercano quei termini: i dati sono ora semi-strutturati. Tuttavia, il documento manca ancora della complessa organizzazione del database, quindi non è un dato completamente strutturato.
In realtà, vi è una notevole sovrapposizione tra i confini delle tre categorie, che a volte vengono descritte collettivamente come il continuum dei dati.