Apache Lucene

Apache Lucene è una libreria software per il recupero delle informazioni disponibile gratuitamente che funziona con i campi di testo all'interno dei file di documenti. Questa impresa in evoluzione è anche chiamata Apache Lucene Project. Apache è un server distribuito con una licenza open source.

L'interfaccia del programma applicativo (API) Lucene rimane la stessa indipendentemente dal formato del file da indicizzare. A condizione che le informazioni di testo possano essere recuperate ed estratte, Lucene può indicizzare praticamente qualsiasi tipo di documento contenente testo. Lucene è diventato popolare per l'uso nei motori di ricerca Internet e per le operazioni di ricerca su un singolo sito.

Il progetto Apache Lucene comprende quattro componenti principali:

  • Lucene Core: indicizzazione, ricerca, controllo ortografico, evidenziazione dei colpi e tokenizzazione.
  • PyLucene: port Python per Lucene Core.
  • Solr: Extensible Markup Language (XML), Hypertext Transfer Protocol (HTTP) e API per Javascript Object Notation (JSON), Python e Ruby, nonché evidenziazione dei risultati, ricerca sfaccettata, memorizzazione nella cache, replica e un'interfaccia per il sito Web amministratori.
  • Open Relevance Project: distribuzione gratuita di materiali per test delle prestazioni e valutazione della pertinenza.