In questa sottocartella sono presenti i programmi per effettuare l'indicizzazione della collezione. Per far funzionare i comandi presentati di seguito è necessario posizionarsi in questa cartella:
cd Indicizzazione/
Il programma indicizzatore_batch_baseline.py
permette la crezione dell'indice utilizzato per la baseline tramite il comando:
python indicizzatore_batch_baseline.py ../indice_baseline ./ohsumed.87.xml
Il programma indicizzatore_batch_stopwords.py
permette invece di creare un indice che prevede l'eliminazione delle stopword.
Per fare gli esperimenti sono stati utilizzati i comandi:
python indicizzatore_batch_stopwords.py ../indice_stop1 ./ohsumed.87.xml ./stopWords_generali.txt
python indicizzatore_batch_stopwords.py ../indice_stop2 ./ohsumed.87.xml ./stopWords_clinico.json
python indicizzatore_batch_stopwords.py ../indice_stop3 ./ohsumed.87.xml ./stopWords_clinico_3.json
Gli ultimi argomenti dei comandi corrispondono ai file contenenti le stopword utilizzate di volta in volta.
Per velocizzare il processo di indicizzazione si può usare il calcolo parallelo cambiando i parametri di ix.writer()
nei programmi di indicizzazione.