Vsako besedilo (element "text") ustreza besedilu izluščenemu iz ene spletne strani.
Besedilo je nato avtomatsko označeno za stavke in pojavnice, tj. besede in ločila
s programom TreeTagger.
Besedila so bila avtomatsko tokenizirana,
besede pa označene z oblikoskladenjsko oznako in lemo s programom
TreeTagger.
TreeTagger oznake so bile nato še preslikane v skupne
oznake SPOOK.