itwac

kolofon TEI

§opis datoteke
§navedba naslova
§naslov

Korpus itWaC
§navedba odgovornosti
§ime The WaCkys
§odgovornost

Zajem s spleta in pretvorba v besedilni korpus.
§navedba odgovornosti
§ime Tomaž Erjavec (IJS)
§odgovornost

Jezikoslovno označevanje in zapis TEI.
§navedba izdaje
§izdaja V1.0
§obseg
§termin

1.900 milijonov pojavnic, 1.870 tisoč URLjev
§navedba objave
§datum 2013-03-29
§kraj objave Source corpus is available from wacky.sslmit.unibo.it; Concordances over the corpus are available from nl.ijs.si.
§dostopnost

Korpus je dostopen preko konkordančnikov na CLARIN.SI in za prenos z dovoljenjem iz wacky.sslmit.unibo.it.

§opis vira

c.f. wacky.sslmit.unibo.it

§opis označevanja
§uredniška načela
§segmentacija

Vsako besedilo (element "text") ustreza besedilu izluščenemu iz ene spletne strani. Besedilo je nato avtomatsko označeno za stavke in pojavnice, tj. besede in ločila s programom TreeTagger.

§interpretacija

Besedila so bila avtomatsko tokenizirana, besede pa označene z oblikoskladenjsko oznako in lemo s programom TreeTagger. TreeTagger oznake so bile nato še preslikane v skupne oznake SPOOK.

§opis značilnosti besedila
§uporaba jezikov
§jezik

identifikator = it
§termin

italijanščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: First release.
§datum 2013-02-29


Datum: 2018-03-01

Avtorske pravice za besedilo te izdaje določa licenca Creative Commons Priznanje avtorstva 3.0.