itwac

kolofon TEI

^§opis datoteke

^§navedba naslova

^§naslov

Korpus itWaC

^§navedba odgovornosti

^§ime	The WaCkys
^§odgovornost	Zajem s spleta in pretvorba v besedilni korpus.

^§navedba odgovornosti

^§ime	Tomaž Erjavec (IJS)
^§odgovornost	Jezikoslovno označevanje in zapis TEI.

^§navedba izdaje

^§izdaja

V1.0

^§obseg

^§termin

1.900 milijonov pojavnic, 1.870 tisoč URLjev

^§navedba objave

^§datum	2013-03-29
^§kraj objave	Source corpus is available from wacky.sslmit.unibo.it; Concordances over the corpus are available from nl.ijs.si.
^§dostopnost	Korpus je dostopen preko konkordančnikov na CLARIN.SI in za prenos z dovoljenjem iz wacky.sslmit.unibo.it.

^§opis vira

^§opis označevanja

^§uredniška načela

^§segmentacija	Vsako besedilo (element "text") ustreza besedilu izluščenemu iz ene spletne strani. Besedilo je nato avtomatsko označeno za stavke in pojavnice, tj. besede in ločila s programom TreeTagger.
^§interpretacija	Besedila so bila avtomatsko tokenizirana, besede pa označene z oblikoskladenjsko oznako in lemo s programom TreeTagger. TreeTagger oznake so bile nato še preslikane v skupne oznake SPOOK.

^§opis značilnosti besedila

^§uporaba jezikov

^§jezik

identifikator = it

^§termin

italijanščina

^§opis sprememb

^§sprememba

Tomaž Erjavec_<ime>: First release.

^§datum

2013-02-29

Datum: 2018-03-01

Avtorske pravice za besedilo te izdaje določa licenca Creative Commons Priznanje avtorstva 3.0.