slwac

kolofon TEI

§opis datoteke
§navedba naslova
§naslov

Korpus slWaC
§navedba odgovornosti
§ime Nikola Ljubešić
§odgovornost

Zajem s spleta in pretvorba v besedilni korpus.
§navedba odgovornosti
§ime Tomaž Erjavec (IJS)
§odgovornost

Jezikoslovno označevanje in zapis TEI.
§navedba izdaje
§izdaja V2.0
§obseg
§termin

1.258 milijonov pojavnic, 2,8 milijona URLjev
§navedba objave
§datum 2014-07-01
§kraj objave nl.ijs.si http://www.nljubesic.net/resources/corpora/slwac/
§dostopnost

Korpus je dostopen preko konkordančnikov na nl.ijs.si in za prenos pod licenco CC BY-SA 4.0.

§opis vira

Korpus slWaC vsebuje besedila zajeta z HTML strani, ki so bile pajkane (pretežno) z domene .si. Korpus je razširjena različica korpusa slWaC, ki je opisan v : Nikola Ljubešić and Tomaž Erjavec: hrWaC and slWac: Compiling Web Corpora for Croatian and Slovene. Text, Speech and Dialogue 2011. Lecture Notes in Computer Science vol. 9743, 395-402 Springer.

§opis označevanja
§uredniška načela
§segmentacija

Vsako besedilo (element "text") ustreza (besedilu izluščenemu iz) ene spletne strani. Odstavki so bili, kolikor je bilo to mogoče, ohranjeni. Odstavki so nato avtomatsko označeni za stavke in pojavnice, tj. besede in ločila.

§interpretacija

Besedilo je bilo avtomatsko tokenizirano, besede pa označena z oblikoskladenjsko oznako in lemo, pri čemer oznake sledijo specifikacijam JOS.

§opis značilnosti besedila
§uporaba jezikov
§jezik

identifikator = sl
§termin

slovenščina
§opis sprememb
§sprememba Tomaž Erjavec<ime>: First release.
§datum 2014-07-01


Datum: 2014-08-18

Avtorske pravice za besedilo te izdaje določa licenca Creative Commons Priznanje avtorstva 3.0.