§segmentacija |
Besedila so razdeljena v razdelke div[@type="article"], ki ustrezajo eni datoteki
XHTML izvirnika. Vsak od teh vsebuje naslov (element head), opcijski podpis (element
byline), seznam ključnih besed (element list[@type="keywords"]), in niz podrejenih
razdelkov. Prvi tak razdelek je vprašanje (element div[@type="question"]), drugi odgovor
(div[@type="answer"]), temu pa lahko sledi serija komentarjev, ki jih je napisala
oseba, ki je postavla vprašanje (element div[@type="comment"]) in nadaljnih odgovorov
(div[@type="answer"]). Razdelki nato vsebujejo odstavke, sezname and tabele. V tej
različici korpusa so ti elementi nadalje segmentirani v stavke, ti pa v besede, ločila
and presledke.
|