1.1.3 Corpus
De naar een corpus geconverteerde  webpagina's van een website worden  ondergebracht  op een computer van  Lingvistica. Na  de extractie door het  programma LYNX bevat de  CRWLRESULT  directory per website een enkele pagina tot  vele tienduizenden  pagina's.  De teksten  worden omgezet naar een geconsolideerd  tekstbestand van 1KB tot 150MB  tekens. Met  behulp van een transferprogramma worden de  bestanden overgezet naar de  DATA en CORP  directory op de Semanta webserver voor on-  line  gebruik door de bezoekers.
Lingvistica kennis (lokale opslag)
Geconverteerde webpagina's
Geconsolideerd tekstbestanden
graphic
graphic
graphic
graphic
graphic
graphic