Home
>
1. Chatbots en robots klaar om al pratend de wereld te veroveren?
>
1.1 Inleiding
>
1.1.3 Corpus
|
Previous
Next
|
|
|
|
De naar een corpus geconverteerde
webpagina's van een website worden
ondergebracht op een computer van
Lingvistica. Na de extractie door het
programma LYNX bevat de CRWLRESULT
directory per website een enkele pagina tot
vele tienduizenden pagina's. De teksten
worden omgezet naar een geconsolideerd
tekstbestand van 1KB tot 150MB tekens. Met
behulp van een transferprogramma worden de
bestanden overgezet naar de DATA en CORP
directory op de Semanta webserver voor on-
line gebruik door de bezoekers.
Lingvistica kennis (lokale opslag)
|
Geconverteerde webpagina's
|
Geconsolideerd tekstbestanden
|
|
|
|
|
|
|
|
|
|
|