Om te kunnen "praten" heeft een computerprogramma kennis nodig. Voor Lingvistica
is dit kennis in de vorm van teksten. Teksten die in allerlei vormen aangeboden
kunnen worden. Iedere uiting via het internet bevat zinvolle informatie.
Voor een website geldt dat Semanta het internet gebruikt als bron om er
verwerkbare tekst van te maken. Aan iedere tekstvorm, corpus, tekstbestand, platte
tekst of URL, wordt een taal, gespreksonderwerp en kennisdomein toegevoegd,
waarmee een gesprekspartner aan de slag kan. De taal waarin de gesprekspartner
"praat" wordt bepaald door de internetlocatie van de bezoeker en of de inhoud van
de aangeboden tekst.
Is de tekst meer dan 30KB groot, zal het tekstbestand als corpus gekenmerkt worden.
Voordat een tekst kan worden verwerkt, dient het bestand opgeladen te worden
naar de Semanta server. Dit geldt voor een corpus, tekstbestand en platte tekst.
Voor iedere vorm heeft Semanta scripts ontwikkeld. Nadat de tekst is opgeladen zal
Semanta de inhoud verdelen in zinnen en zinsdelen, die op hun beurt individueel te
bewerken zijn. Van alle zinnen en zinsdelen wordt er grammaticale kennis vastgelegd
op basis van de individuele woordvormen.