1.3 Leerproces
Om te kunnen "praten" heeft een computerprogramma kennis nodig. Voor Lingvistica  is dit kennis in de vorm van  teksten. Teksten die in allerlei vormen aangeboden  kunnen worden. Iedere uiting via het internet bevat zinvolle  informatie.
Voor een website geldt dat Semanta het internet gebruikt als bron om er  verwerkbare tekst van te maken. Aan iedere  tekstvorm, corpus, tekstbestand, platte  tekst of URL, wordt een taal, gespreksonderwerp en kennisdomein toegevoegd,  waarmee een gesprekspartner aan de slag kan. De taal waarin de gesprekspartner  "praat" wordt bepaald door de  internetlocatie van de bezoeker en of de inhoud van  de aangeboden tekst.
Is de tekst meer dan 30KB groot, zal het tekstbestand als corpus gekenmerkt worden.  Voordat een tekst kan worden  verwerkt, dient het bestand opgeladen te worden  naar de Semanta server. Dit geldt voor een corpus, tekstbestand en  platte tekst.  Voor iedere vorm heeft Semanta scripts ontwikkeld. Nadat de tekst is opgeladen zal  Semanta de inhoud  verdelen in zinnen en zinsdelen, die op hun beurt individueel te  bewerken zijn. Van alle zinnen en zinsdelen wordt er grammaticale kennis vastgelegd  op basis van de individuele woordvormen.