Semanta College Tel:
+31-162-313323
Lingvistica
Tel: +1-514-331-0572
Introductie
Deze
introductie is bedoeld voor organisaties die hun bezoekers tegemoet willen
treden met een virtuele gesprekspartner. De kennis die daarvoor nodig is, ligt
besloten in de eigen website en daarbuiten in het "Internet of
things". Semanta stelt een webmaster in staat bronnen tekstueel te
analyseren en daarmee de gesprekspartner een integraal onderdeel van de website
te laten zijn. In dit artikel wordt ingegaan op de vraagstelling "Semanta
of hoe een computerprogramma zou kunnen leren praten" en het antwoord
daarop van Lingvistica. Alpha versie 15.04.02 was de eerst versie waarmee actief klanten zullen
worden benaderd. Deze Alpha versie is voornamelijk bedoeld interesse te kweken
en te toetsen in hoeverre er belangstelling bestaat voor de Semanta Services.
Semanta is de handelsnaam waaronder Lingvistica producten en diensten ten behoeve van het
leerproces voor chatbots ontwikkelt en vermarkt.
Chatbot
Lingvistica
verstaat onder chatbot een systeem van computerprogramma's, gegevensbanken en
procedures waarmee via het internet min of meer menselijk gecommuniceerd kan
worden. Een chatbot volgt een ander leerproces dan een mens. Waar een mens
eerst de betekenis van letters, woorden en zinnen leert en daarna de
grammaticaregels geldt voor een Semanta-chatbot het omgekeerde. De chatbot is
pas in staat tot communicatie als de regels bekend zijn en er betekenis aan kan
worden toegevoegd. In de afgelopen periode heeft Lingvistica de basis daarvoor
gelegd in meer dan 20 talen. Voor iedere taal wordt een chatbot
voorzien. Voor de talen Nederlands, Engels en Russisch zijn de chatbots op het platform Pandora
in ontwikkeling.
Gesprekspartner
Lingvistica verstaat onder een
gesprekspartner een script dat in staat is om in een of meer kennisdomeinen
kennis te vinden en in een bruikbaar antwoord om te zetten. Ieder beroep en dat
zijn er meer dan 1250 kan door een gesprekspartner digitaal vertegenwoordigd
worden.
|
|
|
|
Figuur 1 Voor advocaat zijn in het in het brein van Semanta
17 tekstcorpora bewerkt tot bruikbare informatie |
|
|
|
|
De digitale leraar of lerares is een speciale
virtuele gesprekspartner. Naast het voeren van een gesprek dient de leraar of
lerares in staat te zijn aangeboden informatie in kennis om te zetten. Deze
kennisvergroting is een continue proces dat deels automatisch en deels door
menselijk handelen uitgevoerd wordt. Lingvistica kan uw medewerkers opleiden om
uw digitale docenten te trainen. Semanta is een digitale lerares die andere
digitale leraren op kan leiden. De Pandora-versie wordt door
Semanta gezien als de gesprekspartner waarmee de bezoeker in gesprek gaat en
opgeleid is via de
De analyse
van de uiting en conversatie-elementen verloopt volgens een vast patroon.
Program O
Versie die ter beschikking staat aan de webmaster.
De rol van Lingvistica bestaat er uit dat de webmaster wegwijs wordt gemaakt in
het toepassen van de semantafunctionaliteit voor zijn of haar website. Omdat
virtuele gesprekspartners voorgesteld kunnen worden als lerende virtuele
robots, bestaat er ook behoefte aan leraren voor deze robots. Lingvistica
speelt daarop in met producten en diensten die het bouwen,onderhouden en
exploiteren van chatbots vereenvoudigt en digitale leraren opleidt, die voor
het onderwijs van chatbots ingezet kunnen worden.
Om te kunnen "praten" heeft een
computerprogramma kennis nodig. Voor Lingvistica is dit kennis in de vorm van
teksten. Teksten die in allerlei vormen aangeboden kunnen worden. Iedere uiting
via het internet bevat zinvolle informatie.
Voor
een website geldt dat Semanta het internet gebruikt als bron om er verwerkbare
tekst van te maken. Aan iedere tekstvorm, corpus, tekstbestand, platte tekst of
URL, wordt een taal, gespreksonderwerp en kennisdomein toegevoegd, waarmee een
gesprekspartner aan de slag kan. De taal waarin de gesprekspartner
"praat" wordt bepaald door de internetlocatie van de bezoeker en of
de inhoud van de aangeboden tekst.
Is
de tekst meer dan 30KB groot, zal het tekstbestand als corpus gekenmerkt
worden. Voordat een tekst kan worden verwerkt, dient het bestand opgeladen te
worden naar de Semanta server. Dit geldt voor een corpus, tekstbestand en
platte tekst. Voor iedere vorm heeft Semanta scripts ontwikkeld. Nadat de tekst
is opgeladen zal Semanta de inhoud verdelen in zinnen en zinsdelen, die op hun
beurt individueel te bewerken zijn. Van alle zinnen en zinsdelen wordt er
grammaticale kennis vastgelegd op basis van de individuele woordvormen.
Een gesprekspartner gebruikt het corpus om te
converseren met de bezoeker van de website. Het corpus is opgebouwd uit de
relaties tussen woordvormen,woordsegmenten, webpagina's. Een corpus bevat
"woordelijke" representaties van de uitingsvorm over een onderwerp op
het internet. Een corpus maakt deel uit van een kennisdomein dat gebruikt kan
worden door een of meer gesprekspartners. Tekstbestand Bij bestanden tot
30 KB biedt Semanta de mogelijkheid tekstbestanden met de extensies:
Platte tekst Tekst tot 1024 tekens wordt door Semanta beschouwd
als "platte" tekst. Voor teksten boven dit aantal kunnen in de vorm
van een tekstbestand aangeboden worden aan Semanta. Semanta gebruikt
"platte tekst" via een dialoog met de bezoeker van een website. In
korte vragen en antwoorden wordt de conversatie gevoerd. Bij de verwerking van
platte tekst kan ook een URL opgegeven worden waaruit de tekstinformatie wordt
onttrokken en wordt aangeboden aan Semanta.
De tekst is "raw" en vereist dat de gebruiker een keuze maakt
uit de gevonden tekst.
In het "Internet of things" is ieder
object met een IP-adres en voldoende software te representeren als virtuele
gesprekspartner. U kunt uw horloge vragen hoe laat het is en de wasmachine
laten weten in welk programma de was gedraaid moet worden. In aansluiting
daarop kan Semanta met name een bijdrage leveren aan de opzet van tekstuele
elementen in het laten genereren van kenniskaarten of Google Knowledge Graphs
voor uw website.
Voor de implementatie van spraak in de Semanta
services wordt getest met Nuance en ReadSpeaker als losse
services aan te koppelen zijn. Ook Pandora.org voorziet in een sprekende
gesprekspartner, waarvoor wij een Semanta versie hebben ontwikkeld. De toenemende
vraag om in spreektaal te communiceren is in de architectuur van de Semanta
software beantwoord en kan eenvoudig geimplementeerd worden.
De Semantus is de eerste implementatie van haar rol
als LANGUAGE TEACHER waarmee Semanta probeert een antwoord te vinden op de
vraag "Kan een computer leren praten? ". Lingvistica heeft de basis
gelegd voor het positieve antwoord op deze vraag. Op basis van onze Semanta-techologie
is het mogelijk om een niet-Nederlands sprekende bezoeker vanuit
Semanta gereedschappen aan te reiken om vanuit zijn moedertaal Nederlands te
leren kennen. Op basis van een enkel woord uit de Nederlandse woordenschat .
Wat voor het Nederlands geldt is ook van toepassing op alle andere
talen waarvoor wij diensten en producten hebben
ontwikkeld.
In overleg met diverse instanties en
internetonderzoek heeft Lingvistica in Semanta opgezet om een begin te maken
met het voor wat Lingvistica beschouwt als een doorbraak op het gebied van
taalbewerking in Nederland.
De virtuele gesprekspartner Scenarioschrijver is de eerste implementatie van haar rol als
INTELLIGENT HELPER waarmee Semanta probeert een antwoord te vinden op de vraag
"Kan een computer leren praten? ". Lingvistica heeft de basis gelegd
voor het positieve antwoord op deze vraag. Op basis van onze Semanta-techologie
is het mogelijk om een bezoeker vanuit Semanta gereedschappen aan te reiken om
vanuit zijn moedertaal met een gesprekspartner uit een geselecteerd corpus
vragen en antwoorden te generereren.
Dit gebeurt op twee manieren:
·
Semantische kenmerken van individuele woordvormen
· Grammaticale
segmenten van 2 tot 5 woordvormen
Afhankelijk
van de rolverdeling in het opleidingstraject kan de rol van Semanta, onze
eerste digitale lerares,
ingevuld worden voor een virtuele
gesprekspartner. Onder leiding van een menselijke webeditor kunnen de
tools van Semanta ingezet worden om de chatbot, avatar of robot ,
reproduceerbare kennis bij te brengen. De informatie kan afkomstig zijn uit
losse uitingen, teksten, tekstbestanden, websites, wikipedia, bol.com,, google
etc.Iedere tekst wordt verondersteld uit een ongestructureerd aantal uitingen
te bestaan waarin vragen en antwoorden besloten kunnen liggen. Kennis die
uiteindelijk door middel van intelligente
conversaties tussen de menselijke en en virtuele
gesprekspartners ontsloten kan worden.