Lingvistica
heeft zich verdiept in de mogelijkheden en functionaliteit van
1. Relatie tussen Semanta en Watson
2. Samenwerkingsvormen
3. Background Lingvistica
4. Lingvistica en Semanta
5. Waarom?
6. Semanta
7. Verdienmodel Semanta
8. Bijlage A Resume Michael Blekhman
9. Bijlage B Resume Ed Kool
Relatie tussen Semanta en Watson
Bij het opzetten van de Cloud voor Semanta om te kunnen experimenteren met Watson bleken er grote overeenkomsten te bestaan tussen een deel van de services van Watson en de architectuur van Semanta. In Semanta worden platte tekst, tekstbestanden, webpagina's en websites gezien als bruikbare informatiebronnen voor de opleiding van virtuele gesprekspartners. De inhoud wordt per taal in een kennisdomein ondergebracht om vervolgens automatisch aan een virtuele gesprekspartner te worden gekoppeld. Die vervolgens in een conversatie met de bezoeker min of meer menselijk kan communiceren.
|
|
WATSON |
SEMANTA |
Concept Expansion: Maps euphemisms
or colloquial terms to more commonly understood phrases |
Grammaticale segmentatie:Semanta verdeelt teksten in grammaticale segmenten om semantische en conversationele toepassingen te kunnen maken. |
Concept Insights: Explore the
concepts behind your input, identifying associations beyond traditional text
matching. |
Kennisvergroting: Door de extractie van tekstelementen uit de persoonlijke bestandskeuze keuze van de gebruiker/bezoeker zijn begrippen verder te analyseren op basis van het zinsverband. |
Language Identification: Identifies
the language in which text is written. |
Taalidentificatie: Semanta bepaalt de taal op basis van het IP adres van de bezoeker en de aangeboden tekst. |
Personality Insights: The Watson
Personality Insights derives insights from transactional and social media
data to identify psychological traits |
Semantische kenmerken: In de woordenschat worden per woordvorm door een moderator en semi-automatisch semantische aspecten als tijd,plaats, periode, jaartal,geografiie, proces, organsatie, mens, dier, plant en beroep opgeslagen. |
Machine Translation: Globalize on the
fly. Translate text from one language to another |
Automatische vertaalprogramma's: Nederlands Engels, Engels<>Russisch, Pools, Oekraiens en Duits<> Russisch. Op dit moment zijn de on line versies niet beschikbaar. |
Question and Answer: Direct
responses to users inquiries fueled by primary document
sources |
Virtuele gesprekspartner: Semanta heeft een groot aantal gesprekspartners gedefinieerd. Pandora chatbot Semantus Hybride vorm tussen Program_o en Semanta |
Message Resonance:Analyzes
the popularity of a given word within a specific community. By using this
ranking system it is possible to recommend more resonant words to use when
crafting messages targeted at specific audiences.
|
Grammaticale segmentatie:Semanta verdeelt teksten in grammaticale segmenten om semantische en conversationele toepassingen te kunnen maken. Door integratie met de kennisdomeinen en daarmee gekopplede coprora kunnen frequentiestatieken worden getoond. |
Relationship Extraction:
Intelligently finds relationships between sentences components (nouns, verbs,
subjects, objects, etc.) |
Tekstanalyse: Semanta is volledig gebaseerd op
contextuele relaties tussen teksten, kennisdomeinen en virtuele
gesprekspartners. Naast deze relaties zijn ook de · Zelfstandige naamwoorden · Werkwoordsvormen · Bijvoeglijke naamwoorden · Persoonlijk en bezittelijk voornaamwoorden · Bijwoorden · Uitdrukkingen · Modaliteit · etc Tekstinformatie |
Speech To Text: This service
provides highly accurate, low latency speech recognition capabilities. |
Wij gebruiken vooralsnog Nuance |
Text to Speech: Synthesizes
natural-sounding speech from text. |
ReadSpeaker is de preferente leverancier |
Samenwerkingsvormen
Ik zie voor de de
samenwerking met
· Delen van Semanta kunnen geintegreerd worden als Service in Watson
o Question and answers
o Relationship Extraction
·
Lingvistica
ondersteunt
o Nederlands
o Frans
o Turks
o Hebreeuws
o Zweeds
o en anderen.
· Verdere uitbouw van Watson Services
o Concept Expansion
o Concept Insights
o Personalty Insights
o Nederlands
o Russisch
o Pools
o Anders
Background Lingvistica
Since 1998 up to the present time, Lingvistica has
performed a lot of research and development on the orders of various customers
throughout the world. The table below summarizes the work done during that
period of time.
Country |
Years |
Software |
Languages |
Users |
|
SYSTRAN |
|
1998-1999 |
Dictionaries for
machine translation |
UkrainianóEnglish, |
SYSTRAN |
|
|
2000-2001 |
Grammar dictionary |
Polish |
|
Jourist Verlags GmbH |
|
2000-2001 |
Machine translation
systems |
Russian, |
Jourist Verlags GmbH |
|
|
2000-2002 |
Dictionaries of
proper names |
Arabic, Persian,
Russian |
NMSU |
LEC Corp. |
|
2001-2002 |
Machine translation
engines |
RussianóEnglish, |
LEC Corp. |
|
|
2003-2004 |
Dictionaries of
proper names |
English |
|
Universe Technical Translation, Inc. |
|
2002-2005 |
Translation aid |
RussianóEnglish |
Universe Technical
Translation, Inc. |
Universe Technical Translation, Inc. |
|
2003-2005 |
Spell-checker |
Azerbaijani |
Universe Technical
Translation, Inc. |
|
2004-2005 |
Frequency
dictionary |
Latvian |
3rd
party |
|
Carpatho-Rusyn Society |
|
Discussions
underway |
Language learning
system |
Rusyn |
C-RS |
|
The |
2007 |
Machine translation
engines |
DutchóEnglish, |
|
Endeca Technologies, Inc. |
|
2008 |
Grammatical
wordlist |
German |
Endeca Technologies, Inc. |
|
|
2008-2010 |
Text and sound
dictionaries |
Numerous languages |
|
Lingvistica’s Own Projects:
Years |
Languages |
Results obtained |
|
|
1998-2008 |
English óDutch, |
Commercial MT
systems |
Text analyzers |
1998-present |
Dutch, English,
Polish, Russian, Ukrainian |
Automatic
morphological analysis of texts |
Dad’s Lessons |
1999-2000 |
Ukrainian |
Language learning
program |
Sprechen Sie Deutsch |
2001-present |
German |
Language learning
program |
Web scanning |
2001-present |
English, Polish,
Russian, Ukrainian |
Automatic adding
new words to the dictionary by scanning Internet websites |
Frequency wordlists |
2004-2005 |
Latvian |
Automatic creating
wordlists by scanning Internet websites |
Speech recognition and synthesis |
2004-present |
Russian, German |
Speech recognition
and synthesis technology to be used for various languages |
Interlingua-based machine translation
|
2007, on-going
project: together with Digital Sonata Pty Ltd., |
English, Spanish,
French; in perspective: other European languages |
Efficient
development of MT engines through Interlingua |
SEMANTA |
2010-present |
All languages |
Chatbot education
and Artificial Intelligence |
Waarom?
Sinds 1998 en vanaf 2008 full time, houd ik mij, naast mijn activiteiten als zelfstandig ICT consultant, bezig met de relatie tussen computersoftware en talen. In samenwerking met Dr. M. Blekhman werken wij sinds 2001 samen in Lingvistica . Aanvankelijk met automatische vertaalprogramma's: Nederlands<>Engels, Engels<>Russisch, Pools, Oekraiens en Duits<> Russisch. Sinds de komst van de automatisch vertaalprograma's van Google en Bing is de vraag naar deze producten sterk afgenomen. In de jaren 2007 t/m 2010 hebben wij voor 20 talen intelligente woordenlijsten ontwikkeld, voornamelijk op basis van grammaticale en semantische kenmerken. Dit is een project dat M. Blekhman in samenwerking met taalkundigen heeft gerealiseerd. Vanaf 2010 houdt ik mij bezig met ontwikkeling software en procedures om een antwoord te vinden op de vraag:
”Semanta of hoe een computer kan leren praten?”.
Semanta functionaliteit
Om een computerprogramma vragen en antwoorden te leren begrijpen, is meer nodig dan het registreren van veronderstelde vragen en hun antwoord. Lingvistica gaat verder en heeft voor 90 talen de basis gelegd voor een chatbotlerares die in staat is in al deze talen te communiceren en een begin van digitaal gezond verstand te ontwikkelen. Semanta is een fictieve naam die afgeleid is van SEMANtiek en TAal. Semanta is een virtuele lerares en is tot leven gebracht door Lingvistica. Semanta is getraind door Lingvistica en kent nu meer dan een miljoen enkelvoudige woordvormen in verschillende talen en beschikt zij over meer dan 750.000 woordvormrelaties en.. “zij” leert elke dag bij.
Verdienmodel Semanta
Onze portfolio is bedoeld voor organisaties die hun bezoekers tegemoet willen treden met een virtuele gesprekspartner. De kennis die daarvoor nodig is, ligt besloten in de eigen website en daarbuiten in het Internet of Things. Semanta stelt een webmaster in staat bronnen tekstueel te analyseren en daarmee de gesprekspartner een integraal onderdeel van de website te laten zijn. Het is hier dat er aanknopingspunten zijn voor een nader gesprek, waarin de taalkundige kennis, diensten en producten een aanvulling kunnen zijn op de Watson functionaliteit.
Bijlage A Resume Michael Blekhman
Research methods
used:
q statistical: creating and using frequency
dictionaries; statistical methods in automatic indexing;
q example-based - example-based topic recognition;
q rule-based – creating commercial rule-based MT systems.
Translating:
English to and from Russian and Ukrainian.
Language
proficiency: Russian, Ukrainian (both native); English (fluent); German,
Spanish, Polish, French (reading).
1951. Born in
1959-1969.
Secondary education.
1969-1974.Kharkov
State University, Philological Faculty, Dept. of Mathematical and Applied
Linguistics.
1974. Graduated
from the University. Specialty: automatic text
processing; technical translation.
1974-1976. Engineer
(programmer), Software dept., GosavtotransNIIProyekt
Research Institute,
1975. Married. Wife: Nadezhda
Bezhanova.
1976. Born daughter, Olga.
1976. English teacher, Voroshilovgrad Teachers'
1976-1989. Engineer, senior engineer, researcher,
senior researcher, Information Dept., VNIITElektromash
Research Institute,
1976-1979: translator (English, German, Polish,
Spanish, Slovak into Russian);
1979-1989: development and implementation of automatic
text processing systems: information storage and retrieval; automatic
abstracting and indexing; machine translation.
1982. Born daughter,
1985. Defended dissertation at the
1986. Conferred PhD degree in linguistics.
1989-1990. Leading researcher,
1989-1990. Lecturer,
1990-1993. Leading researcher; deputy director,
MEDICOM Ltd. Specialization: machine translation;
machine-aided translation; electronic dictionaries.
1994-1998. Head of the Laboratory for Machine
Translation,
1994-1998. Senior lecturer,
1998-present. President,
director: Lingvistica, Lingvistica b.v., Lingvistica
’98 Inc. Specialization: linguistic resources; dictionaries, MT and
Bijlage B Resume Ed Kool
PERSOONLIJKE GEGEVENS:
Naam : Edward Alexander Kool
Adres : Rijnstraat 63
Postcode : 5101 VK
Plaats : DONGEN
Telefoon : 31-162-313 323 M: 06-48078750
Fax : n.v.t.
e-mail :
Huwelijkse staat : Gehuwd, 2 kinderen.
Talen : Nederlands,Engels, Duits, Frans
Overige : enige mate Russisch
OPLEIDING: HBS-B Hilversum
Autodidactisch onderlegd in computerlinguīstiek en kunstmatige intelligentie
Individuele management en logistiek trainingen.
Bedrijfstrainingen in Japan en de Verenigde Staten.
Vaktechnische trainingen in de Informatie Technologie en Telematica.
Speciale ervaring
· Tekstanalyse,tekstsynthese en kunstmatige intelligentie
· Semantische woordenboeken : Nederlands,Arabisch,Chinees,Japans,Pools,Russisch,Frans,Duits, Engels,Italiaans, Spaans,Portugees
· Systeemarchitectuur automatische vertaalprogramma's
· Ontwikkeling websites in PHP,Javascript en MySql
·
·
·
· RWS - Systeemarchitectuur en specificaties vernieuwde software Verkeerscentrales Rijkswaterstaat Directie Noord-Holland
· RWS - Projectmanagement Millennium project Rijkswaterstaat Directie Noord-Holland
· AT&T Unisource - Ontwerp en realisatie Project Management Informatie Systeem
· AT&T Unisource - Introductie en invoering van Process Management in Internet Service groep
·
AT&T
Unisource - Implementatie van internationale Internet toepassingen m.b.v.
satelietcommunicatie
· NUTS bedrijf Maastricht - Realisatie en systeemdocumentatie glasvezelnetwerk gemeente Maastricht
· NUTS bedrijf Maastricht – Opzet en ondersteuning beheerorganisatie ICT- ,Transmissie en zender Infrastructuur
· NUTS bedrijf Maastricht - Tweeweg geschikt maken van CAI netwerk, inclusief Internet toepassingen, telefonie en zenderdefinities
· GCEI Amsterdam - Acceptatietesten Wide Area Netwerk gemeente Amsterdam
·
Alcatel
Business Systems - Product management
· Alcatel Business Systems - Ontwerp en installatie van multi protocolaire netwerkomgevingen, 125 LANs.
· GCEI Amsterdam - Ontwerp en implementatie gestructureerd bekabelingssysteem, 1500 aansluitingen
· Fuji Foto Film - Opzet en organisatie automatiseringsafdeling in samenwerking met Japanse collega's
· Fuji Foto Film - Integrale automatisering van proces- en produktiefaciliteiten
· Fuji Foto Film - Coördinatie van multidisciplinaire projectteams in ontwerp, constructie en opstart produktie