Lingvistica heeft zich verdiept in de mogelijkheden en functionaliteit van IBM's Watson. Op basis van het gebruik van de proef met Watson is deze uiteenzetting tot stand gekomen. De volgende onderwerpen komen aan de orde.

1.      Relatie tussen Semanta en Watson

2.      Samenwerkingsvormen

3.      Background Lingvistica

4.      Lingvistica en Semanta

5.      Waarom?

6.      Semanta

7.      Verdienmodel Semanta

8.      Bijlage A Resume Michael Blekhman

9.      Bijlage B Resume Ed Kool

 

Relatie tussen Semanta en Watson

 

Bij het opzetten van de Cloud voor Semanta om te kunnen experimenteren met Watson bleken er grote overeenkomsten te bestaan tussen een deel van de services van Watson en de architectuur van Semanta. In Semanta worden platte tekst, tekstbestanden, webpagina's en websites gezien als bruikbare informatiebronnen voor de opleiding van virtuele gesprekspartners. De inhoud wordt per taal in een kennisdomein ondergebracht om vervolgens automatisch aan een virtuele gesprekspartner te worden gekoppeld. Die vervolgens in een conversatie met de bezoeker min of meer menselijk kan communiceren.



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


2015 Versie


2021 Versie

WATSON

SEMANTA


 

Concept Expansion: Maps euphemisms or colloquial terms to more commonly understood phrases

Grammaticale segmentatie:Semanta verdeelt teksten in grammaticale segmenten om semantische en conversationele toepassingen te kunnen maken.

Concept Insights: Explore the concepts behind your input, identifying associations beyond traditional text matching.

Kennisvergroting: Door de extractie van tekstelementen uit de persoonlijke bestandskeuze keuze van de gebruiker/bezoeker zijn begrippen verder te analyseren op basis van het zinsverband.

Language Identification: Identifies the language in which text is written.

Taalidentificatie: Semanta bepaalt de taal op basis van het IP adres van de bezoeker en de aangeboden tekst.

Personality Insights: The Watson Personality Insights derives insights from transactional and social media data to identify psychological traits

Semantische kenmerken: In de woordenschat worden per woordvorm door een moderator en semi-automatisch semantische aspecten als tijd,plaats, periode, jaartal,geografiie, proces, organsatie, mens, dier, plant en beroep opgeslagen.

Machine Translation: Globalize on the fly. Translate text from one language to another

Automatische vertaalprogramma's: Nederlands Engels, Engels<>Russisch, Pools, Oekraiens en Duits<> Russisch. Op dit moment zijn de on line versies niet beschikbaar.

Question and Answer: Direct responses to users inquiries fueled by primary document sources

Virtuele gesprekspartner: Semanta heeft een groot aantal gesprekspartners gedefinieerd.

Pandora chatbot

Semantus

Hybride vorm tussen Program_o en Semanta

Message Resonance:Analyzes the popularity of a given word within a specific community. By using this ranking system it is possible to recommend more resonant words to use when crafting messages targeted at specific audiences.

 

Grammaticale segmentatie:Semanta verdeelt teksten in grammaticale segmenten om semantische en conversationele toepassingen te kunnen maken. Door integratie met de kennisdomeinen en daarmee gekopplede coprora kunnen frequentiestatieken worden getoond.

Relationship Extraction: Intelligently finds relationships between sentences components (nouns, verbs, subjects, objects, etc.)

Tekstanalyse: Semanta is volledig gebaseerd op contextuele relaties tussen teksten, kennisdomeinen en virtuele gesprekspartners. Naast deze relaties zijn ook de POS kenmerken beschikbaar.

 

·         Zelfstandige naamwoorden

·         Werkwoordsvormen

·         Bijvoeglijke naamwoorden

·         Persoonlijk en bezittelijk voornaamwoorden

·         Bijwoorden

·         Uitdrukkingen

·         Modaliteit

·         etc

 

Tekstinformatie

 

·         TEXT CHARACTERISTIC

·         TEXT DETERMINATION

·         SENTENCE ANALYSIS

·         BASIC GRAMMAR ANALYSIS

Speech To Text: This service provides highly accurate, low latency speech recognition capabilities.

Wij gebruiken vooralsnog Nuance

Text to Speech: Synthesizes natural-sounding speech from text.

ReadSpeaker is de preferente leverancier

 

 

 

Samenwerkingsvormen

 

Ik zie voor de de samenwerking met IBM een aantal opties:

 

·         Delen van Semanta kunnen geintegreerd worden als Service in Watson

o    Question and answers

o    Relationship Extraction

·         Lingvistica ondersteunt IBM bij de implementatie van nieuwe talen

o    Nederlands

o    Frans

o    Turks

o    Hebreeuws

o    Zweeds

o    en anderen.

·         Verdere uitbouw van Watson Services

o    Concept Expansion

o    Concept Insights

o    Personalty Insights

o    Message Resonance

o    Lingvistica levert of ondersteunt automatische vertalen

o    Nederlands

o    Russisch

o    Pools

o    Anders

 

 

Background Lingvistica

 

Since 1998 up to the present time, Lingvistica has performed a lot of research and development on the orders of various customers throughout the world. The table below summarizes the work done during that period of time.

 

Customer

Country

Years

Software

Languages

Users

SYSTRAN

USA

1998-1999

Dictionaries for machine translation

UkrainianóEnglish,
RussianóEnglish

SYSTRAN

France Telecom

France

2000-2001

Grammar dictionary

Polish

France Telecom

Jourist Verlags GmbH

Germany

2000-2001

Machine translation systems

Russian,
UkrainianóGerman

Jourist Verlags GmbH

New Mexico State University

USA

2000-2002

Dictionaries of proper names

Arabic, Persian, Russian

NMSU

LEC Corp.

USA

2001-2002

Machine translation engines

RussianóEnglish,
PolishóEnglish,
UkrainianóEnglish

USA Military;

LEC Corp.

University of Maryland

USA

2003-2004

Dictionaries of proper names

English

University of Maryland

Universe Technical Translation, Inc.

USA

2002-2005

Translation aid

RussianóEnglish

Universe Technical Translation, Inc.

Universe Technical Translation, Inc.

USA

2003-2005

Spell-checker

Azerbaijani

Universe Technical Translation, Inc.

USA

2004-2005

Frequency dictionary

Latvian

3rd party

Carpatho-Rusyn Society

USA

Discussions underway

Language learning system

Rusyn

C-RS

IBM BTO

The Netherlands

2007

Machine translation engines

DutchóEnglish,
PolishóEnglish

IBM

Endeca Technologies, Inc.

USA

2008

Grammatical wordlist

German

Endeca Technologies, Inc.

Vocab AB

Sweden

2008-2010

Text and sound dictionaries

Numerous languages

Vocab AB

 

Lingvistica’s Own Projects:

Project name

Years

Languages

Results obtained

PARS

1998-2008

English óDutch,
Polish, Russian, Ukrainian, Bulgarian

Commercial MT systems

Text analyzers

1998-present

Dutch, English, Polish, Russian, Ukrainian

Automatic morphological analysis of texts

Dad’s Lessons

1999-2000

Ukrainian

Language learning program

Sprechen Sie Deutsch

2001-present

German

Language learning program

Web scanning

2001-present

English, Polish, Russian, Ukrainian

Automatic adding new words to the dictionary by scanning Internet websites

Frequency wordlists

2004-2005

Latvian

Automatic creating wordlists by scanning Internet websites

Speech recognition

and synthesis

2004-present

Russian, German

Speech recognition and synthesis technology to be used for various languages

Interlingua-based machine translation

 

2007, on-going project: together with Digital Sonata Pty Ltd., Australia

English, Spanish, French; in perspective: other European languages

Efficient development of MT engines through Interlingua

SEMANTA

2010-present

All languages

Chatbot education and Artificial Intelligence

 

Waarom?

 

Sinds 1998 en vanaf 2008 full time, houd ik mij, naast mijn activiteiten als zelfstandig ICT consultant, bezig met de relatie tussen computersoftware en talen. In samenwerking met Dr. M. Blekhman werken wij sinds 2001 samen in Lingvistica . Aanvankelijk met automatische vertaalprogramma's: Nederlands<>Engels, Engels<>Russisch, Pools, Oekraiens en Duits<> Russisch. Sinds de komst van de automatisch vertaalprograma's van Google en Bing is de vraag naar deze producten sterk afgenomen. In de jaren 2007 t/m 2010 hebben wij voor 20 talen intelligente woordenlijsten ontwikkeld, voornamelijk op basis van grammaticale en semantische kenmerken. Dit is een project dat M. Blekhman in samenwerking met taalkundigen heeft gerealiseerd. Vanaf 2010 houdt ik mij bezig met ontwikkeling software en procedures om een antwoord te vinden op de vraag:

 

Semanta of hoe een computer kan leren praten?.

 

Semanta functionaliteit

 

Om een computerprogramma vragen en antwoorden te leren begrijpen, is meer nodig dan het registreren van veronderstelde vragen en hun antwoord. Lingvistica gaat verder en heeft voor 90 talen de basis gelegd voor een chatbotlerares die in staat is in al deze talen te communiceren en een begin van digitaal gezond verstand te ontwikkelen. Semanta is een fictieve naam die afgeleid is van SEMANtiek en TAal. Semanta is een virtuele lerares en is tot leven gebracht door Lingvistica. Semanta is getraind door Lingvistica en kent nu meer dan een miljoen enkelvoudige woordvormen in verschillende talen en beschikt zij over meer dan 750.000 woordvormrelaties en.. “zij” leert elke dag bij.

 

Verdienmodel Semanta

 

Onze portfolio is bedoeld voor organisaties die hun bezoekers tegemoet willen treden met een virtuele gesprekspartner. De kennis die daarvoor nodig is, ligt besloten in de eigen website en daarbuiten in het Internet of Things. Semanta stelt een webmaster in staat bronnen tekstueel te analyseren en daarmee de gesprekspartner een integraal onderdeel van de website te laten zijn. Het is hier dat er aanknopingspunten zijn voor een nader gesprek, waarin de taalkundige kennis, diensten en producten een aanvulling kunnen zijn op de Watson functionaliteit.

 

 

Bijlage A Resume Michael Blekhman

Experience and Occupation:

Linguistics & Computers: language resources; machine translation, machine-aided translation; automatic abstracting & indexing; computer-based library and retrieval systems; computer-assisted lexicography.

 

Research methods used:

 

q       statistical: creating and using frequency dictionaries; statistical methods in automatic indexing;

q       example-based -  example-based topic recognition;

q       rule-basedcreating commercial rule-based MT systems.

Teaching languages (traditional and computer-aided education): English grammar; English as a second language; Russian as a second language; Ukrainian as a second language.

 

Translating: English to and from Russian and Ukrainian.

 

Language proficiency: Russian, Ukrainian (both native); English (fluent); German, Spanish, Polish, French (reading).

CURRICULUM VITAE

1. Major events and occupations

 

1951. Born in Kharkov, Ukraine. December 27. Father: physician; Mother: lawyer.

1959-1969. Secondary education.

1969-1974.Kharkov State University, Philological Faculty, Dept. of Mathematical and Applied Linguistics.

1974. Graduated from the University.  Specialty:  automatic  text  processing; technical translation.

1974-1976. Engineer (programmer), Software dept., GosavtotransNIIProyekt Research Institute, Voroshilovgrad.

 1975. Married. Wife: Nadezhda Bezhanova.

 1976. Born daughter, Olga.

 1976. English teacher, Voroshilovgrad Teachers' Training College.

 1976-1989. Engineer, senior engineer, researcher, senior researcher, Information  Dept.,  VNIITElektromash  Research  Institute,  Kharkov.  Specialization:

     1976-1979: translator (English, German, Polish, Spanish, Slovak into Russian);

     1979-1989: development and implementation of automatic text processing systems: information storage and retrieval; automatic abstracting and  indexing;  machine translation.

 1982. Born daughter, Marina.

 1985. Defended dissertation at the Leningrad State University. Topic: Category of Definiteness and Automatic Processing of English Discourse.

 1986. Conferred PhD degree in linguistics.

 1989-1990. Leading researcher, ESCORT Innovation Center. Specialization: electronic dictionaries; machine-aided translation  systems.

 1989-1990. Lecturer, Kharkov State University, Dept. of Mathematical and Applied Linguistics. Courses: local information retrieval systems; machine-aided translation.

 1990-1993. Leading researcher; deputy director, MEDICOM Ltd.  Specialization: machine translation; machine-aided   translation; electronic dictionaries.

 1994-1998. Head of the Laboratory for Machine Translation, Kharkov  State Polytechnic University.

 1994-1998. Senior lecturer, Kharkov State Polytechnic University. Courses: computational linguistics & machine translation; retrieval systems; modeling natural language in intelligent systems.

1998-present. President, director: Lingvistica, Lingvistica b.v., Lingvistica ’98 Inc. Specialization: linguistic resources; dictionaries,  MT and MAT systems; language engineering; software localization (English to Russian and Ukrainian), language learning software.

 

 

Bijlage B Resume Ed Kool

 

PERSOONLIJKE GEGEVENS:

 

Naam : Edward Alexander Kool

Adres : Rijnstraat 63

Postcode : 5101 VK

Plaats : DONGEN

Telefoon : 31-162-313 323 M: 06-48078750

Fax : n.v.t.

e-mail : ed@semanta.nl

Huwelijkse staat : Gehuwd, 2 kinderen.

Talen : Nederlands,Engels, Duits, Frans

Overige : enige mate Russisch

 

 

OPLEIDING: HBS-B Hilversum

 

Autodidactisch onderlegd in computerlinguīstiek en kunstmatige intelligentie

Individuele management en logistiek trainingen.

Bedrijfstrainingen in Japan en de Verenigde Staten.

Vaktechnische trainingen in de Informatie Technologie en Telematica.

 

 

Speciale ervaring

·         Tekstanalyse,tekstsynthese en kunstmatige intelligentie

·         Semantische woordenboeken : Nederlands,Arabisch,Chinees,Japans,Pools,Russisch,Frans,Duits, Engels,Italiaans, Spaans,Portugees

·         Systeemarchitectuur automatische vertaalprogramma's

·         Ontwikkeling websites in PHP,Javascript en MySql

·         EDS-RWS Opstellen en laten uitvoeren van Systeem testplannen op basis van JSTD en TMAP

·         EDS-RWS Vastlegging en gebruiksklaar maken testdatabase

·         EDS-RWS In Take procedure, verificatie en consistentie check systeemeisen

·         RWS - Systeemarchitectuur en specificaties vernieuwde software Verkeerscentrales Rijkswaterstaat Directie Noord-Holland

·         RWS - Projectmanagement Millennium project Rijkswaterstaat Directie Noord-Holland

·         AT&T Unisource - Ontwerp en realisatie Project Management Informatie Systeem  

·         AT&T Unisource - Introductie en invoering van Process Management in Internet Service groep

·         AT&T Unisource - Implementatie van internationale Internet toepassingen m.b.v. satelietcommunicatie

·         NUTS bedrijf Maastricht - Realisatie en systeemdocumentatie glasvezelnetwerk gemeente Maastricht

·         NUTS bedrijf Maastricht – Opzet en ondersteuning beheerorganisatie ICT- ,Transmissie en zender Infrastructuur

·         NUTS bedrijf Maastricht - Tweeweg geschikt maken van CAI netwerk, inclusief Internet toepassingen, telefonie en zenderdefinities

·         GCEI Amsterdam - Acceptatietesten Wide Area Netwerk gemeente Amsterdam

·         Alcatel Business Systems - Product management SNA, TDM, Frame Relay en ATM produkten

·         Alcatel Business Systems - Ontwerp en installatie van multi protocolaire netwerkomgevingen, 125 LANs.

·         GCEI Amsterdam - Ontwerp en implementatie gestructureerd bekabelingssysteem, 1500 aansluitingen

·         Fuji Foto Film - Opzet en organisatie automatiseringsafdeling in samenwerking met Japanse collega's

·         Fuji Foto Film - Integrale automatisering van proces- en produktiefaciliteiten

·         Fuji Foto Film - Coördinatie van multidisciplinaire projectteams in ontwerp, constructie en opstart produktie