A beszéd viIága

A beszélő és a hangot értő robot szinte már alig különböztethető meg az embertől - vagy talán mégis?

Alig van olyan mikroszámítógép, amellyel ne lehetne hangokat generálni; egyesek nemcsak zenélni, de beszélni is tudnak. A begépelt szöveget igaz kissé furcsa hanglejtéssel, de "kimondják". Nehogy azt higgye valaki, hogy valamilyen kis magnetofon van a belsejében, és az azokra felvett a, b, c… hangokból állítja össze mondanivalóját! Ennél sokkal egyszerűbb és ügyesebb a megoldás. Kezdete visszanyúlik 1638-ig, amikor Galilei először írta le, hogy "a hangmagasság a dobhártyát érő levegőlökések időegységre eső száma". Ebből kiindulva ismét egy olyan feladat állt a számítógép-fejlesztők előtt, amelyben folytonos, analóg jeleket kell kapcsolatba hozni a számítógép bináris jeleivel. Ehhez "csak" arra van szükség, hogy minden egyes hang frekvenciájának 1-esek és 0-k sorozatát feleltessük meg. Ezeket tárolja a gép, és amikor megadjuk a betűt, az annak megfelelő jelkészletet a gép előhívja, és a digitális-analóg átalakítón keresztül üzenetét a hangszóróhoz továbbítja. Ilyen egyszerű mindez. Bizonyára sokan ismerik a Texas Instruments (alig füzet nagyságú) kis Speak and Spell gépét, amelyben ily módon tárolnak több száz angol szót. Ezzel gyakorolható a helyesírás, és még keresztrejtvényszerű játékokat is lehet játszani vele. A beszédszintetizátorok persze ennél komolyabb feladatokat is ellátnak. Már a budapesti telefonközpontban is szintetizátorral előállított hang tájékoztat a megváltozott telefonszámokról. Nem egy üzemben a diszpécserszolgálatot hangos szöveg tájékoztatja egyes műszerek, folyamatszakaszok állapotáról. Olyan gépkocsik is léteznek, amelyekben a számítógép szóban figyelmezteti a vezetőt, ha valamelyik ajtó nyitva maradt, vagy a biztonsági öv nincs bekapcsolva. A hangkimenet tehát - ha nem is tökéletesen - lényegében megoldott.

Keményebb dió a hang felismerése, pedig látszólag ugyanolyan egyszerű, mint a hang előállítása. Kicsit hasonlít ahhoz, amit az alakfelismeréssel kapcsolatban említettünk. Az ember ugyanazon személy hangját akkor is azonosítani tudja, ha az egyik esetben az illető például náthás volt. De a számítógép számára ez a két hang már gyökeresen különbözik. Valóban előfordult már, hogy egy számítóközpontban (ahol a belépést csak azok számára engedélyezték, akiknek hangja előzetesen tárolva volt) nem nyílt ki az ajtó a főnök előtt, mert kissé fátyolos hangon közölte a "szezám nyílj ki" varázsszót. Nemcsak az azonosítással van probléma, hanem a szöveg felismerésével is. A beszéd sebessége, a hangmagasság, a kisebb beszédhibák vagy akcentusok változatosságára felkészíteni a gépet (a mai módszerekkel) nem lehet.

Ez csak akkor lehetséges, ha a gép a meglevőknél nagyságrendekkel nagyobb tárolókapacitással rendelkezne; ezért a tudósok a hangfelismerésben is új módszerek kimunkálásán fáradoznak.

Remélhetjük, hogy talán már a közeljövőben megvalósul a hanggal programozható számítógép, a hanggal vezérelhető írógép.