A számítógépek nagyon okosak, ha olyan agymegerőltető dolgokról van szó, mint a sakkozás és az adóbevallások kitöltése, ezért azt gondolhatja, hogy elragadtatják az olyan „egyszerű” tevékenységeket, mint az arcok felismerése vagy a beszéd megértése.
De miután körülbelül 50 éven át próbálták rávenni a számítógépeket ezekre az egyszerű dolgokra, a programozók arra a következtetésre jutottak, hogy egy készség nem egyszerű csak azért, mert az emberek könnyen elsajátítják. Valójában az agyunk, a szemünk és a fülünk tele van kifinomult érzékelő- és feldolgozóberendezésekkel, amelyek még mindig körbefutnak bármit, amit szilíciumból és fémből tervezünk.
Mi, emberek azt gondoljuk, hogy könnyű megérteni a beszédet, mert az igazán kemény munkát még azelőtt elvégezzük, mielőtt tudatosulnánk benne. Számunkra úgy tűnik, hogy az angol szavak csak úgy a fejünkbe jutnak, amint az emberek kinyitják a szájukat. A folyamat tudattalan (vagy tudat előtti) természete kétszeresen megnehezíti a számítógépes programozók számára az utánzást.
Ahhoz, hogy képet kapjon arról, hogy a számítógépeknek miért vannak ilyen problémái a beszéddel, gondoljon valamire, amit nagyon jól felismer és megért: az érintéses telefonszámokra. A telefonvonalak zökkenőmentességei sokkal fontosabbak a számítógépek számára, mint az emberek számára. Az alábbiakban felsorolt számos fontos funkció teszi a telefon hangjait egyszerű nyelvvé a számítógépek számára. Az angol viszont teljesen más.
-
Az érintéshangos „szókincs” mindössze 12 „szót” tartalmaz. Miután ismeri a tíz számjegy, plusz * és # hangjait, már készen is vagyunk. Az angolban viszont több százezer szó van.
-
Egyik szó sem hangzik ugyanúgy. Az érintőhangos telefonokon az „1” hang egyértelműen különbözik a „7” hangtól. De az angolnak vannak olyan homonimái, mint a new és a gnu, és közel olyan homonimák, mint a merrier and marry her. Néha egész mondatok hasonlóan hangzanak: „A fiak húst nevelnek” és „A nap sugarai találkoznak”.
-
A nyelv minden „beszélője” ugyanúgy mondja a szavakat. Bármelyik telefonon nyomja meg az 5-ös gombot, és pontosan ugyanazt a hangot kapja. De egy idős férfi és egy 10 éves lány nagyon különböző hangokat használ, amikor beszél; és a Nagy-Britanniából, Kanadából és az Egyesült Államokból származó emberek nagyon eltérő módon ejtik ki ugyanazokat az angol szavakat.
-
A kontextus értelmetlen. A telefon számára az 1 az 1 az 1. A hang értelmezése nem függ az előző vagy a következő számtól. De az írott angolban a szövegkörnyezet minden. Van értelme „New Yorkba menni”. De sokkal kevésbé értelmes, hogy „menj két New Yorkba” vagy „menj túl New Yorkba”.