Tietokoneet ovat erittäin älykkäitä aivoja rasittavien asioiden, kuten shakin pelaamisen ja veroilmoitusten täyttämisen, suhteen, joten saatat luulla, että ne ovat kiinnostuneita "yksinkertaisista" toiminnoista, kuten kasvojen tunnistamisesta tai puheen ymmärtämisestä.
Mutta kun noin 50 vuotta on yritetty saada tietokoneet tekemään nämä yksinkertaiset asiat, ohjelmoijat ovat tulleet siihen johtopäätökseen, että taito ei ole yksinkertainen vain siksi, että ihmiset hallitsevat sen helposti. Itse asiassa aivomme, silmämme ja korvamme ovat täynnä kehittyneitä anturi- ja prosessointilaitteita, jotka edelleen pyörittävät kaiken, mitä voimme suunnitella piistä ja metallista.
Me ihmiset ajattelemme, että puheen ymmärtäminen on helppoa, koska kaikki todella kova työ tehdään ennen kuin tulemme tietoisiksi siitä. Meistä näyttää siltä, että englanninkieliset sanat vain poksahtavat päähämme heti, kun ihmiset avaavat suunsa. Prosessin tiedostamaton (tai tiedostamaton) luonne tekee tietokoneohjelmoijille kaksinkertaisen vaikean jäljitellä sitä.
Saadaksesi käsityksen siitä, miksi tietokoneilla on niin suuria puheongelmia, mieti jotain, jonka ne ovat erittäin hyviä tunnistamaan ja ymmärtämään: kosketusäänipuhelinnumeroita. Nämä puhelinlinjojen häipymiset ovat paljon merkityksellisempiä tietokoneille kuin ihmisille. Useat tärkeät ominaisuudet tekevät puhelimen äänistä helpon kielen tietokoneille, lueteltu alla. Englanti sen sijaan on täysin erilaista.
-
Kosketusäänen "sanastossa" on vain 12 "sanaa". Kun tiedät kymmenen numeron plus * ja # äänet, olet mukana. Toisaalta englannin kielessä on satoja tuhansia sanoja.
-
Mikään sana ei kuulosta samalta. Kosketusäänipuhelimessa "1"-ääni eroaa selvästi "7"-äänestä. Mutta englanniksi on homonyymejä, kuten new ja gnu, ja lähellä homonyymejä, kuten merrier and marry her. Joskus kokonaiset lauseet kuulostavat samalta: "Pojat kasvattavat lihaa" ja "Auringon säteet kohtaavat".
-
Kaikki kielen "puhujat" sanovat sanat samalla tavalla. Paina minkä tahansa puhelimen 5-painiketta, niin saat täsmälleen saman äänen. Mutta iäkäs mies ja 10-vuotias tyttö käyttävät hyvin erilaisia sävyjä puhuessaan; ja ihmiset Iso-Britanniasta, Kanadasta ja Yhdysvalloista ääntävät samat englannin sanat hyvin eri tavoin.
-
Konteksti on merkityksetön. Puhelimelle 1 on 1 on 1. Äänen tulkitseminen ei riipu edellisestä tai seuraavasta numerosta. Mutta kirjoitetussa englannissa konteksti on kaikki kaikessa. On järkevää "mennä New Yorkiin". Mutta on paljon vähemmän järkevää "mene kahteen New Yorkiin" tai "mene liian New Yorkiin".