„A beszédszintetizátorunk kicsi, de feltűnő része az utastájékoztatásnak”

2014. augusztus 15.

A BME kutatói fejlesztették a Keleti-pályaudvar megújult hangosbemondóját.

Budapest legforgalmasabb személypályaudvarán akár hatvanezer ember is megfordulhat egyetlen nap alatt. A Keleti-pályaudvaron a közelmúltban teljesen megújult az utastájékoztató-rendszer. A hatékonyabb kiszolgálás érdekében kiírt tendert a pro-Montel Zrt nyerte és alvállalkozóival együtt korszerű gépi vezérlőberendezést, új kijelzőket és hangsugárzókat telepített a pályaudvarra, és megváltozott a bemondó hangja is.

A hangosbemondó által közvetített szöveg a ProfiVox-Korpusz elnevezésű szövegfelolvasó (TTS, azaz „Text To Speech”) rendszerre épül, amelyet a BME Beszédkommunikáció és intelligens interakciók laboratóriuma fejlesztett ki. A szintetizátor révén a hang érthetőbb, és könnyebbé vált a szokásostól eltérő információk – például menetrendváltozások és egyéb események – közlése is. „Ez a projekt is, mint a kutatásaink többsége, összetett feladat volt és csapatmunkára épült” – hangsúlyozta Németh Géza, a Távközlési és Médiainformatikai Tanszék docense, a kutatócsoport vezetője. „Összesen hat-nyolc kolléga dolgozott együtt, Zainkó Csaba például az algoritmikus oldalt fejlesztette, Olaszy Gábor fonetikai szakértő volt, Bartalis Mátyás az adatbázis-előkészítés munkálataiban segédkezett.”

A MÁV számára készített rendszernek több előzménye volt. Még a 2000-es évek elején kezdte a kutatócsoport fejleszteni saját, nagy beszédadatbázisokon alapuló (ún. korpusz alapú) felolvasóprogramjait. Az első munka egy időjárásjelentés-felolvasó rendszer volt, amely különböző változatokban azóta is használatban van, ezt egy árlista-felolvasó alkalmazás követte. A laboratórium kapott már vasúti megbízást korábban is: évekkel ezelőtt készítették el az első menetrendi mintaalkalmazást, amely Sárospatakon azóta is üzemel.

„Körülbelül két éve kaptunk felkérést egy profi vasúti menetrendi rendszer elkészítésére” – mesélte a docens. „Ekkoriban kezdődött egy ICT Labs (European Institute of Innovation and Technology – Information and Communication Technologies: EIT ICT Labs) projektünk is, ami kutatási eredmények innovációvá alakítását támogatta. Ennek keretében „mobil és multimodális ember-gép interfész témakörben indítottunk alprojektet a Nemzeti Fejlesztési Ügynökség támogatásával, tehát szerencsésen találkoztak az igényeink a pályázati lehetőségekkel.”

A beszédszintetizátor mesterségesen hoz létre emberi, vagy ahhoz hasonlító hangot. Az első ilyen szerkezetet több mint kétszáz éve konstruálta Kempelen Farkas. (A szintetizátorok történetéről itt olvashat, és meghallgathatja hangjukat is.)

A korábbi technikával a MÁV szakemberei a bemondandó, egy stúdióban előre felvett szövegeket kisebb részekre vágták, és a kívánt sorrendben összefűzték. Nehézséget jelentett, ha olyan információt kellett bemondani, amelynek egyes elemeit korábban nem rögzítették, ilyenkor újra stúdiómunka vált szükségessé a hangfelvétel elkészítésére. A beszédszintézist forradalmasították az utóbbi évek informatikai fejlődésével egyre tökéletesebbé váló ún. TTS (Text To Speech) felolvasó rendszerek, amelyek többféle elven működhetnek. A ProfiVox-Korpusz, mint az a nevében is látható, ún. korpusz-alapú beszédszintetizátor, amely két részből áll: egy beszédadatbázisból (korpuszból) és egy válogató algoritmusból.

A bemondandó szöveget az algoritmus összehasonlítja az adatbázisban szereplő mondatokkal. A hangsugárzón keresztül hallott szöveg végül az adott szöveghez legjobban illeszkedő hangokból és a lehető legkevesebb összefűzéssel megalkotott szólánc. Ideális esetben az algoritmus „talál” teljesen egyező mondatot, a legrosszabb esetben pedig egyedi hangokból állnak elő a keresett (és nem talált) szavak vagy mondatok. Ez utóbbi esetben azonban romlik a hangminőség. A korpusz alapú beszédszintetizáló rendszerek ezért elsősorban kötött témában (pl. időjárás-jelentés, menetrendi tájékoztatás) tudnak jó minőségű beszédet előállítani.

A kutatócsoportnak sok kihívással kellett szembenéznie, amikor először szólalt meg a kellemes női hang a pályaudvar hangszóróiból. „Nagyok az elvárások az utazóközönség részéről, és Szalóczy Pál hangja jól szólt” – ecsetelte a kutató. „Azért döntöttünk mégis a női hang mellett, mert a Keleti nagyméretű csarnokaiban hosszú a hang utánzengési ideje, és a férfi hang erősebben visszhangzik. Itt előnyösebb a női hang, amelynek kevesebb alacsony frekvenciás összetevője van.”

A munka legelső fázisa egy olyan szövegkönyv megalkotása volt, amely a bemondás során hallható tipikus mondatokat tartalmazza. „Össze kellett gyűjtenünk az összes magyarországi állomásnevet és azokat a külföldieket, ahová a MÁV vonatokat küld. Mivel a kiejtésnél az adott ország hivatalos nyelvének kiejtése az irányadó, ki kellett nyomozni a helyes kiejtéseket is. Ráadásul mindezt az angol nyelvű tájékoztatással is össze kellett fésülni, ami szintén összetett feladat volt” – emlékezett Németh Géza docens.

Az is megrendelői igény volt, hogy ne legyen többféle hang az utastájékoztatási rendszerben, tehát olyan bemondót kellett találni, akinek jó hangja van, több nyelven is tud, de legalább követni tudja a szükséges kiejtést. Hosszú keresés után Mátyus Katalinra, a Kossuth Rádió munkatársára esett a választás. A szakember több mint száz órát töltött a stúdióban, ebből közel ötven órányi hanganyagot rögzítettek. „Az emberek azt várják a TTS technikától, hogy bármilyen szöveget írjanak is a rendszerbe, az tökéletesen szóljon, holott az emberi hang sem tökéletes” – vázolta az akadályokat Zainkó Csaba adjunktus. „Fontos volt, hogy a bemondó által mondott szöveg hangjai mindig egyformán szóljanak, hiszen ha különböző hangfekvésben szól egy-egy szövegrészlet, az nagyon hallatszik az összefűzéskor.”

A nyers hanganyagból hosszú munka eredményeként lett használható adatbázis. A szöveglista és a hanganyag közötti párhuzamok megtalálásában nagy segítséget nyújtott a tanszéken korábban kifejlesztett beszéd-felismerési technológia, amely automatizálta a fáradságos manuális munkát.

A munka különlegessége volt az is, hogy a korábbi megbízásokkal szemben a Keleti-pályaudvaron angol nyelvű szövegekre is szükség volt. „A magyar fonetikus nyelv, ezért viszonylag könnyen kikövetkeztethető, hogy mi hangzik el” – mesélte Németh Géza. „A magyar nyelvű szintézis során is jelenthetnek akadályt az összetett szavak vagy a szóhatárok, a kettős betűk, pl. hogy a „nagyközség” szót hogyan ejtse a gép. Vagy ha azt mondom, hogy „6A vágány” akkor az „a” hangot máshogy ejtem, mintha névelő lenne. Az angolban viszont szinte több a kivétel, mint a szabály. Olyan kérdésekben is állást kellett foglalnunk, hogy hogyan mondjuk a pontos időt angolul, hiszen a „vasúti angol” különbözik a köznapitól. Azt is figyelembe kellett venni, hogy valószínűleg szlovákok, románok, németek stb. akarják megérteni az angol szöveget. Végül a kiválasztott, ún. „közép-európai vasutas angol” miatt került a szókészletbe például a brit vasúton használatos „calling at” helyett az átlagos utazó által valószínűleg jobban érthető „stopping at” kifejezés azokra az állomásokra/megállóhelyekre/pályaudvarokra, ahol a vonat megáll. A helységneveket pedig az adott ország hivatalos nyelvének megfelelő kiejtéssel kellett bemondani, tehát Kolozsvár a magyar bemondásban Kolozsvár, az angolban Cluj-Napoca lett.”

Az elkészült adatbázis használatához kifejlesztett algoritmus elsősorban Zainkó Csaba munkája volt: „Volt egy alap TTS-ünk – mesélte – de a MÁV nagyon sok speciális igényt támasztott, és nemcsak a szakszókincs jelentett feladatot, hanem az is, hogy egy ilyen rendszer azt olvassa föl, amit lát, tehát pl. az elírásokat is. Ez utóbbi javítására is ki kellett valamit találnunk. A Keleti azért is „nehéz terep”, mert gyakran változik a menetrend a sok átépítés miatt, így sok extra üzenet van, és mivel fejállomás, sok speciális technikát alkalmaznak, ilyen például a kitolatás, a betolatás, amelynek saját szókincse van.

A korpusz e mellett időközben is bővítésre szorult, azt például, hogy a vágány elejéről, közepéről és végéről is indul vonat, már a fejlesztés közben javítottuk. A leggondosabb korpuszépítés ellenére is kimaradhatnak szavak: a rendszer éles használatának első napján indult például a ’Székely gyors-Csíksomlyó Express össznemzeti zarándokvonat’, amelynek egy részét hangokból szintetizálta a ProfiVox-Korpusz, mivel eredetileg nem szerepelt a szövegkönyvben.”

A rendszer tesztelése és finomhangolása is a kutatókra várt. Figyelembe kellett venniük, hogy a Keleti pályaudvar az ország legforgalmasabb személypályaudvara. A katasztrófahelyzetekre pl. bombariadóra vagy földrengésre vonatkozó információk bemondását nem lehetett napközben tesztelni, csak éjjel, és akkor is körültekintően.

Az utastájékoztatás nagyon összetett feladat, aminek a mi szintetizátorunk csupán egy kicsi, bár nagyon látványos része” – hangsúlyozta Németh Géza. „Ha a hangzásba bármilyen hiba csúszik, azt mondják az utasok, hogy rossz a szintetizátor. Pedig lehet, hogy a probléma az erősítéssel van. Vagy a sok-sok hangsugárzó hatása éppen rossz fázisban adódik össze. Bajt okozhat a túlzott hangerő is. Amikor beindítottuk a rendszert, a mozdonyvezetők azonnal panaszkodtak, hogy nem hallják tőle a saját üzemi telefonjukat. Ha levesszük a hangerőt, akkor elképzelhető, hogy a távolabbi vágányokon már nem hallatszik a hang. Szinte minden egyes vágányra, minden egyes akusztikai körülményre külön kellett hangolni a hangerőt és hangminőséget.”

A beüzemelt utastájékoztató rendszer használatának megtanítása és utólagos tökéletesítése miatt a kutatók kapcsolata folyamatos a MÁV-val. „A jövőben azokon az állomásokon, ahol lecserélik az utastájékoztató rendszert, remélhetőleg az általunk fejlesztett szintetizátort fogják alkalmazni, ezért sok munkára számítunk. E feladatok újabb és újabb kihívásokat tartogatnak” – összegezte Németh Géza, a Távközlési és Médiainformatikai Tanszék kutatója.

- HA -

Fotó: Pintér Erik

Kiemelt kép forrása: index.hu