Češi vyvinuli "lovce zločinců"

Nemluví v telefonu náhodou Usáma bin Ládin? Poslechnout si stovky podezřelých telefonních rozhovorů zabere lidem z tajných služeb hodiny. Jejich ostražitost v průběhu dne postupně klesá, a snižuje se tak i šance na odhalení známého teroristy.

To by se však mělo v budoucnu změnit. Vědci z Fakulty informačních technologií Vysokého učení technického v Brně totiž nedávno představili automatického, rychlého a velice spolehlivého "lovce zločinců". Jimi vyvinutý systém dovede s vysokou úspěšností rozpoznat mluvčího. Poslechne si dvě krátké hlasové nahrávky a vcelku bezpečně rozhodne, zda je namluvil tentýž člověk.

Systém brněnských vědců dokonce uspěl v prestižním mezinárodním klání, které pořádá americký Národní úřad pro standardizaci (National Institute of Standards and Technology, NIST). Letos se ho zúčastnilo 38 týmů složených ze zástupců univerzit i firem z celého světa.

"Pravidla soutěže nám nedovolují říct, jak přesně jsme se umístili. V rozpoznávání hlasu však patříme ke světové špičce," podotýká Jan Černocký, vedoucí výzkumné skupiny Speech@FIT.

Záchrana před cestou do slepé uličky

Brněnští vědci se do soutěže přihlásili společně s kolegy z Nizozemska a Jihoafrické republiky. Ti jim předali řadu cenných zkušeností - klání se totiž na rozdíl od týmu z VUT zúčastnili i v minulých letech.

A jak taková mezinárodní soutěž vlastně probíhala? Jednotlivé týmy nejprve zhruba měsíc zdokonalovaly svůj vlastní systém pro identifikaci hlasu. Měly k dispozici několik tisíc "trénovacích" vzorků řeči a s jejich pomocí "učily" systém poznat mluvčího.

"Se zahraničními partnery jsme si vyměnili asi šest stovek e-mailů. Doporučovali nám například, jaké vědecké články si máme přečíst, abychom se posunuli vpřed," popisuje spolupráci koordinátor projektu Pavel Matějka, "my jsme zase využili naše rozsáhlé know-how z rozpoznávání řeči a jazyka a velký výpočetní výkon našich počítačů.

Provedli jsme pro kolegy z Nizozemska a Jihoafrické republiky velké množství experimentů. Některé nápady jsme pak mohli rovnou vyloučit jako cesty vedoucí do slepých uliček."

Tři týdny před ukončením soutěže dostali všichni účastníci dvě sady dat: zhruba pětiminutové nahrávky více než tří set rozhovorů v různých jazycích. Dané dvojice nahrávek měli pomocí vyvinutého systému porovnat a určit, zda na nich hovoří tentýž člověk, nebo zdatný imitátor.

Hlas se proměnil v řadu čísel

Základní struktura hlasu je dána stavbou mluvicího ústrojí. Roli tedy hraje například umístění jazyka nebo míra otevření úst. Jemnější rozčlenění hlasového spektra odráží, jak hlasivky při mluvení kmitají. Vědci nejprve tyto charakteristiky lidského hlasu "převedli" na sadu reálných čísel.

Protože účastníci experimentu hovořili přes mobil, pevnou linku nebo internetový telefon, museli výzkumníci "odečíst" také vliv způsobu komunikace. Následné, poměrně složité matematické modelování pak umožnilo určit identitu mluvčího s přesností na 90 procent.

Mezinárodní soutěž má především posunout světový vývoj kupředu. "Všechny zúčastněné týmy se proto zhruba měsíc po vyhlášení výsledků sešly na konferenci, kde popsaly, jak při vytváření systému pro rozpoznávání hlasu postupovaly," upozorňuje na jednu z výhod akce Pavel Matějka. Podobná setkání by podle něj měla přispět ke vzniku celosvětové báze vědomostí a zamezit tomu, aby vědci zkoumali již dříve "objevené". "Protože všichni účastníci pracují se stejnými daty, nabízí soutěž také objektivní srovnání s předními světovými týmy," doplňuje Jan Černocký.

Terorista nesmí uniknout

Co si Václav Klaus myslel o pravomocích prezidenta v době, kdy byl ještě premiérem? Jak se k uvedenému tématu vyjadřoval v rádiu? Hledání odpovědi usnadní nově vyvinutý systém rozpoznávání hlasu. V rozhlasovém archivu najde rozhovory a vyjádření Václava Klause. V nich by po další úpravě mohl vyhledávat podle klíčových slov - například tedy dle hesla "pravomoci prezidenta".

"Pokud by si určitá firma nahrávala schůze správní rady, může náš systém najít třeba všechno, co řekl člověk, který mívá často dobré nápady," uvádí další příklad praktického využití docent Černocký. Systém také pomůže zkvalitnit obsluhu v callcentrech. "Z několika vteřin řeči pozná, že právě volá jeden z důležitých zákazníků a přepojí ho na osobního operátora," podotýká Pavel Matějka.

Díky novému systému by se mohl při ověřování totožnosti klienta v bankách využívat také hlas. "Patrně by však šlo spíše o doplnění jiných biometrických údajů, jako jsou otisky prstů nebo snímky oční rohovky. Hlasová identifikace nebude nejspíše nikdy stoprocentně úspěšná," vysvětluje Jan Černocký.

Lidský hlas se výrazně mění třeba při nachlazení. Proměňuje se také v průběhu času - s přibývajícím věkem. "Určité odlišnosti ve struktuře hlasu můžeme zaznamenat už po několika měsících," doplňuje Pavel Matějka.

Největší zájem o systém rozpoznávání hlasu však zatím mají obranné složky. Mohl by jim pomoci třeba při ověřování svědectví nebo identifikaci podezřelého.

Se způsobem praktického využití souvisí i nastavení takzvaného detekčního prahu. Pokud je hodnota této veličiny nízká, systém bude chybovat spíše v tom, že jako pravého řečníka označí větší okruh lidí. Takové nastavení je vhodné například pro tajnou službu. Než aby přehlédla jednoho skutečného teroristu, raději osobně prověří větší množství systémem předvybraných "kandidátů".

Opačný případ, vysokou hodnotu detekčního prahu, by podle docenta Černockého preferovala třeba banka. Ta by raději při ověřování identity klienta občas odmítla skutečného majitele účtu a donutila ho vyplnit například ještě PIN, než aby se k obsluze účtu, byť jen jednou, dostal někdo nepovolaný.

EVA HNÍKOVÁ, LIDOVÉ NOVINY

obsah | Česká republika