Text mining pomáhá s volebními průzkumy i prevencí kriminality, říká docent Dařena

Pojem „text mining“ pro vás sice může být španělskou vesnicí, přesto je to oblast, která každý den ovlivňuje naše životy. Docenta Františka Dařeny, odborníka na tuto problematiku, jsme se zeptali, co se pod tímto tajemným termínem skrývá.

Mohl byste ve stručnosti vysvětlit, co je to text mining?

Text mining, česky dolování textových dat, je disciplína, jejíž cílem je hledání užitečných informací a znalostí v textech. Tyto znalosti, mající obvykle podobu vzorů či pravidel, nejsou často na první pohled zřejmé a vyžadují analýzu velkého množství dokumentů. Aplikace najdeme v celé řadě oblastí, jako analýza sociálních médií, zákaznická podpora, hledání zaměstnanců, kontextová reklama, internetová bezpečnost, obchodování na burze, práce s akademickými zdroji, marketingový výzkum či prevence kriminality.

Kdy a proč jste se rozhodl věnovat této oblasti?

Oblasti text miningu se věnuji asi 10 let. V této době už bylo jasné, že informace v podobě textu psaného přirozeným jazykem, což je pro člověka nejběžnější prostředek komunikace, byly pro všechny stále dostupnější. Například v prostředí internetu přestali být uživatelé pouhými konzumenty informací, ale sami jeho obsah aktivně vytvářeli. Téměř každý z nás dnes sdílí svoje myšlenky na sociálních sítích, komentuje novinové články, píše recenze na produkty a služby či elektronicky komunikuje s kolegy v práci. Uvádí se, že až 80 % dat na internetu má podobu textů. Řada firem a institucí si tak začala uvědomovat, že v často zcela volně dostupném textovém obsahu mohou být ukryty velmi cenné znalosti nebo že lze automatizovaným zpracováním textů (například dotazů zákazníků) ušetřit nemalé množství zdrojů. Oblast text miningu se tak stala velmi atraktivní a v posledních letech prochází bouřlivým rozvojem.

Text mining pracuje s několika základními metodami. Které to jsou a jaká jsou jejich specifika?

Dalo by se říct, že text mining je velmi blízký disciplíně známé jako data mining. Obě dvě se zaměřují na automatizované hledání znalostí ukrytých ve velkém objemu dat a řeší podobné třídy úloh, jako je například klasifikace, shlukování či hledání asociací. Pro řešení problémů se také často používají v podstatě stejné metody z oblasti statistiky a umělé inteligence. Zásadní rozdíl je však v charakteru dat, se kterými se pracuje. Data mining vyžaduje, aby data byla ve strukturované podobě (tabulky), zatímco textová data jsou nestrukturovaná. Významná část procesu analýzy textových dat tedy spočívá v převedení textových dat do strukturované podoby tak, aby mohla být analyzována existujícími algoritmy. Toto zpracování obvykle vyžaduje znalosti daného jazyka a jeho struktury. Text mining také řeší specifické úlohy, které vyplývají z povahy lidského jazyka a jeho používání. Těmito úlohami je například analýza mínění (sentimentu), odpovídání na otázky, počítačový překlad nebo sumarizace dokumentů.

Text mining se používá například pro kontrolu plagiátorství, ale lze jej využít i důmyslněji. V posledních letech tak data využívají například politici v rámci svých kampaní. Jak jim může text mining pomoci dosáhnout kvalitních volebních výsledků?

Nejen v čase voleb politické strany prezentují na různých platformách své kandidáty, programy, kritizují své protikandidáty, zveřejňují rozhovory, proslovy apod. Ostatní lidé pak o všem mohou diskutovat a sdělovat své názory. Toto vše má podoby textů psaných v přirozeném jazyce.

Počítačový program může automatizovaně tyto texty, typicky obsahující určitá klíčová slova, posbírat a uložit pro další analýzu. Z textů lze zjistit, jaká témata lidé diskutují, jaký postoj mají k určité osobě, události či opatření, jak frekventovaný je určitý názor a jak se toto vše mění v čase.

Konkrétní aplikace zahrnují například určení politické orientace osoby či celého webu, předpovídání výsledků voleb či volební účasti. Disciplínou, která se zde velmi často uplatní, je analýza mínění.

Text mining se začíná prosazovat i do oblasti kriminalistiky. Jak může pomoci při vyšetřování trestných činů?

Pomocí metod text miningu je možné v databázích trestných činů vyhledávat texty popisující podobné činy, které se udály v minulosti, v policejních zprávách hledat jména pachatelů a zkoumat propojení mezi nimi, hledat určité vzory v popisech trestných činů, z novinových článků odhalit, jaké činy se páchají v určitých regionech, monitorovat aktivit teroristů, odhalovat autory dokumentů apod. Zjištěné informace mohou být užitečné nejen při samotném vyšetřování, ale také při prevenci či organizaci práce policie.

Dokázal byste odhadnout, kam se bude text mining nadále vyvíjet? Existují nějaké nové oblasti, které by ho mohly využívat jako analytický nástroj?

Komunikace pomocí přirozeného jazyka je dnes stále běžnější, nejen při realizaci rutinních úkolů, ale také například při použití různých chytrých asistentů či rozšířené reality. Objemy dostupných textových dat budou tedy i nadále růst a důležitost text miningu také. V celé řadě odvětví, jakou jsou například zdravotnictví, turismus, pojišťovnictví, sociologie či veřejná správa lze vidět nové aplikace a využití výsledků text miningu při řešení běžných provozních problémů, ale také výzkumných otázek.

S rostoucí světovou globalizací lze očekávat rozvoje aplikací umožňujících univerzálně pracovat s různými světovými jazyky. Rozvoj informačních technologií a jejich výpočetní a paměťové kapacity, řada dostupných analytických nástrojů, data a modely poskytované největšími světovými technologickými hráči (např. Google, Facebook) umožní nasazení text miningu ve stále větším počtu firem a institucí.