Meetup VIII. – Lightning talks 2 (21. 1. 2015)

Opět jsme se sešli v Paralelní Polis na již osmém MLMU. Téma bylo lighting talks, na programu byly hnedka tři. Pojme si je připomenout.

 

František Polach – Exploiting characteristic patterns in DNS traffic

František Polach nás zasvětil do problému klasifikace uživatelů podle jejich requestů na DNS servery. Zajímavé je, že se při tom využívá metod známých z text miningu – příznakový vektor má dimenzi slovníku domén ve kterém je v každé dimenzi počet requestů na danou doménu z dané IP adresy za pevně stanovený časový okamžik (analogie bag-of-words modelu). Tento příznakový vektor se posléze může ještě transformovat pomocí TF-IDF, metody také notoricky známé z domény natural language processing.

IMG_20150121_185312

 

František také nastínil problém ze druhé strany – jak se co nejúčiněji bránit jako uživatel svému rozpoznání. Metoda založena na popisu výše dosahuje accuracy > 80%. Je ovšem velmi náchylná na šum – vám jako uživateli stačí udělat několik requestů na náhodné adresy a pro klasifikátor se stanete prakticky neviditelným, přesnost klesne totiž pod 30%.

 

Lukáš Drápal – Machine Learning in Telco

Lukáš Drápal již prezentoval na prvních lighting talks. Na tom dnešním nám vyprávěl o tom, jak řešili úlohu klasifikace pohlaví a věkové kategorie uživatelů pro mobilní operátory. Je sice pravdou, že pokud operátor prodá paušální tarif, pak o uživateli ví vše ze smlouvy, ovšem v síti jsou i tací uživatelé, o kterých nic známo není. Ti pocházejí z předplatných karet a ze situací, kde např. firma nakoupí celý balík sim karet, které poté rozdá svým zaměstnancům.

IMG_20150121_191543

Lukáš nás krátce zasvětil do příznaků, které k rozpoznávání použili. Většina z nich kóduje charakteristiky z grafu komunikace – vrcholy jsou telefonní čísla a hrany vedou mezi těmi čísly, která spolu komunikovali v minulosti. K minování těchto dat z grafu použil nástroj SNAP – dokáže zvládnout ohromné množství dat a je zdarma.

 

Bohumír Záměčník – Time Series

Bohumír Zámečník začal povídat o analyze finančních řad. Popsal jejich některé statistické vlastnosti jako napříkad nestacionaritu či jejich fraktální charakter (popsaný napříkad už matematikem B. Mandelbrotem již v 20. století), které je dělají v jistém smyslu „těžkými“. Zkrátka jejich predikce pouze z jejich průběhu z minulosti je nemožným úkolem.

IMG_20150121_193623

Dále jsme se věnovali analýze a visualizaci hudby – na ní lze pohlížet jako na časovou řadu, kde měřenou veličnou je akustický tlak, potažmo celé spektrum. Hudba narozdíl od finančních řad ovšem vykazuje jistou míru vnitřní struktury a proto je možné součastnými metodami např. segmentovat úseky skladby kde je zpěv nebo naopak instrumentální vložka. Bohumír nám také ukázal něktéré metody, jak hezky visualizovat několika dimenzionální časovou řadu.

Záznam: Youtube