Meetup V. – Josef Šlerka (26. 11. 2014)

Josef Šlerka ze Socialbakers zavítal 26. 11. 2014 do Paralelní Polis na poslední MLMU s tématem Fingerprinting. O co se jedná? Josef nám popsal svůj problém, který řeší v Socialbakers – chtějí sledovat impakt tweetu, ovšem pomocí „hard matching“ o něm můžou ztratit přehled – klientská aplikace přidá k textu slova jako RT:, via @…, jiný zkracovač URL apod. a text je rázem jiný.

Myšlenka je tedy taková, že budeme hledat nějaké neprosté zobrazení tak, aby podobné vstupní vzory zobrazovalo na stejné nebo nedaleké obrazy. Jedním z přístupů je použít hashovacích funkcí.

mlmu5a

Josef popsal jeden možný přístup založený na kompresi dvojic vstupů a porovnávání velikosti výsledku s velikostí samotných komprimovaných entit. Intuice je taková, že pokud jsou oba vstupy podobné, tak jejich spojení půjde zkomprimovat také v podobé míře jako vstupy samotné.

Tím se pomalu posouváme k samotné myšlence algoritmu SimHash – pro sekvenci znaků (tj. text). vytvoří její hash tak, aby malá změna v původním textu pouze trochu změnila její simhash. Pokud potom budeme chtít hledat např. podobné tweety, budeme hledat Simhashe v blízké Hammingově vzdálenosti k vstupu. Výhody jsou hnedka dvojí – vyhlazení „šumu“ a efektivita hledání. Algoritmus umožňuje dokonce vážit vstupní slova či znaky, což se hodí pro potlačení vlivu stop-words (bežná výplňová slova v mluvě bez informačního významu) na výsledek.

mlmu5b

 

Po skončení jako vždy následovala neformální diskuse s přednášejícím a mezi samotnými posluchači. Přiště přivítáme Michala Illicha na přednášce o Deep Learningu. Nezapomeňte dorazit!

Prezentace: Slideshare

Videozáznam: Youtube