Meetup VI. – Michal Illich (10. 12. 2014)

O prezentaci

Každý den používáme služby založené na strojovém učení, aniž by to většina z nás věděla. Michal Illich vám poví o deep learningu, tedy moderních, hlubokých neuronových sítích – k čemu se dají použít a proč jsou tak dobré.

O Michalu Illichovi

Michal Illich vyvíjel webové vyhledávače od roku 1999. Roku 2002 založil Jyxo, s.r.o., které dodávalo fulltextové vyhledávání pro Atlas, Seznam, Zoznam.sk, Azet.sk, Tango.hu, Vodafone a další. Jyxo také vyvinulo Blog.cz, který se stal pátým nejnavštěvovanějším českým serverem, a reklamní systém, který po 3 a půl roku poháněl Sklik na Seznam.cz. V květnu 2008 firmu Jyxo koupil CET 21 a Michal tam dva roky pracoval jako šéf internetového vývoje. Od června 2010 pracuje na mezinárodních projektech, zejména univerzální čtečce FlowReader.com, testovací službě Testomato.com a komunitním webu Devel.cz. Zároveň je investorem ve http://startupyard.com/ ve kterém je za 4 týdny uzávěrka na přihlášky.

Podrobnosti připravujeme

 

Záznam prezentace: Youtube

Meetup V. – Josef Šlerka (26. 11. 2014)

Josef Šlerka ze Socialbakers zavítal 26. 11. 2014 do Paralelní Polis na poslední MLMU s tématem Fingerprinting. O co se jedná? Josef nám popsal svůj problém, který řeší v Socialbakers – chtějí sledovat impakt tweetu, ovšem pomocí „hard matching“ o něm můžou ztratit přehled – klientská aplikace přidá k textu slova jako RT:, via @…, jiný zkracovač URL apod. a text je rázem jiný.

Myšlenka je tedy taková, že budeme hledat nějaké neprosté zobrazení tak, aby podobné vstupní vzory zobrazovalo na stejné nebo nedaleké obrazy. Jedním z přístupů je použít hashovacích funkcí.

mlmu5a

Josef popsal jeden možný přístup založený na kompresi dvojic vstupů a porovnávání velikosti výsledku s velikostí samotných komprimovaných entit. Intuice je taková, že pokud jsou oba vstupy podobné, tak jejich spojení půjde zkomprimovat také v podobé míře jako vstupy samotné.

Tím se pomalu posouváme k samotné myšlence algoritmu SimHash – pro sekvenci znaků (tj. text). vytvoří její hash tak, aby malá změna v původním textu pouze trochu změnila její simhash. Pokud potom budeme chtít hledat např. podobné tweety, budeme hledat Simhashe v blízké Hammingově vzdálenosti k vstupu. Výhody jsou hnedka dvojí – vyhlazení „šumu“ a efektivita hledání. Algoritmus umožňuje dokonce vážit vstupní slova či znaky, což se hodí pro potlačení vlivu stop-words (bežná výplňová slova v mluvě bez informačního významu) na výsledek.

mlmu5b

 

Po skončení jako vždy následovala neformální diskuse s přednášejícím a mezi samotnými posluchači. Přiště přivítáme Michala Illicha na přednášce o Deep Learningu. Nezapomeňte dorazit!

Prezentace: Slideshare

Videozáznam: Youtube

Meetup IV – Lighting talks (12. 11. 2014)

Po dvou týdenní pauze jsme se opět sešli v Paralelní Polis ale tentokrát trochu s jiným programem – viděli jsme 5 (+1) cca deseti minutových lighting talků z různých zajímavých oblastí. Pojme si je shrnout.

IMG_20141112_183519

Jako první se slova ujali slova Jana Papoušková a Lukáš Drápal ze společnosti CGI a řekli nám něco o platformě Kaggle.com – místo, kde (většinou) velké společnosti vypisují soutěže týkající se jejich problémů, ktIMG_20141112_184102eré mohou data scientists řešit. Jana a Lukáš dokonce jednu z těchto soutěží vyhráli v konkurenci dalších 1400 týmů a dali nám všem tipy, jak v podobných challenges uspět.

IMG_20141112_184102

 

Jako další nastoupil Ondřej Pluskal – student doktorského programu na FEL ČVUT a data scientist ve společnosti Geewa. Mluvil o využití machine learningu v počítačových hrách – například k segmentaci hráčů či predikci in-app nákupů v online hrách, čímž se právě v Geewě zabývá.

IMG_20141112_185358

Petr Baudiš mluvil o svém Question answering systému pro otevřenou doménu dotazů, což znamá, že umí odpovídat na otázky ohledně čehokoliv. Pipeline jeho systému (vlastním jménem brmson) je podobná jako v případě IBM Watson – po anotaci vstupní otázky lingistickými příznaky dojde na entity recognition, poté fulltext search v anglické Wikipedii, čímž se získá seznam kandidátů na odpověď. Ty se ohodnotí logistickou regresí a vrátí se nejpravděpodobnější odpověď. Důležitým příznakem pro tuto poslední fázi je určení, zda vyhledaná odpověď je „stejného typu“ jako otázka (je to řeka? je to osoba? apod.).

IMG_20141112_190852

Marek Modrý ze Seznam.cz nám představil problém Learning to Rank – jak se naučit řadit množinu elementů? Vymezil se oproti přístupům používající regresi či klasifikaci a představil dnešní state-of-the-art metody založené na MART (Multiple Additive Regression Trees). Ty fungují tak, že se snaží aproximovat kriteriální funkci reprezentující kvalitu seřazení (která není diferencovatelná a celkově není hezky vychovaná) pomocí mnoha (stovky až tisíce) mělkých stromů.

IMG_20141112_192944

 

Další byl na řadě Josef Moudřík z MFF UK. Představil nám problémy AI ve hře Go a metodu, jak je částečně řešit pomocí pattern miningu z odehraných her profesionálních hráčů. Díky tomu je schopen predikovat herní styly protivníků či klasifikovat chybné tahy pravděpodobně vedoucí k prohře.

IMG_20141112_194417

Jako poslední promluvil zástupce společnosti Plantyst zabývající se monitoringem průmyslových provozů a různých jiných strojů. Chtěl od nás zjistit nějaké nápady co by se dalo dělat s daty, která mají uloženy za několik posledních let, popřípadě chtěl nahirovat někoho, kdo by jim problém pomohl řešit. V podstatě se jedná o hledání rozličných anomalit a predikci budoucího selhání systému tak, aby včasné řešení minimalizoval ztráty na výrobě.

IMG_20141112_200047

Podle vašich ohlasů se vám všechny talky líbili a chtěli byste speakery pozvat znovu na kompletní přednášku. Díky za vaši přízeň!