Meetup III. – O. Plátek, L. Žilka – Učíme se mluvit s počítačem (29.10.2014)

Ve středu 29.10.2014 jsme se opět sešli, tentokrát v krásných prostorách Paralelního Polis v Holešovicích, na přednášku s názvem Učíme se mluvit s počítačem. Ondra Plátek a Lukáš Žilka z Ústavu formální a aplikované lingvistiky na MFF UK. Představili nám hlavní komponenty jejích dialogového systému Alex. Pokud si jej chcete vyzkoušet a zároveň pomoci rozšířit trénovací množinu učících algoritmů, zavolejte na 800 899 998.

mlmu3b

Začátek přednášky. Proč si povídat s počítačem?

Pipeline systému Alex začíná speech recognition komponentou, která nejprve provede základní techniky zpracování signálů – low pass filter, filtrace šumu apod. Dále se signál segmentuje do časových okýnek, které zhruba reprezentují trifonémy. Ty jsou zclusterovány (pro redukci dimenze) a dále jsou poslány pro evaluaci do akustického modelu, který spočítá pravděpodobnost pozorování signálu za podmínky nějaké hypotézy (slova). Tento model je realizován pomocí HMM. Dále se bere ještě v úvahu pravděpodobnost vlastní hypotézy (language model) realizovaný pomocí n-gram modelu natrénovaného specificky pro doménu Alex.

Takto se vybere list best-n hypotéz, které poté prochází dalšími komponentami, jako například entity recognition, aby se z textu vyparsovala důležitá slova, na které se uživatel vlastně ptá. Následuje komponenta která formou stavového automatu určí, zda-li má dostatek informací k poskytnutí odpovědi nebo jestli se ještě na něco zeptá.

Po syntéze odpovědi (šablonový systém) je výsledek předán do komerčního speech syntetizátoru a přehrán přes telefon.

mlmu3a

Po krátké diskusi po přednášce jsme se přesunuli do blízkého restauračního zařízení, kde jsme dále diskutovali nápady na vylepšení Alex, pravděpodobnostní interpretaci výstupu SVM a řeč přišla i na jazyk Python a jeho varianty Cython, PyPI apod.

Těšíme se opět na dalším meetupu.

Meetup II. – Pavel Kordík: Meta learning (15.října 2014)

Pavel Kordík z ČVUT FIT k nám zavítal do prostor IBM na Chodově a přednášel o meta learningu. Prezentaci odstartoval tématem boostingových a bagging metod – zopakoval princip algoritmu AdaBoost, dále mluvil obecně o ensemble metodách a o tom, proč vlastně fungují.

Pavel Kordík
Přednáška může začít. Marek Modrý, Pavel Kordík (zleva).

Ve druhé části jsme naťukli samotné téma meta learningu – budování databází datasetů a algoritmů, které na nich dobře fungují. Využití těchto technik v praxi doložil jejich aplikací v produktu společnosti Modgen, jejímž je spoluzakladatelem.

Po skončení úvodní přednášky následovala zajímavá diskuze – posluchači se chtěli dozvědět nejvíce zejména detaily implementace a funkcionality výše zmíněného Modgen systému. Hovořili jsme například o tom, jak přesně se optimalizují obecné šablony klasifikátorů a jak se do nich hledají parametry. Z publika bylo také několik dotazů na metodiku měření výkonu naučených klasifikátorů, které Pavel s radostí zodpovídal.

Po mírně moderované diskusi jsme se přesunuli do nedalekého restauračního zařízení, kde dále odborná diskuse pokračovala návrhy na vylepšení ModGenu a dalšího směřování formátu MLMU.

Posluchači Pavla Kordíka
Posluchači během diskuse.

 

Prezentace: k dispozici zde.

Videozáznam: bohužel není k dispozici.

Meetup I. – Jiří Materna: Budoucnost strojového učení (1.října 2014)

Rychlé odkazy: Videozáznam prezentace (YouTube) nebo dole pod článkem

Historicky první MLMU meetup se uskutečnil 1. října 2014 v pražském hackerspacu brmlab, hned vedle zastávky metra Vltavská. Zájem o první meetup překonal (několikanásobně) naše představy a brmlab se tak zaplnil do posledního místa. Řečníkem prvního setkání byl Jiří Materna, šéf výzkumu ve společnosti Seznam.cz, který si připravil prezentaci na téma Budoucnost strojového učení.

Meetup 1 - Zaposlouchané obecenstvoBěhem své prezentace se zaměřil zejména na (dle svých slov) budoucnost praktického strojového učení a to hlavně z pohledu internetového vyhledávače. Přednáška vypíchla hned několik důležitých faktorů, na které se musí moderní machine learning zaměřit a to například zpracování velkého množství dat, škálovatelnost, kvalitu výsledků a v neposlední řáde cenu, za kterou toto všechno získáme. Za nejvýznamnější trendy v machine learningu pak byly vypíchnuty tři oblasti – práce s velkými daty (během prezentace označováno raději jako Large Data, než Big Data), Deep Learning a následně pak využívání Ensemble learning technik.

Náš host se po shrnujícím úvodu dotkl hned několika zajímavých témat, z nichž snad všechny by stály za to, aby byly tématy některých budoucích meetupů (snad se zadaří). Vzhledem k formátu prezentace jsme neměli dost času, abychom mohli některé z témat rozebrat do velkých technických podrobností, ale jako lákavá ochutnávka to jistě stačilo. Sami posuďte, šlo o Learning to Rank, Word2vec, Deep learning, DeViSE a určitě jsme ještě něco zapomněli vyjmenovat. Samotnou budoucnost strojového učení pak Jiří Materna spatřoval v unsupervised a semi-supervised technikách, automaticky konstruovaných hlubokých a komplexních struktur a paralelizaci.

Jiří Materna - ... aneb když se rozbije prezentérCelá prezentace byla samozřejmě streamována a tak si ji můžete sami zpětně prohlédnout.

Po velmi inspirativní prezentaci přišla na řadu moderovaná diskuze. Navzdory našim prvotním obavám se rozproudila velmi živá a zajímavá diskuze, do které se zapojilo mnoho lidí. Probíralo se toho opravdu hodně – vraceli jsme se k word2vecu, k DeViSE a deep learningu, nakousli jsme ontologie, LDA nebo LSA a padla i zmínka o novince jménem neuronové tenzorové sítě. Nejvíc naši diskuzi však rozproudila otázka, která oblast stále odolává a použití ML v ní není úspěšné. Po vyčerpání dotazů na řečníka a další návštěvníky meetupu byla moderovaná diskuze ukončena a volně jsme pokračovali spontánní vytvořením několika hloučků, kteří by diskutovali snad až do půlnoci, kdyby se neozval hlad a především žízeň nekterých účastníků.

Čekání na první meetupNa závěr celého večera jsme se tedy rozhodli přesunout do networkingu přívětivějších prostor – restaurace U Divadla, které je 200 metrů od brmlabu. U piva (či jiného nápoje) jsme se pak setkali opět v hojném počtu – u dvou sousedících stolů nás sedělo okolo dvaceti. Nemluvě o dalších skupinkách, které vyrazili dříve a usadili se jinde. Celý meetup jsme pak rozpustili až okolo 11. hodiny večerní.

Ještě jednou bychom touto cestou chtěli poděkovat všem zúčastněným a především našemu hostu Jirkovi Maternovi za velmi inspirativní prezentaci. Doufáme, že i příště se sejdeme v hojném počtu. Na příští meetup se pokusíme doladit připomínky, které jste k meetupu měli. Budeme se na vás těšit!

Videozáznam prezentace