Meetup X. – Hluboké neuronové sítě v rozpoznávání řeči (18. 2. 2015)

Na jubelijním desátém meetupu jsme se opět věnovali tématu deep learningu. Přišli přednášet výzkumníci ze společnosti ZOOM z Speech Analytics týmu.

Václav Hanžl začal vyprávět o historii speech recognition disciplíny. Ta začíná u modelování fonémů a slov pomocí hidden markov model (HMM) a jejich následnou klasifikací v Gaussian mixture model (GMM). Tato spousta práce z minulosti investovaná do algoritmů zarovnání signálů, časových oken a anotovaných dat se nyní zužitkuje jako předzpracovaný vstup pro hluboké neuronové sítě, které přinášení signifikantní nárust accuracy oproti GMM+HMM modelům.  Abychom je ale byli schopni natrénovat, musíme opustit u neuronů sigmoidskou aktivační funkci a použít tzv. ReLu. Ta přináší výhody jednak v rychlejší evaluaci i ve větší numerickou stabilitou její derivace.

Na Václava navázal Martin Váňa, který vyprávěl o některých teoretických aspektech neuronových sítí. Zmíníl se o fyzikální interpretaci Restricted Boltzmann Machine (RBM) a problémech trénování rekuretních sítí. Dále se věnoval otázkám nelineárních aktivačních funkcí a jejich vzájemným vztahem.

Pavel Šuchmann hovořil o praktické zkušenosti s trénováním netriviálních neuronových sítí. Mluvil například o důležitosti pečlivé přípravy dat, která má znatelný vliv jak na dynamiku učícího procesu tak i na finální performance. Pavel shrnul i některé existující frameworky pro trénování DNN.

IMG_20150218_190643

 

Následná diskuse se dotýkala tématu výběru hyperparametrů a trénování sítí na vlastním hardwaru versus pronajatého v cloudu (např. Amazon). Poté jsme se v hojném počtu přesunuli do blízké restaurace. Těšíme se na vás na dalším meetupu 4. března.

Slidy: TBA

Videozáznam: Youtube