Wybrane Posty

Co ciekawi mnie w muzyce? Zastanawialiście się kiedyś jakie czynniki powodują, że lubicie jakiś utwór? Dlaczego jest tak, że po pierwszym przesłuchaniu jakiejś piosenki jesteście w stanie zachwycić sie nią? W moim...

Czytaj dalej

Herbata - co i jak Herbata jest napojem, który towarzyszy nam na co dzień. Niewiele jest jednak osób, które przywiązują wagę do tego co i jak piją. Kupujemy ekspresówki, herbatki smakowe, czy też ziołowe. Kiedyś...

Czytaj dalej

Tortilla ziemniaczana z dodatkami Niedawno znalazłem przepis na tortillę ziemniaczaną i zainspirowało mnie to do poeksperymentowania. Jako, że samą tortillę robi się mniej więcej tak samo - ekperyment dotyczył tego, co na nią...

Czytaj dalej

Jestem jak Fin, czyli słowo o języku angielskim Języka angielskiego uczę się od wielu lat. W dzisiejszych czasach jego znajomość jest bezdyskusyjnie przydatna, a często wręcz wymagana. Większość młodych Polaków uczy lub uczyła się tego...

Czytaj dalej

Język (nie do końca) rozpoznawalny W poniedziałek, 15 września 2008 roku, zakończyłem oficjalnie pisanie pracy magisterskiej i złożyłem ją w dziekanacie. Jako, że nie wszyscy wiedzą o czym pisałem, postaram się przedstawić...

Czytaj dalej

Język (nie do końca) rozpoznawalny

Posted by EChO | Posted in Technologia | Posted on 18-09-2008

Tagi: , , ,

5

praca magisterskaW ponie­dzia­łek, 15 wrze­śnia 2008 roku, zakoń­czy­łem ofi­cjal­nie pisa­nie pracy magi­ster­skiej i zło­ży­łem ją w dzie­ka­na­cie. Jako, że nie wszy­scy wie­dzą o czym pisa­łem, posta­ram się przed­sta­wić krótko całą historię.

Gdy pół­tora roku temu zaczą­łem się zasta­na­wiać na poważ­nie nad tema­tem pracy, mia­łem kilka spre­cy­zo­wa­nych punk­tów, według któ­rych chcia­łem sobie dobrać temat. Moją spe­cjal­no­ścią jest inży­nie­ria opro­gra­mo­wa­nia, ale w tej dzie­dzi­nie dowolny temat pracy wyda­wał mi się mało inte­re­su­jący. Posta­no­wi­łem pracę pisać w innym insty­tu­cie, a mia­no­wi­cie w Insty­tu­cie Sztucz­nej Inte­li­gen­cji i Metod Mate­ma­tycz­nych. Mia­łem nawet kon­kret­nie wybra­nego pro­mo­tora, u któ­rego chcia­łem pisać. Pod­sze­dłem do wyboru tematu dość ambit­nie. Wybór cze­goś łatwego i odtwór­czego mnie zupeł­nie nie prze­ko­ny­wał. W końcu ma to być moja pierw­sza publi­ka­cja naukowa z praw­dzi­wego zda­rze­nia. Dla­czego więc nie połą­czyć kilku dzie­dzin, które mnie inte­re­sują? Z racji wybra­nej spe­cjal­no­ści, głów­nym zada­niem w pracy miało być stwo­rze­nie pro­gramu. Chcia­łem napi­sać pro­gram, dzięki któ­remu prze­pro­wa­dził­bym bada­nia, któ­rych wyniki mogą się real­nie przy­dać, a jed­no­cze­śnie sam pro­gram mógł być roz­wo­jowy. Wyko­rzy­sty­wałby sieci neu­ro­nowe do kla­sy­fi­ka­cji cze­goś zwią­za­nego z dźwię­kiem. Na początku myśla­łem o roz­po­zna­wa­niu stylu muzycz­nego bada­nego utworu. Jed­nak kla­sy­fi­ka­cja gatun­ków muzycz­nych jest na tyle trudna dla czło­wieka, że kom­pu­ter tym bar­dziej nie będzie w sta­nie sobie z tym pora­dzić. Popro­si­łem więc pro­mo­tora o pomoc w wymy­śle­niu tematu w sam raz dla mnie. I pro­mo­tor wymyślił:

„Zasto­so­wa­nie sztucz­nych sieci neu­ro­no­wych do roz­po­zna­wa­nia języka mówią­cej osoby”

Temat spodo­bał mi się od samego początku. Wow! Zajmę się roz­po­zna­wa­niem języ­ków :-) . Oprócz dzie­dzin zwią­za­nych z dźwię­kiem, sztuczną inte­li­gen­cją i pro­gra­mo­wa­niem, mogę się zająć też bar­dzo inte­re­su­jącą mnie dzie­dziną — języ­ko­znaw­stwem. Cho­ciaż w ogra­ni­czo­nym stop­niu. Do tematu nie mia­łem żadnych zastrze­żeń, więc taki wła­śnie został ofi­cjal­nie przyjęty.

Jako rasowy pro­kra­sty­na­tor, na poważ­nie zają­łem się pracą dopiero w ostat­nim seme­strze ;-) . Wcze­śniej bar­dzo powoli gro­ma­dzi­łem lite­ra­turę, na któ­rej mógł­bym się oprzeć. Jed­nak lite­ra­tury takiej nie ma. Musia­łem się oprzeć na kilku anglo­ję­zycz­nych arty­ku­łach nauko­wych, trak­tu­ją­cych kon­kret­nie o tema­cie roz­po­zna­wa­nia języka. Reszta lite­ra­tury to publi­ka­cje o ana­li­zie i syn­te­zie dźwięku czy ogólne o samych sie­ciach neu­ro­no­wych. W dodatku publi­ka­cji o iden­ty­fi­ka­cji języka, w języku pol­skim, nie zna­la­złem żadnych. Dobrze, że oprócz pro­mo­tora zna­ją­cego się na sie­ciach neu­ro­no­wych, mia­łem też do kogo się zwró­cić w tema­cie samej ana­lizy dźwięku. Pani Ania dużo mi pomo­gła — dzięki niej opra­co­wa­łem naj­waż­niej­szą część pracy, czyli metodę eks­trak­cji cech głosu, któ­rymi potem mia­łem uczyć sieć neuronową.

Sama metoda powstała i została prze­te­sto­wana w Matla­bie jesz­cze przed waka­cjami. Zdą­ży­łem jesz­cze tylko napi­sać roz­działy teo­re­tyczne i prze­su­nąć ter­min odda­nia pracy na wrze­sień. Waka­cje upły­nęły mi na pisa­niu całego pro­gramu w C++ (jakieś 20% czasu) i jego testo­wa­niu (80% czasu, bo prze­cież nic nie może dobrze dzia­łać za pierw­szym razem ;-) ). Gdy po bólach pro­gram już powstał, prze­pro­wa­dzi­łem za jego pomocą bada­nia. Wresz­cie mogłem spraw­dzić jak się spra­wuje moje dziecko :-) .

Bada­nia były prze­pro­wa­dzone na prób­kach zdań w 6 języ­kach: pol­skim, angiel­skim, nie­miec­kim, wło­skim, hisz­pań­skim i rosyj­skim. Przy­go­to­wa­łem po 21 zdań w każ­dym z tych języ­ków i zaprzę­głem syn­te­za­tory mowy, żeby wyge­ne­ro­wały mi zda­nia z poprawną wymową. Dodat­kowo, przy­go­to­wa­łem próbki mowy żywego czło­wieka dla języka pol­skiego, angiel­skiego i rosyj­skiego. Zapo­wia­dało się cie­ka­wie… ale wyniki badań mnie nieco roz­cza­ro­wały. Przy ucze­niu wszyst­kich 6 języ­ków na raz, jakość roz­po­zna­wa­nia była bar­dzo niska. Od 20 do 50%. Z czego naj­go­rzej sieć roz­po­zna­wała… język angiel­ski. Naj­le­piej za to wło­ski. Wło­ski prak­tycz­nie wygry­wał w każ­dej kon­fi­gu­ra­cji. Naj­le­piej był roz­po­zna­walny (i to w pra­wie 85%) przy zesta­wie 3 języ­ków — pol­skim, wło­skim i hisz­pań­skim. Nie zdzi­wiło mnie to. Jeśli zna­cie melo­dię języka wło­skiego (a mój pro­gram wła­śnie ana­li­zuje melo­dię wypo­wia­da­nych zdań), to wie­cie, że każde zda­nie koń­czy się sko­kiem into­na­cji od dźwięku wyż­szego do niż­szego. Co wię­cej –bada­nia na prób­kach żywej ludz­kiej mowy wypa­dły nieco gorzej niż na prób­kach syntetycznych.

Czy więc ponio­słem klę­skę? W żadnym wypadku! Wycią­gną­łem wnio­ski, które pozwolą mi na udo­sko­na­le­nie algo­rytmu i prze­pro­wa­dze­nie kolej­nych badań. Na pewno nie porzucę tego co zaczą­łem. A świa­do­mość tego, że moja publi­ka­cja jest chyba jedyną taką w języku pol­skim, moty­wuje mnie dodat­kowo. W końcu inter­fejsy gło­sowe za kilka lat staną się bar­dzo popu­larne, a ja two­rzę pewien ważny wyci­nek tego, co w tych inter­fej­sach będzie imple­men­to­wane. Napi­sa­łem przy­zwo­itą pracę, z któ­rej jestem zado­wo­lony i która rokuje na przy­szłość. Jesz­cze czeka mnie obrona na początku paź­dzier­nika i wtedy będę mógł ode­tchnąć :-) . I z pew­no­ścią po obro­nie opi­szę bar­dziej szcze­gó­łowo wyniki badań, a także opu­bli­kuję swoją pracę w internecie.

Mam nadzieję, że Was nie zanu­dzi­łem, i że kogoś innego oprócz mnie też to zain­te­re­so­wało. W razie czego — pytaj­cie w komen­ta­rzach. Chęt­nie odpo­wiem :-)