keep learning blog(キープラーニングブログ)

自分が興味を持ったことを備忘録として残すブログです。

4.研究もちゃんとしてます

――物質上の財宝を追うて働くことは、われとわが牢獄を築くことになる。人はそこへ孤独の自分を閉じ込める結果になる、生きるに値する何ものをも購うことのできない灰の銭をいだいて。――

アントワーヌ・ド・サン=テグジュペリ「人間の土地」

 

 

研究内容について

デンマークにやってきて、約三週間が経ちました。ちょっと前まで日本でいそいそと働いていたことが嘘のように、穏やかな時間を過ごしています。日本にいると遅くまで働いて物質上の財宝(お金)を稼ぐことが美徳のように感じますが、この国ではどうも違うようです。

飽きたり合わないと思ったら気軽に転職は当たり前、最低時給が高いので高卒でも暮らしには全く困らず、そのため大学に行くのは本当に勉強が好きな人だけ。すべてが日本の真逆を行っている国のような気がします。周りの留学生には、居心地が良すぎてここに永住することを決めた人もいます。

さて、第1回の記事で少し自己紹介しましたが、私はいちおう客員研究員という立場でデンマークに留学しています。暮らしのことばかり話していると、私が本業を忘れて旅行三昧しているんじゃないかと疑われかねないので、今回は少しお勉強の話をします。

f:id:yuki0718:20190724063157j:plain

 

音声認識機械学習

自分で言っておいてなんですが、結論から申し上げますと、そんな専攻はありません。私が言いやすいからこう説明しただけです。あと、AIの勉強をしてきます、と日本でよく言いましたが、SF漫画に出てくるようなAIロボットの研究をするわけではなく、これも便宜上の説明です。

というわけで、事後報告ではあるものの、正確なところを以下に説明させていただきます。

 

音声認識とは

1940年代に世界初の汎用型計算機(コンピュータ*1)が登場してからはや80年、私たちの暮らしにコンピュータはなくてはならないものになりました。そのコンピュータに「音」を認識させようとする試みは、1960年頃から始まっていました。

音は空気のような媒質中を伝わる疎密波(縦波)なので、物理的には波動力学という古典物理学で記述することができます。この波動力学という分野は、大学入試で出題されるほどベーシックな内容であり、身近で親しみやすく、理論も美しく整理されている領域です。

よって、コンピュータに音を認識させるためには、音を伝える空気が震える様子や波動力学の方程式をコンピュータに入力し、記憶・演算させればよいのです。そして、コンピュータは自分の持っているデータと入力された音のパターンとを照らし合わせて、両者の違いを判定します。これをパターン認識と呼びます。

音に限らず、私たちは知らず知らずのうちに、目や耳などの感覚器官から拾った情報と自分の記憶とを照らし合わせて、一定の規則や意味を持つパターンを選び出し、「これは〇〇だな」という認知行動を行っています。これがパターン認識というわけです。

したがって、音声認識の究極の目標は、膨大な音声データから一定の規則や意味を持つパターンを抽出し、人間のように(時に人間を超えて)音のパターン認識ができるコンピュータを実現するところにあります。

なお、パターン認識の歴史的名著として、Pattern Recognition and Machine Learning、通称「PRML」という教科書があります。コンピュータサイエンスを専攻する大学生は必読の書だそうですが、相当な難読書*2ということで有名です。もちろん、軟派な私には手が出ません。

パターン認識と機械学習 上

パターン認識と機械学習 上

 
パターン認識と機械学習 下 (ベイズ理論による統計的予測)

パターン認識と機械学習 下 (ベイズ理論による統計的予測)

 

 

機械学習とは

迂遠な言い回しをして恐縮ですが、ようするに音声認識というのは、人間が無意識に行っているパターン認識のうち、音のパターン認識をコンピュータができるようにしよう!という試みでした。では、機械学習(Machine Learning)とは何なのでしょうか。

技術用語としての正確性はともかく、私の中で、機械学習とは「パターン認識ができるようにコンピュータを教育する方法」のことです。そして、音のパターン認識では、古くから様々な教育方法(公文式Z会のような流派)が存在しました。

例えば、特定の母音や子音を発音するときには音の波形にこういう特徴があるぞ、という経験則に基づく判定方法や、「明日の⇒天気は⇒」と来たら次は「晴れ」か「曇り」か「雨」が来るだろう、と次の音を確率的に推測する方法などがあります。これらは機械学習ではなく、人間が作った模型(モデル)に基づく判定プログラムです。

そして、そうした教育方法の流派の一つとして、機械学習があります。機械学習にもサポートベクトルマシンや遺伝的アルゴリズムなど豊富な種類がありますが、その中には、近ごろ世間を騒がせているニューラルネットワーク(以下、「NN」という。)があります。

NNとは、人間の脳を模したパーセプトロンという構造を多重に組み合わせた学習方法で、実は1980年代から基礎理論はほぼ完成していました。しかし、コンピュータの性能がまだまだ低かったので、その応用範囲が限られており、今日まで日の目を見ませんでした*3

コンピュータの処理能力が向上した現代において、NNの応用範囲は非常に広く、GoogleAmazonといった巨大IT企業が音声や画像の認識に用いたり、外国語の翻訳に利用してその精度を飛躍的に向上させたりと、すでに一定の成功を収めています。NNはいま最も注目されている教育方法なのです。

したがって、機械学習、とりわけその中のNNは、コンピュータにパターン認識をさせるための教育方法の一つであるとともに、いま急速に注目を浴びている道具だといえます。私はこの魅力的で神秘に満ちた道具の本質を見極め、私の職場がどうやってこの道具と付き合っていくべきなのかを理解するために、今回の留学を決めました。

そして、自分の大学時代の専門である物理学で理解しやすいフィールドとして、音声認識という対象を選択し、このフィールドで道具を使いこなす訓練を行うことに決めたというわけです(デンマークという国は特に拘りがあったわけではなく、教授が良い人だったから決めました)。

 

それでつまり何をやっているのか

何やら就活のエントリーシートかと見紛うほど真面目な志望動機を書いてはみたものの、実のところ、まだ何もできていません。しかも、私を受け入れてくれた先生が絶賛バケーション中なので、私には特にミッションが与えられていません。

そのため、何をやっているかといえば、自分で勝手に本を読んだりスクリプトを書いて自習しているだけです。研究室の同僚とデンマーク生活のあれこれについて雑談しながら、日々学部生レベルの教科書で勉強しています。まあ気楽でいいですが、教授が来たときに自分の研究計画がどこに向かうのか読めなくて、ちょっとドキドキしています。

とりあえず今の時点では以下の本を読了し、機械学習を使って音声認識のタスクを解決していそうな学会の論文を何本か通読しました(謎の達成感)。教授、はやく夏休みから帰ってきて・・・!

Introduction to Audio Processing

Introduction to Audio Processing

 
フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで

フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで

 

 

前者は音声寄りの内容で、音声を機械に入力するにはどういった工夫が必要か、音声データをどのように処理すると扱いやすくなるか、イコライザのような(けいおん!の人にとっては)身近な音響効果を数学的にどう解釈するか、といった音響学のベーシックな内容を、学部生レベルでも理解できるように解説した良書でした。

後者は機械学習寄りの内容で、パーセプトロンの仕組み、活性化関数・逆誤差伝搬法・勾配降下法といった今日のNNの基礎となるアイディア、サポートベクトル法・カーネルトリックといったNN以外の機械学習の手法まで、適度な文章量でたいへん丁寧に解説しています。後半の音声認識モデルはかなり自然言語処理にも踏み込んでいるので、さらっと流し読みしました。

来月はより音声から離れて、以下の本を読みながらNNを多層化したディープニューラルネットワーク(DNN)の基礎理論まで一通り理解を深めようと思っています。(概要だけならふわっと分かってますがここは大事なので数学的にきちんとグリップしたいです。)

 

今日のところはとりあえずこのくらいで。あまり留学ブログとしては役に立たない内容でしたね。。。次回はデンマークマイナンバーやPASMOに似た交通系カードのお話をしようと思っています(あくまで予定)。

なお、冒頭で挙げたサン・テグジュペリは「星の王子様」で有名なフランスの作家ですが、彼の著作「人間の土地(堀口大學訳)」も素晴らしい作品です。私は大学生の時に読んで、サン・テグジュペリの人生哲学や堀口先生の美しい翻訳に影響を受けました。

人間の土地 (新潮文庫)

人間の土地 (新潮文庫)

 

なんだかAmazonの広告ばかりの稚文をお読みいただきありがとうございました。

*1:ポルトガル語スペイン語では、comが「箱」、puterが「ことばを話す」を表し、Computerは「ことばを話す箱」という意味になるそうです。

*2:私の職場の後輩に恐ろしく頭の切れるコンピュータサイエンス専攻の子がいるのですが、彼ですら「みんなで勉強会を開いて輪読したけどかなりきつかった」そうです。物理でいうと「Landau物理学とFeynman物理学を全巻読破!」みたいなものでしょうか。

*3:個人的に、30年以上も芽の出ない研究を続けたニューラルネットワークの研究者は、すごい執念をお持ちだったのだと思います。きっと学会で発表しても全然相手にされず冷遇された時代があったのでしょう。そうした研究を礎にして今日の大ブームが起こっていると考えると、目先の実用性にとらわれて研究予算を削ってしまうのは国のためにならないと気付かされます。