keep learning blog(キープラーニングブログ)

自分が興味を持ったことを備忘録として残すブログです。

23.科学論文の書き方を知ろう

――自己の過誤から学びうるがゆえに、知識が発展し、科学は進歩する。科学とは、常に反証可能なものでなければならない。――

カール・ライムント・ポパー

 

 

科学論文の書き方を知ろう

朝起きたら窓がぱちぱち鳴っていたので何事かと思ったら、雹(ひょう)でした。もしかしたら、雹を間近で見たのは生まれて初めてかもしれません。どちらも雨みたいに氷が降ってくる現象ですが、雹と雪の違いをご存知でしょうか。

低気圧の中では地面から空に向かって強い上昇気流が発生しています。この風で空に上昇した空気は、急激に冷やされて一部氷結します。これが重くなって落ちて、気流で再上昇、を繰り返すことで氷のサイズが成長していきます。これが雹です。強い上昇気流が発生条件なので、気温が高い夏でも発生します。

他方、雪は基本的に雨と同じで、空気中に漂う埃の周りに水蒸気がくっついて氷になる現象です。上空の気温が低いと落ちてくる途中で溶け切らずに氷のまま降ってくるため雪になります。上昇気流による連続成長を経た雹に比べるとサイズが小さいので、降ってきたときの破壊力は雹の方が圧倒的に高いです。

閑話休題。今回は気象学の話を書きたいのではなく、科学論文の書き方についての記事です。もちろん私は科学者ではないですし、そもそも分野によってお作法が異なると思うので、参考程度に読み流してください。

f:id:yuki0718:20200224061728j:plain

 

科学論文の役割

大学や研究機関の研究者から企業で働くエンジニアまで、今も世界中で多くの人が科学に関係する仕事に従事しています。科学とは、自然のはたらきや仕組みを客観的論理によって解き明かす活動であり、ポパーさんによれば、常に反証可能性(Falsifiability)を有するものとして定義されます。

したがって、第三者からの反証を受け入れるためにも、科学的成果は論文のような形で公開されなければなりません。公開された情報は引用され、ときに批判にさらされ、科学の発展に貢献します。

こうした科学的活動のプロセスは、以下のように段階化することができます。

1.興味を持った分野・テーマの論文や教科書を読み、最新技術(State-of-the-art)を把握する。

2.最新技術にはない理論や実験手法を考案し、理論や実験から何らかの科学的結論を導く。

3.自己の理論や実験結果を発表するにあたって、相応しい媒体やジャーナルを検討する。

4.媒体やジャーナルが指定するテンプレートに合わせて、論文を執筆する。

5.論文投稿後に専門家からの助言や反論を受け、必要に応じて内容を修正する。

6.論文が公開され、第三者に引用されたり批判されたりすることで、科学の発展に貢献する。

私の場合、留学期間は1年の期限付きであるうえ、大学の専門が物理でエンジニアでもないのに(無謀にも)情報系の研究室に留学したので、当初からあまり時間がないことは予想していました*1

内訳としては、上記1.で2ヵ月、上記2.で4ヵ月、上記3~4では1ヵ月近くかかっています。特に上記2.では、あまりにも音声や機械学習の知識が不足していたために、論文にもならないような初歩的なコードばかり書いて実験していた気がします*2

私は運良く結果が出たので論文を書くところまで漕ぎ付けられたものの、もっと事前にこの分野の論文の書き方を勉強しておけば、必要なデータも効率的に集められたでしょうし、こんなに遠回りする必要はなかったと思います。

そんな痛い経験を踏まえて、今回の記事では、上記3~4の論文投稿プロセスに関して学んだことを備忘録的にまとめます。

 

投稿先の決定

私のデンマークでの研究テーマは、音声処理と機械学習、いわゆる情報工学と呼ばれる分野です。情報工学系では、米国のIEEE(Institute of Electrical and Electronics Engineers)という学術団体が有名です。IEEEは30を超える技術分科会(Technical society)を擁しており、それぞれが専門雑誌(Journal)の出版や学術会議(Conference)の主催をサポートしています。

音声処理はマイクで収録したデジタル信号を処理するので、信号処理分科会(Signal Processing Society)というグループに成果を発表することが多いそうです。逆に機械学習がメインの論文であれば、機械学習関連の団体が発行する雑誌や学術会議を探すことになります。

他にも、欧州にはEURASIP(European Association for Signal Processing)という信号処理の団体があり、日本にもIEICE(Institute of Electronics, Information and Communication Engineers)という団体があります。選択肢はいろいろあるというわけです。

また、論文の形式には、大きく分けて学会発表論文(Conference paper)と雑誌掲載論文(Journal paper)の二種類が存在します。前者は学会発表後に会議録(Proceedings)として発行されるため、いずれの論文も最終的には何らかの媒体で公開されます。

しかしながら、学会発表論文は研究内容を区切りの良いところで発表し、第三者との意見交換を通して改善点を発見することや、共同研究のための人脈づくりを目的としているのに対し、雑誌掲載論文は一個の研究として学術的に完成していることが求められます。

すなわち、一般的傾向として、学会発表論文よりは雑誌掲載論文の方が論文の審査が厳しく、論理展開が甘かったり曖昧な記述があったりすると簡単に拒絶されます。

実は私が投稿先を選ぶうえで難しかったところは、数か月で得た成果なので内容的には学会発表論文向きなのにも関わらず、実際に学会が行われるときは帰国後なので、飛行機でわざわざ学会会場に来ないといけないという点です。

教授と相談した結果、そこまでするのはお金も時間も勿体ないということで、比較的敷居の低そうなタイプの雑誌にJournal paperとして投稿することにしました(予定)。

 

執筆環境の整備

無事に投稿先が決まったら、その投稿先の学会のホームページから論文の体裁テンプレートをダウンロードします。多くの場合、形式はWordかLaTexを選べると思いますが、使ったことがない人でも絶対にLaTexがおすすめです。

一例として、今年の8月にアムステルダムで行われるEUSIPCO(European Signal Processing Conference)という学会の特設ホームページを紹介します。

eusipco2020.org

このページでは、「Authors' Information」というタブから論文の形式に関する重要な情報(枚数制限5頁以内など)が書かれているページに飛べます。また、学会発表論文なので、画面右側にある「Important dates」に投稿の締め切り日が記載され、「Conference templates」にWord又はLaTexのテンプレートが置かれています。

LaTexを選択すべき理由は、科学論文の標準形式として認められており、数式の鮮明度や図表の整列といった面で圧倒的にLaTexが便利だからです。ただし、LaTexはHTMLなどに似た一種のプログラミング言語のようなものなので、通常は自分のPCにLaTexコンパイラのインストールが必要です。

しかしながら、インターネット通信の高速化・大容量化が進んだ現代では、Google Chromeなどのブラウザ上でLaTex形式の論文を執筆できる便利なサービスがあります。私は周りの学生におすすめされた「Overleaf」と呼ばれるウェブサービスを利用しました。

ja.overleaf.com

まずはOverleafの新規アカウントを作成し、新しいプロジェクトを立ち上げます。ここに学会のホームページからダウンロードしたLaTexのテンプレートファイル(「.cls」の設定ファイルや「.tex」の本体ファイル)をアップロードすれば、LaTexのインストールをしなくてもLaTexの使える環境ですぐに執筆を始めることができます。

何よりこのサービスの素晴らしいところは、インターネットさえ繋がっていれば、Gmailのように家でも旅行先のホテルでもどこからでもログインして執筆を継続できる点です。ちょっと特殊なTex文法を覚えなければいけないだけで、使用感はWordと何ら変わりません。

さて、もう一つ科学論文を書くうえで欠かせないのは、最新技術(State-of-the-art)を説明するための引用文献です。

科学の成熟した現代では、ほとんどが誰かの先行技術を下敷きにして改良を加えたり、そこから着想を得てアレンジしたものです。つまり、自分の研究がいかなる点で最新技術より優れているのか、どうして提案手法を採用したのかなどを適切に説明するためには、引用文献を過不足なく集めておく必要があります。

こういった理由で、過去に読んだ論文のPDFファイルなどをストックしておくためのツールがあると便利です。私は「Mendeley」という便利なデスクトップアプリを使っています。

www.mendeley.com

LaTexで執筆する場合、「.bib」の書誌情報ファイルを作って引用文献情報を記載するのが普通です。しかし、過去に読んだ論文をMendeleyにストックしておけば、「.bib」にコピペできる形式で出力できます。一からジャーナル名や巻号を調べて書くのは骨が折れるので、これは非常に便利です。

私が学生の頃は、恥ずかしながらこういうサービスの存在を全く知らなかった(そもそもなかった?)ので、こうやって環境を整えると時短になってとてもいいなあ、と感動しました。

 

論文の構成

執筆環境が整ったら、いよいよ論文の構成を考えて執筆を開始します。私は過去に推理小説を書いて雑誌の新人賞に応募した経験*3があるのですが、小説でも「プロット」と呼ばれる構成段階がたいへん重要です。

推理小説にも、舞台設定と登場人物の説明⇒事件の発生⇒事態の深刻化⇒鮮やかな解決と後日談、という定番の流れがあるように、科学論文にも押さえるべき「標準型」があります。

ただし、標準と言っても分野による違いはあり、私が専門だった物理と今の分野とでは微妙に差異を感じました。音声処理に関する論文の標準的な章立てと主な記載内容は、以下のようなイメージです。

0.要約(Abstract)

(1) 研究対象とする問題・課題(Problem)の紹介。

(2) 提案手法(Proposed method)の概要紹介。

(3) 実験結果(Results)による貢献(Contribution)の強調。

1.導入(Introduction)

(1) 取り扱う主題およびトピック(Subject)の紹介。

(2) それらの社会的役割や重要性の強調。

(3) 先行研究(Prior work)や最新技術(State-of-the-art)の紹介。

(4) 提案手法(Proposed method)の概要紹介。

(5) 実験結果による貢献の強調(省略可)。

(6) Introduction以降の章立て(Contents)の紹介。

2.提案手法(Proposed method)

(1) 問題の定式化(Problem formulation)と仮定(Assumption)。

(2) 対象とする音声・機械学習モデル(Model)の説明。

(3) 提案手法(Proposed method)の詳細な説明。

(4) モデル性能を測る評価指標(Metrics)の説明。

3.実験条件(Experimental details)

(1) 実験目的(Purpose of experiments)の明確化。

(2) 実験条件やパラメータ設定(Setup)の説明。

(3) コード実装(Implementation)の詳細な説明。

(4) 再現性(Reproducibility)を保証する根拠の説明(省略可)。

4.実験結果(Results and discussion)

(1) 図表(Tables, figures)を用いた実験結果(Results)の提示。

(2) 最新技術と比較した実験結果の考察(Discussion)。

(3) 実験結果から導かれる事実の推論(Implications)。

(4) 現状の課題や将来展望(Future work)の紹介。

5.結論(Conclusion)

(1) 取り扱ってきた主題およびトピックの振り返り。

(2) 実験結果による貢献の強調。

(3) 結果から導かれた事実に関する結論付け。

(4) 現状の課題や将来展望のまとめ。

こういった標準的な形式*4に沿っていない論文は、読みにくいのでそれだけで門前払いという雑誌や学会も少なくありません。私の場合、第一稿を教授に見せた翌日に「How to write a scientific paper(科学論文の書き方)」という本がそっと私の机の上に置かれていました。

 

投稿後の反応

無事、標準的な形式や指定のテンプレートに沿った論文が完成し、共同執筆者や教授にも見てもらったら、いよいよ投稿になります。学会のホームページなどに投稿ページへのリンクが設置されているので、PDF本体や図表の画像ファイルを投稿します。

とはいえ、投稿してもそう易々と出版(Publish)の運びとはなりません。どの雑誌や学会も掲載論文には一定の水準を設けており、彼ら自身の権威を失墜させないためにも、レビュアーと呼ばれる専門家(ベテラン会員のボランティア)による査読を通しています。

査読の結果、後日レビュアー又はその上の決定権を持つ人(Area chair)から投稿者の元に手厳しい修正勧告が届きます。最悪の場合は「掲載に値しません」という内容の冷たい拒絶メールがあっさり返ってきます。

ちなみに、音声処理の分野で権威のあるICASSP(International Conference on Acoustics, Speech, and Signal Processing)という学会では、2013年に3391の論文提出があり、1597が拒絶されてお蔵入りしたそうです。つまり、約半数の論文は不適格とみなされたことになります。これはかなり厳しい数字です。

学会にもよりますが、1本の論文には2~4人程度のレビュアーが付き、各レビュアーは平均15~20本程度の投稿論文を査読するそうです。レビュアーたちは決定権者(Area chair)に論文の評価を提出し、決定権者から投稿者に通知を出します。

ここで重要なのは、決定権者は実際に論文を読んだわけではなく、査読したレビュアーからの報告を見て最終判断を下しているという点です。なので、「理屈に納得できないから従わない!」と真っ向から反論しても認められない可能性が高いということです。

なお、評価項目としては、主だったものとして以下のような観点があると聞きました。

・評価内容に対する(評価者の)自信

・課題の重要性および当学会への技術的関連性

・手法の新規性およびオリジナリティ

・理論および論理展開の技術的正確性

・実験結果の有効性および納得度

・プレゼンテーション全体の明確性

・引用された文献の必要十分性

・全体評価

学会に所属するベテラン会員たちは、この評価表を15~20近くの論文に対してボランティアで(自分の研究には関係なく)作成し、大学教授なら並行して学生向けの講義をしたり何十人もの博士学生を指導したりするのですから、アカデミックの仕事は実に大変だろうと想像します。

 

以上、今回はちょっと音声や機械学習がどうこうという具体的なところから離れて、科学論文の執筆で学んだエトセトラを備忘録的にまとめてみました。

考えてみると、こうやって先人たちが系統的な科学論文のルールを作り、適切な学術団体を組織してくれたおかげで、私たちは効率的に過去の知識を吸収し、常に新しい地平から「科学を始める」ことができています。

こうした礎の上に今日の私たちの便利な暮らしが成り立っているかと思うと、とてもありがたいですし、感慨深いですよね。なんかNHK教育の番組みたいな終わり方になってしまいましたが、今日はこんなところです。

稚文をお読みいただきありがとうございました。

*1:そもそも、こんな経歴の私を受け入れてくれた教授のご厚意には感謝しかありません。博士課程の授業も自由に受けさせてもらえますし、私にとっては教育熱心な教授との出会いが一番の僥倖だといえます。

*2:とはいえ、この分野の良いところは、コードを組めば組むほどプログラミング・スキル自体は上達するので、たとえ論文にならなくても無駄にはならないということです。

*3:最終選考3作品に残って出版社から電話がかかってきたとき、すごくドキドキしました。後日発行された雑誌には「文章はこなれているがオリジナリティが薄い」という審査員からの率直な辛口コメントが寄せられており、ちょっと落ち込みました。

*4:私の師事する教授はかなりマメな人なので、プレゼンテーションファイルにこういう要諦をまとめていて、論文を書く段になったところで「参考になるかも」と私に送ってくれました。