何かが欠けている音声認識研究

東京大学で開催中の音声言語シンポジウム。一日目の企画（招待講演とパネル討論）のメモです。
「積み上げの効かないモデル調整で論文件数を稼いで生き延びる」のか、「成果の出にくいチャレンジングなアプローチで人生を棒に振る」のか。。
「何かが欠けている」現状を招いたのは、現在の研究業績の評価システムではないか、と言いたげな発言もありました。
興味深かったのは「障害」「福祉」に目をつけることで、新しい応用分野、研究アプローチが見つかるのではないか、という提案が相次いだことです。

13:43 音声言語シンポジウムなう。後ろの方で椅子が足りません。。
13:50 音声言語シンポジウム：SP用の冊子の予稿集を受け取った。発表ごとにSPかSLPかどちらかの番号がついていて、混在している。SP側はポートレートで、SLP側はランドスケープの予稿。不思議な予稿集。。
14:42 古井先生の予稿にフロー体験の話が。研究者の発想転換の必要性。
14:55 頑張ってtsudaりなさいと励まされたなう。これから古井先生の「何かが欠けている音声認識研究」招待講演。
15:01 古井先生「若い研究者に役立つ話を。音声認識技術はいま第4世代へ：発見的方法、パターン認識、統計的・識別的、次は知識利用処理？」
15:06 古井先生「ベル研で得た人脈。デルタケプストラムの原点。ICASSPの発表件数の推移。コンスタントな日本の貢献。中国の伸びが顕著。語彙と発話様式の技術トレードオフ」
15:12 古井先生「音声認識技術の飽和。積み上げの効かないモデル調整多数。パターン認識と機械学習の練習問題？ミスマッチの前提欠落。実世界で動かす重要性。総合的な評価。誤認識に対処できるI/F」
15:14 古井先生「自信を持ってデモを完璧に？どう発声したら確実に？ユーザの成功体験を促すべき」
15:14 古井貞熙 (単行本 – Feb 27, 2009) の ‘人と対話するコンピュータを創っています音声認識の最前線’ を Amazon でチェック！ http://bit.ly/8s108U
15:16 古井先生「自由な対話に向けて：いま五合目。頂上は雲の中。音声研究には夢がある？音声には生成原理がある。音声知覚の知識は乏しい」
15:19 古井先生「R. Moore 1994: 20 things we still don’t know about speech. 大事なことがほとんど分かっていない。人と人のコミュニケーションの原理も？」
15:24 古井先生「N. Morgan 2006 : Major ASR problems. 急な話速変化、言語やシステムの移植性。。音響モデル：HMMは不十分：数百msのダイナミクスも必要？言語モデル：単純すぎる。適応化、汎化。。」
15:29 古井先生「出来ること：計算パワー。ラベルなしデータの活用。構文、韻律、意味、マルチモーダル、信頼度、グラフィカルモデル。。」
15:31 古井先生「根本的に不足：何か大きな原理？まだ誰も発見していない、あっと驚く原理？」
15:35 古井先生「音声認識の情報理論モデル。変動の要因。知識源の体系化と統合。来るべき4G=Speech and Intelligence. 知識処理を取り込む」
15:37 古井先生「柔軟性頑健性。人間の理解モデル。科学？工学？」「発想の転換を。音声は思考過程の本質？単純で美しいモデル：こだわりを払拭すべき？」
15:39 古井先生「ユニークで独創的なアイディア。茂木氏「フロー状態」。最後に：国際交流とリーダシップ、世代交代？」
15:39 古井先生の御講演、予稿どおりの内容ですね。
15:40 古井先生「むすび：人の能力に近づく道筋を。大きな発想の転換？研究者の協力に期待」
15:45 古井先生質疑「モデル階層の問題？デコーダ（サーチ）の問題？後者の問題意識でWFSTに注目」「科学か工学か：視点によって五合目かどうか代わる。人間で言えば何歳か言えない、分裂：機械の現状」
15:47 古井先生質疑「サイエンスでやるべきという主張も。6年前と現在でロードマップ不変。失われた6年？工学はできることをやるべき」
15:50 古井先生質疑「あと20年研究を続けるために？何もしないわけにはいかない？存在意義主張を。限定してもユーザの役立つものを。制御可能性あるI/F。機械だと割り切ればさすがと言えるものを」
15:52 最後の古井先生の話はこれ？：Bruce Balentine の ‘It’s Better to Be a Good Machine Than a Bad Person’ を Amazon でチェック！ http://bit.ly/5tCdtJ
15:55 音声言語シンポジウム：パネルの前にASRU2009 Italyの報告
16:04 「ASRU：いま採択率はICASSPより低い。一般発表はポスター。音響モデルの新技術提案。言語モデルはGoogle主流、識別学習が流行。翻訳・多言語。理解・対話：賢さより透明性？漸次的？」
16:13 パネル「音声認識研究に何が必要か？」趣旨「認識技術の議論に絞る」登壇者「Webの存在：膨大なデータ。データを集めれば一定の性能が得られる時代に？閉塞感？汎用性？」
16:19 「高コストな書き起こしにとらわれない手法。Googleのアプローチ」
16:24 登壇者2「言語の一般性と多様性を分離できるモデル？アーキテクチャの革新？階層間統合、時間軸考慮、大規模分散。。」
16:33 登壇者3「音声コミュニケーションの描像。多様なダイナミクス＝階層をそれぞれモデル化。音声認識研究：階層間の分業？部分最適化からの脱却？研究者の連携。ツールの発信」
16:41 登壇者3「飽和している音声認識技術。対象を変えて：障害支援を。ユーザが協力的、期待が大きい。MFCCを超える特徴量？」
16:44 「音声認識研究による社会貢献を」いいですね。
16:50 登壇者4「自然言語処理の現在。意思決定支援：言論マップ。使える資源が整備されつつある。音声も言語もデモで見栄えしない？」
16:54 「音声技術にもっと言語処理が使える？」「open domainは不可能？対象と用途を制限、使えることを社会に示す？問題を見つけて早く解決？真剣なシステムの作り手を評価すべき」
16:56 「Google音声検索：社会に評価されている。音声と言語の処理を横断する良いタスクを？」
17:03 議論「速記・書き起こしなら機械は人間に勝てる？大規模のマッチドデータから脱却？教師なし適応は現場では困難」「3歳の人間にできる汎化能力が機械にない」
17:05 議論「言語モデル：単純すぎるのでマルチドメイン汎化できない。音響モデルなら上手くいく？」「形態素解析：新聞とWeb文書で性能劣化しにくい。かな漢字変換では致命的。データ量次第？」
17:12 議論「たくさんシステムを作れば共通点が」「識別学習の流行は続く？特徴量の次元圧縮が主流？」「汎化能力の低い障害：自閉症への着目？」
17:13 最後に古井先生「やることがいっぱいある。共有できた」終了。
21:10 私も気になった RT @ikkn でも、古井貞熙先生、「（５％進んで５％戻る）飽和した研究状態」の原因が「２年単位くらいで成果が求められる状況」にあるはずなのに、「２年単位くらいで成果が出る工学的アプローチ」で「あっと驚く何かを発見せよ」というのは無茶だと思う
21:14 音声認識研究の過去にとらわれない人が「根本的に不足してる何か」を見つける可能性はけっこうあると思うよ。。

何かが欠けている音声認識研究

More posts