何かが欠けている音声認識研究

東京大学で開催中の音声言語シンポジウム。一日目の企画(招待講演とパネル討論)のメモです。
「積み上げの効かないモデル調整で論文件数を稼いで生き延びる」のか、「成果の出にくいチャレンジングなアプローチで人生を棒に振る」のか。。
「何かが欠けている」現状を招いたのは、現在の研究業績の評価システムではないか、と言いたげな発言もありました。
興味深かったのは「障害」「福祉」に目をつけることで、新しい応用分野、研究アプローチが見つかるのではないか、という提案が相次いだことです。

  • 13:43 音声言語シンポジウムなう。後ろの方で椅子が足りません。。
  • 13:50 音声言語シンポジウム:SP用の冊子の予稿集を受け取った。発表ごとにSPかSLPかどちらかの番号がついていて、混在している。SP側はポートレートで、SLP側はランドスケープの予稿。不思議な予稿集。。
  • 14:42 古井先生の予稿にフロー体験の話が。研究者の発想転換の必要性。
  • 14:55 頑張ってtsudaりなさいと励まされたなう。これから古井先生の「何かが欠けている音声認識研究」招待講演。
  • 15:01 古井先生「若い研究者に役立つ話を。音声認識技術はいま第4世代へ:発見的方法、パターン認識、統計的・識別的、次は知識利用処理?」
  • 15:06 古井先生「ベル研で得た人脈。デルタケプストラムの原点。ICASSPの発表件数の推移。コンスタントな日本の貢献。中国の伸びが顕著。語彙と発話様式の技術トレードオフ」
  • 15:12 古井先生「音声認識技術の飽和。積み上げの効かないモデル調整多数。パターン認識と機械学習の練習問題?ミスマッチの前提欠落。実世界で動かす重要性。総合的な評価。誤認識に対処できるI/F」
  • 15:14 古井先生「自信を持ってデモを完璧に?どう発声したら確実に?ユーザの成功体験を促すべき」
  • 15:14 古井 貞熙 (単行本 – Feb 27, 2009) の ‘人と対話するコンピュータを創っています 音声認識の最前線’ を Amazon でチェック! http://bit.ly/8s108U
  • 15:16 古井先生「自由な対話に向けて:いま五合目。頂上は雲の中。音声研究には夢がある?音声には生成原理がある。音声知覚の知識は乏しい」
  • 15:19 古井先生「R. Moore 1994: 20 things we still don’t know about speech. 大事なことがほとんど分かっていない。人と人のコミュニケーションの原理も?」
  • 15:24 古井先生「N. Morgan 2006 : Major ASR problems. 急な話速変化、言語やシステムの移植性。。音響モデル:HMMは不十分:数百msのダイナミクスも必要?言語モデル:単純すぎる。適応化、汎化。。」
  • 15:29 古井先生「出来ること:計算パワー。ラベルなしデータの活用。構文、韻律、意味、マルチモーダル、信頼度、グラフィカルモデル。。」
  • 15:31 古井先生「根本的に不足:何か大きな原理?まだ誰も発見していない、あっと驚く原理?」
  • 15:35 古井先生「音声認識の情報理論モデル。変動の要因。知識源の体系化と統合。来るべき4G=Speech and Intelligence. 知識処理を取り込む」
  • 15:37 古井先生「柔軟性頑健性。人間の理解モデル。科学?工学?」「発想の転換を。音声は思考過程の本質?単純で美しいモデル:こだわりを払拭すべき?」
  • 15:39 古井先生「ユニークで独創的なアイディア。茂木氏「フロー状態」。最後に:国際交流とリーダシップ、世代交代?」
  • 15:39 古井先生の御講演、予稿どおりの内容ですね。
  • 15:40 古井先生「むすび:人の能力に近づく道筋を。大きな発想の転換?研究者の協力に期待」
  • 15:45 古井先生質疑「モデル階層の問題?デコーダ(サーチ)の問題?後者の問題意識でWFSTに注目」「科学か工学か:視点によって五合目かどうか代わる。人間で言えば何歳か言えない、分裂:機械の現状」
  • 15:47 古井先生質疑「サイエンスでやるべきという主張も。6年前と現在でロードマップ不変。失われた6年?工学はできることをやるべき」
  • 15:50 古井先生質疑「あと20年研究を続けるために?何もしないわけにはいかない?存在意義主張を。限定してもユーザの役立つものを。制御可能性あるI/F。機械だと割り切ればさすがと言えるものを」
  • 15:52 最後の古井先生の話はこれ?:Bruce Balentine の ‘It’s Better to Be a Good Machine Than a Bad Person’ を Amazon でチェック! http://bit.ly/5tCdtJ
  • 15:55 音声言語シンポジウム:パネルの前にASRU2009 Italyの報告
  • 16:04 「ASRU:いま採択率はICASSPより低い。一般発表はポスター。音響モデルの新技術提案。言語モデルはGoogle主流、識別学習が流行。翻訳・多言語。理解・対話:賢さより透明性?漸次的?」
  • 16:13 パネル「音声認識研究に何が必要か?」趣旨「認識技術の議論に絞る」登壇者「Webの存在:膨大なデータ。データを集めれば一定の性能が得られる時代に?閉塞感?汎用性?」
  • 16:19 「高コストな書き起こしにとらわれない手法。Googleのアプローチ」
  • 16:24 登壇者2「言語の一般性と多様性を分離できるモデル?アーキテクチャの革新?階層間統合、時間軸考慮、大規模分散。。」
  • 16:33 登壇者3「音声コミュニケーションの描像。多様なダイナミクス=階層をそれぞれモデル化。音声認識研究:階層間の分業?部分最適化からの脱却?研究者の連携。ツールの発信」
  • 16:41 登壇者3「飽和している音声認識技術。対象を変えて:障害支援を。ユーザが協力的、期待が大きい。MFCCを超える特徴量?」
  • 16:44 「音声認識研究による社会貢献を」いいですね。
  • 16:50 登壇者4「自然言語処理の現在。意思決定支援:言論マップ。使える資源が整備されつつある。音声も言語もデモで見栄えしない?」
  • 16:54 「音声技術にもっと言語処理が使える?」「open domainは不可能?対象と用途を制限、使えることを社会に示す?問題を見つけて早く解決?真剣なシステムの作り手を評価すべき」
  • 16:56 「Google音声検索:社会に評価されている。音声と言語の処理を横断する良いタスクを?」
  • 17:03 議論「速記・書き起こしなら機械は人間に勝てる?大規模のマッチドデータから脱却?教師なし適応は現場では困難」「3歳の人間にできる汎化能力が機械にない」
  • 17:05 議論「言語モデル:単純すぎるのでマルチドメイン汎化できない。音響モデルなら上手くいく?」「形態素解析:新聞とWeb文書で性能劣化しにくい。かな漢字変換では致命的。データ量次第?」
  • 17:12 議論「たくさんシステムを作れば共通点が」「識別学習の流行は続く?特徴量の次元圧縮が主流?」「汎化能力の低い障害:自閉症への着目?」
  • 17:13 最後に古井先生「やることがいっぱいある。共有できた」終了。
  • 21:10 私も気になった RT @ikkn でも、古井貞熙先生、「(5%進んで5%戻る)飽和した研究状態」の原因が「2年単位くらいで成果が求められる状況」にあるはずなのに、「2年単位くらいで成果が出る工学的アプローチ」で「あっと驚く何かを発見せよ」というのは無茶だと思う
  • 21:14 音声認識研究の過去にとらわれない人が「根本的に不足してる何か」を見つける可能性はけっこうあると思うよ。。


Powered by twtr2src.

Share