タグ: speech

何かが欠けている音声認識研究

東京大学で開催中の音声言語シンポジウム。一日目の企画（招待講演とパネル討論）のメモです。
「積み上げの効かないモデル調整で論文件数を稼いで生き延びる」のか、「成果の出にくいチャレンジングなアプローチで人生を棒に振る」のか。。
「何かが欠けている」現状を招いたのは、現在の研究業績の評価システムではないか、と言いたげな発言もありました。
興味深かったのは「障害」「福祉」に目をつけることで、新しい応用分野、研究アプローチが見つかるのではないか、という提案が相次いだことです。
(さらに…)

2009年12月22日
音声対話技術の普及促進と進化
下記の場で連名で発表をした内容について、西本担当分の原稿をご紹介しておきます。
- 第78回音声言語情報処理研究会 (SIG-SLP)(第5回音声言語情報処理技術デベロッパーズフォーラム)
- 日時：平成21年10月23日(金)
- (5) 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討
  
  荒木雅弘 (京都工繊大), 西本卓也 (東大), 桂田浩一, 新田恒雄 (豊橋技科大)
  
  プログラム http://sig-slp.jp/2009-SLP-78.html
  
  スライド http://www.slideshare.net/nishimotz/ss-2327572
今後の活動のために新しい組織が必要と考えています。
- http://ja.nishimotz.com/project:open_source_speech_technology
に公開したマニフェストを随時改訂していくつもりです。

＊＊＊＊

3 音声対話技術の普及促進と進化

3.1 Rubyによる対話記述の検討

さまざまな機能を持つWebベースのアプリケーションが広く使われるようになった現在こそ、たとえその一部でも音声インタフェースを介して利用できることの意義は大きい。ブラウザのフォームに情報を埋める作業を繰り返していると、もっと効率よく、あるいは、キーボードやマウスに頼らずに操作したい、と感じるのではなかろうか。

システム記述言語の設計においては、実績のある成功事例（ベストプラクティス）が有用である。我々の6階層アーキテクチャにおける第5～6層（タスク間制御、データモデル、アプリケーションロジック）について、既存のWebアプリケーション開発から借用できる成功事例の一つとして、Rails (Ruby on Rails) に着目している。

VoiceXMLは第5層と第4層の界面に対応しており、これは一般的なWebにおけるHTMLに相当する。Webアプリケーションではテンプレートエンジン（HTML に埋め込まれたスクリプト言語を実行する処理系）が一般的である。

「階層の界面が記述言語に対応し、各階層がテンプレートエンジン処理系に対応する」

という構図は6階層モデルの随所に当てはまる。

テンプレートエンジンにはさまざまな技術や記述言語が乱立しているが、Rails によるWebアプリケーション開発ではオブジェクト指向が徹底され、MVC のすべての要素が Ruby で記述され、一貫性がある。Ruby言語はコードブロックによって手続き型言語と宣言型言語の記述の混在が可能になり、いわゆる「ドメイン記述言語」への流用が容易とされる。Model においては SQL データベースを簡潔な記述で操作できるクラスライブラリがある。View においては HTML にRubyの記述を埋め込むテンプレートエンジン機能(ERB)がある。

RubyによるVoiceXMLアプリケーションの事例は、階層モデルにおける記述言語やアーキテクチャの詳細を考える出発点になるという立場から、Galatea Dialog Studio の開発はRuby on Rails との互換性を重視して進めている。
- http://ja.nishimotz.com/dialogstudio_rails
- http://sourceforge.jp/projects/galatea/wiki/JapaneseTutorial
3.2 知識からの対話生成

音声対話システムによって「どのようなインタラクションを実現すべきか」を議論することは重要である。目標が定まらない段階でアーキテクチャや記述言語を検討するのは時期尚早という意見もある。これまでの標準化活動では、できるだけ先進的なユースケースを取り入れることでこの問題を克服してきたが、ユースケースもやがて時代遅れになる懸念がある。

これに対して、時代遅れになりにくい「抽象的で普遍的な情報構造」に着目して、インタラクションの詳細を後から開発・標準化する、というアプローチがある。多くの実現例が報告されている「一問一答型の対話システム」も一例と言える。書籍のメタファで音声対話コンテンツを記述する提案はこれまでにも行われてきた。
- Takuya Nishimoto, Masahiro Araki, Yasuhisa Niimi:”RadioDoc : A Voice-Accessible Document System,”Proc. ICSLP2002, pp.1485-1488, Denver, Sep 2002.
- 西本卓也, 荒木雅弘, 新美康永:”擬人化音声対話エージェントのためのタスク管理機能,”日本音響学会2002年春季研究発表会, 1-5-15, pp.29-30, Mar 2002.
近年「情報提供型の音声対話」の要素技術として注目に値するのは、障害の有無にかかわらず読書ができる環境を実現する「マルチメディアDAISY」
- DAISY研究センター http://www.dinf.ne.jp/doc/daisy/
である。その派生技術である「テキストDAISY」はテキスト音声合成技術の新しい応用分野である。ハイパーリンクや検索といった電子書籍の操作手段としての音声対話にも期待が高まる。

3.3 コミュニケーションの効率性

擬人化音声対話エージェント技術は「人間が声で会話したいと感じるような人工物をいかに実現するか」という問題への一つの回答だと考えられてきた。
- 嵯峨山茂樹, 西本卓也, 中沢正幸: “擬人化音声対話エージェント,”情報処理学会誌, Vol.45, No.10, pp.1044-1049, Oct. 2004.
その目標を真に達成するためには「対人コミュニケーション」を形式的な問題として捉えるのではなく、高品質の映像や音声を高速に制御し、豊かな情報の伝達を可能にし、コミュニケーションの効率性を本質的に高める必要があろう。

エージェント制御に力学や物理学のモデルを取り入れる試み
- 中沢正幸, 西本卓也, 嵯峨山茂樹:”視線制御モデルによる擬人化音声対話エージェントの制御,”2005年度人工知能学会全国大会(第19回)論文集, 3B2-07, Jun 2005.
音声インタフェースを「実時間の効率性」という観点から構成要素に分解する検討
- 西本卓也，岩田英三郎, 櫻井実, 廣瀬治人:”探索的検索のための音声入力インタフェースの検討,”情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.
などはマルチモーダル対話アーキテクチャに今後必要となる視点を与えるだろう。
2009年10月25日
音声によるインクリメンタル検索
擬人化エージェントの研究から派生したアイディアだが、ちょっと前に作って放置していたデモをビデオにしてみた。
- 西本卓也他: “探索的検索のための音声入力インタフェースの検討,” 情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.
ビデオの作り方に関するメモ。Snagit 9 でデスクトップをビデオキャプチャしたら、ちゃんとマイク入力も取り込んでくれる。VideoStudio 12 で編集。タイトルだけのところは黒の「カラークリップ」で作る。キャプチャした映像は画面サイズが不均一なので、オーバーレイトラックに乗せる。最後は1080×720のWMVに落として、YouTubeにアップロード。
- http://www.youtube.com/watch?v=g6xYvRj3E3I
考えていただきたいポイントは「ユーザが入力したいものの名前を言っている間に、常に意味のある反応をし続けること」の効果である。前半ではそれが無効になっており、後半では有効になる。

このこと自体は多くの研究で主張され続けてきたが、具体的な手段についてはいろいろあっていいはずだ。だからこのデモでは「選択肢そのものをつかんで触る」というインタラクションと組み合わせてみた。

スライドと予稿はこちら。
- http://www.slideshare.net/nishimotz/ss-2319837
- http://hil.t.u-tokyo.ac.jp/~nishi/2008/Nishimoto2008HCI01.pdf
この研究そのものは中断しているが、少なくとも「常に情報を受け取りながら意味のある反応を実時間で行う」という目標は、擬人化エージェントの制御に必要な要素だと考えている。

お弁当を選ぶだけなら話は簡単だが、一般的に「意味のある反応」のための実時間制御を作り込むのは簡単ではない。現在取り組んでいる手法について、近いうちに御報告できると思う。
2009年10月23日

タグ: speech

何かが欠けている音声認識研究

音声対話技術の普及促進と進化

音声によるインクリメンタル検索