情報保障と音声認識

先日、パソコンソフトの売り場で、音声認識ソフトを買いに来たお客さんに店員さんが説明をしているのを耳にしました。

どうやら議事録の作成に使いたい様子。これに対して店員さんは、いまの技術ではヘッドセットを付けてリスピークした音声でないと無理、フットスイッチで音声を止めながら聞いてキーボードで書き起こす方がいいです、と説明。音声認識ソフトを買うことを思い留まらせようとしていました。

音声認識の中でもディクテーションは使いこなすことが難しい技術だと思います。

しゃべれば文字になる。

そう言われると誰もが過度な期待を持ちます。

その技術にどんな制約や限界があるのか、喋り手は理解していません。説明されたり練習をしても、常に意識していられません。

情報保障の場で、音声認識を意識しつつ、目の前の聴き手に対して自然に話すことはできるのか?

上手にリスピークをするためのコツはあるのか?

音声認識結果の読み手に配慮する情報提示の方法は?

これらの問題について先日の研究会でもいろんなヒントがありました。

おそらくは音声認識技術だけでなくヒューマンインタフェースが大きなポイントです。

例えば NHK の研究所ではテレビ放送字幕を音声認識で作成する研究が行われています。音声認識エンジンをどのように改良すればよいか、誤認識を人手で訂正するインタフェースはいかにあるべきか、ということについても検討が行われています。

ここ数年の音声認識を取り巻く技術の変化、ニーズの変化を踏まえて、そろそろ、新たな取り組みが可能になりつつあるのかも知れません。

[wit] 第46回研究会が終了

松山での研究会が終了しました。

個人的には、音声認識や話速変換などの技術を情報アクセシビリティにどう生かすか、改めて考えさせられました。これをきっかけに情報保障の実験が活発になればよいと思います。私も音声認識の応用など、自分でもいろいろやってみたいと思いました。

以下、次回以降の予定です。

  • 第47回研究会:2009年3月23日~25日
    • 会場:島根大学(松江市) 一般発表16件
    • 2008年度HCGシンポジウム合同イベント
      • 「オブジェクト指向スクリプト言語 「Ruby」の開発」 まつもと ゆきひろ(ネットワーク応用通信研究所)
      • 「エンタテイメント工学:心を豊かにする科学技術の創生」 苗村健(東大)・稲見昌彦(慶大)
      • 「HC研究の過去・現在・未来 ~ MVE研の事例から ~ 」
      • HCG懇親会(HC賞表彰式)
    • 手話通訳・要約筆記=2月27日締切
    • 点字資料=研究会プログラムと概要を作成予定
  • 第48回研究会:2009年5月14日~15日
    • 会場:沖縄産業支援センター
    • 発表申込期限:2009年3月13日
    • テーマ:コミュニケーション支援,共生コミュニケーション,および福祉情報工学一般
    • 共催:ヒューマン情報処理研究会(HIP),ヒューマンコミュニケーション基礎研究会(HCS),ヒューマンインタフェース学会研究会

checkinstall

最近、簡単に .deb パッケージを作るツールの存在を知りました。

さっそく galatea で使用しています。

GalateaTalk で使っている言語処理系 /usr/local/istc をパッケージにする例です:

準備

作業環境は Ubuntu Linux 8.10

$ sudo apt-get install checkinstall

目標

  • /usr/xxx にインストールするための .deb を作る

準備

  • インストールするコマンドを確認。ここでは sudo ruby setup-morph.rb だとする。
  • mkdir istc-galatea-morph-20090216 のようにパッケージ名とバージョン番号をつなげたディレクトリを作り、その中で作業するとスムーズ。

作業

$ sudo checkinstall ruby setup-morph.rb

いくつかデフォルトから変更。

管理者: nishimoto@m.ieice.org

ライセンス:ISTC

パッケージ名: istc-galatea-morph

  • パッケージが作成され、インストールが行われる。owner が root なので sudo chown しておく。

完成したパッケージのインストール

$ sudo dpkg -i istc-galatea-morph_20090216-1_i386.deb

$ ls /usr/local/istc

chaone-1.3.2-istc chasen-2.4.1-istc unidic-chasen139_eucj

テンプレートの階層

音声対話ツールキット Galatea のプロジェクトに関わり、マルチモーダル対話記述・アーキテクチャの標準化に関わり、Ruby on Rails による VoiceXML アプリケーションの実装について考えた末、「階層化されたシステムの実装は、テンプレートエンジンの階層になる」と思うようになりました。

Webアプリケーションのフレームワークの多くがテンプレートエンジンを提供しています。いくつもの階層でそれぞれに記述の標準化を行っていることのメリットは十分にありますが、記述が冗長になるというデメリットもあります。テンプレートエンジンはこうした問題を解決する一つの手段です。

音声対話技術コンソーシアム(ISTC)では、音声入出力、GUI入出力などを有するインタフェースシステムについて、各階層でのインタラクション記述仕様の標準化について検討を行い、いわゆる Model/View/Controller の構造をさらに詳細化した6階層を提案しています。

私が開発を続けている Galatea Dialog Studio という対話制御エンジンについて考えると、いくつかの階層は Ruby on Rails のMVCフレームワークに対応していると考えられます。また、いわゆる Web アプリケーションをまず実装して、HTML に依存するレイヤーだけを VoiceXML に差し替える、という音声対話システムの実装も、妥当な手法になると思います。

Galatea Toolkit の Linux 版について、インストールや設定の難しさという課題が残っています。当初の設計によって各モジュールを統合することに成功しました。しかし、カスタマイズやデバイス設定が必要な場合に、現時点では、多くの箇所を矛盾なく変更する必要があります。

インタラクション記述ではないものの、各階層を動作させるためには、それぞれ必要なパラメータや設定情報があります。例えば音声合成であれば、言語処理や話者モデルのリストを与える必要があります。音声認識についてはオーディオ入力、音声検出、音響モデルなど数多くのパラメータが存在します。これらの設定を Galatea Toolkit で統合的に扱いたいと考えています。設計していくとこれはやはり「テンプレートの階層」になりそうです。

具体的には、以下のようなアーキテクチャで実装を進めています。

  1. システム領域にインストールされるファイルやツール
    • 汎用的なエンジンやファイル
      • プロジェクトファイルのテンプレート
      • 実行時ファイルのテンプレート
    • パスを固定してインストールする必要があるツール
    • プロジェクトを生成する galatea-generate コマンド
  2. ユーザ領域にプロジェクトファイルとして生成されるファイル群
    • config ディレクトリ
      • システム設定ファイル: システム領域の path などを参照する
      • プロジェクト設定ファイル:プロジェクト固有の設定
    • 拡張モジュール用ディレクトリ:プロジェクト固有のモダリティ拡張など
    • log / tmp 用ディレクトリ
    • runner スクリプト
    • プロジェクトの編集を支援するスクリプト
    • 対話アプリケーションサーバ:例えば rails のプロジェクト
  3. 実行時に生成されるファイル群
    • システム領域のテンプレートとプロジェクト設定ファイルに基づいて生成

これらをできるだけ Ruby on Rails の作法に馴染むように設計を行っています。

私は Rails に触れる前に、Java で簡易テンプレートエンジンを実装してみたり、PHP や Perl のテンプレートエンジンを使ったりしましたが、インストールが面倒であったり、テンプレートエンジン独自の記述言語を使用していたり、といったところに不満を感じました。

Ruby が ERB というテンプレートエンジンを標準で備えていて、ERB の中で Ruby 言語そのものが使用できる、自作の Ruby スクリプトから簡単に ERB の機能が利用できる、ということに、好感を持っています。

VoiceXML ブラウザと HTML ブラウザは完全に等価な位置づけと見なせない部分がいくつかあります。またモダリティを使い分けるのではなく組み合わせる場合にはさらに考慮が必要となります。どの階層をどのように補っていくべきか、今後システム実装の経験を踏まえた提案をしていきたいと考えています。

大統領と情報保障

2月20~21日に愛媛大学で開催する第46回(平成20年度第5回)福祉情報工学研究会では「通訳者支援システム「イズ」とその情報保障支援の可能性」という招待講演企画を行います。そこで紹介していただく「イズ」というシステムを使ったイベントが2月10日に四谷で開催されるそうです。

緊急開催!特別通訳セミナー

「オバマ大統領演説~そのスピーチ英語に迫る」

~世界初の通訳支援システムを使った同時通訳の実演付~

下記サイトでも案内されています。

「日本の通訳の草分けで大御所の小松達也氏をお迎えして「is」の初めての公開同時通訳を行います」とのこと。

このシステムを、英語の通訳だけでなく、手話通訳やPC要約筆記など情報保障の普及に役立てられないか、という提案が、愛媛大学の研究会での企画趣旨です。

「通訳者支援システム「イズ」とその情報保障支援の可能性」

企画概要:

一般に通訳においては聞きながら喋るという作業が必要であり高い認知的負荷が生じる。

これは手話通訳などの情報保障においても同様と考えられる。

特に通訳作業におけるこのような認知的負荷を軽減するために、(株)ストレートワード、(株)パワーシフト、東京大学の共同で通訳者支援システム「イズ」が開発され、これまでに日本語・英語などの同時通訳・逐次通訳におけるパフォーマンス向上とコスト削減の効果が確認されており、語学学習、講演聴講支援など多様な応用も期待されている。

本企画ではこのシステム「イズ」を実演を交えて紹介していただく。

本システムでは話速変換が技術要素として用いられており、また、手話通訳や要約筆記など情報保障への応用の可能性を秘めている。

聴覚および福祉情報工学の共催研究会において本システムの紹介の場を設けることで、さまざまな議論のきっかけになることを期待したい。

ご紹介する技術が情報保障に役立つ、ということは、今の段階では著者グループと私の中での仮説に過ぎません。

今回の企画で技術をご紹介いただくことをきっかけに、こういった実験を研究として行う場が自発的に形成されることを期待しています。

余談ですが、1月のオバマ大統領就任の際にホワイトハウスのウェブサイトがリニューアルされました。RSS フィードが発信され、さらにアクセシビリティに力を入れることが宣言されています。ビデオ映像に字幕が付与されるなどの取り組みがなされています。