写真 青い空と雲と建物と木々の緑

nishimotzの日記

  • リリースノートとチュートリアル

    sourceforge.jp の galatea プロジェクトの wiki サイトに、3月に配付される予定の Galatea Toolkit リリースノートとチュートリアルの草稿を公開しています。

    チュートリアルでは Ruby on Rails を使う具体的な例を掲載しました。

  • テンプレートの階層

    音声対話ツールキット Galatea のプロジェクトに関わり、マルチモーダル対話記述・アーキテクチャの標準化に関わり、Ruby on Rails による VoiceXML アプリケーションの実装について考えた末、「階層化されたシステムの実装は、テンプレートエンジンの階層になる」と思うようになりました。

    Webアプリケーションのフレームワークの多くがテンプレートエンジンを提供しています。いくつもの階層でそれぞれに記述の標準化を行っていることのメリットは十分にありますが、記述が冗長になるというデメリットもあります。テンプレートエンジンはこうした問題を解決する一つの手段です。

    音声対話技術コンソーシアム(ISTC)では、音声入出力、GUI入出力などを有するインタフェースシステムについて、各階層でのインタラクション記述仕様の標準化について検討を行い、いわゆる Model/View/Controller の構造をさらに詳細化した6階層を提案しています。

    私が開発を続けている Galatea Dialog Studio という対話制御エンジンについて考えると、いくつかの階層は Ruby on Rails のMVCフレームワークに対応していると考えられます。また、いわゆる Web アプリケーションをまず実装して、HTML に依存するレイヤーだけを VoiceXML に差し替える、という音声対話システムの実装も、妥当な手法になると思います。

    Galatea Toolkit の Linux 版について、インストールや設定の難しさという課題が残っています。当初の設計によって各モジュールを統合することに成功しました。しかし、カスタマイズやデバイス設定が必要な場合に、現時点では、多くの箇所を矛盾なく変更する必要があります。

    インタラクション記述ではないものの、各階層を動作させるためには、それぞれ必要なパラメータや設定情報があります。例えば音声合成であれば、言語処理や話者モデルのリストを与える必要があります。音声認識についてはオーディオ入力、音声検出、音響モデルなど数多くのパラメータが存在します。これらの設定を Galatea Toolkit で統合的に扱いたいと考えています。設計していくとこれはやはり「テンプレートの階層」になりそうです。

    具体的には、以下のようなアーキテクチャで実装を進めています。

    1. システム領域にインストールされるファイルやツール
      • 汎用的なエンジンやファイル
        • プロジェクトファイルのテンプレート
        • 実行時ファイルのテンプレート
      • パスを固定してインストールする必要があるツール
      • プロジェクトを生成する galatea-generate コマンド
    2. ユーザ領域にプロジェクトファイルとして生成されるファイル群
      • config ディレクトリ
        • システム設定ファイル: システム領域の path などを参照する
        • プロジェクト設定ファイル:プロジェクト固有の設定
      • 拡張モジュール用ディレクトリ:プロジェクト固有のモダリティ拡張など
      • log / tmp 用ディレクトリ
      • runner スクリプト
      • プロジェクトの編集を支援するスクリプト
      • 対話アプリケーションサーバ:例えば rails のプロジェクト
    3. 実行時に生成されるファイル群
      • システム領域のテンプレートとプロジェクト設定ファイルに基づいて生成

    これらをできるだけ Ruby on Rails の作法に馴染むように設計を行っています。

    私は Rails に触れる前に、Java で簡易テンプレートエンジンを実装してみたり、PHP や Perl のテンプレートエンジンを使ったりしましたが、インストールが面倒であったり、テンプレートエンジン独自の記述言語を使用していたり、といったところに不満を感じました。

    Ruby が ERB というテンプレートエンジンを標準で備えていて、ERB の中で Ruby 言語そのものが使用できる、自作の Ruby スクリプトから簡単に ERB の機能が利用できる、ということに、好感を持っています。

    VoiceXML ブラウザと HTML ブラウザは完全に等価な位置づけと見なせない部分がいくつかあります。またモダリティを使い分けるのではなく組み合わせる場合にはさらに考慮が必要となります。どの階層をどのように補っていくべきか、今後システム実装の経験を踏まえた提案をしていきたいと考えています。

  • 大統領と情報保障

    2月20~21日に愛媛大学で開催する第46回(平成20年度第5回)福祉情報工学研究会では「通訳者支援システム「イズ」とその情報保障支援の可能性」という招待講演企画を行います。そこで紹介していただく「イズ」というシステムを使ったイベントが2月10日に四谷で開催されるそうです。

    緊急開催!特別通訳セミナー

    「オバマ大統領演説~そのスピーチ英語に迫る」

    ~世界初の通訳支援システムを使った同時通訳の実演付~

    下記サイトでも案内されています。

    「日本の通訳の草分けで大御所の小松達也氏をお迎えして「is」の初めての公開同時通訳を行います」とのこと。

    このシステムを、英語の通訳だけでなく、手話通訳やPC要約筆記など情報保障の普及に役立てられないか、という提案が、愛媛大学の研究会での企画趣旨です。

    「通訳者支援システム「イズ」とその情報保障支援の可能性」

    企画概要:

    一般に通訳においては聞きながら喋るという作業が必要であり高い認知的負荷が生じる。

    これは手話通訳などの情報保障においても同様と考えられる。

    特に通訳作業におけるこのような認知的負荷を軽減するために、(株)ストレートワード、(株)パワーシフト、東京大学の共同で通訳者支援システム「イズ」が開発され、これまでに日本語・英語などの同時通訳・逐次通訳におけるパフォーマンス向上とコスト削減の効果が確認されており、語学学習、講演聴講支援など多様な応用も期待されている。

    本企画ではこのシステム「イズ」を実演を交えて紹介していただく。

    本システムでは話速変換が技術要素として用いられており、また、手話通訳や要約筆記など情報保障への応用の可能性を秘めている。

    聴覚および福祉情報工学の共催研究会において本システムの紹介の場を設けることで、さまざまな議論のきっかけになることを期待したい。

    ご紹介する技術が情報保障に役立つ、ということは、今の段階では著者グループと私の中での仮説に過ぎません。

    今回の企画で技術をご紹介いただくことをきっかけに、こういった実験を研究として行う場が自発的に形成されることを期待しています。

    余談ですが、1月のオバマ大統領就任の際にホワイトハウスのウェブサイトがリニューアルされました。RSS フィードが発信され、さらにアクセシビリティに力を入れることが宣言されています。ビデオ映像に字幕が付与されるなどの取り組みがなされています。