写真 青い空と雲と建物と木々の緑

nishimotzの日記

  • 2月研究会

    金曜日から愛媛で研究会です。研究会開催案内ページを下記で公開しています。

  • リリースノートとチュートリアル

    sourceforge.jp の galatea プロジェクトの wiki サイトに、3月に配付される予定の Galatea Toolkit リリースノートとチュートリアルの草稿を公開しています。

    チュートリアルでは Ruby on Rails を使う具体的な例を掲載しました。

  • テンプレートの階層

    音声対話ツールキット Galatea のプロジェクトに関わり、マルチモーダル対話記述・アーキテクチャの標準化に関わり、Ruby on Rails による VoiceXML アプリケーションの実装について考えた末、「階層化されたシステムの実装は、テンプレートエンジンの階層になる」と思うようになりました。

    Webアプリケーションのフレームワークの多くがテンプレートエンジンを提供しています。いくつもの階層でそれぞれに記述の標準化を行っていることのメリットは十分にありますが、記述が冗長になるというデメリットもあります。テンプレートエンジンはこうした問題を解決する一つの手段です。

    音声対話技術コンソーシアム(ISTC)では、音声入出力、GUI入出力などを有するインタフェースシステムについて、各階層でのインタラクション記述仕様の標準化について検討を行い、いわゆる Model/View/Controller の構造をさらに詳細化した6階層を提案しています。

    私が開発を続けている Galatea Dialog Studio という対話制御エンジンについて考えると、いくつかの階層は Ruby on Rails のMVCフレームワークに対応していると考えられます。また、いわゆる Web アプリケーションをまず実装して、HTML に依存するレイヤーだけを VoiceXML に差し替える、という音声対話システムの実装も、妥当な手法になると思います。

    Galatea Toolkit の Linux 版について、インストールや設定の難しさという課題が残っています。当初の設計によって各モジュールを統合することに成功しました。しかし、カスタマイズやデバイス設定が必要な場合に、現時点では、多くの箇所を矛盾なく変更する必要があります。

    インタラクション記述ではないものの、各階層を動作させるためには、それぞれ必要なパラメータや設定情報があります。例えば音声合成であれば、言語処理や話者モデルのリストを与える必要があります。音声認識についてはオーディオ入力、音声検出、音響モデルなど数多くのパラメータが存在します。これらの設定を Galatea Toolkit で統合的に扱いたいと考えています。設計していくとこれはやはり「テンプレートの階層」になりそうです。

    具体的には、以下のようなアーキテクチャで実装を進めています。

    1. システム領域にインストールされるファイルやツール
      • 汎用的なエンジンやファイル
        • プロジェクトファイルのテンプレート
        • 実行時ファイルのテンプレート
      • パスを固定してインストールする必要があるツール
      • プロジェクトを生成する galatea-generate コマンド
    2. ユーザ領域にプロジェクトファイルとして生成されるファイル群
      • config ディレクトリ
        • システム設定ファイル: システム領域の path などを参照する
        • プロジェクト設定ファイル:プロジェクト固有の設定
      • 拡張モジュール用ディレクトリ:プロジェクト固有のモダリティ拡張など
      • log / tmp 用ディレクトリ
      • runner スクリプト
      • プロジェクトの編集を支援するスクリプト
      • 対話アプリケーションサーバ:例えば rails のプロジェクト
    3. 実行時に生成されるファイル群
      • システム領域のテンプレートとプロジェクト設定ファイルに基づいて生成

    これらをできるだけ Ruby on Rails の作法に馴染むように設計を行っています。

    私は Rails に触れる前に、Java で簡易テンプレートエンジンを実装してみたり、PHP や Perl のテンプレートエンジンを使ったりしましたが、インストールが面倒であったり、テンプレートエンジン独自の記述言語を使用していたり、といったところに不満を感じました。

    Ruby が ERB というテンプレートエンジンを標準で備えていて、ERB の中で Ruby 言語そのものが使用できる、自作の Ruby スクリプトから簡単に ERB の機能が利用できる、ということに、好感を持っています。

    VoiceXML ブラウザと HTML ブラウザは完全に等価な位置づけと見なせない部分がいくつかあります。またモダリティを使い分けるのではなく組み合わせる場合にはさらに考慮が必要となります。どの階層をどのように補っていくべきか、今後システム実装の経験を踏まえた提案をしていきたいと考えています。