音声対話と「もう一つの未来」

8月下旬に京都で行われる音声対話技術の講習会で、音声対話技術コンソーシアム(ISTC)が製作する Galatea Toolkit DVD-ROM が配付される予定です。私は主にLinux版に関する Toolkit の更新作業を担当しています。

SourceForge.JPのgalateaプロジェクトでは通称「IPAライセンス」で開発されたオープンソース成果物とその後継版を配付しています。私が開発している音声対話エンジンGalatea Dialog Studio (GDS) 2.2.2も300件以上ダウンロードしていただいているようです。

全てのモジュールを統合したISTCの成果物は講習会参加者およびISTC会員に配付される予定です。コンソーシアムの活動は本年度で終了するので、その後の開発を継続するためには、これらのツールに関するオープンソースコミュニティをもっと盛り上げていく必要があるだろうと思います。

以前この日記で考察した「Ruby on Rails による VoiceXML 開発」はまだ「今後の課題」のままなのですが、Ruby on Rails の「フルスタック」という特長はGDSにとっても重要ではないかと思います。GDS は Java で実装されているのですが、いずれ JRuby によって、アプリケーションとインタプリタのフルスタック処理系に手が届くだろうと展望しています。これは、そもそも HTTP と VoiceXML という技術によって音声対話システムをサーバ・クライアント型モデルに分離したという経緯を考えると、不合理に思えるかも知れません。しかし、その理由はそのまま「フルスタック環境である Ruby on Rails の利便性」と同じなのではないかと思います。

フルスタックという言葉からもう一つ思うのは、音声対話システムがうまく動かないときに、システムが依存している全てのモジュールの設定ファイルやログの確認を行うのは非常に複雑な作業である、ということです。将来的には、全てのモジュールが統一的なリモートロギングのインタフェースを備える必要があるだろうと思います。暫定的には、全てのモジュール（音声認識、音声合成、顔画像合成）の設定ファイルを対話マネージャが動的に生成し、GDS が各モジュールのログファイルを一元的に監視する、という方向を目指しており、今日もそのための作業をすこし進めました。

音声対話あるいは音声認識について、ヒューマンインタフェースの開発者・研究者の方々は「実用にならないまま過去のものになってしまった技術」という見方をお持ちかも知れません。その一方で音声認識の研究者の方々には「もう完成されており、後は使ってもらうだけの技術」という見方もあるのではないかと思います。

西本が今年1月に研究会で発表した

西本卓也，岩田英三郎, 櫻井実, 廣瀬治人: “探索的検索のための音声入力インタフェースの検討,” 情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008. (PDF)

は、そうした現状における問題提起のひとつなのですが、この予稿の中で私が提案した「インタフェースシステムの導入原則」（下記、一部加筆）があります。

（ここから）

インタフェースシステムの基本原則および構成原則（西本 1996）を踏まえて，近年のインタラクション技術の動向を反映させ，また著者の経験を反映させるための再検討を行っている．

「基本原則」および「構成原則」の視点は引き続き有効である．そのうえで，インタフェースシステムを成功させるためには，アプリケーションそのものの選択や設計により深く関与し，システムをどのような状況に適合させ，どのように評価や改良を行っていくか，というプロセスが重要になっている．インタフェース原則を補完するものとしてこれらを暫定的にまとめたものが，以下の「インタフェースの導入原則」である．

「インタフェースの導入原則」

a.有用性の原則: システムが使用される現場における必然性を考慮して設計と導入を行う．ユーザに動機付けを与える心地よさ・美しさ・楽しさを盛り込む（エモーショナルデザイン(Norman 2004)）．
b.適合性の原則: あらゆる年齢や能力の人々に対して可能な限り使いやすさを提供する（ユニバーサルデザイン）．システムが使われる状況・環境を考慮する．ユーザ以外の人に悪影響を与えない．ユーザが行っている他のタスクに悪影響を与えない．
c.妥当性の原則: 妥当な時期に妥当な尺度で評価を行う．評価の結果を生かして反復的な開発・改良を行う．

（ここまで）

インターネットにまつわる日々の雑用（その多くは、メールを読んで、メールを検索して、カット＆ペーストしてメールを送ったり、ウェブのフォームを埋めることだったりしますよね）が不毛に感じられることがあります。

GUIが普及してインターネットが普及したからこそ、いまのPC利用の状況は「当たり前」にしか感じられないのですが、たまたま「音声対話システム」がなかったにも関わらず「インターネットというインフラ」は実現してしまい、「人間がやっていた仕事をコンピュータに代行させたい」というニーズが爆発的に増加してしまった。結果的に、テキスト情報と視覚的インタフェースだけで「人間の代わりをしてくれる自動応答サービス」を実現せざるを得なくなった、とは言えないでしょうか？

音声対話システムは「起きるはずだった未来」あるいは「失われた未来」ではなかったでしょうか。。

もしも、音声対話システムが「もっと上手に」実現され普及していたら、我々は今日のようなメールとウェブのフォームから解放され、もっとスマートにインターネットを使いこなせていたのではないか、と思えてきました。

いや、「失われた未来」を取り戻すのは、まだ遅くないと思うのです。いかがでしょうか。。。

音声対話と「もう一つの未来」

More posts

PyCon mini Hiroshima 会計繰越金の活用と解散について

すごい広島 with Python [98] 開催報告

GAAD Japan 2025 広島会場

PCNひろしまについて

2025年2月

2024年秋

2024年7月

PCNひろしまの運営

YAPC初登壇、初スポンサー

YAPC初参加、初運営

2024年2月

広島国際会議場の受動喫煙対策

2024年1月

2023年12月

2023年9月

2023年8月

2023年夏

試して遊ぶ！Webアクセシビリティ

iPhone・iPad活用ラウンジ 2023年4月

WTM 110 登壇予定