NHKテレビで浅川智恵子さんのお仕事の様子が取り上げられていました。
「ホームページリーダー」の開発者として著名な浅川さんですが「音声読み上げソフト」についての理解が広まるのはよいことだと思います。
売り上げランキング: 6229
ホームページ・リーダー使用感
NHKテレビで浅川智恵子さんのお仕事の様子が取り上げられていました。
「ホームページリーダー」の開発者として著名な浅川さんですが「音声読み上げソフト」についての理解が広まるのはよいことだと思います。
ホームページ・リーダー使用感
下記の場で連名で発表をした内容について、西本担当分の原稿をご紹介しておきます。
今後の活動のために新しい組織が必要と考えています。
に公開したマニフェストを随時改訂していくつもりです。
****
3 音声対話技術の普及促進と進化
3.1 Rubyによる対話記述の検討
さまざまな機能を持つWebベースのアプリケーションが広く使われるようになった現在こそ、たとえその一部でも音声インタフェースを介して利用できることの意義は大きい。ブラウザのフォームに情報を埋める作業を繰り返していると、もっと効率よく、あるいは、キーボードやマウスに頼らずに操作したい、と感じるのではなかろうか。
システム記述言語の設計においては、実績のある成功事例(ベストプラクティス)が有用である。我々の6階層アーキテクチャにおける第5~6層(タスク間制御、データモデル、アプリケーションロジック)について、既存のWebアプリケーション開発から借用できる成功事例の一つとして、Rails (Ruby on Rails) に着目している。
VoiceXMLは第5層と第4層の界面に対応しており、これは一般的なWebにおけるHTMLに相当する。Webアプリケーションではテンプレートエンジン(HTML に埋め込まれたスクリプト言語を実行する処理系)が一般的である。
「階層の界面が記述言語に対応し、各階層がテンプレートエンジン処理系に対応する」
という構図は6階層モデルの随所に当てはまる。
テンプレートエンジンにはさまざまな技術や記述言語が乱立しているが、Rails によるWebアプリケーション開発ではオブジェクト指向が徹底され、MVC のすべての要素が Ruby で記述され、一貫性がある。Ruby言語はコードブロックによって手続き型言語と宣言型言語の記述の混在が可能になり、いわゆる「ドメイン記述言語」への流用が容易とされる。Model においては SQL データベースを簡潔な記述で操作できるクラスライブラリがある。View においては HTML にRubyの記述を埋め込むテンプレートエンジン機能(ERB)がある。
RubyによるVoiceXMLアプリケーションの事例は、階層モデルにおける記述言語やアーキテクチャの詳細を考える出発点になるという立場から、Galatea Dialog Studio の開発はRuby on Rails との互換性を重視して進めている。
3.2 知識からの対話生成
音声対話システムによって「どのようなインタラクションを実現すべきか」を議論することは重要である。目標が定まらない段階でアーキテクチャや記述言語を検討するのは時期尚早という意見もある。これまでの標準化活動では、できるだけ先進的なユースケースを取り入れることでこの問題を克服してきたが、ユースケースもやがて時代遅れになる懸念がある。
これに対して、時代遅れになりにくい「抽象的で普遍的な情報構造」に着目して、インタラクションの詳細を後から開発・標準化する、というアプローチがある。多くの実現例が報告されている「一問一答型の対話システム」も一例と言える。書籍のメタファで音声対話コンテンツを記述する提案はこれまでにも行われてきた。
近年「情報提供型の音声対話」の要素技術として注目に値するのは、障害の有無にかかわらず読書ができる環境を実現する「マルチメディアDAISY」
である。その派生技術である「テキストDAISY」はテキスト音声合成技術の新しい応用分野である。ハイパーリンクや検索といった電子書籍の操作手段としての音声対話にも期待が高まる。
3.3 コミュニケーションの効率性
擬人化音声対話エージェント技術は「人間が声で会話したいと感じるような人工物をいかに実現するか」という問題への一つの回答だと考えられてきた。
その目標を真に達成するためには「対人コミュニケーション」を形式的な問題として捉えるのではなく、高品質の映像や音声を高速に制御し、豊かな情報の伝達を可能にし、コミュニケーションの効率性を本質的に高める必要があろう。
エージェント制御に力学や物理学のモデルを取り入れる試み
音声インタフェースを「実時間の効率性」という観点から構成要素に分解する検討
などはマルチモーダル対話アーキテクチャに今後必要となる視点を与えるだろう。
擬人化エージェントの研究から派生したアイディアだが、ちょっと前に作って放置していたデモをビデオにしてみた。
ビデオの作り方に関するメモ。Snagit 9 でデスクトップをビデオキャプチャしたら、ちゃんとマイク入力も取り込んでくれる。VideoStudio 12 で編集。タイトルだけのところは黒の「カラークリップ」で作る。キャプチャした映像は画面サイズが不均一なので、オーバーレイトラックに乗せる。最後は1080×720のWMVに落として、YouTubeにアップロード。
考えていただきたいポイントは「ユーザが入力したいものの名前を言っている間に、常に意味のある反応をし続けること」の効果である。前半ではそれが無効になっており、後半では有効になる。
このこと自体は多くの研究で主張され続けてきたが、具体的な手段についてはいろいろあっていいはずだ。だからこのデモでは「選択肢そのものをつかんで触る」というインタラクションと組み合わせてみた。
スライドと予稿はこちら。
この研究そのものは中断しているが、少なくとも「常に情報を受け取りながら意味のある反応を実時間で行う」という目標は、擬人化エージェントの制御に必要な要素だと考えている。
お弁当を選ぶだけなら話は簡単だが、一般的に「意味のある反応」のための実時間制御を作り込むのは簡単ではない。現在取り組んでいる手法について、近いうちに御報告できると思う。