福祉情報工学研究会

Share

電子情報通信学会 福祉情報工学研究会(WIT)の幹事(企画担当)を勤めています。現在、来年度の研究会開催計画について議論を進めており、他の研究会との共催の交渉などを行っています。過去の実績などを踏まえて検討を進めているのですが「参加する方が何を求めているのか、何を活動のねらいにするのか、よく考えてほしい」という御意見をいただき、改めて責任の重大さを感じています。活動への御支援をよろしくお願いします。

次回研究会は10月19日に大阪大学です。前述したSLP研究会と日程が重なっているのが、私には辛いところです。

MUS/SLP研究会

Share

情報処理学会の2008年2月のMUS/SLP共催研究会の世話役を担当することになり、旅行代理店の方と交渉して会場を選定する作業に関わりました。2月8~9日です。箱根や熱海近辺のカタログやウェブページもいろいろ見ました。場所はほぼ確定しており、近々、それぞれの研究会から発表募集のアナウンスが行われる予定です。

マルチモーダル対話システム標準化

Share

情報処理学会 情報規格調査会の活動の一環として、音声入出力インタフェースの標準化活動に関わっています。この数年来行ってきた委員会活動のメンバー6人の共著により、10月19日のSLP研究会(場所:早稲田大学)で「マルチモーダル対話システムのための階層的アーキテクチャの提案」という発表を行うことになりました。VoiceXMLやSALT、SMILなどマルチモーダルインタフェースの既存技術を踏まえつつ、Galateaプロジェクトでのツールキット開発経験から得た知見に基づいた考察になっています。

学会発表

Share

すこし時間が経ってしまいましたが、9月6日にヒューマンインタフェース学会のシンポジウムで発表を行いました。場所は新宿の工学院大学です。

内容は3月の音響学会での招待講演と同じ、早口音声合成における加齢と学習の効果の検討に関する話でしたが、私もこのトピックで講演を重ねるにつれて、実験結果をどのように解釈すればよいのか、ということについて踏み込んだ考察ができるようになりました。また、私が参加した「福祉と学習」のセッションに引き続いて「学習障害」のセッションがあり、こちらでも問題意識を共有する多くの議論がなされたことが印象的でした。

9月7日にはFIT2007のイベント企画が予定されていたため、すぐに名古屋に向かおうとしたのですが、首都圏を直撃した台風の影響で、名古屋に行くことができませんでした。残念です。

9月20日には山梨大学にて日本音響学会の秋季研究発表会に参加し、ポスター発表を行いました。同じく早口音声の聴取に関する研究ですが、ここで発表したのは「聞き取りにくい音声を聞いたときの心的負荷の測定」という内容です。具体的にはNASA-TLXというメンタルワークロード測定方法を用いて行った予備的実験についての報告でした。聴覚に関するセッションであったため、補聴器や音声合成の開発や評価に使えるのではないか、といった意見もあり、有用な情報交換ができました。

ちいさな音楽会

Share

先週末「ちいさな音楽会」というタイトルのコンサートに出かけました。

知り合いのピアノの先生が主催する教室の生徒さんを中心とした発表会なのですが、今年で第23回。ずいぶん長く続けてこられたのですね。毎年招待のご連絡をいただいているのですが、以前は伺ってみたら「人手が足りないからビデオ撮影を手伝ってください」と言われたことすらありました。

今回は「ちいさな音楽会」というタイトルに見合わず、大がかりな音楽会でした。

第1部は生徒さん個人の発表会。ピアノを習いたての子供たちから大学生まで、それぞれの音楽を披露してくれました。ピアノだけでなくバイオリンやチェロの演奏もありました。途中で失敗した人もいたのですが、音楽表現の豊かさは大人顔負けで、ショパンやモーツァルトなどの名曲をたっぷり堪能しました。

演奏会の最初に小さなお子さん(もちろん生徒さんなのですが)がステージに上がり、「ようこそおいで下さいました」などと挨拶をしてくれて、ほほ笑ましかったです。

第2部は生徒さん同士の合奏。そして大人の声楽や弦楽のプロを交えて音楽物語「三匹のこぶた」。衣装や大道具なども凝ったものでした。

第3部は宮沢賢治「銀河鉄道の夜」より「銀河の歌」と題した朗読と音楽。生徒さんとプロの合同の演奏。1991年にサントリーホールで初演された作品が原型とのこと。

テリー・ライリーの「in C」を聞きながら「ピアノはずっと同じ音ばかりたたき続けるから大変なのよ」とずっと昔に語っていた先生の言葉を思い出しました。

バーバーの「弦楽のためのアダージョ」は映画「プラトーン」で有名な曲ですね。

最後の「星めぐりの歌」のアカペラは圧巻でした。

大人が聴いて感動できる演奏会を生徒さん全員参加で作り上げることの大変さを想像し、生徒さん達の才能に敬服しました。そして音楽家として、教育者として、そしてプロデューサーとしても大いに腕をふるわれた先生のご努力に頭が下がる思いでした。

打ち上げにも参加することができました。この先生と私は、大学時代に「子供のためのクラシック」というイベントでバックコーラスのお手伝いをしたのがきっかけで出会いました。そのときは「ミッキーマウスマーチ」や「こぶたぬきつねこ」を歌って、私は「きつねさん」でした(笑)

あれから歳月が過ぎ、そのころ素敵なお姉様だった方々は立派なお母様になり、赤ちゃんだった子供は立派な大学生になりました。複雑な気持ちです。

Windows Vista

Share

私の経験ではノートPCは使用期間が2年を超えると「いつ壊れてもおかしくない」状態になります。

現在使用中のマシンは Panasonic CF-R3 (Windows XP Professional) なのですが、使用期間が2年数か月となり、かなりくたびれてきたので、新しいマシンへの移行作業を進めています。

新しいマシンはすでに購入済みの CF-R6 (Windows Vista Business) です。すでに設定をいじりまくって、外見や視覚効果などはほとんどWindows XP(というよりもWindows 2000)と同等の状態にしてあります。UACも無効化しました。

しかし、ソフトウェアの開発やデモのために動かしていた Apache, PHP, PostgreSQL のWindows版がVistaでは簡単には動かない模様。

この機会に VMware Player を導入することにしました。

日経Linux 2007年7月号のCD-ROMを使用しつつ、VMware Player 2.0 を入れて、元になる仮想マシンイメージをいじって、Vine Linux 4.1 の ISO イメージからインストールを行いました。

まず旧マシンで仮想マシンを作り、インストールが終わってから新マシンで動かしたのですが、うまく行きました。ただ、VMware Tools はまだ使えない状態です。

デフォルトの RunLevel を 3 にして、個人用 pukiwiki などを仮想マシンで動かすことにしました。

仮想マシンが動いていてもメモリはほとんど食わないように見えるのですが、startx してもvmplayer.exe と vmware-vmx.exe のメモリ使用量が増えたように見えません。

ユーザ権限以外のプロセスがメモリを食っているのかもしれません。。

MEDIA SKIN

Share

携帯電話をシルバーのPENCKからブラックのMEDIA SKINに変更しました。

シルバーのPENCKは使用期間2年を過ぎ、表面のメタル塗装がはがれかけてみっともなくなり、はがれてきた銀色の塗装が手や服を汚すようになっていました。

今回の機種変更ではキャンペーンやらauのポイントやらでほとんどお金がかからなかったのですが、ついでに買った512MBのMicroSDカードが3000円足らずだったことに最も驚きました。

やっとワンセグにもおサイフケータイもFMラジオにも対応しましたが、有楽町ビックカメラの店員さんが言っていたとおり数字キー「3」のすぐ上に「POWER」ボタンがあり、メール入力中にうっかり押してしまって、何度もメールが消えました。

正確には、POWERを押しただけでは消えないのですが、「終了しますか?」の確認画面でどう操作すればキャンセルになるのかわからず、けっきょくキャンセルの方法がわかりません。

店員さんによれば、MEDIA SKINは表面が削れても中まで同じ色だそうです。

自宅のテレビ試聴環境

Share

ディジタル放送の現状についてもっと知っておこうと思ったこともあり、ラジオとアナログテレビ対応PCしか持っていなかった私が、テレビとDVD/HDDレコーダーを買いました。

  • テレビ:シャープ LC-20D10(ホワイト)
  • レコーダー:パナソニック DMR-XP21V

テレビは店頭でチェックして、レコーダーは石丸電気のオンラインショップで人気を確認して、最後は楽天のムラウチでオンライン注文。

最初はアナログ放送しか受信できず「せっかく買った機器の機能がぜんぜん使えなくてもったいない」「ぜんぜん面白くない」という状況でした。

昨日、UHFのアンテナを買って、やっと受信環境が整いました。

  • アンテナ:八木アンテナ DUCA(ホワイト)
  • ついでにテレビとレコーダーをつなぐ HDMI ケーブル (1m)

DUCA を窓の外の手すりに無事に固定することができました。室内に置くと地上デジタルのNHKが入りにくかったのですが、窓の外に出せば大丈夫でした。

20インチのテレビは店頭で見るととても小さく見えましたが、置き場所を考えるとこれでよかった、と思いました。

たしかに、NHK地上デジタルのデータ放送で、字幕がついていない生番組はたくさんあります。

やっぱり字幕はついてないなあ、と思いながら見ていた討論番組で自民党の舛添要一さんが「舛添ですけど」と前置きして発言していました。この番組がラジオでも同時放送されていることを意識していたのでしょうか?

WIT研究会でも論文作成・発表アクセシビリティガイドラインの中で

  • 質問,コメント等,フロアから発言する人は,まず必ず自分の所属,名前をはっきりと述べてください.誰が話しているのか,というのは手話通訳にも,また視覚障害のある方にとっても重要な情報となります. 

というお願いをしていることを思い出しました。

コンテンツのユニバーサルデザイン

Share

8月3日および4日に第37回福祉情報工学研究会が開催されました。

8月4日のお昼には専門委員会が開催され、私は幹事として参加しました。

8月4日の午後には情報処理学会福祉情報システムフォーラムによる特別企画:“いま,そこにある”コンテンツのユニバーサルデザインが開催されました。

80人くらいの参加者にお越しいただき、視覚障害や聴覚障害をお持ちの方も多く参加されました。

シネマ・アクセス・パートナーズ(CAP)の平塚さんは、映画の音声ガイドを作る作業の実情について詳しくお話をされました。

日本点字図書館の天野さんは、視覚障害者用DVDプライベートホームシアターサービスの概要についてお話をされました。あとでお聞きしたら、音声ガイドのMP3ファイルとDVDの映像を同期して再生をするソフトウェアを開発するために、Vector でオンラインソフトを開発している人にメールを書いてコンタクトを取り、プログラマーを見つけたのだそうです。

キュー・テックの川野さんは「ウェブ・シェイク」という仕組みでDVDコンテンツの字幕を第三者の立場から提供されています。しかしその背景にあるのは「きちんと字幕をアーカイブすればどんなメディアにでも再利用できる」という考え方とのことでした。

聴力障害者情報福祉センターの森本さんは、放送済みのテレビ番組に字幕をつけたビデオやDVDを制作し、全国の聴覚障害者に無料で貸し出しをする事業について説明されました。

映画のバリアフリー化について最近もこんなことがありました。

  • アメリカ映画「バベル」の日本ロケでは聾学校の生徒など多くの聴覚障害者がエキストラ参加したにもかかわらず、試写会で上映された日本版には日本語の会話に日本語字幕がついていなかった。署名運動の結果、映画配給会社が日本語部分に字幕をつけた。
  • 映画「武士の一分」は視覚障害を扱っているから、という理由でDVD化にあたって視覚障害者向けの字幕を付与した。

でも、当事者の方々が本当に見たいのは福祉や障害をテーマに扱った作品ではなく、普通の作品なのだそうです。

多くの人が、ラジオや新聞ではなく、テレビやDVDなど「音声と映像の複合メディア」から情報を得るようになってきました。そのことが、視覚障害や聴覚障害をお持ちの方にとって新たなバリアを生んでいると思われます。

静岡大学の秡川先生からは情報保障の考え方について新しい視点を提供していただきました。

  • 情報保障が必要になるのは「省略」するからである
  • 字幕と音声ガイドの制作は同時に行えば作業を効率化できる
  • 近年の高品質な音声合成技術は音声ガイドに使えるレベルに到達している
  • 一般の人が参加できるために「先送り」と「ネットワーク化」が必要

最後に毎日新聞の岩下さんから、総務省の研究会などに参加された立場を踏まえての御発言がありました。

  • インタビュー映像などでよく使われるボイスチェンジャーは、内容を聞き取りにくい(要約された字幕を読めればいい、という番組制作者の意図?)
  • クイズ番組で「正解はこちら!」「ワー!」という場面で情報を共有できない。ちょっと読み上げてくれるだけで一緒に楽しめるのに。。
  • ワンセグをみんなが使うようになり、聴覚障害者だけでなくみんなが字幕ユーザになりつつある。

音声対話講習会

Share

7月31日から8月3日まで京都大学で「音声認識・音声対話技術講習会」があり、私は最終日で「ISTCソフトウェア紹介」というテーマの時間をいただき、ソフトウェアの実演をしました。

私がGalatea Projectで開発を担当しているGalatea Toolkit Linux版の紹介をしました。主に VoiceXML による対話シナリオ記述について御説明して、まだ正式対応ではありませんが Windows 環境で VoiceXML のシナリオを実行してデモを行いました。

実演で御紹介したソースコードをいくつかお見せします。

以下は PHP で動的にVoiceXMLを生成する例です。

<?php echo '<?xml version="1.0" encoding="utf-8"?>' ."\n" ?>
<?php mb_http_output('utf-8') ?>
<vxml version="2.0" xml:lang="ja">
<?php
if(isset($_REQUEST['region']) && $_REQUEST['region'] != '') {
$region = $_REQUEST['region'];
mb_convert_variables("UTF-8", mb_detect_encoding($region), $region);
?>
<form id="answer">
<block>
<log>地域:<?php echo $region ?>,今日:晴れ,明日:曇り</log>
<prompt>
天気予報です。
<?php echo $region ?>の、
今日の天気は晴れです。
明日は曇りです。
<break/>
</prompt>
<goto next="#ask"/>
</block>
</form>
<?php } ?>
<form id="ask">
<field name="region">
<prompt timeout="20s">
天気を聞きたい地域を、東京、横浜、京都から選んでください。
</prompt>
<grammar version="1.0" root="#region_rule">
<rule id="region_rule">
<one-of>
<item> <token sym="まいくてすと">マイクテスト</token> </item>
<item> <token sym="とうきょう" slot="region">東京</token> </item>
<item> <token sym="よこはま" slot="region">横浜</token> </item>
<item> <token sym="きょうと" slot="region">京都</token> </item>
</one-of>
</rule>
</grammar>
</field>
<block>
<submit next="<?php echo basename(__FILE__) ?>"/>
</block>
</form>
</vxml>

また、以下は PostgreSQL とも連携して、音声認識文法も動的に生成し、出力する情報もデータベースから取得して読み上げる例です。

<?php echo '<?xml version="1.0" encoding="utf-8"?>' ."\n" ?>
<?php mb_http_output('utf-8'); ?>
<vxml version="2.0" xml:lang="ja">
<?php
$db_user = "galatea";
$db_pass = "galatea";
$db_host = "localhost";
$db_name = "galatea_db";
$db = pg_connect("host=$db_host port=5432 dbname=$db_name user=$db_user password=$db_pass");
if (isset($_REQUEST['item']) && $_REQUEST['item'] != '') {
$item = $_REQUEST['item'];
mb_convert_variables("UTF-8", mb_detect_encoding($item), $item);
$rs = pg_query($db, "SELECT name,price FROM goods WHERE code = $item");
if ($row = pg_fetch_assoc($rs)) {
$name  = $row['name'];
$price = $row['price'];
}
?>
<form id="answer">
<block>
<log>name: <?php echo $name ?>,price: <?php echo $price ?></log>
<prompt>
<?php echo $name ?><?php echo $price ?>円です。
<break/>
</prompt>
<goto next="#ask"/>
</block>
</form>
<?php } ?>
<form id="ask">
<field name="item">
<prompt timeout="20s"> 値段を聞きたい果物は何ですか? </prompt>
<grammar version="1.0" root="#item_rule">
<rule id="item_rule">
<one-of>
<item> <token sym="まいくてすと">マイクテスト</token> </item>
<?php
$rs = pg_query($db, "SELECT code,name,yomi FROM goods");
while ($row = pg_fetch_assoc($rs)) {
$code = $row['code'];
$name = $row['name'];
$yomi = $row['yomi'];
echo "      <item> <token sym=\"$yomi\" slot=\"item\" value=\"$code\">$name</token> </item>\n";
}
?>
</one-of>
</rule>
</grammar>
</field>
<block>
<submit next="<?php echo basename(__FILE__) ?>"/>
</block>
</form>
</vxml>

最後に、音声認識エンジンに対してユーザが発話している途中にどのようなフィードバックをユーザに見せるべきか、ということを考えていただくために、試作中の「音声インクリメンタルサーチ」のデモをお見せしました。

音声対話システムの開発において VoiceXML が常に最適な技術とは限りません。

ISTC-SIG-MMIでは、Galatea Toolkit 開発の経験を生かしつつ、W3Cでの標準化の動向も踏まえて、マルチモーダル対話システムのアーキテクチャーと記述言語の検討を進めています。

Galatea Dialog Manager もそれらの成果を取り込みながら、さらに開発を続けていきたいと思っています。