投稿者: nishimotz

  • HAIシンポジウム2009

    大岡山の東工大で開催されたヒューマン・エージェント・インタラクションのシンポジウム。昨日の1日目に参加できず、今日の2日目も朝遅刻して会場に着きました。

    ときどき意識がなかったり、b-mobile 3Gが止まったりして、記録が抜けています。自分用のメモのつもりでつぶやきました。網羅的な記録になっていないことをお断りしておきます。御容赦ください。

    私が共著に入っている発表2件「力学モデル駆動による音声対話エージェントの動作生成」「擬人化エージェントとの円滑なマルチモーダル対話のための強化学習を用いた割り込み制御の検討」もなんとか終わりました。

    追記:私が関わっている研究についてのブログ記事(英語)を書きました。Voice interface and effectiveness です。

    (さらに…)

  • 地域情報のバリアフリー

    視覚障害者が地域に密着した情報を得にくいのでなんとかしたい、というプロジェクトの話を伺ったり関わったりすることがありますが、最近 Twitter で興味深い経験をして、ついそういったプロジェクトのことを思い出しました。

    私が休日の朝に自宅で「ヘリコプターの音がうるさいなあ」と思いながら、Twitter で私のタイムラインをみたら、たまたま前日にフォローした隣町の商店街の公式アカウントが「駅前の商店街で火事らしい」という情報を流していました。(商店街さんは「近所の人の目撃情報」を転送(RT)していたわけです)

    後で全国ニュースで報じられた高円寺パル商店街の居酒屋火事でした。写真を投稿してくださった方も何人かおられたので、テレビやラジオのニュースで報じられる前に、ある程度状況を把握できました。

    もちろん草の根ユーザのクチコミにはデマも多いのですが、(有名人や芸能人の死亡などのデマが時々流れます)デマが鎮火するのも早い、というのがTwitterの面白いところです。

    最近は世界的に「マスコミよりもTwitterのほうが第一報が早い」と言われます。全般的に繁華街での事件や鉄道事故の情報は非常に早いです。

    「らくらくホン」でTwitterを使う視覚障害者の方もだんだん増えてきているようです。特にスクリーンリーダをお使いの方はWebからユーザ登録すると「ReCAPTCHAのあの超難しい英語の音声課題」を解かないといけませんが、どうやら携帯からであれば容易にユーザ登録できるらしいです。

    商店街や町内会のような組織が公式Twitterアカウントを作り、地域情報を適切にRTしていけば、かなりユニバーサルでアクセシブルな地域情報メディアになるのではないか。居酒屋火災の事件は、当事者の方々のご冥福をお祈りしたい気持ちとともに、私にとっては一つの可能性を感じる出来事でした。

    私は「Twitterは放送である」と割り切ることをこのブログで主張し続けています。そう考えれば「忙しいときは読まなければいい」と割り切ることができます。そして、半日や一日タイムラインを見なくても、特に不安も不便も感じない、ということははっきりしました。必要になればあとで検索すればいいのだから。。

    たまたま今朝、NHKラジオ第一放送の朝のニュースで記者クラブ問題について解説していました。曰く、記者クラブは取材する側の要求だった。明治23年、弱者だったメディアと国家権力の戦い。。NHKラジオは「歴史はメディアを通して作られてきた」と締めくくっていました。

    そしてNHKは語らなかったのですが「21世紀の歴史はマスメディアではなく、個人ブランドのダダ漏れメディアが作る」。そんな気がします。。

  • 音声認識を使った情報保障の企画案

    1年ぐらいかけて準備したらいいと思っている企画案です。

    さまざまな学会・研究会が低コストで実現可能な情報保障のために、音声認識を使った情報保障を継続的に行う実験を行いましょう。

    これから福祉情報工学研究会が音声研究会さんなどに共同ワーキンググループの設置を提案したらよいと思います。

    関連する技術やノウハウを蓄積しているはずの企業や研究機関はたくさんあるはずです。特にリスピーク方式を使う技術は、とある企業が実用化をされたのですが、すでにサービスを終了しておられるとのこと。

    「寝ぼけたことを言うな、実験としてやれることは終わってるんじゃないの?」

    と言われるかも知れませんが、そうであれば、なぜもっと使わないのか。

    誰でも簡単にできる「マニュアル」が不足しているのでしょうか。「やっぱり専門家に頼まないと『主催者の手抜き』と思われる」という心理的なバリアでしょうか。

    学会の運営者は決して手抜きをしたいわけではありません。

    イベントに手話通訳やPC要約筆記をつけたことがある経験を持っている人はまだまだ少数で、これはそうそう簡単には増えないと思います。担当者に高い技術が要求されるからです。それがどんな高い技術なのかは、私もよく理解しているつもりです。

    しかし結果的に「専門家に頼めばできます、でもお金がかかります」という状態が、この10年間のWIT研究会の歴史の中でずっと続いてきました。

    特に情報のバリアフリーについて研究する場であったにもかかわらず。

    私はそのことを、とてももどかしく思っています。

    私が提案したいのは「こうしたサービスを普及させるために、技術を定期的にきちんと評価するべき」ということです。

    あらためて、音声認識ベンダーに呼びかけて技術コンペをしていただいたり、フリーソフトを使うボランティアチームを作ったりするなど、きちんと準備してみてはいかがでしょうか。

    実証実験の場として大きなイベントを企画して、その準備プロセスを報告しあうセッションを設けたり、有効性を議論する場としましょう。

    人手によるPC要約筆記と使い分けたり併用するなどして、その有効性を比較検証することも重要です。

    おそらくは「PC要約筆記の不要論」ではなく「いかに上手に併用するか、使い分けるか」が現実的な手段になるはずです。

    そして「音声認識は完璧でない」という結果になることは目に見えているのですが、それが「ないほうがマシなレベル」なのか「ないよりはマシなレベル」なのか、はっきりとした答えがあるでしょうか?

    さらに「音声認識が100%もらさず文字にしている」ということが「本当に当事者の方のメリットなのか」「本当はある程度要約をした方が当事者が議論に参加するためには有効なのではないか」という疑問も解決できるのではないでしょうか。

    フリーソフトチーム(仮)が使えそうなツールの一つ julius2iptalk が先日公開されました。

    「事前に講演者から予稿やスライドを提供してもらい、言語モデルのチューニングを行う」というプロセスが重要になると思います。そのあたりのツールを整備したいところです。

    音声認識の研究をずっと続けてこられた立場での御活動。

    こういうイベントにちゃんと参加したら「誰でも音声認識を使った情報保障はできるよ」ということなら、私の努力不足をお詫びしますが。。

    音声認識を使ってブログを書くことを日常的に行っておられる方の考察。使っておられる方ならではのノウハウや利点について述べておられるので、よく読ませていただいています。

    そういえば昔からよくヒューマンインターフェースの研究者に「インタフェースの研究者は自分が使えるものを作るが、音声研究者はそうではない」と批判されてきました。

    個人的には最近「しゃべったー」「もじもじTV」など(私から見ると無謀とも思える)音声認識の事業展開をなさっているカタログさんに、ちょっと勇気づけられる今日この頃です。