投稿者: nishimotz

  • 第50回福祉情報工学研究会1日目

    • 06:17  これから新幹線で(笑)青森へ。#spwit http://bit.ly/hSIoW
    • 06:18  ゆうべは第 82 回音楽情報科学研究会 http://www.sigmus.jp/SIG/sig200911program.html の打合せをやってました。東京大学の学生は無料で参加できることになりました。
    • 06:20  #spwit ハッシュタグ実験中 http://bit.ly/hSIoW
    • 10:54  八戸で特急に乗り換えた。
    • 12:10  青森アスパムに着いた http://f.hatena.ne.jp/twitter2/20091029121043
    • 13:04  #spwit 講演 (1) 「最新のエレクトロパラトグラフ(EPG)の臨床活用と今後の展望」山本一郎さん。「構音障害の治療のためにEPGを広めたい」
    • 13:04  #spwit プログラム http://bit.ly/hSIoW
    • 13:08  #spwit (1) 山本氏「口唇口蓋裂の症例紹介。発話機能のために手術をする」「日本では500人に1人」「後遺症である構音障害の治療に関わる言語聴覚士が人手不足」
    • 13:12  #spwit (1) 山本氏「口の機能:食べること。話すこと。味わうこと」「口蓋裂に伴う異常構音の説明。鼻咽腔閉鎖機能の不全に関係ある事例、ない事例の存在」
    • 13:15  #spwit (1) 山本氏「スピーチエイドによる閉鎖機能の改善。喉のしまりをよくする装置」「発音補助装置」
    • 13:17  #spwit (1) 山本氏「EPGが使えそうなのは閉鎖機能不全と関係ない障害。「さ=か」、「ち=き」。舌の後方化」「1978年に製品として作られたEPG。臨床には不向きだった」「現在:英国の大学のWinEPGシステム」
    • 13:23  #spwit (1) 山本氏「Redingタイプは良好。2007年に京都でシンポジウム。100人を超える実績。論文多数」「症例紹介。3歳で口唇形成術。13歳でEPG治療開始」「EPGパレートを使用。パターンの変化。視覚的フィードバック訓練。目標が具体的」
    • 13:25  #spwit (1) 山本氏「人工口蓋床の開発が必要。モジュール化してカスタマイズできる電極を開発した」「遠隔構音指導が可能」「ケータイで録音してメール添付。もっといい方法はないか?」
    • 13:26  #spwit (1) 山本氏「「目で見る日本語音の再生」というDVDを今年作成した」
    • 13:29  #spwit (1) 山本氏:質疑「100Hzで「つ」「ちゅ」の区別はつくのか?」「スペクトルと対応させれば判断できる」「聴覚言語障害の人には特に音声スペクトルの視覚化フィードバックが有効」
    • 13:32  #spwit (1) 山本氏「舌が間違っていたら絶対に正しい発音はできない」「舌の位置を視覚化する。音を視覚化する」「人工内耳の方へも有用なはず」
    • 13:34  #spwit 講演 (2) 「人工内耳装用者のための音楽の試作」北澤さん http://bit.ly/hSIoW
    • 13:38  #spwit (2) 北澤氏「人工内耳(CI)は音楽を聴くのに有効でない」「内部でどんな処理をしているか説明」「Cochlear社のACE方式の概要」「音楽情報伝達の問題点。リズムは問題なし。音の高さの弁別が困難。ピッチ、音色、メロディが聞き取れない」
    • 13:43  #spwit (2) 北澤氏「20個の電極に対応した音を用いたピッチ識別実験の結果」「被験者2名。17個は弁別できる」「聞こえの強さの調整」「G3 F4 C5 E5 G#5 C6 など音を作って聴力検査」
    • 13:47  #spwit (2) 北澤氏「震音による音楽作成例。鉄腕アトム」「人工内耳フィルターに対応した楽音の割り当て。人工内耳音階=CIS。周波数フィルタと一対一に対応する音階を選んだ」「新たに作曲した作品紹介」
    • 13:53  #spwit (2) 北澤氏「既存の曲をCISに変換した例」「特徴を保っているので曲目の推測は可能」「人工内耳使用者による評価。曲によって原曲との同一感が感じられない場合もある」「音楽らしく感じることが示唆された」
    • 13:55  #spwit (2) 北澤氏の質疑「西洋音階の半音階を含む曲は厳しい?民謡や童謡なら適している?音階の間隔は将来狭まるか?」「人工内耳の周波数分解能は上がるだろう」
    • 13:58  #spwit (2) 北澤氏の質疑「被験者の先天、後天?」「後天。高齢者。将来の対象は子供、先天性の人」「音階は子供が後天的に獲得するのでは」「和音は考慮したい。振幅変調がポイントか」「人工内耳の音楽家の意見を聞いては?」
    • 14:00  #spwit (2) 北澤氏の質疑「電極に10msくらいの刺激を与えられないか?」「300ヘルツ以上の刺激は困難」「であれば1オクターブの信号で音楽を作れないか?」
    • 14:01  #spwit 講演 (3) 「日本手話会話におけるマウジングと言い直し」坊農さん。ここまでPC要約筆記。ここからは手話通訳とPC要約筆記。
    • 14:05  #spwit 坊農さん「聴力障害の等級と手話コミュニティの説明。先天ろう:両親がろう者/聴者の各ケースあり。中途失聴。難聴」
    • 14:08  #spwit (3) 坊農さん「コーダ:children of deaf adult」「手話通訳士、手話通訳者」「ろう文化宣言。日本手話=日本語と異なる言語。言語的少数者」
    • 14:09  #spwit (3) 坊農さん「Deaf = 社会的文化的コミュニティ、民族的団体。 deaf =病理的なものを含む」
    • 14:12  #spwit (3) 坊農さん「日本手話=日本語と異なる文法」「日本語対応手話=日本語文法と対応。日本手話母語者にはわかりづらい」「マウジング=音声言語由来の口型」「完了を意味する「パ」」
    • 14:14  #spwit (3) 坊農さん「音声・ジェスチャ分析の手法で研究に取り組む。「意味解釈」「手型(右)」「手型(左)」「口型」」「手が表現する場所まで移動する準備区間をチルダで表す」「核の部分をアスタリスクで表現」
    • 14:22  #spwit (3) 坊農さん「ビデオで実例紹介。言い直しフェーズにマイジングがつく。マルチモーダル」「左手がなぜ保持されるか。単語間の修飾関係?」
    • 14:25  #spwit (3) 坊農さん「告知:10月31日から日本手話学会@東大駒場」
    • 14:27  #spwit (3) 坊農さん質疑「マウジングとマウスジェスチャーを区別することが重要?後者は言語情報。前者はパラ言語。個人差もある?」「マウジングはプロソディ。マウスジェスチャは完了の意味付加など」「ジェスチャというよりも言語?文法情報」
    • 14:29  #spwit (3) 坊農さん質疑「マウジングの再説明を」「相手が聴者でなくてもマウジングは出てくる。聞き手の理解のため。いま私は言い直しているよ、強調しているよ、という表現」
    • 14:30  #spwit (3) 坊農さん質疑「外国語でも?」「イスラエルとアメリカの手話の報告あり。たくさん出る。日本語音声との接触に影響を受ける?」
    • 14:32  #spwit (3) 坊農さん質疑「ビデオの人は日本語の発話訓練を受けた手話話者?」「Yes」「日本のろう教育:口話の指導が徹底している」「高齢のろう者は聾学校で手話を禁止されていない」
    • 14:32  #spwit 最初のセッション終了。休憩。 http://bit.ly/hSIoW
    • 14:46  #spwit (4) [招待講演]「リアルタイム字幕放送のための音声認識」今井 亨さん(NHK)
    • 14:54  #spwit (4) 今井氏「NHKで生放送のオンライン字幕がどのようにつくられているか」「デジタル放送の説明。字幕放送の行政指針」「生放送以外は字幕義務化」「2007年~2017年の総務省指針=生放送を含む7時から24時の番組すべてに字幕付与」
    • 14:56  #spwit (4) 今井氏「総務省指針の例外=複数人が同時に会話を行う生放送番組を除く」「2008年度実績。NHK総合49.5%。民放平均44.3%」
    • 14:57  #spwit (4) 今井氏「オフライン番組。パソコン上で人手で字幕入力。いろいろ工夫している。30分番組に数時間かかる」
    • 14:58  #spwit (4) 今井氏「オフライン字幕の試写を3回する。本人、スーパーバイザー、ディレクター」
    • 15:00  #spwit (4) 今井氏「オンライン字幕=「生字幕」。リアルタイムでの日本語入力が必要。2000年に音声認識によるニュース字幕を開始」「キーボードによる方式。3人で連携入力:歌謡番組など。ステノワード:入力者と校正者のペア3組、計6人」
    • 15:02  #spwit (4) 今井氏「大リーグ野球の実況はダイレクト音声認識で字幕付与。リスピーク音声認識:リスピーカー(字幕専用アナウンサー)1名、修正1名。スポーツ番組など」
    • 15:06  #spwit (4) 今井氏「ハイブリッド方式:現在研究中。全体の3割の番組が音声認識困難な自由発話ばかり」「海外の動向:裁判速記用ステノキーボード。音節列を単語スペルに変換」「米のテレビも字幕義務化。BBCはリスピーク方式」
    • 15:08  #spwit (4) 今井氏「日本語:カナ漢字変換の壁」「NHKにおける音声認識研究は1969年から。90年代に大語彙連続音声が可能に。1996年に大学等との連携プロジェクト開始。データベース構築。統計的手法」
    • 15:10  #spwit (4) 今井氏「2000年に世界初の音声認識字幕放送」「男性と女性の認識を別のエンジンで」「記者が書いた原稿で言語モデルを学習」「記者原稿は赤鉛筆で手修正。そのまま字幕にできない」
    • 15:12  #spwit (4) 今井氏「認識率100%でないと許されない。4人で認識誤りの発見・修正」「徐々にスピードワープロと併用」「現在はスピードワープロのみ利用」
    • 15:17  #spwit (4) 今井氏「リスピーク方式。場合により要約。番組ごとの言語モデル。キャスターごとの音響モデル」「生放送の料理番組で利用」「見てわかることは省略」「早く出したい、読みやすくしたい」「拍手や歓声、要約筆記と同じような配慮」
    • 15:18  #spwit (4) 今井氏「NHK広報番組の紹介」
    • 15:23  #spwit (4) 今井氏:NHK広報番組「番組ごとに辞書を管理」「実況を聞きながらリスピーク」「タッチパネル端末で誤り修正、点や丸の付与、話者ごとの文字の色」「限られた文字数でわかりやすく伝える最善の努力」
    • 15:24  #spwit (4) 今井氏:NHK広報番組「地上デジタルは字幕ボタンで」
    • 15:26  #spwit (4) 今井氏「映像を隠さないためには2行。約30文字。ページ更新は2秒くらいの周期。アナウンサーが喋る苦労。スポーツ番組の言語モデル。デーモン閣下の相撲中継の発言にも対応」
    • 15:28  #spwit (4) 今井氏「ニュース字幕は誤りが許されない。スポーツはそうではない」「研究所で取り組んでいるハイブリッド方式。記者の現場リポートも直接認識できる。インタビューなど項目ごとにハイブリッドとリスピークを切り替え。」
    • 15:29  #spwit (4) 今井氏「今の技術なら確認1人とリスピーク1人で対応できる」「ローカル制作のニュース字幕に展開したい」
    • 15:32  #spwit (4) 今井氏「最新技術のビデオ。早ければ5秒遅れで字幕送出。インタビューはリスピークに切り替え」
    • 15:37  #spwit (4) 今井氏「機材の紹介。音声認識マシンと修正用マシン。タッチすると同音異義語リストが出る。早い人は打ち直す。5分ニュースなら修正者1人で」
    • 15:41  #spwit (4) 今井氏「音声認識の要素技術の紹介。逐次早期確定。音響モデルの識別学習。音素認識による発話区間検出。言語モデルを番組中に自動更新」
    • 15:43  #spwit (4) 今井氏「今後。0.1%の誤りは許容される。インタビュー、特に「街の声」は難しいが、オープンキャプションがある」「認識の難しさを決める条件:誰が、何を、どこで、どんなふうに喋るか=3W1H」
    • 15:46  #spwit (4) 今井氏「難易度中=クローズアップ現代、生活ほっとモーニング」「報道系対談番組の自由発話=発声変形に対応した学習、対談向け言語モデル、誤り修正のデコーダへのフィードバック、話者識別」
    • 15:50  #spwit (4) 今井氏「課題:複数話者オーバラップ、外国語」「進行表1枚の事前情報から言語モデルを作れないか、十分な学習テキストが得られない場合がある」「音声認識の非専門家には言語モデルを作れない」「ダイレクト方式拡充を」「人手修正前提の低コスト化」
    • 15:52  #spwit (4) 今井氏「反響:家族で歌番組を楽しめるようになった。スポーツ選手の心理や対話の意味合いがわかる」
    • 15:54  #spwit (4) 今井氏質疑「リスピーカーのスキル、養成?最初はアナウンサーOB。現在はアナウンサー志望の人がやっている。野球や相撲などの専門知識が必要。ゼロからは訓練したことがない。訓練は1週間くらい」
    • 15:55  #spwit (4) 今井氏質疑「リスピーカー方式ならバラエティでも対応できるのでは?」「リスピークはできるが言語モデルの未知語率などが課題」
    • 15:56  #spwit 休憩。 http://bit.ly/hSIoW 次は4時から。
    • 16:02  #spwit 最後のセッション http://bit.ly/hSIoW
    • 16:04  #spwit (5) 「講義音声認識に基づくノートテイクシステム」河原さん「背景:大学で学ぶ聴覚障害学生が増加」「ノートテイカーの養成が急務」
    • 16:06  #spwit (5) 「発話内容をすべて書き起こすことは困難。専門的な講義内容をノートテイカーが理解することは困難。一般教養は容易だが専門の講義は他分野の学生にできない」
    • 16:08  講演者によって「先生」にしたり「さん」にしたりする基準が難しいのでtsudaるときの敬称を統一してます。。
    • 16:10  #spwit (5) 河原氏「放送との違いは要求されるクオリティ。そこにいる学生がその一瞬見て理解できればよい」「発話スタイルの問題、専門用語の問題」
    • 16:15  #spwit (5) 河原氏「モデル適応の先行研究:教科書やスライドの利用」「本研究:同一講師が以前に行った講義の内容を用いる適応」「書き起こしのコストの問題。認識結果の活用?」
    • 16:18  #spwit (5) 河原氏「正しく認識された文を自動選択?ノートテイカーが字幕に送った認識結果を使う」「音声認識評価実験。話題語の定義、再現率、適合率」
    • 16:24  #spwit (5) 河原氏「選択修正画面。支援実験の説明。手書きノートテイカーと同時に運用。PC2台をLAN接続。音声は無線で伝送」
    • 16:30  #spwit (5) 河原氏「評価。手書きテイクの1.8倍のテイク量。平均遅延時間9秒程度。」「学生相談室を通じてヒアリングを実施。手書きよりも分量が多い。数式は無理矢理タイプしなくて良い」
    • 16:36  #spwit (5) 河原氏。Julius2IPtalkのデモ「IPtalkの確認修正パレットに音声認識結果を流し込む。このソフトは公開予定」「告知:11月28日に京都大学でシンポジウム」
    • 16:37  #spwit プログラム http://bit.ly/hSIoW
    • 16:43  #spwit (6) 「音声対話を用いた点字学習システムの開発」柴原さん「点字学習の必要性」「点字学習支援の関連研究」「提案システム=反復練習。自学自習。ガイドをコンピュータに担わせる」「例:音声入力を点字で確認する」
    • 16:49  #spwit (6) 柴原さん「マルチモーダルの階層アーキテクチャの説明。デバイスが交換可能。ユーザの習熟度。ユーザのデータの蓄積」「タスクの記述。データ構造」
    • 16:51  #spwit (6) 柴原さん「予想される問題:音声認識率。対策、特定話者のモデル」「ユーザの読み取り誤りを正しく検出する必要。点字パターンの読み取り誤り傾向を考慮した音声認識辞書の動的生成」
    • 16:53  #spwit (6) 柴原さん「実装。点字ディスプレイ=ブレイルメモポケット。音声認識=Julius。音声合成はGalateaTalk」「C++、Java、Grailsで各階層を記述」
    • 16:55  #spwit (6) 柴原さんデモビデオ「(システム)これはなんと書かれているでしょう」点字ディスプレイ呈示「(ユーザ)あ、い」「(しすてむ)正解です・・・」
    • 16:59  #spwit (6) 柴原さん質疑「目的に対して使用した枠組みが大がかり?」「標準化の利点。開発の効率」「点字のニーズが減っているのでは?」
    • 17:01  #spwit (6) 柴原さん質疑「文章読み取りの学習に進んだら自動点訳が必要?」「2層に組み込む。上の層からは抽象化したい」
    • 17:02  #spwit (7) 「構音障害者の音声認識における動的特徴量の考察」宮本さん
    • 17:05  #spwit (7) 宮本さん「構音障害とは。不随意運動(アテトーゼ)の説明」
    • 17:08  #spwit (7) 宮本さん「音声認識の特徴量。MFCCとデルタMFCCの説明。従来の音響モデルでの構音障害者発話認識は困難」「構音障害者の音響モデルの作成」「デルタMFCCの認識率が低い。健常者と比べて時間変化の表現に問題」
    • 17:11  #spwit (7) 宮本さん「デルタMFCCのセグメント特徴量に着目。前後数フレーム分の特徴量を主成分分析=PCAで次元圧縮」
    • 17:15  #spwit (7) 宮本さん「2人の話者で評価。認識精度の改善が見られた」
    • 17:15  #spwit (7) 宮本さん「今後の方向性。声質変換で聴き取りやすい声にするなど」
    • 17:18  #spwit (7) 宮本さん質疑「個人ごとに特徴量を変えるべき?」「Yes。特定話者でやるべき」「人間は聞いていると聞き慣れてくる。機械学習の可能性を示唆?」
    • 17:20  #spwit (7) 宮本さん質疑「セグメント特徴量は健常者音声に効果あり?」「未検討」「PCAでどのような特徴をつかんでいることになる?」
    • 17:24  #spwit (7) 宮本さん質疑「音響モデルがモノフォン?」「データが増やせないから」「54音素?」「構音障害者のための音素体系」「デルタ計算の窓幅とセグメント特徴量の関係?」
    • 17:25  #spwit (7) 宮本さん質疑「連続音声認識でも有効?」「言いよどみなど、言語モデルの考慮も必要」
    • 17:26  #spwit (7) 宮本さん質疑「語彙:210単語」「話者適応で対応できるか?」「検討した。提案手法のほうが高性能」
    • 17:31  #spwit 最後に議論。(6) のカリキュラムの作り方について追加質問。これから懇親会。

    Powered by twtr2src

  • 音声対話技術の普及促進と進化

    下記の場で連名で発表をした内容について、西本担当分の原稿をご紹介しておきます。

    • 第78回 音声言語情報処理研究会 (SIG-SLP)(第5回 音声言語情報処理技術デベロッパーズフォーラム)
    • 日時: 平成21年10月23日(金)
    • (5) 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討

    今後の活動のために新しい組織が必要と考えています。

    に公開したマニフェストを随時改訂していくつもりです。

    ****

    3 音声対話技術の普及促進と進化

    3.1 Rubyによる対話記述の検討

    さまざまな機能を持つWebベースのアプリケーションが広く使われるようになった現在こそ、たとえその一部でも音声インタフェースを介して利用できることの意義は大きい。ブラウザのフォームに情報を埋める作業を繰り返していると、もっと効率よく、あるいは、キーボードやマウスに頼らずに操作したい、と感じるのではなかろうか。

    システム記述言語の設計においては、実績のある成功事例(ベストプラクティス)が有用である。我々の6階層アーキテクチャにおける第5~6層(タスク間制御、データモデル、アプリケーションロジック)について、既存のWebアプリケーション開発から借用できる成功事例の一つとして、Rails (Ruby on Rails) に着目している。

    VoiceXMLは第5層と第4層の界面に対応しており、これは一般的なWebにおけるHTMLに相当する。Webアプリケーションではテンプレートエンジン(HTML に埋め込まれたスクリプト言語を実行する処理系)が一般的である。

    「階層の界面が記述言語に対応し、各階層がテンプレートエンジン処理系に対応する」

    という構図は6階層モデルの随所に当てはまる。

    テンプレートエンジンにはさまざまな技術や記述言語が乱立しているが、Rails によるWebアプリケーション開発ではオブジェクト指向が徹底され、MVC のすべての要素が Ruby で記述され、一貫性がある。Ruby言語はコードブロックによって手続き型言語と宣言型言語の記述の混在が可能になり、いわゆる「ドメイン記述言語」への流用が容易とされる。Model においては SQL データベースを簡潔な記述で操作できるクラスライブラリがある。View においては HTML にRubyの記述を埋め込むテンプレートエンジン機能(ERB)がある。

    RubyによるVoiceXMLアプリケーションの事例は、階層モデルにおける記述言語やアーキテクチャの詳細を考える出発点になるという立場から、Galatea Dialog Studio の開発はRuby on Rails との互換性を重視して進めている。

    3.2 知識からの対話生成

    音声対話システムによって「どのようなインタラクションを実現すべきか」を議論することは重要である。目標が定まらない段階でアーキテクチャや記述言語を検討するのは時期尚早という意見もある。これまでの標準化活動では、できるだけ先進的なユースケースを取り入れることでこの問題を克服してきたが、ユースケースもやがて時代遅れになる懸念がある。

    これに対して、時代遅れになりにくい「抽象的で普遍的な情報構造」に着目して、インタラクションの詳細を後から開発・標準化する、というアプローチがある。多くの実現例が報告されている「一問一答型の対話システム」も一例と言える。書籍のメタファで音声対話コンテンツを記述する提案はこれまでにも行われてきた。

    • Takuya Nishimoto, Masahiro Araki, Yasuhisa Niimi:”RadioDoc : A Voice-Accessible Document System,”Proc. ICSLP2002, pp.1485-1488, Denver, Sep 2002.
    • 西本 卓也, 荒木 雅弘, 新美 康永:”擬人化音声対話エージェントのためのタスク管理機能,”日本音響学会2002年春季研究発表会, 1-5-15, pp.29-30, Mar 2002.

    近年「情報提供型の音声対話」の要素技術として注目に値するのは、障害の有無にかかわらず読書ができる環境を実現する「マルチメディアDAISY」

    である。その派生技術である「テキストDAISY」はテキスト音声合成技術の新しい応用分野である。ハイパーリンクや検索といった電子書籍の操作手段としての音声対話にも期待が高まる。

    3.3 コミュニケーションの効率性

    擬人化音声対話エージェント技術は「人間が声で会話したいと感じるような人工物をいかに実現するか」という問題への一つの回答だと考えられてきた。

    • 嵯峨山 茂樹, 西本 卓也, 中沢 正幸: “擬人化音声対話エージェント,”情報処理学会誌, Vol.45, No.10, pp.1044-1049, Oct. 2004.

    その目標を真に達成するためには「対人コミュニケーション」を形式的な問題として捉えるのではなく、高品質の映像や音声を高速に制御し、豊かな情報の伝達を可能にし、コミュニケーションの効率性を本質的に高める必要があろう。

    エージェント制御に力学や物理学のモデルを取り入れる試み

    • 中沢正幸, 西本卓也, 嵯峨山茂樹:”視線制御モデルによる擬人化音声対話エージェントの制御,”2005年度人工知能学会全国大会(第19回)論文集, 3B2-07, Jun 2005.

    音声インタフェースを「実時間の効率性」という観点から構成要素に分解する検討

    • 西本 卓也,岩田 英三郎, 櫻井 実, 廣瀬 治人:”探索的検索のための音声入力インタフェースの検討,”情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.

    などはマルチモーダル対話アーキテクチャに今後必要となる視点を与えるだろう。

  • 音声言語情報処理研究会 2009-SLP-78

    第78回 音声言語情報処理研究会 (SIG-SLP)(第5回 音声言語情報処理技術デベロッパーズフォーラム) に行ってきました。つぶやいていたらフォローが増えました。感謝。

    • 10:19  SLP研究会なう。西早稲田という最寄り駅ができたから西早稲田キャンパスになったのか。。
    • 10:25  検索して見つからないから #SIGSLP を使っていいのかな。。
    • 10:31  #SIGSLP 講演(1)「長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価」福田さん他
    • 10:58  #SIGSLP 講演(1)質疑:フレームドロッピングの必要性?VADで発話前後の無音がすでに落ちているのでは?意図的にやっていないか?
    • 10:58  #SIGSLP 講演(2)「ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討」倉田さん
    • 11:25  #SIGSLP 講演(2)質疑:エラー時の振る舞いは今後の課題。自然言語理解は最大エントロピー法。もっと軽い手法ではだめか?学習データ数とカバー率の関係は?未知語を含む発話に対する正解判断は?
    • 11:27  #SIGSLP 講演(3)「音声対話システムにおける暗黙的な教師信号に基づく音声認識率の推定とそれを用いたエラー予測」駒谷さん
    • 11:50  #SIGSLP 講演(3)質疑:評価尺度は文認識率に相当。絶対値としては低い?バージインを対話状態によって分けて検討しては?
    • 12:38  #SIGSLP 昼休みなう http://sig-slp.jp/2009-SLP-78.html
    • 12:47  #SIGSLP 講演(4)音声中の検索語検出のためのテストコレクション構築 -中間報告-
    • 13:52  #SIGSLP 講演(5)で5分だけ喋りました。さっきの報告の続き。
    • 13:53  #SIGSLP 講演(4)質疑:検索速度の評価は?要望は誰に?検索速度の評価に音声認識の処理は含む?
    • 13:53  #SIGSLP 講演(5)「階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討」
    • 13:54  #SIGSLP 講演(5)質疑:リアルタイムでの応答は6階層モデルでできるのか?
    • 13:55  #SIGSLP (6)(招待講演) 「音声認識実用化事例の紹介とその課題」藤田 泰彦さん (アドバンストメディア)
    • 13:55  スーツ率が高くて私もびっくり RT @whym #sigwi2 から #SIGSLP に移動したら会場の雰囲気がガラッと違う。wi2は大半が私服、slpはほぼ100%スーツ
    • 13:59  #SIGSLP 招待講演:音声認識AmiVoiceの実績紹介。医療分野で2900施設以上。画像を見ながら入力。電子薬歴は保険点数に。専門用語が多いのでカナ漢字変換よりも有利。入力効率が34~73%改善。
    • 14:01  #SIGSLP 招待講演:東京都議会の議事録作成で導入。速記会社とアドバンストメディアさんの連携でサービスとして提供。
    • 14:04  #SIGSLP 招待講演:音声認識によって大阪府では速記者の人件費を削減できた。課題は話しことば対応、速記者の使いやすいインタフェース。
    • 14:05  #SIGSLP 招待講演:ここまではビジネスとして成熟した事例。コールセンターでの利用は多種多様。モニタリング、コンプライアンス強化、分析。
    • 14:09  #SIGSLP 招待講演:コールセンターでの利用、オペレータ音声の認識だけでも有効。
    • 14:13  #SIGSLP 招待講演:らくらくホンやiPhoneでの音声認識。自動学習がポイント。単語やユーザ言語モデル。App Storeのアンケート評価は良好だが、今後も使い続けたい人が少ない?
    • 14:16  #SIGSLP 招待講演:音声認識による英語教材。楽しいコンテンツが作りやすい。月額使用料によるライセンス。課題は市販ハードや他ソフトとの共存。
    • 14:18  #SIGSLP 招待講演:実用化における課題。ビジネスモデルの確立。第一印象=イニシャルの認識率。継続利用の支援=適応など。データ収集の障害。
    • 14:26  #SIGSLP 招待講演:質疑:いまの手法では性能を出すためのコストに収入が見合わない。研究機関に期待すること=性能を上げるためのブレークスルーを。
    • 14:27  #SIGSLP 講演 (7) 「第5回SLPデベロッパーズフォーラムイベント企画の趣旨について~コーディネータの立場から~」庄境さん
    • 14:28  #SIGSLP 庄境さん「ハイテクの落とし穴=キャズム」
    • 14:33  #SIGSLP 庄境さん「ハイテクオタク相手では投資を回収できない。マジョリティに受け入れられるためには?要求=低コスト、高品質、限定機能」
    • 14:36  #SIGSLP 庄境さん「車載機器における音声入力の市場。必須機能だが使われているかどうか不明。安価で真に役立つ音声認識に需要=キャズムを超える好機?」
    • 14:40  #SIGSLP 講演(8)「音声インタフェース普及促進のため開発支援技術」中野さん
    • 14:45  #SIGSLP 中野さん「音声インタフェースの設計手法と評価手法、パタンランゲージによる記述」「利用環境を絞り込む」「視覚フィードバックが不要な環境、キーボードの利用困難な環境」「不正確性、処理時間の問題を回避」「片手コントローラとの併用」
    • 14:48  #SIGSLP 中野さん「敏速かつ正確な操作はコントローラで、絞り込みは音声で」実装例の紹介。
    • 14:57  #SIGSLP 中野さん「タスク達成率が異なる際の達成時間の比較が困難」「制限時間に実験者の主観が混入する」「T-Aグラフを使う手法を提案」
    • 15:07  #SIGSLP 講演(8)質疑:音声で入力してテンキーで修正、という状況も評価すべきでは?設計の問題になる。主観評価も重要。
    • 15:08  #SIGSLP 講演(9)「音声UI設計とその評価 ~普及促進にむけて,システム構築の立場から~」石川さん「今日もヨタ話?」
    • 15:14  #SIGSLP 石川さん「製品設計の場に音声UI設計の専任がいない」「人間中心の設計開発のプロセス」「ものづくりアーキテクチャのポジショニング=製品内部構造×製品外部構造、インテグラル型/モジュール型」
    • 15:18  #SIGSLP 石川さん「日本のUI設計の現状=アプリケーションごとの要求をすりあわせる。機能に対するUI設計。電源入れるとナビ」「欧米=UIもモジュールで、アプリと独立に検討、最後につなぐ。電源を入れるとまずメニューが出る」
    • 15:24  #SIGSLP 石川さん「音声が着目すべき特徴=一貫性、確実性、効率」「今後の製品=アーキテクチャの大変革が間近。社外サービスとの連携を。車載機器は安全性を確保できる一貫したUIを」
    • 15:27  #SIGSLP 石川さん「記述できること、ではなく、UIの基本原理が含まれたインタフェースモジュールを」
    • 15:35  #SIGSLP 石川さん:質疑:モバイルPCを車内に置けばよい?安全性に考慮したUIが前提?自動車メーカーのビジネスチャンスの考慮?
    • 15:35  #SIGSLP 休憩なう
    • 15:49  #SIGSLP 講演(10)「人間の多様な振る舞いを考慮した音声UIの必要性」岡本さん。昨年度までの国プロの成果。ユーザは困るまでマニュアルを読まない。画面に表示されている情報や音声ガイダンスに誘導される。開発者の意図が伝わらない。
    • 15:52  #SIGSLP 岡本さん「テストとプロトタイプ改良をスパイラルに繰り返した」「被験者は画面からヒントを探そうとしない」「ユーザの多様な行動を想定しているか?」「仕組みがわかるUIになっているか?」「ユーザに役立つシンプルで的確な情報を」
    • 15:59  #SIGSLP 岡本さん「具体的な対応方法を知らせる。xxするにはxxと発話してください、など」「情報を垂れ流すだけでは気づいてくれない。使用法を文字と音声で説明する。注意してくれているか確認する。準備ができたらスタートとお話しください、など」
    • 16:06  #SIGSLP 岡本さん「使用意欲を調査。使用前は5点でも使用後に4点に。慣れてきたらガイダンス不要。手動バージインを使ってもらえない。使っている状況をモニタして習熟度を判断し、習熟度にあったUIを提供すべき」
    • 16:08  #SIGSLP 習熟度の定義は難しそうですね。音声入力への熟練、アプリケーションへの熟練、ヒントに気づくことへの熟練、などなど。
    • 16:09  #SIGSLP 講演(11)「実世界に存在する音声・音響を対象とした認識技術」大淵さん
    • 16:13  #SIGSLP 大淵さん「技術になれていないと音声認識を使いこなせない現状」「どこまで完璧に作ればマジョリティは満足してくれるか」
    • 16:17  #SIGSLP 大淵さん「音声認識はキーボードやタッチパネルに勝てるか?」「機械に向かって話してもらう、をやめる=書き起こしの下請け、監視など、インタフェースでない用途?」
    • 16:23  #SIGSLP 大淵さん「画像認識はどう使われているか?画像認識してもらうために人間が行動することは少ない。すでにそこにある姿を認識する」「従来は議事録を作らなかったような会議の音声を・・」
    • 16:28  #SIGSLP 大淵さん「そこそこの認識率のものを有効活用できる応用を」「侵入音や銃声などの音響イベント認識」「意図的音声コマンド検知」
    • 16:31  #SIGSLP 大淵さん「一秒を完璧に認識?一万時間を適当に認識?」
    • 16:41  #SIGSLP 朝からの話を振り返って。音声インタフェースは「車輪の再発明」され続ける運命なのかな http://bit.ly/KpSLj
    • 16:43  #SIGSLP (パネル討論) 「音声認識技術がキャズムを越えるには?」なう
    • 16:49  #SIGSLP 西村さん「InventionとInnovation」「セグウェイ=技術の高度さがビジネスの成功につながらない例」
    • 16:53  #SIGSLP 西村さん「世界が大きく変化している」「技術者が自分の取り組んでいる技術ありきで使い道を考えていないか」「10年前と同じ発想、同じ仮定でいいのか」「アフリカでは音声通話しかない携帯電話が数ドルで売られている」
    • 17:02  #SIGSLP 質問なう「オープンソースの役割」「アクセシビリティ」
    • 17:11  #SIGSLP ビジネスモデルの議論に。イニシャルの性能をいかに上げるか。コストの問題。独自の文化へのこだわり。
    • 17:14  #SIGSLP 技術の独占?オープンイノベーション?音声認識技術は枯れているので自前で作れる。オープンソース的なコーパス?
    • 17:19  #SIGSLP 評価結果の共有。ソリューションを考える人を増やすべき?企業の研究所にいてもビジネスはわからない。学会とは別の場を作るべきかも。組織がやるべきことが個人に押しつけられている
    • 17:22  #SIGSLP 成功している分野としてない分野があるA社。いかに差別化するか。先行するか。分野ごとにアライアンスを組む必要がある。業界が参入を恐れている?使えるものが作れる自信はでてきた。
    • 17:26  #SIGSLP 「フィールドで評価までやったうえでソリューションとして売れば成功できるはず」「ビジネスと研究所が思考を共有できない」「オープンソースはソリューションさえ公開しているのでは?」
    • 17:29  #SIGSLP ソリューションビジネスの経験。「手組み」か「パッケージ」かの判断から始まる。判断する人が情報を持っていない。よほど音声に思い入れがないとSI事業は成立しない。既存パッケージとの音声の連携は?
    • 17:32  #SIGSLP 最近は音声認識のソリューションが消費者から見えなくなっている。既存パッケージはPCが前提で音声が有効性を見いだしにくい。PDA連携は実績につながりやすい。
    • 17:37  #SIGSLP 「習熟度の定義」を。道は一本ではないはず。システムの透過性がしっかりしていれば、その人なりの道がある。
    • 17:44  #SIGSLP 開発者の意図を伝えること=習熟度かも。習熟度ごとにインタフェースを適応するのは音声固有の問題?
    • 17:47  #SIGSLP 議論:ユーザがシステムを擬人化するかどうか。設計の違いが大きいのでは?擬人性を考えるならアダプティブに。道具型の場合は透明性が重要?
    • 17:50  #SIGSLP 議論:システムを知的に見せるとユーザは過信し、問題は難しくなる。機械の頭の悪さをいかにユーザに知らせる。ユーザが期待するタスクを絞って選択肢を呈示してはどうか
    • 17:52  #SIGSLP 議論:マジョリティに向けた戦略。カーナビについて日本はもう舵を切ったと思う。最初に音声でセットアップさせるなど、成功体験を与えたい。
    • 17:55  #SIGSLP 議論:対話だと思うとぐちゃぐちゃになる。インタフェースだと割り切る。人間は人工的に作れない。検索は迷わず使える。「見える化」が重要
    • 17:55  #SIGSLP 終了。

    Powered by twtr2src