第50回福祉情報工学研究会1日目

06:17 これから新幹線で（笑）青森へ。#spwit http://bit.ly/hSIoW
06:18 ゆうべは第 82 回音楽情報科学研究会 http://www.sigmus.jp/SIG/sig200911program.html の打合せをやってました。東京大学の学生は無料で参加できることになりました。
06:20 #spwit ハッシュタグ実験中 http://bit.ly/hSIoW
10:54 八戸で特急に乗り換えた。
12:10 青森アスパムに着いた http://f.hatena.ne.jp/twitter2/20091029121043
13:04 #spwit 講演 (1) 「最新のエレクトロパラトグラフ（ＥＰＧ）の臨床活用と今後の展望」山本一郎さん。「構音障害の治療のためにEPGを広めたい」
13:04 #spwit プログラム http://bit.ly/hSIoW
13:08 #spwit (1) 山本氏「口唇口蓋裂の症例紹介。発話機能のために手術をする」「日本では500人に１人」「後遺症である構音障害の治療に関わる言語聴覚士が人手不足」
13:12 #spwit (1) 山本氏「口の機能：食べること。話すこと。味わうこと」「口蓋裂に伴う異常構音の説明。鼻咽腔閉鎖機能の不全に関係ある事例、ない事例の存在」
13:15 #spwit (1) 山本氏「スピーチエイドによる閉鎖機能の改善。喉のしまりをよくする装置」「発音補助装置」
13:17 #spwit (1) 山本氏「EPGが使えそうなのは閉鎖機能不全と関係ない障害。「さ＝か」、「ち＝き」。舌の後方化」「1978年に製品として作られたEPG。臨床には不向きだった」「現在：英国の大学のWinEPGシステム」
13:23 #spwit (1) 山本氏「Redingタイプは良好。2007年に京都でシンポジウム。100人を超える実績。論文多数」「症例紹介。3歳で口唇形成術。13歳でEPG治療開始」「EPGパレートを使用。パターンの変化。視覚的フィードバック訓練。目標が具体的」
13:25 #spwit (1) 山本氏「人工口蓋床の開発が必要。モジュール化してカスタマイズできる電極を開発した」「遠隔構音指導が可能」「ケータイで録音してメール添付。もっといい方法はないか？」
13:26 #spwit (1) 山本氏「「目で見る日本語音の再生」というDVDを今年作成した」
13:29 #spwit (1) 山本氏：質疑「100Hzで「つ」「ちゅ」の区別はつくのか？」「スペクトルと対応させれば判断できる」「聴覚言語障害の人には特に音声スペクトルの視覚化フィードバックが有効」
13:32 #spwit (1) 山本氏「舌が間違っていたら絶対に正しい発音はできない」「舌の位置を視覚化する。音を視覚化する」「人工内耳の方へも有用なはず」
13:34 #spwit 講演 (2) 「人工内耳装用者のための音楽の試作」北澤さん http://bit.ly/hSIoW
13:38 #spwit (2) 北澤氏「人工内耳（CI）は音楽を聴くのに有効でない」「内部でどんな処理をしているか説明」「Cochlear社のACE方式の概要」「音楽情報伝達の問題点。リズムは問題なし。音の高さの弁別が困難。ピッチ、音色、メロディが聞き取れない」
13:43 #spwit (2) 北澤氏「20個の電極に対応した音を用いたピッチ識別実験の結果」「被験者2名。17個は弁別できる」「聞こえの強さの調整」「G3 F4 C5 E5 G#5 C6 など音を作って聴力検査」
13:47 #spwit (2) 北澤氏「震音による音楽作成例。鉄腕アトム」「人工内耳フィルターに対応した楽音の割り当て。人工内耳音階＝CIS。周波数フィルタと一対一に対応する音階を選んだ」「新たに作曲した作品紹介」
13:53 #spwit (2) 北澤氏「既存の曲をCISに変換した例」「特徴を保っているので曲目の推測は可能」「人工内耳使用者による評価。曲によって原曲との同一感が感じられない場合もある」「音楽らしく感じることが示唆された」
13:55 #spwit (2) 北澤氏の質疑「西洋音階の半音階を含む曲は厳しい？民謡や童謡なら適している？音階の間隔は将来狭まるか？」「人工内耳の周波数分解能は上がるだろう」
13:58 #spwit (2) 北澤氏の質疑「被験者の先天、後天？」「後天。高齢者。将来の対象は子供、先天性の人」「音階は子供が後天的に獲得するのでは」「和音は考慮したい。振幅変調がポイントか」「人工内耳の音楽家の意見を聞いては？」
14:00 #spwit (2) 北澤氏の質疑「電極に10msくらいの刺激を与えられないか？」「300ヘルツ以上の刺激は困難」「であれば１オクターブの信号で音楽を作れないか？」
14:01 #spwit 講演 (3) 「日本手話会話におけるマウジングと言い直し」坊農さん。ここまでPC要約筆記。ここからは手話通訳とPC要約筆記。
14:05 #spwit 坊農さん「聴力障害の等級と手話コミュニティの説明。先天ろう：両親がろう者／聴者の各ケースあり。中途失聴。難聴」
14:08 #spwit (3) 坊農さん「コーダ：children of deaf adult」「手話通訳士、手話通訳者」「ろう文化宣言。日本手話＝日本語と異なる言語。言語的少数者」
14:09 #spwit (3) 坊農さん「Deaf = 社会的文化的コミュニティ、民族的団体。 deaf ＝病理的なものを含む」
14:12 #spwit (3) 坊農さん「日本手話＝日本語と異なる文法」「日本語対応手話＝日本語文法と対応。日本手話母語者にはわかりづらい」「マウジング＝音声言語由来の口型」「完了を意味する「パ」」
14:14 #spwit (3) 坊農さん「音声・ジェスチャ分析の手法で研究に取り組む。「意味解釈」「手型（右）」「手型（左）」「口型」」「手が表現する場所まで移動する準備区間をチルダで表す」「核の部分をアスタリスクで表現」
14:22 #spwit (3) 坊農さん「ビデオで実例紹介。言い直しフェーズにマイジングがつく。マルチモーダル」「左手がなぜ保持されるか。単語間の修飾関係？」
14:25 #spwit (3) 坊農さん「告知：10月31日から日本手話学会＠東大駒場」
14:27 #spwit (3) 坊農さん質疑「マウジングとマウスジェスチャーを区別することが重要？後者は言語情報。前者はパラ言語。個人差もある？」「マウジングはプロソディ。マウスジェスチャは完了の意味付加など」「ジェスチャというよりも言語？文法情報」
14:29 #spwit (3) 坊農さん質疑「マウジングの再説明を」「相手が聴者でなくてもマウジングは出てくる。聞き手の理解のため。いま私は言い直しているよ、強調しているよ、という表現」
14:30 #spwit (3) 坊農さん質疑「外国語でも？」「イスラエルとアメリカの手話の報告あり。たくさん出る。日本語音声との接触に影響を受ける？」
14:32 #spwit (3) 坊農さん質疑「ビデオの人は日本語の発話訓練を受けた手話話者？」「Yes」「日本のろう教育：口話の指導が徹底している」「高齢のろう者は聾学校で手話を禁止されていない」
14:32 #spwit 最初のセッション終了。休憩。 http://bit.ly/hSIoW
14:46 #spwit (4) ［招待講演］「リアルタイム字幕放送のための音声認識」今井亨さん（NHK）
14:54 #spwit (4) 今井氏「NHKで生放送のオンライン字幕がどのようにつくられているか」「デジタル放送の説明。字幕放送の行政指針」「生放送以外は字幕義務化」「2007年～2017年の総務省指針＝生放送を含む7時から24時の番組すべてに字幕付与」
14:56 #spwit (4) 今井氏「総務省指針の例外＝複数人が同時に会話を行う生放送番組を除く」「2008年度実績。NHK総合49.5%。民放平均44.3%」
14:57 #spwit (4) 今井氏「オフライン番組。パソコン上で人手で字幕入力。いろいろ工夫している。30分番組に数時間かかる」
14:58 #spwit (4) 今井氏「オフライン字幕の試写を3回する。本人、スーパーバイザー、ディレクター」
15:00 #spwit (4) 今井氏「オンライン字幕＝「生字幕」。リアルタイムでの日本語入力が必要。2000年に音声認識によるニュース字幕を開始」「キーボードによる方式。3人で連携入力：歌謡番組など。ステノワード：入力者と校正者のペア３組、計６人」
15:02 #spwit (4) 今井氏「大リーグ野球の実況はダイレクト音声認識で字幕付与。リスピーク音声認識：リスピーカー（字幕専用アナウンサー）１名、修正１名。スポーツ番組など」
15:06 #spwit (4) 今井氏「ハイブリッド方式：現在研究中。全体の３割の番組が音声認識困難な自由発話ばかり」「海外の動向：裁判速記用ステノキーボード。音節列を単語スペルに変換」「米のテレビも字幕義務化。BBCはリスピーク方式」
15:08 #spwit (4) 今井氏「日本語：カナ漢字変換の壁」「NHKにおける音声認識研究は1969年から。90年代に大語彙連続音声が可能に。1996年に大学等との連携プロジェクト開始。データベース構築。統計的手法」
15:10 #spwit (4) 今井氏「2000年に世界初の音声認識字幕放送」「男性と女性の認識を別のエンジンで」「記者が書いた原稿で言語モデルを学習」「記者原稿は赤鉛筆で手修正。そのまま字幕にできない」
15:12 #spwit (4) 今井氏「認識率100%でないと許されない。4人で認識誤りの発見・修正」「徐々にスピードワープロと併用」「現在はスピードワープロのみ利用」
15:17 #spwit (4) 今井氏「リスピーク方式。場合により要約。番組ごとの言語モデル。キャスターごとの音響モデル」「生放送の料理番組で利用」「見てわかることは省略」「早く出したい、読みやすくしたい」「拍手や歓声、要約筆記と同じような配慮」
15:18 #spwit (4) 今井氏「NHK広報番組の紹介」
15:23 #spwit (4) 今井氏：NHK広報番組「番組ごとに辞書を管理」「実況を聞きながらリスピーク」「タッチパネル端末で誤り修正、点や丸の付与、話者ごとの文字の色」「限られた文字数でわかりやすく伝える最善の努力」
15:24 #spwit (4) 今井氏：NHK広報番組「地上デジタルは字幕ボタンで」
15:26 #spwit (4) 今井氏「映像を隠さないためには２行。約３０文字。ページ更新は２秒くらいの周期。アナウンサーが喋る苦労。スポーツ番組の言語モデル。デーモン閣下の相撲中継の発言にも対応」
15:28 #spwit (4) 今井氏「ニュース字幕は誤りが許されない。スポーツはそうではない」「研究所で取り組んでいるハイブリッド方式。記者の現場リポートも直接認識できる。インタビューなど項目ごとにハイブリッドとリスピークを切り替え。」
15:29 #spwit (4) 今井氏「今の技術なら確認１人とリスピーク１人で対応できる」「ローカル制作のニュース字幕に展開したい」
15:32 #spwit (4) 今井氏「最新技術のビデオ。早ければ５秒遅れで字幕送出。インタビューはリスピークに切り替え」
15:37 #spwit (4) 今井氏「機材の紹介。音声認識マシンと修正用マシン。タッチすると同音異義語リストが出る。早い人は打ち直す。５分ニュースなら修正者１人で」
15:41 #spwit (4) 今井氏「音声認識の要素技術の紹介。逐次早期確定。音響モデルの識別学習。音素認識による発話区間検出。言語モデルを番組中に自動更新」
15:43 #spwit (4) 今井氏「今後。0.1%の誤りは許容される。インタビュー、特に「街の声」は難しいが、オープンキャプションがある」「認識の難しさを決める条件：誰が、何を、どこで、どんなふうに喋るか＝３Ｗ１Ｈ」
15:46 #spwit (4) 今井氏「難易度中＝クローズアップ現代、生活ほっとモーニング」「報道系対談番組の自由発話＝発声変形に対応した学習、対談向け言語モデル、誤り修正のデコーダへのフィードバック、話者識別」
15:50 #spwit (4) 今井氏「課題：複数話者オーバラップ、外国語」「進行表１枚の事前情報から言語モデルを作れないか、十分な学習テキストが得られない場合がある」「音声認識の非専門家には言語モデルを作れない」「ダイレクト方式拡充を」「人手修正前提の低コスト化」
15:52 #spwit (4) 今井氏「反響：家族で歌番組を楽しめるようになった。スポーツ選手の心理や対話の意味合いがわかる」
15:54 #spwit (4) 今井氏質疑「リスピーカーのスキル、養成？最初はアナウンサーＯＢ。現在はアナウンサー志望の人がやっている。野球や相撲などの専門知識が必要。ゼロからは訓練したことがない。訓練は１週間くらい」
15:55 #spwit (4) 今井氏質疑「リスピーカー方式ならバラエティでも対応できるのでは？」「リスピークはできるが言語モデルの未知語率などが課題」
15:56 #spwit 休憩。 http://bit.ly/hSIoW 次は４時から。
16:02 #spwit 最後のセッション http://bit.ly/hSIoW
16:04 #spwit (5) 「講義音声認識に基づくノートテイクシステム」河原さん「背景：大学で学ぶ聴覚障害学生が増加」「ノートテイカーの養成が急務」
16:06 #spwit (5) 「発話内容をすべて書き起こすことは困難。専門的な講義内容をノートテイカーが理解することは困難。一般教養は容易だが専門の講義は他分野の学生にできない」
16:08 講演者によって「先生」にしたり「さん」にしたりする基準が難しいのでtsudaるときの敬称を統一してます。。
16:10 #spwit (5) 河原氏「放送との違いは要求されるクオリティ。そこにいる学生がその一瞬見て理解できればよい」「発話スタイルの問題、専門用語の問題」
16:15 #spwit (5) 河原氏「モデル適応の先行研究：教科書やスライドの利用」「本研究：同一講師が以前に行った講義の内容を用いる適応」「書き起こしのコストの問題。認識結果の活用？」
16:18 #spwit (5) 河原氏「正しく認識された文を自動選択？ノートテイカーが字幕に送った認識結果を使う」「音声認識評価実験。話題語の定義、再現率、適合率」
16:24 #spwit (5) 河原氏「選択修正画面。支援実験の説明。手書きノートテイカーと同時に運用。PC２台をLAN接続。音声は無線で伝送」
16:30 #spwit (5) 河原氏「評価。手書きテイクの1.8倍のテイク量。平均遅延時間9秒程度。」「学生相談室を通じてヒアリングを実施。手書きよりも分量が多い。数式は無理矢理タイプしなくて良い」
16:36 #spwit (5) 河原氏。Julius2IPtalkのデモ「IPtalkの確認修正パレットに音声認識結果を流し込む。このソフトは公開予定」「告知：11月28日に京都大学でシンポジウム」
16:37 #spwit プログラム http://bit.ly/hSIoW
16:43 #spwit (6) 「音声対話を用いた点字学習システムの開発」柴原さん「点字学習の必要性」「点字学習支援の関連研究」「提案システム＝反復練習。自学自習。ガイドをコンピュータに担わせる」「例：音声入力を点字で確認する」
16:49 #spwit (6) 柴原さん「マルチモーダルの階層アーキテクチャの説明。デバイスが交換可能。ユーザの習熟度。ユーザのデータの蓄積」「タスクの記述。データ構造」
16:51 #spwit (6) 柴原さん「予想される問題：音声認識率。対策、特定話者のモデル」「ユーザの読み取り誤りを正しく検出する必要。点字パターンの読み取り誤り傾向を考慮した音声認識辞書の動的生成」
16:53 #spwit (6) 柴原さん「実装。点字ディスプレイ＝ブレイルメモポケット。音声認識＝Julius。音声合成はGalateaTalk」「C++、Java、Grailsで各階層を記述」
16:55 #spwit (6) 柴原さんデモビデオ「（システム）これはなんと書かれているでしょう」点字ディスプレイ呈示「（ユーザ）あ、い」「（しすてむ）正解です・・・」
16:59 #spwit (6) 柴原さん質疑「目的に対して使用した枠組みが大がかり？」「標準化の利点。開発の効率」「点字のニーズが減っているのでは？」
17:01 #spwit (6) 柴原さん質疑「文章読み取りの学習に進んだら自動点訳が必要？」「２層に組み込む。上の層からは抽象化したい」
17:02 #spwit (7) 「構音障害者の音声認識における動的特徴量の考察」宮本さん
17:05 #spwit (7) 宮本さん「構音障害とは。不随意運動（アテトーゼ）の説明」
17:08 #spwit (7) 宮本さん「音声認識の特徴量。MFCCとデルタMFCCの説明。従来の音響モデルでの構音障害者発話認識は困難」「構音障害者の音響モデルの作成」「デルタMFCCの認識率が低い。健常者と比べて時間変化の表現に問題」
17:11 #spwit (7) 宮本さん「デルタMFCCのセグメント特徴量に着目。前後数フレーム分の特徴量を主成分分析＝PCAで次元圧縮」
17:15 #spwit (7) 宮本さん「2人の話者で評価。認識精度の改善が見られた」
17:15 #spwit (7) 宮本さん「今後の方向性。声質変換で聴き取りやすい声にするなど」
17:18 #spwit (7) 宮本さん質疑「個人ごとに特徴量を変えるべき？」「Yes。特定話者でやるべき」「人間は聞いていると聞き慣れてくる。機械学習の可能性を示唆？」
17:20 #spwit (7) 宮本さん質疑「セグメント特徴量は健常者音声に効果あり？」「未検討」「PCAでどのような特徴をつかんでいることになる？」
17:24 #spwit (7) 宮本さん質疑「音響モデルがモノフォン？」「データが増やせないから」「54音素？」「構音障害者のための音素体系」「デルタ計算の窓幅とセグメント特徴量の関係？」
17:25 #spwit (7) 宮本さん質疑「連続音声認識でも有効？」「言いよどみなど、言語モデルの考慮も必要」
17:26 #spwit (7) 宮本さん質疑「語彙：210単語」「話者適応で対応できるか？」「検討した。提案手法のほうが高性能」
17:31 #spwit 最後に議論。(6) のカリキュラムの作り方について追加質問。これから懇親会。

第50回福祉情報工学研究会1日目

More posts