音声CAPTCHAに関する発表予定


第50回福祉情報工学研究会(2009年10月29日(木)~30日(金)、青森県青森市で開催)において、下記の発表を予定しています。

  • 著者:西本卓也(東大)・松村 瞳(東京女子大)・渡辺隆行(東京女子大)
  • 題目:音声CAPTCHAシステムにおける削除法と混合法の比較
  • 概要:我々は音声聴取課題によって対象者が人間であるか機械であるかを判別する音声CAPTCHAシステムに着目し、普遍的な設計方針の体系化を踏まえて、音韻修復効果を用いた「削除法」を提案している。本報告では「機械による破られにくさ」の予備的検討として、提案法である「削除法」および既存システムの主流である「混合法」について音声加工の条件の違いが音声認識性能に与える影響を報告する。

これに関連して、最近気になっていることを書きます。

先月、郡山の音響学会の3日目に「音バリアフリー」会場にいたのですが、

  • 3-10-12 単語了解度を指標とした高齢者の会話のしやすさについての検討-喫茶店を事例に-,根津さん、永幡さん(福島大学)

の質疑応答で鈴木先生(東北大学)がおっしゃった Informational Masking (IM)という話がずっと気になっています。

もともとの発表は、高齢者は喫茶店(他のグループの会話で妨害されやすい状況)で、背景に音楽が流れている方が会話がしやすい、という報告でした。音楽のおかげで他のグループの会話がマスキングされ、自分たちの会話に集中しやすくなるのではないか、という考察です。

IMについて探してみると、こんな記事がありました:

音声を聴き取りにくくする妨害に関して、「エネルギーによるマスク」「情報によるマスク」という概念が出てきます。

昨年から「音声CAPTCHA」の実際の利用例をあれこれ聞いているのですが、その両者がありそうです。

ちなみに私が去年発表したのは「削除法」というアイディアでした。エネルギーによるマスクの最も極端なケースとも解釈できそうですが。。

  • 福岡 千尋, 西本 卓也, 渡辺 隆行: “音韻修復効果を用いた音声CAPTCHAの検討,” 電子情報通信学会 技術報告(福祉情報工学研究会、ヒューマンインターフェース学会研究会と共催), WIT2008-54, pp.83-88, Dec 2008.

上記のサイトはこんな文献を引用しています:

  • Watson, C.S. (2005). Some Comments on Informational Masking. Acta Acoustica 91, 502-512.
  • Durlach, N.I., Mason, C.R., Kidd, Jr, G., Arbogast, T,L Colburn, H.S.,and Shinn-Cunningham, B.G.(2003). Note on informational masking. JASA. 113, 2984-2988.
  • Tanner, W.P., Jr (1958 and 1964). What is masking? JASA 30, 919-921.reprinted and updated as Chapter24 in J.A. Swets (1964). Signal Detection and Recognition by Human Observers: Contemporary Readings, John Wiley & Sons, New York.
  • Carhart, R., Tillman, W., and Greetis, E.S. (1969). Perceptual masking in multiple sound backgrounds, JASA 45, 694-703.
  • Neff, D.L. and Green, D.M. (19987). Masking produced by spectral uncertainty with multicomponent maskers, P&P 41, 409-415.
  • Kidd, Jr, G., Mason, C.R., and Arbogast, T.L. (2002). Similarity, uncertainty, and masking in the identification of nonspeech auditory patterns, JASA 111, 1367-1376.

私はこの話が「音声CAPTCHA」に絡む話だと気づいて勉強を始めたばかりです。

8月ごろから音声CAPTCHAの課題設計と予備実験をやっているのですが、(実は数日中に原稿執筆と被験者実験をやらなくてはいけない。。)HMM で音声認識されにくい妨害音声の条件が、「IMが起きやすい雑音」にも対応しているように直感的に思えます。

上記Webページの筆者である Yost は「IMは選択的注意の失敗である」と述べています。私としては、自分の実験に取り入れたい視点と思いつつも、中途半端に手を出すと危険そう、という気もしてきたので、迷いつつ、そろそろ時間切れで実験方針を決めなくてはいけません。

私が注目していたCMUのプロジェクト reCAPTCHA は大学からスピンアウトして、そして最近 Google による買収が報じられました。音声CAPTCHAについても、古いラジオ番組の音声を聞き取りの課題にする、という面白い試みがなされていた(日本人が聴き取るには結構ハードな課題でした)ので、オープンに研究成果が発表されなくなるとしたら残念なことですが。。

こういった議論は、私が世話役を務めている(そして最近サボっていた)「音声・音楽研究会」のメーリングリストでも行っていく予定です。お気軽にご参加ください。

そして、今月末の青森での研究会にもふるってご参加いただければ幸いです。

青森にはこんな活動をしておられる方もおられます。

  • 2009-10-08 追記: 西本の発表予定のタイトルを訂正しました。