GoogleWaveと音声認識

昨日｢GoogleWaveとUstreamで音声認識字幕の実験｣を初めて行いました。

開始時間: 2010/06/20 11:47
終了時間: 2010/06/20 14:05
ユニーク視聴者数: 27
合計視聴者数: 31
平均視聴者数: 6

ハッシュタグ#wavcapのつぶやきをまとめました。
携帯電話から見たい、という御要望もあったのですが今回は対応できませんでした。
また、直前の告知であったことについて、もっと時間をかけて幅広く告知をしては、という御意見もありました。

昨日のセットアップをまとめます。
配信用マシン：

配信にはMacBook Pro（13インチ）を使用。Mac OS X 10.6 マシン
配信にはSafariでUstreamのサイトを利用。
画像：CamTwist でブラウザ画面(Firefox)とパソコン内蔵カメラ（iSight）の画像をミックス。
音声はUSBオーディオインタフェース経由でマイク入力（オーディオテクニカ）。
Firefoxブラウザで Google Wave にアクセス。最初は共有ドキュメントの表示モードだったが、途中から編集モードで表示。
スクロールは手作業

音声入力用マシン：

Lenovo Thinkpad X300, Windows XP Pro SP3
1000円くらいの安価なヘッドセット。マイク入力できる状態にする。
Google Chrome で Google Wave の共有ドキュメントを編集状態にする。
ドラゴンスピーチ７（現：アセンディア）を事前にインストールしておき、最低限のトレーニングをしておく。
Google Waveのドキュメント編集画面にカーソルをフォーカスし、マイクに向かって喋れば音声認識結果が文字としてブラウザに打ち込まれるようにしておく。

ここまでが私の機材でした。今回はマイクに向かって喋ったのは基本的に西本一人でした。
今回は私のとなりでSさんが別のWindowsマシンを使い、Ustream のサイトにアクセスし、Twitter にログインして、タイムラインに書き込みをしたり、参加者の発言を拾ったりするお手伝いしていただきました。
約2時間、長丁場かと思ったのですが、質問にお答えしたり、参加された方に Google Wave を実際に触って理解していただいたりしていたら、時間はあっという間に立ってしまいました。
今後の課題をまとめてみます。
（１）もっと研究会・講演会に近い状況を作ってみる必要があります。
具体的には、西本以外の話者に対応できる状況を作る、司会者や質疑応答との話者の切り替えに対応する、スライドの配信に配慮する、など。。
（２）TwitterタイムラインとWaveの連携を考える必要があります。
Waveを相手に文字を入力したり編集していると、Twitterタイムラインに質問が寄せられてもなかなか気づかないし、講演の内容をTwitterに反映させることも難しくなります。
担当者を配置して手作業でやるほうがよいのかも知れませんが。。
（３）音声認識に適切なタイミングで改行を入れる必要があります。
（４）字幕画面のスクロールを自動化する必要があります。
（５）Google Wave の操作についてもっと絞り込んだマニュアル・説明が必要です。
これらの問題に加えて、音声認識エンジンとして何を選ぶべきか、検討を進めたいと思います。
今回参加してくださった方には、「現在のパソコン要約筆記ではカバーできない場面を補完する新しい提案」であることは、理解していただけたのではないかと考えています。次回の公開実験は Twitter などでお知らせする予定です。