先日、NHK教育テレビ「きらっといきる」という番組で全盲の写真家・ 大平啓朗さんの旅の様子が取り上げられました。
そして、私が京都で一緒に活動をしていた(最近また連絡を取り合っている)為公史さんが、大平さんに一夜の宿を提供した様子が描かれていました。
(さらに…)
カテゴリー: general
-
全盲の写真家と信楽の仙人
-
第63回音音研
第63回「音声・音楽研究会」のTwitter記録です。Stickamを使って、参加者6人+遠隔参加者1人で楽しく開催しました。
このライトニングトーク企画は「気軽に話しやすい」と好評でした。
共感覚の話題で出てきた岩崎純一「音に色が見える世界」はこちらです: -
研究とマーケティング
今回のHCGシンポジウムの原島先生とクリプトン伊藤氏の講演について考えている。
原島先生の「ループモデル」からアラン・クーパーの主張を連想した。
「機能を作ってからインタフェースを作る」のではなく「まずユーザにインタフェースを見せてフィードバックを得てから、そのインタフェースに機能を付与していく」というクーパーの提案は、彼が設計したとされる Visual Basic のコンセプトに繋がる。
原島先生のループモデルは「研究が完成してから成果を世に出す」のではなく「まず実装を世に出して評価を受けながら、要素技術を研究し、論文も書く」ということだと理解している。従来と順番を逆転させることで「社会にいかに受容されるか」を意識した研究開発を行う、という意味で、インタフェースと話がつながる。
(さらに…) -
ブログ移転のお知らせ
はてなダイアリーから、私の個人ドメインである nishimotz.com に日本語ブログを移転しました。
今後、新しい記事はこちらのサイト(d.nishimotz.com)に書いていく予定です。
よろしくお願いします。 -
音声音楽研究会12/17
私が世話役をしている音音研(音声・音楽研究会)ですが12月17日を次回の開催日とします。
今年は私の不手際で開催回数も少なくなってしまいました。
そこで次回は、できるだけ多くの方にお話をしていただけるように、お一人5分の持ち時間で、なるべく全員の方に「ライトニングトーク」をしていただく、という趣向を考えました。
参加資格などはありません。また、次回も stickam 中継(やっぱりUstreamの方がよいのかな)を試したいと思います。
-
昨日の音音研
第62回音音研を開催しました。
2009年11月5日(木) 18:30-21:00頃 参加者8人- 話題提供1:西本卓也
- 音声CAPTCHAの評価に関する公開被験者実験(2名)+見学者数名
- 参考までに西本が先週発表した内容
- 話題提供2:帝京平成大学・川島尊之先生 (19:40ごろ)
- テーマ:音源分離知覚について(続編)
- エネルギー的マスキングとインフォメーショナルマスキングの問題、音源分離と群化手がかりの知覚、順応に着目した実験のご紹介など。
- 過去の記録・参加方法など
ネット中継による遠隔地からの参加の実験をしました。西本の実験の途中あたりから stickam.jp に接続しました(75個の音声を聞いていただいている間は時間があるのです)。
Twitterの@nishimotzで告知をしたところ、お一人の方に stickam でご参加いただけました。
使用したのは Thinkpad X300 の内蔵マイクおよび内蔵カメラでした。説明の文章も効果音もタイトルも何も準備できませんでした。
オランダの田中先生(音音研の初代主催者)も少しだけ stickam でご参加くださいました。音声も映像も比較的良好とのことでした。
現在は、田中先生のともした火を絶やさないように、私の無理のない範囲で続けさせていただいていますが、こうした形でご参加いただけたことを嬉しく思いました。
会場に来られた方の中には「ここに来ないで参加して、どんな風になるのか試してみたい」という興味をお持ちになった方もおられましたが、一方で「やっぱり会場で話を聞くのがよいのでは」という御意見もありました。
いずれにせよ、技術の進歩や普及によって、研究者コミュニティという場に新しい可能性が広がっていることを、ひしひしと感じています。
旧来のツール=メーリングリストだけでなく、ブログや YouTube などによる情報発信、twitter や stickam といったリアルタイムの情報共有ツールを利用することで、これから何ができるのか、どんな方々と交流ができるのか、ますます楽しみになってきました。 - 話題提供1:西本卓也
-
地域通貨と自発性
いまさらながら梅田望夫さんの「ウェブ時代 5つの定理 この言葉が未来を切り開く!」を読ませていただいた。
前々から気になっていた本で、とてもポジティブなメッセージを得ることができた。
書かれている主張にもだいたい納得できたが、自分の仕事の現場に当てはめて考えてみると、気になることがあった。
- 「「誰かにやれと言われたから」という理由で何かをするな」(自発性)
- 「成功したアントレプレナーはマイクロマネージャーだ」(トップの細部への目配り)
これを両立することが、意外に難しい。自発的に何かをしようとしている人の仕事に、スーパーバイザーが納得できなくて、つい手を出してしまう。
私もマイクロマネージャー的な性癖を持っている。頼んだ仕事のソースコードをのぞき込んで何か言いたくなる。常に口出しをし続けたいから、新しい技術や流行のプログラミング言語にいつも手を染めたいと思っている。
マイクロマネージすれば成果は出るし、マイクロマネージが「教育」になることも多い。だが、せっかく自発的にやろうとしていた人に対して、「こんなにダメ出しされるのなら自発的に動いても無駄だ」と思わせてしまうと、やる気がしぼんでしまう。結果的にマネージャー以外の人はどんどん無気力になる。マネージャーはマイクロマネージすべき仕事が爆発的に増加する。
こういう事例を考えると「未来を切り開く言葉」と「未来を真っ暗にする言葉」は紙一重なのではないか、と不安さえ感じる。だが。。。
****
いま「自発性」が根っこに潜んでいると思われる問題が、世の中にも自分の現場にも山積している。そんな中で、先週末、茶人・陶芸家の為公史さんと久しぶりに会って話をして、気づかされた。
マイクロマネージされた部下が自発性を奪われるのは「部下に手柄を渡さないから」である。
曰く「究極のマネジメントは邪魔するふりして軌道修正する」のだそうだ。私はその極意に達することができるだろうか。。
****
地域通貨が自発性をコントロールできる可能性についても、深く話し合った。
そういえば「人力検索はてな」や「Yahoo知恵袋」におけるポイントのやりとりも、一種の地域通貨なのかも知れない。
地域通貨にはいくつかユニークな特性がある。所持すること・使うことそのものの面白さ、金額という数字に込められる感情や感謝の気持ち、現実の通貨との価値換算を自由にコントロールできること、などなど。。
コミュニティが発行する通貨に止まらず、個人が通貨を発行し合って、自由に交換しあうと何が起こるだろう。年賀状をやりとりするように通貨を発行し合うことができたら、何が起こるだろう。。
とはいえ「誰かの役に立つことの喜び、内発的動機付けに気づけば、地域通貨は自然に必要がなくなる」というのが、子供キャンプで地域通貨を使い続けてきた為さんの意見だ。
こうした考察のプロセスは今後、私の個人プロジェクト “Slowly” でもお伝えしていきたい。
-
CMSとしてのdokuwiki
先日、個人で運営する新しいサイト
を開設しました。このサイトは dokuwiki という wiki エンジンをコンテンツ管理システム(CMS)として使用しており、ほとんどのページが「書きかけ」ですが、随時更新を行っています。
はてな日記はブログのシステムとして気に入っており、このまま利用を続けたいと思っています。一方で、日常的にちょっとしたメモを書きためて、関連する内容をまとめたページを作りたいという気持ちも強く、日記に書き散らかした記事をまとめるために CMS を活用したいと思っていました。
私が管理しているサイトに
というドメインがあります。ここには以前の勤務先(京都工芸繊維大学)のサーバで公開していたコンテンツを 2002年12月に引っ越しして再整備した
があります。執筆に参加した書籍「バージョン管理システム(CVS)の導入と活用」に関連する情報
もここに含まれています。
多くの方に御利用いただいているのは radiofly wiki
のほうだと思います。こちらは以前から活動している「ラジオ放送の文化と番組制作技術に関する研究開発」のためのサイトです。pukiwiki によって「放送博物誌」などの記事を書きためています。作成した当初、wikipedia のようなオープンコンテントのサイトは日本では一般的ではありませんでした。最初に放送と電気通信技術に関する年表を radiofly の wiki に書き始めたのは私でしたが、以降は川崎隆章氏が中心になって充実・整備をすすめておられます。私は現在は読むだけでほとんど書き込みをすることはありません。
radiofly wiki には「放送博物誌」と無関係に西本が書いていた記事や情報のページがいくつかありましたが、昨年末にメンテナンスを行った際に、radiofly の活動と無関係な記事の大半を削除しました。radiofly の活動と私個人の活動は、明確に分離していくことが望ましいと考えています。
pukiwikiは導入しやすいツールで、気に入っていたのですが、1.4.7 を最後に公式なアップデートがなされておらず、日本でしか使われていないということもあり、将来性に不安を感じています。
radiofly から削除したコンテンツの再整備などを行うために新たな CMS の検討を行いました。最初に考えたのは WordPress でした。
2006年のはじめにIPA未踏ソフトウェアでの活動を公開するために Movable Type サイトを開設し、その後 WordPress に移行しました。現在は
として運営しています。その後、英語での情報発信を行うために
を開設しています。(日本語のブログはひきつづき「はてな」で運用するつもりです)
WordPress はいわゆる WYSIWYG 編集ができるという利点がありますが、ソースコードを貼り付けて技術情報を書くサイトとしては向いていないと感じました。また、日付に対応する日記的な記事は作りやすいのですが、static なページを作りやすいとは思えませんでした。MySQL によるデータ管理も、私が管理したい記事の量ではオーバースペックと言えそうです。
pukiwiki の wiki 記法には気に入らない部分もあります。例えば pre 要素に対応する記法は「行の先頭に半角スペース」ですが、行数の多いソースコードを貼り付けるのが面倒だったりして、あまり好きではありません。(pukiwikiに複数行#preという機能を拡張する試みはなされていますが)
MediaWiki などの候補をいろいろ調べて dokuwiki に行き着きました。
最初は「見出しタグが ====== ほげほげ ======」というあたりに違和感を感じましたが、慣れてきました。
今後、いったん公開をやめた記事、公開する機会がなかった技術メモ、日々の仕事で気づいたことなどを随時
に書いていきたいと思います。また、
やこの日記で、ときどき更新情報をお伝えしたいと思います。
-
ヒューマンインターフェースとソフトウェア開発
音声認識の研究者に広く使われているHTKというソフトウェアがあります。
数ヶ月前にリリースされた Ver 3.4.1 をいじりながら、多くの人が「HTKは難しい」と言うのはなぜなのか、改めて考え直しています。
「そんな難しくないですよ」と言いながら、いろいろ試したり説明をしようとしたら、私自身が落とし穴にはまり、落ち込んでしまうこともあります。
HTK は HMM(隠れマルコフモデル)による音声認識のためのツールキットです。最初はケンブリッジ大学で開発され、有償ソフトウェアになったのは 1993 年だそうです。その後 Microsoft に買収され、現在はケンブリッジの手に戻って、無償で配付されています。最新版の英語マニュアル(HTKBook)は384ページにもおよぶ膨大なPDFファイルです。
十数年にわたる音声認識研究の歴史が詰まっている HTK は、最近に至るまで拡張が続いています。今回、久しぶりにチュートリアルを精読してみたら、知ってるつもりで知らなかった機能にいくつか気づくことができました。と同時に、拡張を繰り返してきたツール全体の仕様の見通しの悪さ、コマンドラインオプションの覚えにくさ、などなど、課題もいろいろあるように感じました。
HTKBookのチュートリアルをできるだけそのまま実行してみようとして、チュートリアルの説明と挙動が異なる箇所があること、配付サイトで公開されているファイルだけではチュートリアルを完全に再現できないこと、などにも気づきました(私の誤解かも知れませんが)。
フリーソフトでつくる音声認識システム – パターン認識・機械学習の初歩から対話システムまで
- 作者: 荒木雅弘
- 出版社/メーカー: 森北出版
- 発売日: 2007/10/17
- メディア: 単行本(ソフトカバー)
- 購入: 16人 クリック: 124回
- Amazon.co.jpで詳細を見る
荒木先生が書かれた参考書は HTK の手っ取り早い入門として学生からも評判がよいのですが、突っ込んで使いこなしたい場合には、自力でマニュアルを読んで理解をしなくてはなりません。
最近、信号処理やパターン認識の分野で Matlab や R などスクリプト言語系のツールが普及しつつあります。性能や言語仕様の利便性などの議論はともかく、学習の容易さという点からは高く評価できるでしょう。
また、個人的には Ruby on Rails の勉強において script/console がとても有用であることに気づきました。いわゆる「コード補完」が有効であることにも驚いたし、irb で “hello”.methods を実行すればStringクラスのメソッド一覧が簡単に見られる、というのも目からウロコでした。
プログラミング言語がプログラマーと言語処理系のインタフェースであるとすれば、「ユーザインタフェースの原則」がプログラミングという行為においても重要ではないかと思います。
- やりたいことが完結に記述できること
- やりたいことがコマンド名、関数名、メソッド名として「連想が容易」であること
- 連想された記述法が正しいかどうか、対話的にフィードバックを得られること
などがインタプリタ系言語の嬉しいところです。そう考えていると、
- 西本 卓也: “音声インタフェースとWebアクセシビリティ,” ヒューマンインタフェース学会第4回SIGACI研究談話会/第30回UAI研究会, 15th Nov 2008.
- 西本 卓也,岩田 英三郎, 櫻井 実, 廣瀬 治人: “探索的検索のための音声入力インタフェースの検討,” 情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.
- 西本 卓也, 志田 修利, 小林 哲則, 白井 克彦: “マルチモーダル入力環境下における音声の協調的利用 —音声作図システムS-tgifの設計と評価—,” 電子情報通信学会論文誌 D-II, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.
において議論してきた「インタフェースの原則」と重なってきます。
HTKでは数千個という膨大な学習データを扱ったり、膨大なパラメータ数の統計モデルを学習することができます。しかし、やりたいことを完結に記述できるか、コマンドやオプションを容易に連想できるか、操作のフィードバックが容易に得られるか、などと考えると、あちこちに落とし穴(ノーマンの7段階モデル流に言えば「淵」)がありそうです。
HTKについて考察していると「音声認識による機械と人間のインタフェース」にとどまらず「HTK と研究者のインタフェース」についても考えたくなってしまいます。
-
第61回音音研 6月18日
下記のとおり開催します。直前のお知らせで恐縮ですが、ご興味のある方はお気軽にご参加ください。
- 第61回 2009年6月18日(木) 18:30-
- 話題提供1:東京女子大学 松村瞳さん+東京大学 西本
- テーマ:音声CAPTCHAの検討
- 要旨:昨年度から東京女子大学と東京大学の共同で行っている「人間が聞き取ることができ、機械に認識されにくい音声」の研究について、昨年度の成果の報告を行い、今年度の研究計画についてご助言をいただきたいと思います。
- 話題提供2:帝京平成大学・川島先生
- テーマ:音源分離知覚について
- 要旨:日常的な場面では人間は重畳信号から個々の音源について知覚する。その理解は例えば何を分離知覚しているのか,あるいはその知覚に関わる要因とメカニズムはどのようなものかという点について行われてきた。今回は音源分離知覚に関するこうした問いについて文献調査と発表者の研究の結果などから得られる回答を整理する。
- 最新情報と過去の記録:http://hil.t.u-tokyo.ac.jp/~nishi/on-on-ken/