でぃするだいありー?

そんな気はないんだれど、でぃすっちゃってる。 でぃすでれ?

レイ、V-MAX発動的なIoT

つまり、音声認識による機器制御である。

その昔、IBMのViaVoiceを試したことがある。
その危険度は後年経験することになる『君のためなら死ねる』にも似て、実家ではこの試行錯誤を繰り返すことは致命的だと、トライアルを放棄した。わりと大声で、アホっぽく独り言をしなければならなかったからだ。

以後、音声認識に対する興味は失せ、ラズパイを手に入れてもそうしようとは思いもよらなかったが、Linkstationのラズパイへの自動マウントがどうにもうまくいかないせいか、なんとなく思いついてしまって試してみることにした。

ちなみに、Linkstationのマウントについてはいろいろ試した挙句、以下のサイトを頼りになんとかなった。
コマンド実行ではうまくいくのに、/etc/fstabに追記して自動マウントがうまくいってなかったわけだが、同記事にもあるように、どうも「sec=ntlm」がミソらしい。

音声認識については、カメラに付属しているマイクを使用してみた。
現在、辞書に登録した単語を認識するところまで確認したが、わりと大声でアホっぽく話しかけないといけない。隣人が聞きつけたならば、おまわりさんに相談してしまうかもしれない。
認識率が悪いのはマイクとの距離のせいかもしれないが、カメラの設置場所はこのままで使用したい。ので、これ以上なにかやろうとするならば、別のマイクを手に入れなければならない。

そんなわけでマイクを探すことになったわけだが、気になったことがある。というか、これこそが今回のキモ。


同じ商品に見えるのだが、違うものなのだろうか。
同じものだとしたならば、すげーマージンだということになる。

2016/08/21追記:

snd_bcm2835とsnd_usb_audioのボリュームコントロールは別物であることを知らず、前者の設定をいじっていた。スピーカーの電源をOFFにして、先には使用できていた録音時のボリュームレベル調整が不可になったことでようやく気付いた次第である。
snd_usb_audioの録音レベルを最大にしたところ、独り言よりは大きめの声で音声コントロール可能であることを確認した。ほどほどマシにアホっぽくなく実験できるレベル。

しかしながら、椅子の背もたれがきしんだ音とか、戸がスライドした音とかの雑音を誤認識しすぎるので、まったく実用的ではない。サンプルに記載されていたscoreなる値を利用してみたが、似たようなキーワードは区別できなかったりする。

Juliusを研究するか、別の音声認識サービスを利用するかといったところか。