日記
7月ですね。暑い暑い。
「レールの上を走れないのなら、レールの外を2倍走れ」というのも悪くない。
__ 文科省の調査によれば、小学五年生について、水泳の授業での着替えを男女同室で行う学校が0.1%、林間学校などの校外宿泊で宿泊部屋が男女混合なのが1.1%だそうです。そういうのって男女平等とは違うように思うんですけどねぇ。
一律の扱いをすることはむしろ平等とは逆なんじゃないでしょうか。僕の頭の中のイメージは2次元平面上に点が散らばっている風景です。ある位置に標準点を定めるとそれに近い点と遠い点ができるわけです。近い点の方が有利で遠い点が不利益なのだから、一律の扱いは平等ではありません。ごく一部の点の分布以外では、どこに標準点を定めても距離が一定にならないのですから、本質的に「平等な扱い」が存在しないケースの方が多いわけです。
それはそうと「文科省の調査」とだけ書かれてもソースに当たるのが大変だからせめて調査の名前くらい書いて欲しいと思うのですが、そういうニーズは少ないんでしょうかねぇ。
__ ☬ฺこの文字なんでしょう。一瞬ガンダムかと思いました(そんなのがUnicodeにあるはずない) (‘ủ‘) 特殊文字コード表を参考にして作ってみましたが、これだけ部品がたくさんあるとちょっと楽しいですね。
昨日は夜中になってから隠れマルコフモデルを使った顔文字の抽出を実装し始めてしまいました。 でも隠れマルコフモデルの勉強になったからいいとしましょう。2状態で、 1状態が必ず1つの出力を伴うという仮定の下では、結局のところ間にギャップを入れるか入れないか考えているに過ぎないわけです。たとえば(→へ←)の様な顔文字であれば、真ん中の「へ」は顔文字でない場合にもよく出現する文字(つまり「顔文字と見なすコスト」が高い)なのですが、両脇の文字が「顔文字でないと見なすコスト」の高いものなので、間にコストの高い「異なる状態への遷移」を入れるよりはちょっと高いけど「へ」を顔文字だと見なす方がマシ、という判断が起きるわけです。結局のところ、これでは1文字1文字の出現確率というパラメータを繰り返し繰り返し学習させることでいい値に収束させるだけのことです。
♡→ܫ←♡のハートは顔文字に含めるけども♥。・゚♡゚・。♥。・゚♡゚・。♥。・゚♡゚・。♥。・゚♡゚・。゜♥。゚♡゚・。♥。・゚♡゚・。♥。は顔文字に含めない、というルールを個々の文字の出現頻度だけで記述できるんでしょうか。 状態数を増やしたりBaum-Welchを使うことで解決になるのかどうかは微妙な気がします。
㍰㏾、そんな物を一文字にして文字コードを割り当てる必要性があったのかと…。そんなのより最近滅びつつある変体仮名を入れてくれればよかったのに。