最近機械学習が熱い。会社の仕事が谷中の谷なので好き勝手自分の特許書いたり興味のあることなりを調べているのだが、ひょんなことから後輩にもらった集合値プログラミングの本を読んでたら感動した。
amazonのオススメの商品を推薦するアルゴリズムを基本として、分かりやすく機械学習の手法が説明されている。僕のない頭でも実際にプログラミングしてコンピュータに学習させ、推薦の〇〇を出すことができた。予想以上にのめり込み、多分情報系の学部3年生ぐらいの知識は得ることができた。ということで目下、ホームページを見せるとその内容を学習し、それに基づいた思想で喋るTwitter bot作成中である。
ざっくり書くと下記のようなロジック。
1.ホームページのURLを教えるとその中身をタグを排除した状態でHTMLで取得
2.取得したHTMLをyahoo apiで単語に分ける
3.単語とその単語が登場した数を記録してベクトル化
4.あらかじめフォローしておいた不特定多数のユーザーのタイムラインの文を一定の数だけ取得
5.取得した文をyahoo apiで単語に分ける
6.twitterユーザーごとに単語とその単語が登場した数を記録してベクトル化
7. 全てのユーザーのベクトル化が終わったら、それをクラスタ分析でクラスタ化
8. 3と一番近いクラスタの中のランダムなユーザーのつぶやきをコピペして呟く
1〜3を繰り返すことで、より呟く単語が似ているユーザーの呟きを選択するようになるので、例えばエロいURLばかり見せればエロいことを言うユーザーの呟きを採用するし、右翼的なURLばかり見せればそういうつぶやきをするようになると。プチAIである。本当は喋る文も自前で生成できればいいのだけれど、それが簡単にできればもっとAI簡単にできているのできっと難しいのであろう。ということでAIの入門編としてこれを2週間で作る。
SECRET: 0
PASS: 74be16979710d4c4e7c6647856088456
すてき!楽しみにしてま~っす