石鹸の手作り情報を網羅的に分析する人工知能を作ってみたいと空想中

石鹸手作りレシピと石鹸の感想を網羅的に分析する。

1)Google検索の全結果をダウンロードする方法を考えてみた。
例えば石鹸で検索すると、31,000,000件もある。このURLをすべてダウンロードして保存してみたいと思った。
しかし、3100万件という途方もない数なので、
エクセルでも勿論、アクセスでも太刀打ちできないのでは
ないか???と不安になる。もう少し、進めると、

2)グーグル検索結果のURL先をすべてテキスト保存する。

3100万件の1件あたり1Mバイトとすると、31テラバイトと
いう途方もないデータ量になってしまう。

少なく見積もっても、10テラバイトは必要だろう。



3)10テラバイトの石鹸に関する全WEB情報を
ディープラーニング。

分岐は、市販か手作りか。
材料名か感想か。


4)ここで、ちょっと現実的に考え直すと、
石鹸手作りの実践的なブロガーの数を予想する。
多く見積もっても日本に200人程度じゃないか???
5記事以上、石鹸手作りについて書いている人はもっと少なそう。
100人が50記事を書いているとしよう。高々5000記事しかない。
一気に3100万件の31テラバイトの記事から絞れた。

5)5000記事で1Mbずつだったたった5Gbしかない。
写真をすべて保存しても、15Gぐらいか。

これを5000記事をディープラーニング。

6)ディープラーニングで、考えると、

石鹸の手作りのバリエーションは
せいぜい、
オイルにこだわる。
水にこだわる。
添加物にこだわる。
色にこだわる。
香りにこだわる。
など、10項目ぐらい。
それぞれの10項目に小分類が10あったら、

10の10乗の小分類のパターンできる。
10の10乗は10の4乗で1万、その4乗で1億、その2乗で100億となる。

7)修正
またまた、数はむちゃくちゃ多くなってしまったが、

そこは、計算しなおす。
オイルは30パターンぐらいありそう。
けど添加物は、
その匂いがする、しない。
その色がつく、つかない。
程度の結果しかありそうにない。

また、水も水道水か蒸留水の二択だろう。

添加物のキレート剤は入れるのはかなり高度なソーパーでも考えづらい。
よって、
オイル30パターンぐらいの10倍の300パターンを予想すると、
手作り石鹸のおおよそ8割ぐらいは網羅できるのじゃないかな。

もう少し多いかな。
オイルの種類とブレンドがあるから。
それと入れそうな添加剤のアルコールなどの触媒系。

これもいちいち、人間が読んで入力したらカッコよくない。
原料のオイル、その他の条件を日本語から自動で抜き出して、
その分量の記述をまとめる。
これがディープラーニングっぽくてかっこいいと思っている。


8)感想の分類
洗浄力。
泡立ち。
肌への感覚。
すっきり感。
しっとり感。

ここいらを日本語のディープラーニングで点数化していきたいものだ。

これは、言語分析に強い系のAI人工知能が得意だろう。


以上、
石鹸の手作り情報を網羅的に分析する人工知能を作ってみたいと空想中でした。

だれか、AIを自作できる人、
使い方が分かる人、
教えてください。
どっから手を付けていいか、さっぱり。