本を出版するときには必ず想定読者というものを考える。というのも万人に受けるものなんかなかなか書けるものではないから、ターゲットを絞った方がいい。そこを見たときこの本はどん読者を想定しているのだろうか。
岡嶋裕史著の「数式を使わないデータマイニング入門」(光文社新書)である。内容は、データマイニングといって、多くの情報の中から有用な法則を見つけ出すことを、難しい数式を使わずに解説しようというものである。
といういことは、専門家向けというより、一般の人たちに分かりやすく説明しましょうということなのだが、そうだとすると一般の人たちはこんなことに興味があるのだろうかと思ってしまう。だから、どうしても中途半端になってしまう。
データマイニングで有名な話は、紙おむつとビールの関係で、紙おむつを買う人が一緒にビールを買う確率が高いという相関が分かったので、紙おむつ売り場の横にビールを並べたら売上が伸びたという話である。
まあこの話が何度も出てくるのだが、手法として、回帰分析、決定木、クラスタ分析、自己組織化マップ、連関規則、ニューラルネットがあって、それぞれについて簡単に説明される。この程度だとああそういうものがあるんだなくらいしか分からないのではないだろうか。
どうもこの著者の本は以前にも「ウチのシステムはなぜ使えない」を読んだときにも思ったのだが、やさしく説明しようとする意識が強く、きちんと本質的なところをやさしく書いているならいいが、簡単にしてしまっているように思う。簡単にというのとやさしいというのは同じではない。
この本の冒頭でデータマイニングと統計分析とは異なると書いてあって、従来よくやられていた統計分析は小さい情報量から世界を知ろうとする試みなのだが、現在は逆に非常に多くの情報を対象にしているところが違うということなのだが、それだけかと思ってしまう。そこはあまり本質的ではないように思う。
ぼくの理解は、統計分析も普通のデータマイニング“後付け”の方法で、起こったことの分析であると思う。このブログでも何回か言ったが、「死体解剖」なのである。ところがこの時代に求められるのは「生体ドッグ」で、今何が起きていて、どういう対処をすべきかを即刻提示できるダイナミックなデータマイニングであろう。
- 岡嶋 裕史
- 新書 / 光文社
- Amazon 売り上げランキング: 129591
- Amazon おすすめ度の平均:

データマインニングの用語がわかる
データマイニング初心者へ。短時間で概略を理解できます。
なんとなくのデータマイニングを理解できる
データマイニング??
データマイニング=サンプリングなしの統計分析

