データサイエンスには専用のツールやライブラリが必要ですか?
データサイエンスには、専門のツールや、ライブラリが必要と誤解されている方も多いようです。
「データサイエンスにはPythonのnumpyが必要なんじゃないの?」
Perlで学ぶビジネスデータ分析では、実例を紹介しながら、実際に、専用のツールやライブラリなしで、データサイエンスが可能なことを示します。
統計の専門家ではない普通のビジネスユーザーが、なるべく簡単にデータを扱えることを目標にします。
データ分析にはプログラミングの基本的な文法を使う
データサイエンスとして、合計、累積、平均、最大、最小、確率など求めるには、プログラミング言語の基本的な文法で可能です。
複数フィールドの並び替え、NaN値の除去、回帰分析など、統計処理でよく使われることも、プログラミングの基本的な文法で可能です。
ピボットテーブルによる集計も、Perlの多次元データ構造を使えば、表現可能です。
データ分析はSQLを使う
簡単なデータ分析には、SQLを使うという方法も主流です。
WebやPOSから入力されたデータは、データベースに格納されています。まず必要なデータをSQLで取得しますが、このときに、統計データを作成してしまうということもよくやるテクニックです。
SQLをPerlから実行して統計データを作成するということも解説します。
データベースを扱うデータ分析基盤のためのサーバー構築は、実は、Webシステム開発環境を構築する手順と同じです。以下を参考にしてください。
データ可視化はJavaScriptのグラフライブラリ
唯一ライブラリが必要だとすれば、データを可視化する分野でしょう。この分野のライブラリとして、Webのフロントエンドで動作し、インタラクティブで、グラフライブラリも豊富なJavaScriptを使うことが、ひとつの選択肢です。
サーバー側で行われたデータ分析の結果を、クライアント側に渡して、JavaScriptのライブラリを使って、グラフを描画する方法を解説します。
サーバー側からクライアント側でデータを渡す方法もMojoliciousを使って解説します。
JavaScriptを使ってcanbasに描画した画像をpngに変換して、画面に表示し書籍用のPDFに変換する方法も将来的に解説したいと思います。