データサイエンスには専用のツールやライブラリが必要ですか?

データサイエンスには、専門のツールや、ライブラリが必要と誤解されている方も多いようです。

「データサイエンスにはPythonのnumpyが必要なんじゃないの?」

Perlで学ぶビジネスデータ分析では、実例を紹介しながら、実際に、専用のツールやライブラリなしで、データサイエンスが可能なことを示します。

統計の専門家ではない普通のビジネスユーザーが、なるべく簡単にデータを扱えることを目標にします。

データ分析にはプログラミングの基本的な文法を使う

データサイエンスとして、合計、累積、平均、最大、最小、確率など求めるには、プログラミング言語の基本的な文法で可能です。

複数フィールドの並び替え、NaN値の除去、回帰分析など、統計処理でよく使われることも、プログラミングの基本的な文法で可能です。

ピボットテーブルによる集計も、Perlの多次元データ構造を使えば、表現可能です。

データ分析はSQLを使う

簡単なデータ分析には、SQLを使うという方法も主流です。

WebやPOSから入力されたデータは、データベースに格納されています。まず必要なデータをSQLで取得しますが、このときに、統計データを作成してしまうということもよくやるテクニックです。

SQLをPerlから実行して統計データを作成するということも解説します。

データベースを扱うデータ分析基盤のためのサーバー構築は、実は、Webシステム開発環境を構築する手順と同じです。以下を参考にしてください。

データ可視化はJavaScriptのグラフライブラリ

唯一ライブラリが必要だとすれば、データを可視化する分野でしょう。この分野のライブラリとして、Webのフロントエンドで動作し、インタラクティブで、グラフライブラリも豊富なJavaScriptを使うことが、ひとつの選択肢です。

サーバー側で行われたデータ分析の結果を、クライアント側に渡して、JavaScriptのライブラリを使って、グラフを描画する方法を解説します。

サーバー側からクライアント側でデータを渡す方法もMojoliciousを使って解説します。

JavaScriptを使ってcanbasに描画した画像をpngに変換して、画面に表示し書籍用のPDFに変換する方法も将来的に解説したいと思います。

関連情報