第91回コラム
データ解析、古くて新しいこと
情報アーキテクチャ専攻 中野 美由紀 教授
「ビッグデータ」という言葉がICT分野でもてはやされてかれこれ6年以上経過した。その間にデータ解析とサービスを一早く結びつけたICT企業(例えばGoogleはその代表格といえるだろう)が著しく成長している。社会の様々な場所に存在するデータがこれほどまでに様々な人から注目を浴びたことはないだろう。また、同時にこれほど雑多なデータが様々な人や機器から提供されたこともないだろう。
人類の歴史を辿ると、データ、あるいは記録の重要性は人類にとっては今に始まったことではない。歴史そのものが、人類が残した記録から成り立っている。有史以前のことは数万年前の壁画に残されているだけで判然とはしないが、人類にとって記録を取るという行為の萌芽がそこにも見て取れる。その当時、壁画を作成した社会にとって重要と思われる動物がしっかりと書き込まれ、現在の我々は壁画から周囲の環境が数万年前には乾燥地ではなく草原であった、大型草食動物が存在していたことを類推することができる。また、文字が作成されて以降、社会の発展と共に、様々な記録が残されてきた。それは、ハンムラビ法典など社会における規則、地中海文書などの宗教文書等の社会に流布する、あるいは次世代に伝える意図で作成されたものから、当時の社会活動を支援するための記録(くさび文字で記された粘土板には当時の租税や裁判記録が残されており、おそらく当時の行政が利用していたと類推される)であったりする。
つまるところ、人類は社会活動におけるデータを綿々と記録し、かつ利用する動物であり、データを記録する技術が革新的に変化するたびにデータの量、内容は変化してきた。文字以前には、個人の記憶をもとに、文字以降は書かれた文書をもとに、社会活動が営まれ、発展してきた。文字の発明以降も、紙の発明、印刷機の出現などで人に流布するデータは増え、20世紀の前後には写真、音声、映像などの文字以外の記録も可能となった。そして、今、21世紀にはいり、生成されるデータ量は計算機技術が出る以前と比較し、計算機技術、特にデータベース、インターネットとウェブの発展により、飛躍的に伸びている。
歴史をひもとけば、様々の形で記録を試みてきた我々の社会において、なぜ、今さらのように「ビッグデータ」という言葉で計算機を利用したデータ解析の重要性が喧伝されるのか。一つは誰しもが実感しているように、今や実時間で人が「見る」ことのできる量をはるかに凌駕したデータが生成され続けていることにあるだろう。2014年の段階で1分間に72時間(!!)もの動画がYouTubeにアップロードされている。単純に計算すれば、人生をかけても一ヶ月間にアップロードされた動画を見ることは出来ない。さらに、疲れを知らないIoTデバイスのデータまで加えれば、単純に人手でグラフ化するなどの解析では追いつけないことは明白である。
また、データの解析結果を一早く利用できることが望まれる現代社会の在り方にあるだろう。家を出るまえに、天気予報と同じように、当たり前に、交通渋滞、公共交通機関の運行状況を確認している人が多いのではないだろうか。台風のニュースは発生した段階から常にマスメディアでフォローされている。一方、Crowd SourcingやSNSなどからさらに詳細な情報を得ている人も多いであろうし、さらに危険や事故などがあれば自ら情報を発信することも可能である。悪天候や大きな事故などは正確な情報が迅速に提供されることで、さらなる被害を留めることも可能である。
そして、データ解析の結果がサービスの一環として広く受け入れられるようになり、社会的なサービスであれ、ビジネスにおけるサービスとして様々な形態で提供されるようになったこともデータ解析の必要性を後押ししている。サービスを受けるユーザ側も、一人一台の携帯といって過言ではないほど、携帯電話やほかのモバイル機器が利用されている。筆者の通勤経路でも朝の通勤列車で新聞紙を広げる姿をほぼ見かけなくなったが、周り中に携帯を片手にもっている人が立っている。
さらには、そもそも人類社会において「情報」は常にその社会を動かす原動力となっている。古代ローマと中国の通商路は、単に物品の移動にとどまらず、各地の情報さえもがある種の交易品であったであろう。日本でも、情報を得るためだけに国家事業として遣隋使、遣唐使が実現された。当時は数年単位で情報が得られていたが、今や、数ミリ秒で世界中と通信が可能である。この状況において新しい「情報」を得る、あるいは、有益な「情報」を輩出するために、現代社会ではIoTデバイスを始めとする様々な機器を駆使すると共に、得られたデータを適時に的確に処理できなくてはならない。
では、現在におけるデータ解析では何をしなくてはならないのか。データの膨大な量には計算機とデータ解析ツール(統計解析から機械学習(人口知能)まで様々なツールが発展してきている)が対応できるが、データ解析をそもそもどうしてしたいのか、これは人が主体の問題であり、実は最も変わらない部分である。一昔前は、目的に合致したデータを集めること自体が非常に難しかったため、集める時点で目的は明確であった。しかし、一見データが溢れるばかりある現代、ややもするとそこにあるデータに目が向いてしまい、何のために集められているのか明かでないことも多い。しかし、データ解析において最低限必要なことは、あるデータを前にしたとき「何を目的にこのデータを解析するのか」を明確にすることであろう。目的もなくデータ解析はできない。なんの役に立つのか分からないが、そこにデータがあるから解析したいと思うのであれば、「○○」に役に立ちそう、「△△」の理解に有用であると思う別のデータの解析を優先すべきであろう。一方で、データは変化するものであり、固定観念にしばられず、得られた結果はその時点での最適解(あるいはスナップショットに対する局所解)として、新たなデータ解析への糸口であるという視点も望まれる。
世界中、様々な場所から様々な目的で様々な人がデータ解析を行える「コンテンツ流通革命」ともいうべき状況が起きている。渦中にいる私達が、十年後、数十年後にこのときを振り返り、データ解析に対して、何に貢献できていたのか、できているのか、非常に楽しみである。