増加増大するデータ
2009年7月、若田光一宇宙飛行士が国際宇宙ステーションで日本人初の長期滞在任務を無事終え、帰還した。技術立国としての地位が危ぶまれる日本だが、近年宇宙への関心が高まっている。
少しだけ目を宇宙に転じれば無限の空間に数え切れない数の星が存在しているが、一体その数はどのくらいあるのだろうか。理科年表によれば、地球がある天の川銀河には太陽質量に換算して10
11個の星があり、全天には7×10
22個の星があると推測している
※1。もしデータの最小単位1バイトを星1個と見なすと1TB=
10
12バイトであるから、天の川銀河は0.1TB相当の星からなる。
極端な喩えではあるが、企業がいま保有するデータ量は銀河100個の星の数くらいには優に達している。天文学的な量のデータが企業のシステムに存在しているのである。IDCとEMCの共同調査
※2によれば、2008年3月の時点で、データ需要が年間平均60%の勢いで拡大し続けるだろうと予測している。1人あたりのデータ量が45GBに達し、全体では281EB([脚注] 281×10
6TB)にのぼるという。天の川銀河2,810,000,000個分である。IDCではこれを「デジタル宇宙」と呼び、デジタル情報の総量が2011年までに1,800EBに膨れると見ている。
[脚注 1EB(exabyte)=1×103PB(petabyte)=1×106TB(terabyte)=1×109GB(gigabyte)]
構造化データと非構造化データ
データは増加というより増殖していると見るべきであろう。図1にあるように、増加するスピードが幾何級数的状況を呈している背景には、インターネットとメールの利用急伸、コンテンツの多様化、企業内ではイントラネットとオフィス系ドキュメントの利用層拡大とそのコピー、冗長化、バックアップ等、類は友を呼んでいる。
特に増殖しているのは非構造化のデータ、つまりビジネス文書、メール、画像、Webコンテンツとこれらのバックアップである。基幹業務で発生するトランザクション・データ、データベースなどの構造化データは非構造化データほどではないにせよ、データの履歴保管、バックアップや業務拡大、システム化範囲拡大などにより、同様にそのデータが増加傾向にあることは間違いない。
増加するデータへの対処
増え続けるデータを保有、管理する現実に対しては、次のような方法がある。
■ データ量そのものへの対処
(a)
ストレージ装置を随時増設
(b)
データの圧縮
(c)
ストレージの仮想化により、効率的なストレージ利用を推進
通常ハードウェアで仮想化を実装するが、ハードウェアに依存しないパッケージ・ソフトウェアでの仮想化を実現する手法も注目されている
(d)
データの重複排除、差分管理
特にバックアップ・データ、ネットワーク・トラフィック軽減化に有効で、最近着目されている手法
■ データ利用頻度や価値による層別/分類化
(e)
データの利用価値に応じてストレージを階層構造化
保存先のストレージをその性能やコスト、信頼性によって階層分け
(f)
データの利用頻度に応じてアーカイブ
利用頻度は低いが長期保存が必要かつ更新されないデータを分別
(g)
コンテンツ管理 ECM(Enterprise Contents Management)の採用
情報ライフ・サイクル管理の視点から、コンテンツの発生~廃棄に至るプロセスを管理する手法(図2)
しかしながら、いずれも対症療法に過ぎない。物理的に格納する場所を確保し続けなければならず、根本的な解とはならない。このままのペースでデータを増殖させていけば、いずれデータ管理不能で破綻しかねない。
眼前の膨大に増え続けるデータを今後どう考えるのか。そもそもそれらは、本当にビジネス上必要なものだけが捕捉されているのであろうか。
力づくのデータ処理
「データ」は活用されて初めて「情報」となり得る。つまり捕捉されたデータから、いかに有用な情報を引き出すか、そこからいかにビジネス上の判断をしていくかが鍵となる。昨今はビジネスの多様化に伴い、今までになかった仮説検証も求められてきている。したがって、企業の戦略は自社の業務データだけでなく、市場データ、場合によっては気象データなど業務とは直接関わりのなさそうなデータも駆使して練られる。
『その数学が戦略を決める』
※3という本がある。一見関係のなさそうな複数のデータをコンピュータで「絶対計算」することによって、今まで思いもよらなかった相関関係や、専門家でも結果が予測不可能だったことを予測可能にするという大量データ活用の事例を紹介している。「絶対計算」とは回帰分析と無作為抽出テストによる仮説検証に、コンピュータのパワーを駆使した統計学的アプローチであり、人の直感的な判断よりも高い精度の予測であることを主張している。もっとも、「絶対計算」でそのパラメータ決定には直感の介在、つまり人の経験知を肯定している点は興味深い。
この本の主張は非常に魅力的に見える。ただし、対価として、持てるデータが膨れ上がり、膨大なデータを扱うには必然的にコンピュータの様々なリソースが止め処もなく要求される。したがって、「絶対計算」で得られた仮説を積極的に戦略に組み入れるという信念があってこそ、活きてくるものである。
データの賞味期限
ところで、明らかにデータにはその賞味期限が存在する。企業においては、法的に保存期間が設定されており、その期間経過後は保存義務のなくなるデータがある。例えば「電子取引の取引情報に係る電磁的記録」は、当該事業年度分の申告書提出期限の翌日から7年(電子帳簿保存法施行規則8)である。また、企業コンプライアンス関連の証跡データもこれにあたる。これら保管期限から外れたデータは消去するということである。
また、過去の実績データも一般的に長期保存される。これはあくまでも過去分析を行い次の企業活動に活かすためである。分析に活用しないのであれば、保有する意味が薄れてしまう。
しかしデータを廃棄することができていないのが現実で、野放しにしてしまうと企業はコスト増とエネルギー消費増の呪縛から逃れられない。根本的な解決策は企業としてデータの保存および廃棄にも明確な意思を以ってすることである。データを保有するということは、それを蓄えるストレージ装置のコストだけでなく、セキュリティ・リスクや管理のためのコストもかかっていることも忘れてはならない。
データの「目利き」
ここまで、データの捕捉/活用/保存および廃棄のそれぞれの局面における意思決定の重要性を訴えてきた。その意思決定には人の持てる経験知としての「目利き」を活かすことを考えたい。ビジネスは、そもそも人が介在して行われる行為である。
コンピュータの能力が十分でなく極めて高価であった時代に必要だったのは、データに対峙して如何に効率的に情報を読み取るかであった。役立ったものの1つに「パレートの法則」という経験則がある。これはデータの上位2割でおよその全体像を把握できるというものである。
また、集約データを長期保存し、詳細データについてはあるタイミングで廃棄することもよく行われている手法である。ただし厄介なのは、ロングテールという言葉が生まれたように、一部分の少数が大きな力を持つようになってきたり、詳細データの中に今まで見過ごされていた兆候が見出されることもあり、一概にデータを捨てきれなくなってきていることである。
必要とすべきデータはどれか。捨てるデータはどれか。これはデータへの理解と深い洞察とがあって、初めてその意思決定ができる。
* * * * * *
唐津一氏の著書『現場主義』に、以下のような件がある。
いまは「変化の時代」である。
(・・・中略・・・)変化をつかまえるには、情報に対する感度を磨き、先手を打つ必要がある。一昔前と違い、いまは多種多様なメディアが氾濫し、流れてくる情報の奔流に目がくらむほどだ。
(・・・中略・・・)重要なのは氾濫する情報の中から何を拾い上げるかだ。産業を創造するには情報の評価能力、つまり「目利き」が重要ということになる。情報を目利きする際には、過去の経験にとらわれすぎたり、先入観だけで判断してしまわないようにしたい。
唐津一著 『現場主義』(中央公論新社)p118~119より
許可を得て引用抜粋
現在のコンピュータは、それ自身は残念ながら「目利き」はできない。価値を認識する、つまり価値観は人に在り、意思が入らねばならない。データもコンピュータの計算結果も、それを評価するためには「目利き」のできる人がやはり居なければならない。データの「目利き」はビジネスの「目利き」を意味する。目先の技術駆使だけではなく、少し先を見据えた「目利き」のできる人間の育成も必要であろう。宇宙的規模で広がるデータ空間は、決して意図せず不本意に肥大化したものではなく、隅々まで意思の行き渡った空間であって欲しい。
- <参考文献>
- ※1 理科年表オフィシャルサイト(国立天文台・丸善)
- ※2 japan internet.comのインターネットサイト参照
「企業が責任を負うべきデータは今後数年で爆発的に増加する」
http://japan.internet.com/busnews/20080312/10.html
- ※3 『その数学が戦略を決める』イアン・エアーズ著、 山形浩生訳(文藝春秋)
本稿に関するお問い合わせ
株式会社アシスト
ソフトウェア・リサーチ・センター
E-Mail srcneo@ashisuto.co.jp
ソフトウェア・リサーチ・センターはアシストの組織を横断するメンバーから構成され、アシストの特徴を活かした中立的な立場でのソフトウェア製品の調査や市場動向調査を行っています。
※
本稿は当社が信頼できると判断した情報源に基づいて執筆していますがその情報の正確性、完全性を保証するものではありません。また本稿に記載された、当社意見、予測などは本稿作成時点における当社の判断であり今後予告なく変更されることがあります。
※
記載した製品名および社名は、各社の商標または登録商標です。