データレイクの価値は?

企業における「データ」の重要性がますます高まってきている。それに合わせて注目を集めているのが、情報管理における新たな概念である「データ・レイク」だ。データ・レイクを構築することで企業にどのようなメリットがあるのか。そもそもデータはいかなる形で保管し、またどのように活用するべきか。ガートナー リサーチ部門リサーチディレクターのニック・ヒューデカー氏が明らかにした。

<目次>

  1. データ・レイクとは何か?
  2. データ・レイクの技術的な実装方法
  3. 活用に求められる7つの役割
  4. データ・レイクの「統合」における4つのポイント


データレイクの価値は?
データ・レイクはいかに構築すればよいのか


データ・レイクとは何か?

データ・レイクとは何か。ガートナーはこれを「各種データ資産のストレージ・インスタンスの集合」と定義しており、「データ・レイク内のデータ資産は、データ・ソースにおけるフォーマットをほとんど、あるいは完全に複製した形で保存されており、起源となるデータ・ストアに付加されている」と説明している。

「ガートナー ビジネス・インテリジェンス、アナリティクス&情報活用サミット2016」で登壇したヒューデカー氏は、「あるがままのデータを他の環境に置くのがデータ・レイクだ。データ・レイクには、データをネイティブフォーマットで保存する必要がある。データ・レイクとは、つまりストレージの戦略だ」と説明する。

データレイクの価値は?
データ・レイクのイメージ(解説は後述)

(出典:ガートナー)


そしてもう1つ、データ・レイクの重要な定義の内容として、データ・ストアは起源となるデータ・ストアに付加されるものである、という点が挙げられる。

「データ・レイクは、今ある情報資産の環境に対して付加的に提供されるものだ。ガートナーのペース・レイヤ戦略における記録システムや差別化システムではなく、革新システムに対応するもので、データ・レイクは、革新システムにおいて新しいクエリをかける対象となる環境だということを理解して欲しい」

参考までにペース・レイヤ戦略とは、アプリケーションを使用目的と変更の頻度に応じて、記録システム・差別化システム・革新システムの3つに分類し、その分類ごとに異なる管理とガバナンスのプロセスを定義する手法だ。

「たとえば従来環境にあるデータ群の中に何かビジネスチャンスがありそうだ、しかしそれが見えないという時、既存の環境のままではあまりにもデータが膨大過ぎて分析できない、あるいはコストがかかりすぎるという際にデータ・レイクを利用する。ネイティブフォーマットでデータをデータ・レイクに保存し、新しいビジネスチャンスに向けて活用する」

データ・レイクの技術的な実装方法

しかしガートナーの定義には、データ・レイクの技術的な要項は書かれていない。

「データ・レイクとはあくまで概念で、これをどのように実装するかは、さまざまな選択肢がある。Hadoopでもいいし、共有されたファイルシステムでもいい。あるいはRDBをデータ・レイク用に使うというケースもあるし、NoSQLのデータベースでもいい。自社のニーズに合っていれば、好きなテクノロジを選択することができる」

そしてヒューデカー氏は、「まずは自社が何を分析したいのか、つまりデータ・レイクにどんな問いかけをしたいのかを明らかにした上で、データ・レイクをどう最適化していくかを決めていくことが大切だ」と続ける。

「何を分析したいのか、あるいは何を知りたいのかを明確にした時、もしかしたらデータ・レイクは適した環境ではないと結論付けられるかもしれない。まずはデータ・レイクに問いかける質問を見える化することが重要だ」

またデータ・レイクの活用に当たっては、非構造化データのための環境を用意する必要があるという。

「“分析のための質問”の約80%で利用するのは、今あるデータの約20%だ。別の言い方をすれば、分析用の質問の80%が構造化されたもので、その質問に対する解を導くために、企業データ全体の20%に相当する構造化データが用いられるということだ。しかし、残り20%の質問は構造化されたものではなく、それをどのように形作ればいいのか分からない状態にある。しかし企業にとっては、これが最も重要な質問で、この質問に対する答えを導き出すためには、データ全体の80%に相当する非構造化されたデータを使わななければならない。そのための環境が求められることになる」

活用に求められる7つの役割

それではデータ・レイクを活用して成功を収めるためには、何が重要となるのか。この点についてヒューデカー氏は「多様な人材」を挙げる。

「たとえば非構造化データを分析して、そこから新たな相関関係を導き出すためには、抜本的な分析スキルが求められる。スタート地点として、まずはデータサイエンティストと呼ばれる人たちが必要だ」

データレイクの価値は?
データ・レイク活用に求められる7種類の人材

(出典:ガートナー)


データサイエンティストは、事業について深く理解しているし、ITに関するスキルも有している。そして数多くのユースケースも把握している。

「次に新たな役割ということでここ1年で台頭してきているのが、市民データサイエンティストだ。彼らはさまざまなツールを使って、発見された事実を活用する。しかし彼らがデータサイエンティストに置き換わることは決してない」

また多くの場合、データサイエンティストのチームに属しているのがデータエンジニアだ。分析用のデータを準備し、データを使えるように提供する役割を担う人たちで、データエンジニから提供されたデータをデータサイエンティストが活用することになる。

それからビジネスエキスパートと呼ばれる人たちも必要だ。実際にどんなデータを使って、どんな結果を導き出すのかというアナリティクスの「文脈」を提供する役割を担っている。もちろんソースコードを書き、それを本番環境に展開するソフトウェアエンジニアも重要で、全体のワークフローの中でデータエンジニアとともに適切なガバナンスが適用されていることを担保してくれる。

「ここまでの5つに加えて実はあと2つ、必要な役割がある。1つは、データサイエンスのシナリオの中ではそれほど一般的ではないが、金融サービスや保険という領域で専門性を発揮する人たちで、豊富なユースケースを有している人たちだ」

そしてもう1つが、ITを活用する新興の有力企業で、さまざまな能力を持ったこうした企業とも協業しながら、データ分析の新たな領域を作り上げていくという取り組みが必要だ。

データ・レイクの「統合」における4つのポイント

そして最後にヒューデカー氏はデータ・レイクへと統合する必要を強調し、その際の留意事項として、4つのポイントを挙げた。

「まず1つめとして、社内外を含め、色々なデータソースからデータを取得してくる必要がある。しかしそれは皆さんが何をしたいのかに依存する。人材の分析をしたいなら人材に関するデータ・レイクを、マーケティング施策を考えたいならマーケティング用のデータ・レイクを構築する。そうして各データ・レイクの責任の範疇を明確にしていくことが重要だ」

そこから2つめの発見・開発のフェーズに移る。ここで分析のための質問を導き出すことになる。要は取得したデータで何を明らかにしたいのかということだ。3つめに、データを未加工の状態から最適化していく。これがデータエンジニアの役割だ。そして4つめとして、最適化されたデータを消費(=活用)して目的とする答えを導き出す。

「データ・レイクの活用に当たっては、この4つのフェーズを論理的もしくは物理的に別々に設定し、統合していく必要がある。データ・レイクの統合戦略を考える際には是非、この4つの要素を念頭に置いていただきたい」

データレイクの価値は?
データ・レイクのイメージ(再掲)

(出典:ガートナー)


(取材・執筆:西山毅)



■修正履歴
一部文章を修正しました。[2016/11/24 10:31]

関連タグ

  • BI(DWH、OLAP、マイニング)
  • ストレージ
  • ビッグデータ

あなたの投稿

データレイクとは、大量のローデータを元の形式のままで格納できるデータリポジトリのことで、Pentaho社の当時の最高技術責任者であったJames Dixon氏による造語です。

企業が生成し、取り込み、使用するビッグデータの量は日々急増していますが、データレイクなら受け取ったデータを直ちに格納することができます。データレイクを利用するデータサイエンティストは、オンデマンドでデータセットを使用できるように、データ管理ツールを利用して、データの検出や抽出、ビジネスインテリジェンス、クレンジング、検索時のデータ統合を行っています。

この記事では、データレイクのコンポーネントについて詳しく掘り下げ、データウェアハウスとの違いやデータレイクの活用方法、メリットとデメリットについて説明するほか、企業のデータ保存と管理におけるデータレイクの未来についても考察します。

データレイクの価値は?

「データレイク」という用語は、Pentaho社の元CTOであるJames Dixon氏によって初めて提唱されました。

データレイクでのデータの格納方法

データレイクとは、テラバイトからペタバイト規模のデータを、分類したりインデックスしたりせずに、ローデータの形式のままで格納できるリポジトリです。データの発生元には、IoTやセンサーデータ、通常のファイル、あるいはビデオ、オーディオ、画像、マルチメディアファイルなどのバイナリラージオブジェクト(BLOB)など、さまざまなデータソースが挙げられます。データをパイプラインに取り込んで使用可能にするための操作は、データレイクからデータを抽出する際に行われます。

データレイクアーキテクチャとは?データレイクに格納されるのは構造化データか非構造化データか?

データレイクは、シンプルなオブジェクトストレージ方式で構築されているため、さまざまな種類や形式のデータを格納することができます。組織は従来からオンプレミスにデータレイクを構築してきました。これは現在でも多くの組織で行われていますが、データレイクをリモートサーバーに移行する組織も多くなっています。これには、アマゾン ウェブ サービス(AWS)やMicrosoftなどの主要プロバイダーのクラウドストレージソリューションや、Apache Hadoopなどの分散ファイルシステムが使用されています。

データレイクには、構造化データ、半構造化データ、非構造化データのいずれのデータも格納できます。ただし、構造化データであっても、メタデータやその他の情報が付加されていれば使用することはできません。また、データレイク内のデータは、各ユースケースで利用する前に、クレンジング、タグ付け、構造化を行う必要があります。これらの作業は、データを使用可能な状態にするためにデータレイクからデータを抽出する際に実行されます。

データレイクプラットフォームの構築方法

データレイク自体は、オンプレミスまたはクラウド上のサーバーにネイティブ形式で格納されたデータの集合です。しかし「データレイクプラットフォーム」に関して広く合意された定義は存在しないようです。

データレイクには、サーバーの管理、セキュリティやストレージサービスの提供、データを抽出して使用可能にするための付随的なサービスが必要になります。つまり、データレイクとはデータそのものであり、データレイクプラットフォームはそれを運用し維持するために使用されるサーバー、その他の機器、ハードウェア、ソフトウェアといえるでしょう。

データレイク開発のベストプラクティスについては多くのリソースで説明されています。その中で、大規模な組織に導入されている主要なテクノロジーについては、以下のようなベストプラクティスが紹介されています。

1. 関係するステークホルダーを集めて目標を決定する。

2. アクションプランを作成し、プロジェクトのオーナーシップを割り当てる。

3. 利用可能な手法を評価する。

4. ニーズに適したサーバーアーキテクチャを選択する。

5. ベンダーを選定する。

6. 組織のデータガバナンス、セキュリティ、プライバシーの基準が維持されていることを確認する。

データレイクとデータウェアハウスの違い

データレイクとデータウェアハウスの違いは、取り扱うデータにあります。データレイクには構造化データ、半構造化データ、非構造化データを混在させることができます。しかし、データウェアハウスで扱うことができるのは構造化データのみです。

ほとんどのデータウェアハウスやデータセンターでは、ETL(抽出、変換、ロード)プロセスを通じてデータが取り込まれます。その後、整理(ステージング)、クレンジング、変換、カタログ化が行われてデータが使用できるようになります。

データレイクの価値は?

データレイクには、構造化データ、半構造化データ、非構造化データを混在させることができ、クレンジング、タグ付け、その他の処理を行うことなく格納されます。

データベース(DB)とデータレイクの違い

データベース(データベース管理システムを含む)は、データの格納、検索、レポート作成に使用されます。データレイクとは異なり、データベースにはスキーマが必要となる場合があり、半構造化データや非構造化データを含めることはできません。

一方、データレイクはあらゆるソースからの生データを格納することができ、データを取り出すときにのみ構造化が行われます。データレイクでは、データベースと同様のレポート作成機能を使うことはできません。

データレイクとクラウドの違い

データレイクとはデータの集合であり、組織内のサーバーもしくはクラウドベースのストレージシステムでホストできます。クラウド、つまりクラウドサービスとは、データやアプリケーションをリモートサーバーに保存するサービスのことです。データレイクはクラウドベースのサーバーに格納することもできます。実際にそのように運用されていることも多く、これはクラウドデータレイクとも呼ばれます。

ぜひ「クラウド戦略にデータ戦略が必要な理由」もご覧ください。

データレイクとSQL / NoSQLの関係

SQL(Structured Query Language)はリレーショナルデータベースを管理するために使用されるプログラミング言語です。また、NoSQLは非SQLまたは非リレーショナルとして定義される別の言語です。データレイクには非構造化データが格納されるため、データレイクに格納されているデータに対してSQLやNoSQLを使用することはできません。データを抽出する際には、データをデータベースで使用できるように、組織のデータネットワークに応じてSQLまたはNoSQLが使用される場合があります。

企業でのデータレイクの活用方法

企業にとって、データが最も価値ある資産であるということは常に言われ続けています。機械学習やその他の高度な分析を活用することで、管理者は組織の過去のデータからインサイトを収集し、それを将来の予測に役立てることができます。これによって、ネットワークに対する外部の脅威から企業を保護したり、ワークロードを合理化して効率を高める方法を探ったり、ネットワークの可用性を維持したりすることができます。過去の販売データやマーケティングデータは、将来のパフォーマンスを予測するために使用できます。利用できるデータ量が増え、機械学習やビッグデータ分析ツールの性能が上がるにつれ、予測の精度も高まります。機械学習と予測分析のメリットを活かすために、企業は可能な限り多くのデータを蓄積し、それを利用できるようにする必要があります。

Azureデータレイクは、成長を続ける組織にとって最適なデータレイク環境の1つです。データのクレンジングや整理に労力や費用をかけることなく、将来役立つデータをリアルタイムで蓄積することができます。また、そのシンプルさゆえに、データレイクは構造化されたデータストレージよりもはるかに簡単に拡張できます。データレイクは、企業がデータの価値を最大限に引き出すための最も重要なツールの1つです。

データレイクを使用するメリット

データレイクの主なメリットとして挙げられるのが、速度、拡張性、効率性です。現代の企業であっても従来型のデータの作成、取り込み、格納は続けられており、その量は増え続けています。低コストでデータをすばやく格納し、アクセス権を持つ人が、必要なときにデータにアクセスし、迅速に使用できることにデータレイクの大きなメリットがあります。

データレイクはデータリポジトリ(貯蔵庫)であり、メタデータを含まない膨大な情報の蓄積ですが、データの検出と処理、取り込みと抽出、データ統合とクレンジングを含む、オンデマンドでの検索が可能です。

データレイクはさらに、組織がデータの価値実現で妨げとなることの多い、データのサイロ化解消にも役立ちます。保険証券、家の鍵、パスポート、ジム用バッグなど、日々の暮らしで使用するアイテムを1つの箱に入れておくことができると想像してみてください。そして、そのアイテムのどれかが必要になったときに、箱に手を入れてすぐに取り出せるとしたらどうでしょうか。機械学習によるオンデマンド検索機能により、データレイクでもこれと同様のことが可能です。

データレイクを使用するデメリット

データレイクは、利用されるのを待っている単なるデータの蓄積であるため、それ自体にデメリットはありません。しかし、データレイクを維持管理し、データの有用性を保つためには、データサイエンスの専門家によるサポートが必要になることが多々あります。つまり、必ずしも公平で的確な比較とは言えませんが、構造化されたリレーショナルデータベースと比較すると、データレイクは無秩序に見えるかもしれないということです。

適切に管理されていないデータレイクは「データスワンプ(沼)」と呼ばれることがあります。適切に管理されていればデータレイクにデメリットはありませんが、データスワンプになってしまうとデータの品質だけでなく、組織にとっての有用性や価値も低下し、遅延も増大して会社にとっての負担となります。データスワンプは、やがてどこかの時点でダークデータ(企業が所有していながら、検索、特定、最適化、使用できない保管データやリアルタイムデータ)と同じデメリットと課題をもたらし、機会コストを生じさせることになります。

データレイクの未来

データレイクの価値は?

データレイクには、企業がデータの潜在的な価値を実現できるようにするためのアナリストによるサポートが必要です。

データレイクの未来は、データそのものの未来を映し出しているといえるでしょう。組織が生成し、必要とし、使用するデータの量が増加し続けるにつれ、大量のデータを格納する必要性も急速に高まっていきます。データベースやデータウェアハウスとは異なり、データレイクは、組織が現在または将来において必要とするデータを迅速かつ効率的に格納することができます。

結論:データレイクは企業のこれからのデータ保存に不可欠

機械学習の発展に伴い、データの利用可能性が高まるとともに、データレイクからのデータ抽出も大幅に高速化し容易になりました。機械学習とデータサイエンスを活用すれば、ダークデータも過去のものになります。組織が保有するデータ量が増加するに伴い、データ分析システムはより多くの情報から学習することができるようになるでしょう。データは、組織にとって最も価値ある資産の1つです。データレイクを使用すると、組織は最も効率的な方法でこれらの資産を取得、格納、および利用することができます。

データレイクのデメリットは?

データレイクのメリット・デメリット デメリットとして、データが未加工の状態で保管されているため、分析に工数がかかる場合があります。 技術的な知識がない人にとっては使いにくく、誰もが簡単かつ自由に活用できるわけではない点には留意が必要です。

データレイクのメリットは?

データレイクメリット 処理中にデータが読み取られる場合にのみ、解析が実行され、必要に応じてスキーマに適合されます。 通常はスキーマの定義に長時間かかるので、この機能によってその時間を削減できます。 これにより、あらゆる形式のデータをそのまま格納することも可能になります。

データレイクの目的は?

データレイクはビッグデータの処理を目的として開発されており、変換や加工を施すことなく、バッチまたはストリーミングで情報を移行可能です。 これにより、膨大なデータをリアルタイムに取得できるため、非常に高速なデータ処理が実現します。

データレイクの特徴は?

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。 データをそのままの形で保存できるため、データを構造化しておく必要がありません。