構造化データとは
構造化データと非構造化データ
~メリット・デメリット・事例について~<前半>
構造化データとは、ExcelやCSVファイルに代表される、「行」と「列」の概念を持つデータのことです。文字通り「構造化(整理・整形)」されているため検索や集計、比較などを行いやすく、データの分析・活用に適しています。基幹系システムを中心としたERP、CRMなどのさまざまな業務システムで使われるORACLEなどのRDB(リレーショナルデータベース)で主に使われます。
構造化データのメリット
まず、構造化データのメリットについてみていきましょう。
メリット1:利用しやすい
データが構造化・整形されているため、データ項目に関する知識があれば、基本的に誰でもデータを利用できます。データの性質やデータ間の関係などを理解している必要も特にありません。
メリット2:ツールが豊富
さまざまなベンダー・ソトウェアの会社から構造化データの分析や活用の際に使うツールが多く販売されています。そのため、ユーザーやデータの管理者はシステムの状況に合わせてツールを選択することができます。
メリット3:機械学習やディープラーニングで使いやすい
データが整理され、基本的に異常値などもないことが多いため、機械学習の学習データや、分析する対象のデータとして使いやすく、いわゆる機械学習やディープラーニングで使われるデータセットとして向いています。
構造化データのデメリット
構造化データにはメリットばかりではなく、デメリットもあります。ここでは、デメリットをみていきましょう。
デメリット1:目的以外の利用がしにくい
ある目的のデータベース用など向けに定義された構造化データは、目的以外には利用しにくいことが多いです。そのため、データ分析などに使う際の柔軟性は限られたものにはなるでしょう。
メリット2:データ構造の修正の際に大がかりになる
行や列の入れ替え・項目追加など、データ構造の要件に変更・修正があった場合、データベース全体の再更新など、大きな影響があります。この作業は工数・時間ともに大きく、コストもかかります。ちょっとした列の追加なども、意外と影響度が大きいことがあります。
非構造化データとは
非構造化データとは、構造化されていない(整理・整形されていない)データのことを指します。データベース化がしにくいため、検索・集計・分析には向いていません。メール・提案書・企画書・見積書・発注書・契約書などのOffice文章、デザインデータ・CADデータ・画像・動画・音声・センサーログ・SNSの文章など、日常で生成されるさまざまなデータが含まれます。
データ単体では意味を持つことが多いですが、組み合わせると異質なものが多く、量が多くリアルタイムの現場データなども含まれます。
非構造化データのメリット
非構造化データのメリットをみていきましょう。
メリット1:自由な形式に変換・利用できる
データは取得されたままのローデータのものが多く、用途に応じて柔軟にデータを変換し活用できます。
メリット2:素早くデータを集めることができる
構造化データでは、コンピューターが正確にデータを認識できるために整形するには一定の手間がかかります。ただし、非構造化データは、データを収集する際に整形を前提とはしていないなめ、大量のデータを効率よく集めやすい特徴があります。
非構造化データのデメリット
非構造化データのデメリットも複数存在します。一つずつみていきましょう。
デメリット1:データの整形に手間がかかる
非構造化データは、行・列などデータの型式は決められていないことが多く、データをそのまま利用することはできないことが多いです。そのため、行・列の整備、イレギュラーデータの排除など、コンピューターがデータの意味を正確にとらえられるようにデータを整備することが必要な場合があり、この作業に工数の半分以上がかかるケースもあります。
デメリット2:使用できるツールが少ない
現時点では、BIなどを含めて、多くのデータ分析ツールは構造化データ用のものが多く、選択できるツールは限られるといってよいでしょう。
非構造化データが注目される理由
ビッグデータに保存されたデータの約8割が非構造化データという調査結果もあり、今後も増え続けると想定されており、注目されているといえます。
非構造化データはこれまで取り扱いにくく、未だ分析に活用できていなかったというのが実態である一方で、有効な情報が多数含まれている認識されています。そのため、さまざまな企業がマーケティングや経営戦略のため、非構造化データを活用したいと考えています。
今回は、構造化データと非構造化データの概要とメリット・デメリットについて解説しました。次回は、それぞれの活用事例について紹介します。