「横長」データ vs「縦長」データ - ArcGIS Insights やデータ分析ツールなどで利用できる 2 種類のデータ構造の違いとは?

1224
0
12-08-2021 11:49 PM
Labels (2)

「横長」データ vs「縦長」データ - ArcGIS Insights やデータ分析ツールなどで利用できる 2 種類のデータ構造の違いとは?

前回国勢調査のデータを使った記事を公開しましたが、

本記事では取得したデータの構造に少し触れてみたいと思います。

 

データの構造

 

横長、横持ち、ピボット、アンスタック データ

前回利用したデータは下記のような形式です。

dataschema-pivotdataschema-pivot

 

GIS データもこのような形式になっており、列の情報で各種データを格納している構造です。

 

総数、年齢0~4歳 などの列は、カテゴリ別の人口の集計値が格納されており、つまりこれは各地域で(この例では 町丁・字等界)、各カテゴリ別に集計されたテーブルです。このように列で各項目を表現していく形を横長、横持ち、ピボット、アンスタック データなどと表現されます。

 

こういった横長のデータの特長としては、以下があります。

  • テーブルで見たときに、必要な情報が列として横方向に並んでいることで、目で見て把握しやすい。

  • 大量データを処理しやすくなる。

  • リレーショナル データベースを考えたとき、列の追加は、データスキーマの変更となる。

 

縦長、縦持ち、アンピボット、スタック データ

一方で下記のような形のデータを、縦長、縦持ち、アンピボット、スタック データなどと表現されています。ArcGIS Insights や BI ツール、グラフなどの可視化ライブラリ(D3.js など)で可視化を行っていく場合、縦長のデータのほうが得意としています。

dataschema-stackdataschema-stack

 

冒頭のサンプルデータで説明すると、各列の集計値の値が示す意味は、

どの列も共通で、カテゴリを除くとこのデータが表現するのは、人口であるといえ、列はカテゴリと捉えられます。

刻みとなるカテゴリを列ではなく行に展開して、人口という切り口は 1 列にまとめて管理するというのが、縦長データで、意味合いを考えたとき、より単純化されている状態と言えます。

 

このような構造のデータには、横長データで説明した観点を考慮すると、以下のような特長が出てきます。

  • 集計も行方向のみで対応することができる

  • カテゴリが別途追加になっても、データスキーマの変更は不要で、行の追加のみで対応できる

  • 行に展開するため、行数が非常に多くなり、一般的にデータが多くなると処理に時間を要するようになる。(このため、横長のデータは行数が少なくなるため、大量のデータを処理しやすくなります。)

 

どちらも一長一短の特長を持っているので、どちらが正しいということはありませんが、データを説明するさまざまな意味合いから、データを掘り下げるデータ分析ツールや可視化コンポーネントを扱うケースを想定したときには、縦長データのように単純化されたデータを想定したものが多く、データ分析として扱いやすくなります。

 

地理情報として提供されるデータも多くはある場所や地域に関して列で特性を表現されたデータが多くありますが、それらのデータも縦長データのように変換すると、地理情報だけでなく、特性が示す傾向もつかみやすくなります。(小地域データではありませんが、eStat では取得できる行数に制限はありますが、設定を行うことで可能になります。)

 

縦長データを ArcGIS Insights に取り込んでみる

 

ここまで説明しましたが、ようやく ArcGIS の世界です。

ArcGIS でもこういった縦長データを扱うのに特化したものがあり、それが前回の記事からの延長で、ArcGIS Insights です。

データの追加方法は前回の記事で紹介した通り、縦長データを同様に追加します。

 

すると、データの列の情報としてはこれだけになります。

insights-columnsinsights-columns

 

ArcGIS Insights で利用している可視化コンポーネントは、ArcGIS でよく利用される複数のカテゴリ別集計列での可視化のタイプとは異なり、

縦長データを想定したものになっておりますので、

この例で示すと、category 列と pop 列を選択してドラッグアンドドロップすることで、各カテゴリ区分での人口に関する様々なチャートに可視化することができます。

insights-chartsinsights-charts

縦長構造のデータを使ったサンプル 

 

地図での可視化も、ジオグラフィーで位置情報の有効化を行えば、地図に可視化も可能です。

 

まとめ

どちらのデータ構造でも、それぞれにメリットデメリットはありますが、使うソフトウェアやサービスが得意とするデータ構造を知っておくと分析効率に影響しますので、

大きくこの二つの構造があることを理解していただければと思います。

 

なお、今回の目的は、ArcGIS を操作するときに意識することが少ないと思われるデータ構造の大きな区分を伝えることでしたので、

縦長データへの変換の詳細はここでは割愛しますが、今回は Excel の Power Query を利用しており、各手順は記録されています。

参考までに添付しますので、Power Query のエディターで手順をご確認ください。

いくつかデータの調整も入れてありますので、ぜひ内容を見ていただいて、ほかのエリアの統計データに差し替えたりしながらご活用ください。

なお、サンプルも Excel ですから、ArcGIS for Office で可視化を行ったり、

変換処理自体は Power Query なので、Power BI でも利用することができるため、ArcGIS for Power BI での地図に可視化を行うことができますよ。

Labels (2)
Attachments
Version history
Last update:
‎04-15-2022 02:35 AM
Updated by:
Contributors