アメリカの人口統計データの精度を理解する~American Community Survey~

本ブログは Examine data accuracy in ArcGIS Business Analyst using ACS reliability estimates (esri.com) を参考に、日本向けに内容を調整して作成しました。

商圏分析・エリアマーケティング特化型 GIS である ArcGIS Business Analyst では、日本国内のみでなく、170 以上の国や地域のデータにアクセスして分析を行うことができます。アメリカも解析対象に含まれており、一部の変数には「信頼性」という項目があります。本ブログでは、この「信頼性」について解説します。

信頼性とは?

変数の信頼性は、American Community Survey (ACS) の推定値の信頼性の指標です。 [信頼性] ボタンは ACS 変数にのみ表示され、ユーザーが ACS によって提供されるデータの信頼レベルを理解するのに役立ちます。この機能は ArcGIS Business Analyst を用いて、正確で信頼できる情報に基づいて意思決定を行うための助けとなります。

ACS データの信頼性の重要度

American Community Survey (ACS) データは、アメリカの人口と住宅の特徴を理解するために最も一般的に使用されている公開データセットの 1 つです。Esri 社では、生データを分析し、ACS 変数に信頼性スコアを割り当てています。ACS はサンプリング調査の一種であり、毎月のサンプル サイズが比較的小さいため、60 か月分のデータをプールして、小地域の信頼できる推定値を生成しています。ただし、母集団全体が調査されていないため、サンプルと母集団全体の間には常に差異が生じます。この問題に対処するために、標準的な国勢調査地域の ACS レポートには、原則、推定値に許容誤差 (MOE) が含まれています。

MOE は、サンプリング誤差から生じる推定値の変動性を表しており、各推定値の不確実性の範囲を理解する助けとなり、推定値から MOE を加算・減算した値の範囲が 90% 信頼区間になります。たとえば、ACS が ±30 の誤差範囲(MOE)で推計値が 120 の場合、母集団の真の値が 90% の確率で 90~150 (120 ± 30) の間に収まることを示します。 MOE が大きいほど推定の精度が低いことを示し、母集団の真値に近いという信頼性が低くなります。

統計的誤差の範囲は、市場アナリスト、経営者、政策立案者の意思決定に重大な影響を及ぼします。たとえば、企業が調査を実施して、新製品の購入に関心のある潜在顧客の割合を推定するとします。調査結果によると、回答者の 75% が製品に興味を持っており、誤差は ±10% の場合、顧客の真の関心レベルが最高で 85%、最低で 65%になる可能性があることを意味します。誤差の範囲が大きいほど、企業は見積もりの正確さに対する信頼が低くなり、意思決定プロセスに影響を及ぼします。

Esri の信頼性シンボル

Esri は評価の簡素化のために、マップとレポートに「高・中・低」の信頼性シンボルを使用しています。信頼性は、推定値の変動係数 (CV) から導出されており、推定値のサイズに対するサンプリング誤差の割合を表します。誤差が推定値に対して大きい場合、係数は大きくなり、信頼性が低いことを示します。係数が大きくなるにつれて信頼性は低下します。(詳細

信頼性シンボル信頼度説明
緑色高い信頼性小さな CV (12% 以下) には緑色のフラグが付けられ、サンプリング誤差が推定値に比べて小さく、推定値が十分に信頼できることを示します。
黄色中程度の信頼性CV が 12 を超え 40 以下の推定には黄色のフラグが付けられます。
赤色低い信頼性CV が大きい (40% 以上) には赤のフラグが付けられ、サンプリング誤差が推定値に比べて大きいことを示します。使用には注意が必要です。

上記の信頼性シンボルは、ユーザーが American Community Survey (ACS) 推定の有用性を迅速に評価するのに役立ちます。ただし、一部の推定値は信頼性を示していません。 このような場合、推定値または MOE が欠落しているか、推定値がゼロであることを表します。

信頼性はどのように計算されているの?

変動係数 (CV) は、推定値に対する標準誤差の比率として計算され、パーセントで表されます。 次の式を使用して計算されます。

この式を使用すると、まず誤差範囲 (MOE) を 1.645 (90% 信頼区間の場合) で割って標準誤差を取得し、それを推定値で割った値に 100 を掛けて、CV をパーセンテージで取得します。たとえば、±20 の誤差範囲で推定値 90 の場合、CV は 13.5% になります。

Esri の信頼性の基準によると、サンプリング誤差が推定値の 13% 以上に相当するため、中程度の信頼性となります。

ArcGIS Business Analyst における信頼性スコアの活用方法

あなたがヘルスケア会社で働くデータ アナリストであると仮定します。あなたの目標は、健康保険を欠いている人々を特定することです。これを実現するには、ArcGIS Business Analyst Web App を利用します。アプリの中では、無保険人口の数と割合を提供するだけでなく、推定の信頼性も提供します。

上の画像に示されている人口 (35 ~ 64 歳) 変数の信頼性を選択すると、州レベルで健康保険に加入していない 35 ~ 64 歳の米国の人口に関する ACS データの信頼性を表すマップが表示されます。左側のパネルの地図の凡例を見ると、すべてのデータが信頼できることがわかります。

区画レベルを郡 (County) レベルに変更すると、サンプリング誤差が推定値に比べて大きく、データの信頼性が低い郡がいくつかあることがわかります。

データの信頼性を高めるにはどうすればよいでしょうか?

ArcGIS Business Analyst は、ACS 推定の信頼性を提供します。この情報を使用して、変動係数が高く信頼性が低いため、注意が必要な推定値を特定します。推定の信頼性が懸念される場合、ユーザーはより大きな地理単位を選択することができます。一般に、データをより大きな地理単位に集約すると、誤差の範囲 (MOE) が減少します。

ACS データを使用して異なる地域を比較する際の信頼性を高めるために、U.S. Census Bureau は、推計値ではなく割合を使用することを推奨しています。これは、人口規模による影響を受けにくいためです。

ArcGIS Business Analyst で信頼性を理解し、活用することで、データの信頼性を向上させ、CV を削減し、MOE を最小限に抑えることで、分析・意思決定のためのより正確で有益なデータを得ることができます。信頼性と誤差範囲について、より詳細な情報は以下のドキュメントをご参照ください。

関連リンク

フォローする