【データ可視化】作ってはいけないグラフ6つ

今回は、データを可視化するにあたって、作ってはいけないグラフを6つ紹介したいと思います。

あとで詳しく説明しますが、例えば、以下のような”スパゲッティ・グラフ”と呼ばれるような図です。

ネットの記事でもよく見かけますが、こういうグラフはデータを解読するのに大きなエネルギーを費やすことになるので、大勢の人が時間と労力を割かなくてはなりません。

グラフを理解するための負荷を“認知負荷(cognitive load)”と呼び、このようなグラフは認知負荷が非常に高くなります。

自分で分析する時点ではいいですが、お客さんや上司に結果を見せる場合や、大勢の前でプレゼンテーションをする際は避けないといけません。

この記事ではそういった例を6つ紹介しています。

ときどきExcelで作った図もありますが、基本的にはPython Plotlyを使用していますので、そのコードも載せています。

グラフは仕事で作成する人も多いと思いますので、参考にしていただければと思います。

では、早速見ていきましょう。

1 使ってはいけないグラフ
2 まとめ

使ってはいけないグラフ

円グラフ(Pie chart)は使わない

円グラフって統計っぽくて好きな人も多いですよね？

一方で、円グラフは使うな！という人も多いかと思います。

もちろん、わかりやすいので使ってもいいんだ、という人もいるかと思います。

色々な考え方があっても良いかと思いますが、私も極力使わない方が良いと考えています。

例えば、このような企業とある製品のマーケットシェアに関するデータがあるとしましょう。

df_pie = pd.DataFrame({'company': ['company A', 'company B', 'company C', 'company D', 'company E', 'company F'],
                       'share': [0.25, 0.21, 0.15, 0.09, 0.17, 0.13]})

円グラフで書くとこのようになります。

fig = go.Figure()
fig.add_trace(go.Pie(labels=df_pie['company'],
                     values=df_pie['share'],
                     textinfo='label+percent'),
)
fig.update_layout(showlegend=False)
fig.show()

わかりやすいと思う一方で、数値を確認しながら目をぐるっと一周回させて理解するのではないでしょうか？

ちなみに、書籍にある悪い例などでは数値が表示されていない例もありますが、さすがにそれは良くありません。

少なくとも数値は書かないと、このようにどの企業が多いのか本当にわからなくなってしまいます。

では、きちんと数値も記載した場合の問題は何でしょうか？

理由は以下の2点です。

大きさが比較しにくいので直観的でない。
他のグラフでよりわかりやすく代替できる場合が多い。

まず1点目は、領域の大きさを比較しながら、細かいところは数値を見ながら、どこが大きいか、どこが小さいかを確認しなければならないということです。

上の図を見てもわかる通り、目をぐるっと順番に回して比較しないといけません。

2点目はこの場合であれば棒グラフなどを使えばよりわかりやすく図示できることです。

少し装飾しますが、以下のようなコードで棒グラフで作成します。

fig = go.Figure()
fig.add_trace(go.Bar(x=df_pie['company'],
                     y=df_pie['share'],
                     width=0.5,
                     texttemplate='%{y:%}',
                     textposition='outside'
            ),
)
fig.update_layout(showlegend=False,
                  title='Market Share of Product XXX',
                  plot_bgcolor='white',
                  xaxis=dict(showline=True,
                             linewidth=1,
                             linecolor='lightgrey'),
                  yaxis=dict(showticklabels=False,
                             ))

fig.show()

作成される図は以下のようになります。

棒グラフの方がわかりやすいのではないでしょうか？

どこの会社のシェアが高いのかが一瞬でわかりますし、シェアが高い順に見るのも簡単です。

他にも、特定の会社を強調する場合もあります。

その場合、円グラフだと色と少しずらすことによって、強調することが可能です。

fig = go.Figure()
fig.add_trace(go.Pie(labels=df_pie['company'],
                     values=df_pie['share'],
                     marker_colors=['royalblue', 'royalblue', 'grey', 'grey', 'grey', 'grey'],
                     textinfo='label+percent',
                     pull=[0.1, 0.1, 0, 0, 0, 0]),

)
fig.update_layout(showlegend=False,
                  title='Market Share of Product XXX')
fig.show()

しかし、これも棒グラフの方がわかりやすいです。

コードはこちらです。

fig = go.Figure()
for i, data in df_pie.iterrows():
  if i in [0, 1]:
    color = 'royalblue'
  else:
    color = 'lightgrey'
  text = f"{data['company'][-1]}<br>{data['share']*100}%"
  fig.add_trace(go.Bar(y=[0],
                      x=[data['share']],
                      width=0.3,
                      textposition='inside',
                       text=text,
                      marker_color=color,
                      orientation='h',
              ),
)
fig.update_layout(showlegend=False,
                  title=dict(text='Market Share of Product XXX',
                             y=0.9,
                             x=0.08
                  ),
                  plot_bgcolor='white',
                  xaxis=dict(showticklabels=True,
                             tickformat='%',
                             showline=True,
                             linecolor='lightgrey',
                             linewidth=1,
                             ticklen=5,
                             tickson='boundaries',
                             ticks='outside',
                             side='top'),
                  yaxis=dict(showticklabels=False,
                             ),
                  barmode='stack',
                  height=300
                  )

fig.show()

もし、Company AとCompany Bの合計シェアが重要なのであれば、以下のように、水平棒グラフを使用することも可能です(コードは省略します)

この方法であれば、プロダクトごとに表示したり、以下のように時系列に推移を表示するといったことも可能になりますね。

円グラフで時系列の推移を見た場合はこのようになります。

どこがどう変わったかを見たい場合は、左右を一生懸命比較しないといけません。

棒グラフであれば例えば以下のようにすることが可能です。

これはcompany Aとcompany Bの推移を強調したい場合です。

上図のコードはこちらです。

fig = go.Figure()
for company in df_share.columns:
    if company in ['company A', 'company B']:
      color = 'royalblue'
    else:
      color = 'lightgrey'

    text = [f"<br>{share*100: 0.0f}%" for share in df_share[company].values]
    fig.add_trace(go.Bar(y=[f'{index}年' for index in df_share.index],
                        x=df_share[company],
                        width=0.5,
                       textposition='inside',
                        text=text,
                        marker_color=color,
                        orientation='h',
                         name=company,
                ),
  )

fig.update_layout(showlegend=False,
                  title=dict(text='Market Share of Product XXX',
                            y=.85,
                            x=0.04,
                             font_color='grey'
                  ),
                  
                  plot_bgcolor='white',
                  xaxis=dict(side='bottom',
                             tickformat='%',
                             showline=True,
                             linewidth=2,
                             linecolor='lightgrey',
                             color='grey',
                             ticks="outside",
                            tickson="boundaries",
                              ticklen=5,
                             tickcolor='lightgrey'
                             )
                  barmode='stack',
                  )

pos = df_share.loc[2018]
pos_cumsum = pos.transform('cumsum').values
for i, company in enumerate(df_share.columns):
  if i == 0:
    position = pos[i] / 2
    company_display = company
  else:
    position = pos_cumsum[i-1] + pos[i] / 2
    company_display = company[-1]

  if company in ['company A', 'company B']:
    color = 'royalblue'
  else:
    color = 'grey'
  
  fig.add_annotation(text=f'<b>{company_display}', showarrow=False, x=position, y=3.45,
                  font_color=color,
                  font_size=15)

fig.show()

ということで、基本的に円グラフは使わないようにしましょう。

ドーナツ・グラフ(Donut chart)は使わない

円グラフと同様にドーナツチャートも使わない方が良いです。

ドーナツ図は、円グラフの真ん中に穴をあけ、ドーナツ型にしたものです。

中央の穴の角度により大きさが見やすくなるというものです。

fig = go.Figure()
fig.add_trace(go.Pie(labels=df_pie['company'],
                     values=df_pie['share'],
                     textinfo='label',
                     hole=.4),
)
fig.update_layout(showlegend=False,
                  title='Market Share of Product XXX')
fig.show()

しかし、これも伝わりやすさを考えると、棒グラフにはかないません。

ドーナツ図もよっぽど何か理由がない限り、使わないようにしましょう。

3D棒グラフは使わない

資料の見栄えが良くなるという理由で3Dの棒グラフにするのはやめましょう。

こちらは先ほどのデータで、Excelを使って作成した3Dです。

company Cのシェアはいくつでしょう？

答えは15%です。

15%より小さく見えますね。

という感じで、3Dの棒グラフは伝わりにくくするだけなので、使用しないようにしましょう。

以下のような、2次元の棒グラフも極力やめましょう。

棒が隠れていたり、水準が比較しづらかったりと、まったく何を伝えたいのかわからなくなりますね。

上の図で、時系列の推移を伝えたいのであれば、線グラフを使うことができます。

線グラフでの表現方法については次で説明します。

スパゲッティ・グラフにしない

上記の例では、3Dの棒グラフにすることで時系列の比較がしづらくなります。

それを回避する一つの手段として、線グラフにすることです。

もちろん、2次元の棒グラフにすることも可能ですが、この場合、線グラフの方がうまく表現できます。

例えば、以下のようなグラフです。

しかしながら、これでは何を言いたいかわかりません。

しかも、青の線はcompany Aで、水色の線はcompany Eで、といった具合に目がデータと凡例を行ったり来たりする必要があります。

このようなグラフは“認知負荷”が非常に高くなります。

また、このようにたくさんの系列がぐちゃぐちゃに絡み合っている線グラフをスパゲッティ・グラフと呼びます。

このスパゲッティ・グラフでは、グラフを見た人が、それぞれデータを解釈する必要があります。

自分が分析している途中であればこれでもよいですが、分析が終わってお客さんや上司、その他大勢の人々に結果を伝える場合は、もう少し言いたい部分を強調する必要があります。

例えば、以下のような表示が一つ考えられます。

まだまだ、見やすくする方法・工夫は多数ありますが、もとのスパゲッティ・グラフよりはだいぶ見やすくなったのではないでしょうか？

コードはこちらです。

df_share = df_share.sort_index(ascending=True)
companies = df_share.columns
fig = make_subplots(rows=3, cols=2, subplot_titles=companies, 
                    shared_yaxes=True,
                    vertical_spacing=0.15)
for i in range(6):
  row, col = divmod(i, 2)
  row += 1
  col += 1
  for company, data in df_share.iteritems():
    
    if company == companies[i]:
      data_highlight = data.copy() 
    # 強調しないデータを描画
    else:
      fig.add_trace(go.Scatter(x=[f'{str(year)}年' for year in  data.index],
                               y=data,
                               mode='lines',
                               marker_color='lightgrey',
                               line_width=1.5,
                              ),
                    col=col, row=row)
  # 強調したいデータを描画(最前面に持ってくるための処理)
  fig.add_trace(go.Scatter(x=[f'{str(year)}年' for year in  data_highlight.index],
                           y=data_highlight,
                           mode='lines',
                           marker_color='royalblue',
                           line_width=3,
                          ),
                col=col, row=row)

  fig.update_xaxes(showline=True,
                    linewidth=1,
                    linecolor='lightgrey',
                    color='grey',
                    tickcolor='lightgrey',
                    ),
  fig.update_yaxes(showline=True,
                    linewidth=1,
                    linecolor='lightgrey',
                    color='grey',
                    tickcolor='lightgrey',
                    tickformat='%'
                    ),

fig.update_layout(showlegend=False,
                  title=dict(text='Market Share of Product XXX',
                            y=.95,
                            x=0.04,
                             font_color='grey'
                  ),
                  plot_bgcolor='white',
                  width=800,
                  height=700
                  )
        
fig.show()

わざわざこんなグラフを作るのは面倒臭いと思う人もいるかもしれませんが、これにより、たくさんの人の時間や労力といったコストを下げることができ、言いたいことが伝わります。

ということで、スパゲッティ・グラフはやめましょう。

2軸のプロットはなるべく避ける

これはこのサイトでも紹介しているプロットですね。

: Python Plotly入門⑦ - 2軸のプロット
さて、plotlyを使った線グラフや散布図、棒グラフなどの基本的なグラフの作成方法がわかったところで、今回は2つの水準の違うデータをプロットする“2軸プロット”の方法について解説したいと思います。以 ...

これについては、どうしても使う必要がある場面もあります。

しかしながら、皆さんも感じているかもしれませんが、2軸のプロットはどっちが右軸でどっちが左軸か確認しないといけませんし、かなりじっくり見ないとわかりづらいケースが多くなります。

作成した本人も考えないといけない場合も出てきます。

では、実際に見てみましょう。

以下のコードで、営業利益と営業利益率の推移を見るとします。

years = [2017, 2018, 2019, 2020]
profit = [320, 335, 342, 351]
profit_per_sales = [0.25, 0.27, 0.28, 0.32]
fig = go.Figure()
fig.add_trace(go.Bar(x=[f'{year}年度' for year in years],
                     y=profit,
                     width=0.5,
                     name='営業利益',
                     yaxis='y1'))
fig.add_trace(go.Scatter(x=[f'{year}年度' for year in years],
                         y=profit_per_sales,
                         name='営業利益率',
                         yaxis='y2'))
fig.update_layout(title='営業利益と営業利益率の推移',
                  yaxis1=dict(side='left',
                              title='営業利益(億円)'),
                  yaxis2=dict(side='right',
                              showgrid=False,                              
                              overlaying='y',
                              title='営業利益率',
                              tickformat='%'))
fig.show()

以下のようなグラフが作成されます。