資料科學家必備的六款資料視覺化工具,顛覆傳統圖表!
在資料視覺化領域,散佈圖、長條圖、折線圖、箱型圖和熱力圖等是最常見的圖表類型,它們簡單易懂且廣為人知。然而,在面對多元複雜的資料場景時,這些標準圖表可能並非最佳選擇。本文中,筆者為大家總結了這些熱門圖表的幾種替代方案:
尺寸編碼熱圖(Size-encoded heatmaps)
傳統的熱力圖通常透過顏色標度來表示數據值,然而在實際應用中,將單元格顏色與特定的數值精確對應仍然具有一定的挑戰性。尺寸編碼熱圖則是一種有效的替代方案,它採用方塊或圓形等圖形元素的大小直觀展示資料的絕對數值大小,尺寸越大表示數值越高。這樣,不僅可以藉助顏色變化反映相對差異,還能透過圖形大小的變化直觀展現各單元格數值的絕對大小,從而使得數據表達更加清晰、立體和易於理解。如下圖所示。
瀑布圖(Waterfall charts)
為了可視化資料值隨時間的變化情況,通常我們首選的是在折線圖(或長條圖)上顯示實際數值,但是這樣很難直觀地估計連續變化的幅度和方向。
而瀑布圖(Waterfall charts)可以透過層疊式佈局清楚地展示每個時間段或階段的資料變化,描述資料的滾動差異,特別適用於展示增量變化的規模和方向。
在瀑布圖中,起始值和最終值由第一個和最後一個長條圖表示。透過圖表中的連續變化,可以直觀地觀察到不同階段的貢獻和變化。此外,連續的變更會自動進行顏色編碼,使它們更易於解釋。這樣的設計使得瀑布圖成為了一種直覺且清晰地呈現資料變化的工具,特別適用於呈現價值隨時間的變化,以及各個階段對最終結果的影響。
凹凸圖(Bump charts)
凹凸圖(Bump charts)是一種用於視覺化不同項目隨時間排名變化的圖表類型。當需要呈現多個類別隨時間的排名變化時,使用長條圖可能會導致圖表混亂。在這種情況下,凹凸圖能夠提供更清晰的視覺化效果。
凹凸圖透過將項目的排名以線的形式呈現,每條線代表一個項目隨時間的排名變化。這種排名變化的視覺化方式可以幫助觀察者更直觀地理解不同項目之間的排名變化。相較於長條圖,凹凸圖在凸顯排名變化方面更為清晰,減少了圖表混亂的可能性。
雨雲圖(Raincloud Plots)
雨雲圖(Raincloud Plots)是一種將箱線圖、帶狀圖和核密度估計(KDE)圖結合在一起的資料視覺化工具。它為展示資料分佈提供了一種簡潔而全面的方式,並旨在解決使用傳統箱線圖和直方圖時可能出現的誤導性問題。
使用雨雲圖,可以:
- 合併多個圖以避免錯誤或誤導性結論;
- 減少混亂並提高清晰度;
- 改善組間比較;
- 透過單一繪圖捕獲資料的不同方面。
Hexbin和密度圖
Hexbin圖和密度圖是用於視覺化大量資料點的替代方案,特別適用於當散佈圖的資料點過於密集時難以解釋的情況。
Hexbin圖將圖表區域劃分為六邊形區域,並根據每個區域中資料點的數量為其分配一個顏色強度。這種方式能夠更清晰地展示資料點的密度和分佈情況,避免了資料點過於密集時的視覺混亂。
而密度圖則透過連接相等密度的點來創建輪廓,以等高線描繪了二維空間中資料點的分佈。這種表現方式能夠更直觀地展示資料的分佈情況,幫助觀察者更能理解資料點的密度和分佈規律。
氣泡圖和點圖(Bubble charts and Dot plots)
氣泡圖和點圖是用於替代長條圖的有效視覺化工具,特別適用於在大量類別情況下展示資料時避免圖表混亂的情況。
氣泡圖是一種類似散點圖的圖表,但具有一個分類軸和一個連續軸。透過使用氣泡的大小來表示資料的數值,氣泡圖可以更直觀地展示資料隨時間的變化。
點圖則是另一種替代長條圖的方法,它強調了我們主要關心表示總價值的各個端點,同時消除了幾乎沒有用處的長條。這兩種圖表都有效地解決了當長條圖包含太多條形時,觀察者難以關注到單一長條的長度的問題。