本帖最后由 行云流水2016 于 2018-1-9 11:21 编辑
当你把数据转换成了规范的格式,也已经采用了适当的统计和分析,接下来就是展示结果的时候了,这时候数据可视化排上了用场。也许你自己可能没有察觉,但是当你将可视化分析报告给到客户或者是老板的时候,他们的感受是非常重要的。
在可视化分析中,经常会遇到多个数据分布之间的比较,分布不同,用到的表达方式也不一样。
在对不同的分布数据进行比较时,通常有两种形式,要么突出异常值的差异,要么突出它们各自差异的细微差别。比如,在统计过程中,不同标准的数据集会有怎样的差别,或者,如何通过分析来改善评分功能。
在比较异常值时,我通常倾向于箱形图,如图1。箱形图显示了数据的总体分布,同时绘制了异常值的数据点。这个物理点让它们的特定值在样本之间容易被识别和比较。
图1​
让我们忽略数据的实际意义,因为这不重要。你可以看到分布的扩散差不多是相等的,并且可以很容易地比较异常值。我们可以看到,红色的分布具有最极端的离群值,其次是绿色分布着红色的点。对于这个分析,红色分布是以前计算出来的,我能够通过观察极端异常值来重现他们的数据。红点却是一个新奇的发现。
箱形图百科"盒式图" 或叫 "盒须图""箱线图",,其绘制须使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。
如上图所示,标示了图中每条线表示的含义,其中应用到了分位值(数)的概念。
主要包含五个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数,中位数,下四分位数,下边缘。
如果你是一个关注情节轴并理解一些统计数据的人,那么你可能已经意识到我对我的数据集应用了一个统计变换,以便放大分布的异常值的差异,如图2。我将我的数字分布转换为z分数。 z分数通过测量离开样本平均值的标准偏差数来转换数据点。
通常用的最多的表达分布的可视化图形是图2的直方图。但是,这种图形无法准确的传达数据信息。不同群体之间样本量的差异使得这种方法无法比拟。就是如此的极端,图中看不到蓝色的分布。这种可视化也无法比较,也看不到异常值。我从这个视觉中唯一可以得出的结论是,红色和绿色的分布大致相同。
图2​
虽然我认为在这种情况下箱形图是最好的选择,但它们看起来非常正式,人们往往不知道如何恰当地解释它们(四分位间距,分布,什么意思?)。此外,箱形图不能洞察用于创建它们的样本大小。条形图可以更直观,因为他们可以看到所有的数据点,如图3。
图3​
让我们看看第二个案例,比较分布的点差。如果被比较的分布具有相同的样本大小,并且最多进行3次比较,那么直方图是一个很好的选择。否则,最终会出现一个非常密集的图形,很难看到数据,如图4。
图4​
对于这些情况,我倾向于没有填充的核密度估计图。它不是很漂亮,但你可以进行分布之间的比较。为了在最近的一个项目中克服这个问题,我决定在直方图上实现一个自旋,并使用一个名为步阶图的变体。如果你的地块变得笨拙,我建议你改变数据的表达方式,如图5。
图5​
但如果你想要一切呢?!在这种情况下, 我喜欢用琴形图。而且这些情节越来越受欢迎, 有很多变化, 使他们更强大。它们本质上是箱形图, 在它们周围有一个旋转的核密度估计图。我绘制了旋转核密度估计图中的箱形图。
琴形图百科
琴形图结合了箱线图与核密度估计图的特点,它表现了在一个或多个分类变量情况下,连续变量数据的分布并进行了比较,它是一种观察多个数据分布的有效方法。
​
|