我们为什么要学习连续和离散?
连续和离散是Tablaeu里一个重要的选项,每一个column我们都要确定这个column设置成是连续还是离散的,而且这个设置区别于Dimension和Measure. 我们得理解这两个概念,我们才能设置的正确。有的时候一个column既可以是Discrete或是Measure所以就更需要明白两者的区别。
连续和离散是啥意思?
在统计学中
离散变量是指只能取有限个或可数无限个可能值的变量。 离散变量的特点就是,这个变量的不同值之间存在着明显的间隔。比如你不可能有0.6个孩子或者0.5个汽车。 你可以明确的数出来每个可能的值
连续变量 Continuous Variable 是指可以在某个范围内取任何值的变量。这意味着它们可以取无限多个可能值,这些值可以是任何实数,包括分数和小数。连续变量的例子包括时间,长度,重量和温度。
如何判断一个column我应该设置成是连续还是离散?
对于String型的Dimension, 在你设置成Dimension之后你就不用管了,它肯定是Discrete的
对于日期型的column, 你需要确定的是,你想要以轴的形式还是值的形式显示。轴的话就是Continuous,值的话就是Discrete
对于数值型的column, 同样的原理,轴的话就是Continuous,值的话就是Discrete
你可以记忆成 连续轴,离散值下面我会针对每种情况进行展示
如何判断一个column当前是Discrete还是Continuous?
在Tableau当中,如果一个column被设置成Discrete,这个column会以深蓝色显示,如果被设置成了Continuous, 这个column会以绿色显示。
在右侧的截图当中你可以看到,同样是[Order Date], 左侧的Order Date是深蓝色,代表的是Discrete状态,右侧的Order Date绿色的,代表的是Continous状态下的Order Date
String Dimension 没有Continuous这个选项
在右边的动图当中你可以看到,对于customer name这样一个全是string的Dimension,你是没法让它转变成Continuous的。名字那玩意只能是一个一个的对吧
当Date设置成Discrete或者是Continuous的时候,在Tableau内部所展现出来的是两种完全不同的形态.
现在我们看下边动图里的演示,当我先把Order Date Column拖过去的时候,Tableau首先把date转换成Year(Order Date). 此刻Year (Order Date) 是蓝色的,代表它还是一个Discrete的状态。当我把Year(Order Date)转变成Individual Date之后,Order Date就变成了绿色。 这个绿色是以一个连续的轴来显示的。但是这个时候,你会在这个柱状图当中看出一些缝隙。现在我在左侧再加一个Filter, 这个filter只会保留2020年二月的数据。 这个时候,我们的图表就不再是一个bar,而变成了一条一条的线。
Discrete状态下,由于我们默认数值之间是离散的,这意味不同数值之间没有关系,每一个日期会以一个具体的日期数值显示。
Continuous状态下,所有的日期都是日期轴线上的一个点。 在左侧是日期的轴,这个轴上既存在数据当中有的日期,同样也存在数据当中没有的日期。而我们在数据当中看到的那条白线,代表的是我们数据当中不曾有的日期。虽然month filter的加入,我们发现,其实那并不是一个完整的bar,而是因为每个小横线太密,它们互相叠在一起,所以产生了一种bar的错觉,如果数据变少,密度变小,每个日期都是自己的一个单独的小横线。
Continous Date vs Discrete Date
Continuous Measure vs Discrete Measure
在下边的这个动图里,我展示了当Discount这个Measure Column首先从Discrete开始,然后切换成Continuous时,在Tableau内部图像的变化。当一开始Discount被拖到右侧的时候,Discount是以数值的方式存在的。然后当我在Rows里,把Discount从Continuous切换成Measure时,我们可以看到每个discount数值的右侧都出现了一个轴,然后我们discount的数值相当于轴上边的一个点。
经验之谈
没有需要计算的数值column就转换成String保存成Dimension
有的时候,如果有一些数值它的含义明明不是数值,而只是用数字来做一个Tag的时候,像这样的数字,你直接把它们设置成String的格式,然后就一直保存成Dimension。
比如Customer ID, 它根本没有计算的意义,唯一的意义就是一个员工的identifier.你没有必要纠结给它设置成Discrete还是Continuous最合适如果一个column既有显示成数值的需求,又有加入计算的需求的话,那我们就复制这个column, 一个设置成Continuous的Measure一个设置成Discrete的Dimension。
假设我们现在有一个column叫做Price. 这个Price的column里边是每件产品卖出时的销售价格。当你把一个产品拖到左侧,再把价格拖到左侧的时候,你肯定不希望价格一坨到左侧的时候,就变成了求和。