表格的基本概念

很多教程可能上来就提什么数据分为结构化数据,非结构化数据之类的等等等等,这些跟你都没啥关系。你唯一需要记住的是,在Tableau当中,不存在非结构化的数据,所有的数据都是结构化的。用人话来说,所有你需要处理的数据都是以表格形式存在,一个又一个的表格。 每一个表格有行 有列,行和列互相交叉,每个最小的格子就叫一个cell. 10行和10列交叉就是100个cell. 每个cell里边储存着最原始的数据。

Excel就是一个最方便理解表格概念的工具,Column从A到Z, Row从1到10000,A1到Z10000就代表了每个cell。

Tableau当中的表格以及Tableau帮你创建的column

当我们打开Tableau时, 表格会以一种不同于Excel的方式出现。




在整个界面的最上方是数据源的名字。

从上到下依次排开,分别有三个table: Orders, People和Returns

在每个Table名字的旁边,分别有一个小表格的图标,代表这是一个table。在小表格的左边还有一个下拉的箭头,如果你点击这个箭头,所有来自Orders的column就会收起。

无论是什么Table,Tableau都会默认在这个Table的最下边给你添加一个column, count column.

Orders(Count), People(Count), Returns(Count) 这三个column并不是表格里原生的数据,这是Tableau帮助你创建的辅助计算 Supportive Calculated Field.

然而不止于此,Tableau还会基于每个数据源创建一些起辅助作用的calculated field.
这些columns分别是:
Measure Names
Measure Values
Latitude (generated)
Latitude(generated)

如果你足够细心就会发现,Tableau用斜体来标注这些calculated field的名字用以区分来自于导入数据本身的column.

如果我将每一个Table都关闭, 你就会发现整个Tableau的左边就剩下这四个由Tableau创建的辅助计算了

为什么Tableau要创建这些辅助计算,它们有什么用?

我们先从Orders(Count), People(Count), Returns(Count) 这三个column讲起。当我把Orders(Count) 放在Text上,我就会得到一个数字,这个数字是10,194. 这个数字代表的是Orders 这个Table,一共有10,194行数据。估计你从这个column的名字里也猜出来了。 那么问题来了,如果Tableau不帮我们创建这个calculated field我们自己算不出来吗?答案是你还真算不出来。

Tableau原生提供了四个count函数,但是这些函数都必须使用一个column或者field作为这个函数的参数。 比如COUNT([Customer Name]) 它所计算的就是Customer Name一共有多少行。但是这其中有一个问题,如果其中有两行数据Customer Name没有值,但是其他column的值都存在, 那我们就没法知道这整个table原来有10194行,而是只会看到10192行 因为你COUNT函数是不会把空值包括在内的。 因此这个由Tableau帮忙创建的以Table_Name(Count) 为形式的辅助计算意义巨大。 它能完整的保留每一行数据,并告诉我们一共有多少行数据录入到了Tableau当中。

那么如何记住这个column?
你可以想象Tableau在后台创建了一个新的column,只要它看到了有一行数据进来,它就按照1,2,3,4的顺序给每一行添加了一个标记。想象当你把数据复制到Excel里,Excel的左侧就自动有了这一行的数字。这个就是row index,或者就是简单理解为第几行。最核心的区别在于每一行都是一个单独的数字,这一行不会出现重复。这个column的名字就是这个table的名字。那么count这个column就是数一数这个table有多少行

Latitude(generated)Longitude(generated)

我们先来做一个实验,点击location左侧的箭头,让其显示所有的column。然后双击city. 再将city用鼠标按住,拖拽到text上,这时候Tableau就会显示一整个美国地图和密密麻麻的问题,你如果仔细看,这就是每个城市的名字。如果你往上看,你就会看到我们标题中所出现的两个column出现了。






我们首先从名字来解析,Latitude和Longitude是英文中的经纬度。而Generated代表它并不来自于数据本身,而是Tableau自动生成的。

那么没有它们哥俩行不行呢,答案想必你也知道了,肯定是不行。

这哥俩干的活就是把你在数据中的city的名字,通过Tableau内置的数据库自动的转换成了经纬度,然后帮你画在了地图上。这样Tableau才有办法把这些city的位置画在地图上。试想我随便给你一个城市的名字,然后给你一张世界地图,没有Tableau帮你这个过程,你是不知道它在地球什么位置的。

Measure Names and Measure Values

Measure Names和Measure Values是当图表中使用多个变量时Tableau用来代替多个变量名字的一种方法。以下面的截图为例,在图表中,Discount和Profit是两个不同的Measure, 在最上边Columns的部分可以看到,Measure Names代替了具体的Discount + Profit。 如果我们点击左上角Filters下边的Measure Names,你可以看到Measure Names里包含了所有的Measure,而在Tableau里显示的三个column前边已经打上了对勾。在这里我不会太过的深入讲解这两个,他们的使用会在后边的课程中逐步解锁