数据连接界面Connect简介
Microsoft Excel (这一部分已经超出考试范围了,但这里的每一条都是宝贵的工作经验)
Excel可以说是每个Tableau User最常遇到的数据源,但同样也是问题最多,最容易出错的一种数据源。这其中使用Excel作为数据源,有的时候往往要比别的数据源更加小心。我们在这一部分详细讲讲Excel可能会给你在实际工作带来的问题。
1. 宽数据vs长数据
在宽数据vs长数据一课我提到了宽数据这种数据格式是不支持数据更新的,每次多增加一列Tableau会认为增加了一个新的measure,而不是数据多增加了一行,这新的一列你在创建Tableau Dashboard的时候是不存在的,所以Tableau是不会把这新的一列加入到你的图表当中的。这里就要提到Excel的双重属性: Excel有的时候在保存原始数据的时候,它扮演的是一个数据源的角色,但是它有时候又扮演着Report的角色。
当它扮演Report的时候,你就要想办法把它从Report尽可能还原成原始数据。
2. 数据还是Formula
有的时候,一些Excel数据的背后其实并不是真是的数据,它们是来自另一个Worksheet数据的计算。如果你点开你想要的导入的数据的任意一个Tab,你会发现它的背后是一个formula。 对于所有基于Formula的数据源来说,请在Excel当中使用copy and paste,将所有数据复制粘贴到另一个Worksheet当中,并且选择paste value only. 所有基于公式的计算都有可能因为背后数据连接的问题导致数值发生变化。如果数值发生变化,这会对你后边的测试产生非常大的影响,因为你没法确定数据源当中的数据到底是多少。
3. 请务必删除Total和Grand Total
在使用Excel作为数据源的时候,一个最常见的错误就是看也不看直接把Excel当原始数据,但是其实使用者把它们做成了报告。
左图中红圈标注的选项就是paste value. 它能保证将数据以值的形式复制,而不是公式
我以左边的这个图为例,当我们不打开Excel直接导入Tableau时,你会发现你所有的Sales增加了一倍。其根本原因就是在所有数据下边的最后一行,有时候会人为的加入一些Sub Total和Grand Total。 如果你不检查就直接使用,后边可能会给你造成很大的隐患。
想象以下如果你有成千上万行数据,怎么快速的检查?
具体的处理办法就是在column [Ship Date]上使用Filter, 看看有没有什么奇怪的值。 如果数值非常多,就在搜索栏里搜索Total
我在第一个Column [Shipdate]上添加了一个Filter. 这个Filter可以让你非常快速的看到这个columnxia下边有一个值叫ToTal。
4. Clear Formatting 清除格式 给数据卸妆
当我们拿到的Excel有各种颜色,密密麻麻的图表和数据的时候。 这时候一定要清除所有的格式,让数据露出它们本来的面目。
在实际工作当中,Excel本身往往就是报告,而作为报告,每个操作人员的各种妖魔鬼怪的操作就出来了。 比如当我们不想显示某个部分的时候,它们可以选择将数据隐藏,或者将数据的字体颜色变成白色。你打开的时候,你根本靠眼睛发现不了这里边的各种骚操作。但是Tableau可不吃一些,你让它导入什么,它就会全部导入进去。你甚至都不知道有一些行甚至还有数据,直到你的Dashboard出错的时候,你可能才意识的到。所以清除格式就是让数据露出它们本来的面目