Tableau数据摄取与处理全解析
立即解锁
发布时间: 2025-09-03 01:59:57 阅读量: 18 订阅数: 24 AIGC 


Tableau认证备考指南
# Tableau数据摄取与处理全解析
## 1. 知识小测
在深入学习之前,先通过几个问题检验一下对相关知识的掌握程度:
| 问题 | 选项 | 答案 |
| --- | --- | --- |
| Tableau Public应用的费用是多少? | A. 每月70美元,按年计费<br>B. 每年150美元<br>C. 是Tableau Desktop许可证的一部分,本身免费,但与Tableau Desktop费用相同<br>D. 免费 | D |
| 在图中,哪些年份的消费者销售额低于30万美元? | A. 2018年和2019年<br>B. 2019年和2020年<br>C. 2020年和2021年<br>D. 仅2018年 | (因未给出图,无法确定) |
| 维度中包含哪种类型的数据? | A. 定量数据<br>B. 定性数据<br>C. 无数据<br>D. 以上都不是 | B |
## 2. 数据摄取概述
数据是数据可视化的基本构建块,在Tableau中也是如此。要在Tableau中创建可视化,就需要数据。数据可以小到只有一列或一个字段以及一行,也可以有数百个字段和数百万行。Tableau的一大优势是能够处理强大而多样的数据集。在使用Tableau之前,需要确定哪些数据适用于Tableau Desktop。
### 2.1 技术要求
为了进行实践学习,需要满足以下条件之一:
- **Tableau Desktop应用程序**:大多数版本都适用于相关考试,但为了获得最佳效果,建议使用2021.1或更高版本。可从[下载链接](https://www.tableau.com/products/desktop/download)下载。该版本不是免费的,但提供2周的试用。如果是就读于认可大学的学生,可以免费获得1年的桌面许可证。如果之前已经使用过试用版,则无法延长试用时间,但每次桌面版本进行季度升级时,都可以获得免费的2周试用。
- **Tableau Public**:这是一个免费版本,满足Tableau Desktop的所有功能需求,但不具备Tableau Desktop应用程序的所有数据和扩展功能,但对于Tableau Desktop认证所需的一切功能都有。可从[下载链接](https://public.tableau.com/en-us/s/download)下载。如果已经下载,请使用2021.1或更高版本。
此外,还需要Superstore Sales数据集来配合学习。该数据集会自动随Tableau Desktop应用程序提供,也可以从[Tableau资源](https://public.tableau.com/en-us/s/resources?qt-overview_resources=1#qt-overview_resources)下载并导入到Tableau Public应用程序中。
### 2.2 数据结构基础
#### 2.2.1 数据格式
数据需要具有类似电子表格的结构。这种结构可以来自多种来源,包括CSV/文本文件、服务器(如Amazon Redshift、Microsoft SQL Server或Tableau等)。为了充分利用数据源,要确保所有行和列都被正确处理。表格顶部不应有空白行,以免Tableau创建错误的标题;表格左侧也不应有空白行,否则会创建错误的字段。不过,这些错误字段可以使用Tableau中的Data Interpreter进行清理。
#### 2.2.2 数据列/字段
Tableau中任何数据源的顶行将用作分析的默认字段。这些字段是在使用桌面应用程序时会看到的内容,包含用于可视化的命名维度或度量。例如,在示例中,字段名称为Category、Order Date、Segment和Sales Target。Tableau能够识别表格并排除表格外的数据。
#### 2.2.3 数据行或数据粒度
第一行之后的每一行包含标题中表示的实际数据,并将用于可视化。字段的数量代表数据的聚合级别。例如,在示例中,数据按Category、Order Date和Segment进行捕获,Sales Target作为这些字段的度量。Tableau可以沿着这些维度操作数据,但除非添加额外数据,否则无法进一步分解数据。
#### 2.2.4 数据处理提示
- 如果使用CSV文件,将其转换为电子表格工具中的显式表格,以确保使用的是预期的结构。
- 如果使用多个数据源,确保有一个字段可以用作键字段来链接其他表格。
#### 2.2.5 基本数据分类和数据类型
Tableau能够很好地猜测传入数据的类型,尤其是结构良好的数据。例如,Tableau可以识别出Category和Segment是字符串字段,Order Date是日期字段,Sales Target是数值度量。有关Tableau Desktop图标和相关数据类型的更多信息,可访问[链接](https://help.tableau.com/current/pro/desktop/en-us/datafields_typesandroles_datatypes.htm)。
#### 2.2.6 透视与非透视数据
Tableau通常处理多行数据比多列数据效果更好。例如,有时数据可能以日期作为新字段的形式传入,这种数据被认为是宽且非透视的。透视数据行数多但字段少,Tableau不仅能更好地理解这种数据,而且在图表绘制、计算等方面具有更大的灵活性。
#### 2.2.7 数据清洁基础
可视化的质量取决于数据质量。在可视化之前,必须审查数据以验证其是否正常工作。一种简单的方法是查看哪些字段未按预期工作,并找出原因,这通常是由于字段中存在意外的数据类型。
### 2.3 连接到数据
可以通过服务器(Tableau或其他)或文件连接到数据,也可以连接到一个或多个数据源。在Tableau Desktop上,建议使用相同类型的数据源以获得最佳性能。例如,如果使用Microsoft Excel,其他Excel文件的连接效果会更好。以连接Sample – Superstore为例,这是Tableau的默认示例数据集,许多教程和帮助指南都基于此数据集。只需选择Sample – Superstore,连接后将进入Sheet 1,可查看其中包含的所有表格和字段。
### 2.4 数据源窗格概述
数据源窗格是构建任何Tableau可视化的入门部分。从这里可以看到数据是如何摄取的,基本数据类型是如何清理的,以及数据在Tableau中使用之前是如何连接的。了解数据源窗格不仅与考试相关,还能使数据可视化更加直观。以下是数据源窗格的主要组件:
1. **连接**:显示使用了哪些数据连接,例如Sample – Superstore,其下方可看到数据源名称,如Microsoft Excel。还可以在此添加或链接其他数据源。
2. **使用数据解释器**:如果数据源来自Excel、CSV、PDF或Google Sheets,会显示此选项。它会分析数据源处的数据并进行清理,以便在Tableau中进行数据分析。更多信息可参考[链接](https://help.tableau.com/current/pro/desktop/en-us/data_interpreter.htm)。
3. **工作表**:在示例中,Orders、People和Returns会以不同图标显示两次,分别表示数据作为表格和命名范围从Sample – Superstore传入。有关命名范围的更多信息,可访问[链接](https://help.tableau.com/current/pro/desktop/en-us/examples_excel.htm#:~:text=Both%20the%20named%20range%20and,and%20then%20selecting%20Insert%20%3E%20Table)。
4. **新建联合**:这是一个可点击的资源,允许用户通过将表格拖入弹出窗口来手动或自动创建数据联合。联合与连接不同,联合是一个包含与另一个源相同字段的数据源,用于追加数据而不是定义连接关系。
5. **数据模型**:显示数据源之间的连接方式。在示例中使用的是Relationships模型,这是为Tableau设计和增强的模型,具有更大的灵活性和动态性。虽然仍然支持连接,但在可能的情况下,建议使用关系。更多信息可参考[链接](https://help.tableau.com/current/pro/desktop/en-us/relate_tables.htm)。
6. **连接方式**:指示连接是实时的还是提取的。默认情况下,数据以实时方式传入,但也可以提取数据以处理静态的时间点数据。可以通过手动或自动数据刷新来提高性能。
7. **过滤器**:对于使用Tableau Online或Tableau Server的用户,数据源过滤器是在创建可视化时减少可见数据的一种方式。它与工作表过滤器不同,是Tableau Desktop中最强大的过滤器。
8. **数据预览部分**:可以预览字段数量、行数、数据类型、字段名称、物理表来源和远程字段名称等信息。远程字段名称对于确定字段在Tableau Desktop中修改后其原始名称很重要。可以在数据预览部分的右上角更新显示的行数。
### 2.5 数据源窗格中的字段格式化
Tableau Desktop提供了有效的基本数据清理工具。以下是数据源窗格中可以进行的基本操作:
1. **表格标识符**:右侧可看到字段(或列)数和行数,使用下拉菜单可访问模型中其他表格的信息。
2. **数据类型、字段名称、物理表和远程字段名称显示**:显示数据的相关信息。
3. **数据类型指示器**:日期类型更新通常在此窗格进行,也可以使用第2部分和工作表进行。更新字段名称时,建议使用此部分或工作表,因为Tableau在识别数据类型方面能力较强,更新前审查数据很重要,以免因字段中存在非数字组件而导致数据类型错误。
4. **字段名称和排序功能**:显示字段名称和基本的升序和降序排序功能,可在此查看数据。
5. **示例数据**:为第4部分显示的字段提供示例数据,可在此审查和验证数据类型。
## 3. 数据源窗格中的核心清理功能
数据很少以完美的状态出现,即使数据源相对干净,通常也需要进行额外的操作才能使其按预期工作。Tableau Desktop应用程序可以完成一些清理工作,以下是在数据源窗格中右键单击字段时可以进行的一些更新操作:
| 操作 | 示例 |
| --- | --- |
| 数字(小数) | 2.32 |
| 数字(整数) | 2 |
| 日期与时间 | 05/22/2022 12:45:02 |
| 日期 | 05/22/2022 |
| 字符串 | 文本字段 |
| 空间 | 地理信息 |
| 布尔值 | 真/假字段 |
| 地理角色 | 许多角色在Tableau的帮助文档中有介绍:[链接](https://help.tableau.com/current/pro/desktop/en-us/maps_geographicroles.htm) |
需要注意的是,Tableau会显示字段当前的类型。在修改日期字段时,要确保数据是日期格式。当将维度转换为度量时,如果字段格式不正确且包含一个或多个字符串而不是数字,Tableau可能会将字符串字段转换为数字字段,并在字段名称后添加(count)。大多数包含错误数据的字段会显示为字符串,例如,如果日期字段中添加了非日期值,它可能会显示为字符串。
以下是不同类型字段的修改操作,以字符串字段为例:
| 操作 | 说明 |
| --- | --- |
| 重命名 | 允许更改字段名称,方便理解和供最终用户使用。 |
| 复制值 | 将字段名称和示例行(默认100行,可修改)存储到剪贴板。 |
| 隐藏 | 使字段及其数据在工作表中不可见,适用于对最终用户无用但来自数据源的字段。 |
| 拆分 | Tableau根据数据情况创建默认拆分(作为追加字段显示),但需验证是否需要此操作,若要完全控制和可预测的拆分,需使用自定义拆分选项。 |
| 自定义拆分… | 可指定用于拆分字段的字符,如逗号或破折号。 |
| 别名… | 用于识别字段是否有别名。 |
其他选项在工作表上使用效果更好,后续会有相关介绍。在数据源窗格的右上角有一个强大的搜索和排序功能,默认显示100行数据,还可以一键显示字段别名和隐藏字段,并提供额外的排序功能。
### 3.1 操作流程总结
下面通过mermaid流程图展示在Tableau中进行数据摄取和处理的主要流程:
```mermaid
graph LR
A[准备工具和数据] --> B[选择数据源类型]
B --> C{连接数据源}
C -- 成功 --> D[进入数据源窗格]
C -- 失败 --> B
D --> E[查看和清理数据]
E --> F[格式化字段]
F --> G[进行数据可视化]
```
### 3.2 详细操作步骤列表
1. **准备工具和数据**
- 选择合适的Tableau版本(Tableau Desktop或Tableau Public)并下载安装,确保版本为2021.1或更高。
- 获取Superstore Sales数据集,可从Tableau Desktop自带或从指定资源下载。
2. **选择数据源类型**
- 可以选择服务器(如Tableau、Amazon Redshift、Microsoft SQL Server等)或文件(如CSV、Excel等)作为数据源。
3. **连接数据源**
- 在Tableau Desktop中,选择相同类型的数据源以提高性能,例如使用Excel文件时,其他Excel文件连接效果更好。
- 以连接Sample – Superstore为例,直接选择该数据源,连接成功后进入Sheet 1查看表格和字段。
4. **进入数据源窗格**
- 在界面左下角找到数据源窗格,了解其各个组件的功能,如连接、使用数据解释器、工作表、新建联合、数据模型、连接方式、过滤器和数据预览部分等。
5. **查看和清理数据**
- 检查数据格式,确保没有空白行导致的错误标题或字段。
- 使用数据解释器清理来自Excel、CSV、PDF或Google Sheets的数据源。
- 对于多数据源,确保有键字段用于链接表格。
- 处理透视与非透视数据,尽量使用透视数据以提高Tableau处理效率。
- 审查数据质量,避免字段出现意外的数据类型。
6. **格式化字段**
- 在数据源窗格中,通过表格标识符、数据类型显示、字段名称和排序功能、示例数据等部分查看和操作字段。
- 右键单击字段进行数据类型更新、重命名、复制值、隐藏、拆分等操作。
7. **进行数据可视化**
- 在完成数据摄取和处理后,利用Tableau的可视化功能创建各种图表和报表。
通过以上步骤和方法,可以在Tableau中高效地完成数据摄取、处理和可视化工作,为数据分析和决策提供有力支持。
0
0
复制全文
相关推荐









