Tableau数据摄取与处理全解析

立即解锁
发布时间: 2025-09-03 01:59:57 阅读量: 18 订阅数: 24 AIGC
PDF

Tableau认证备考指南

# Tableau数据摄取与处理全解析 ## 1. 知识小测 在深入学习之前,先通过几个问题检验一下对相关知识的掌握程度: | 问题 | 选项 | 答案 | | --- | --- | --- | | Tableau Public应用的费用是多少? | A. 每月70美元,按年计费<br>B. 每年150美元<br>C. 是Tableau Desktop许可证的一部分,本身免费,但与Tableau Desktop费用相同<br>D. 免费 | D | | 在图中,哪些年份的消费者销售额低于30万美元? | A. 2018年和2019年<br>B. 2019年和2020年<br>C. 2020年和2021年<br>D. 仅2018年 | (因未给出图,无法确定) | | 维度中包含哪种类型的数据? | A. 定量数据<br>B. 定性数据<br>C. 无数据<br>D. 以上都不是 | B | ## 2. 数据摄取概述 数据是数据可视化的基本构建块,在Tableau中也是如此。要在Tableau中创建可视化,就需要数据。数据可以小到只有一列或一个字段以及一行,也可以有数百个字段和数百万行。Tableau的一大优势是能够处理强大而多样的数据集。在使用Tableau之前,需要确定哪些数据适用于Tableau Desktop。 ### 2.1 技术要求 为了进行实践学习,需要满足以下条件之一: - **Tableau Desktop应用程序**:大多数版本都适用于相关考试,但为了获得最佳效果,建议使用2021.1或更高版本。可从[下载链接](https://www.tableau.com/products/desktop/download)下载。该版本不是免费的,但提供2周的试用。如果是就读于认可大学的学生,可以免费获得1年的桌面许可证。如果之前已经使用过试用版,则无法延长试用时间,但每次桌面版本进行季度升级时,都可以获得免费的2周试用。 - **Tableau Public**:这是一个免费版本,满足Tableau Desktop的所有功能需求,但不具备Tableau Desktop应用程序的所有数据和扩展功能,但对于Tableau Desktop认证所需的一切功能都有。可从[下载链接](https://public.tableau.com/en-us/s/download)下载。如果已经下载,请使用2021.1或更高版本。 此外,还需要Superstore Sales数据集来配合学习。该数据集会自动随Tableau Desktop应用程序提供,也可以从[Tableau资源](https://public.tableau.com/en-us/s/resources?qt-overview_resources=1#qt-overview_resources)下载并导入到Tableau Public应用程序中。 ### 2.2 数据结构基础 #### 2.2.1 数据格式 数据需要具有类似电子表格的结构。这种结构可以来自多种来源,包括CSV/文本文件、服务器(如Amazon Redshift、Microsoft SQL Server或Tableau等)。为了充分利用数据源,要确保所有行和列都被正确处理。表格顶部不应有空白行,以免Tableau创建错误的标题;表格左侧也不应有空白行,否则会创建错误的字段。不过,这些错误字段可以使用Tableau中的Data Interpreter进行清理。 #### 2.2.2 数据列/字段 Tableau中任何数据源的顶行将用作分析的默认字段。这些字段是在使用桌面应用程序时会看到的内容,包含用于可视化的命名维度或度量。例如,在示例中,字段名称为Category、Order Date、Segment和Sales Target。Tableau能够识别表格并排除表格外的数据。 #### 2.2.3 数据行或数据粒度 第一行之后的每一行包含标题中表示的实际数据,并将用于可视化。字段的数量代表数据的聚合级别。例如,在示例中,数据按Category、Order Date和Segment进行捕获,Sales Target作为这些字段的度量。Tableau可以沿着这些维度操作数据,但除非添加额外数据,否则无法进一步分解数据。 #### 2.2.4 数据处理提示 - 如果使用CSV文件,将其转换为电子表格工具中的显式表格,以确保使用的是预期的结构。 - 如果使用多个数据源,确保有一个字段可以用作键字段来链接其他表格。 #### 2.2.5 基本数据分类和数据类型 Tableau能够很好地猜测传入数据的类型,尤其是结构良好的数据。例如,Tableau可以识别出Category和Segment是字符串字段,Order Date是日期字段,Sales Target是数值度量。有关Tableau Desktop图标和相关数据类型的更多信息,可访问[链接](https://help.tableau.com/current/pro/desktop/en-us/datafields_typesandroles_datatypes.htm)。 #### 2.2.6 透视与非透视数据 Tableau通常处理多行数据比多列数据效果更好。例如,有时数据可能以日期作为新字段的形式传入,这种数据被认为是宽且非透视的。透视数据行数多但字段少,Tableau不仅能更好地理解这种数据,而且在图表绘制、计算等方面具有更大的灵活性。 #### 2.2.7 数据清洁基础 可视化的质量取决于数据质量。在可视化之前,必须审查数据以验证其是否正常工作。一种简单的方法是查看哪些字段未按预期工作,并找出原因,这通常是由于字段中存在意外的数据类型。 ### 2.3 连接到数据 可以通过服务器(Tableau或其他)或文件连接到数据,也可以连接到一个或多个数据源。在Tableau Desktop上,建议使用相同类型的数据源以获得最佳性能。例如,如果使用Microsoft Excel,其他Excel文件的连接效果会更好。以连接Sample – Superstore为例,这是Tableau的默认示例数据集,许多教程和帮助指南都基于此数据集。只需选择Sample – Superstore,连接后将进入Sheet 1,可查看其中包含的所有表格和字段。 ### 2.4 数据源窗格概述 数据源窗格是构建任何Tableau可视化的入门部分。从这里可以看到数据是如何摄取的,基本数据类型是如何清理的,以及数据在Tableau中使用之前是如何连接的。了解数据源窗格不仅与考试相关,还能使数据可视化更加直观。以下是数据源窗格的主要组件: 1. **连接**:显示使用了哪些数据连接,例如Sample – Superstore,其下方可看到数据源名称,如Microsoft Excel。还可以在此添加或链接其他数据源。 2. **使用数据解释器**:如果数据源来自Excel、CSV、PDF或Google Sheets,会显示此选项。它会分析数据源处的数据并进行清理,以便在Tableau中进行数据分析。更多信息可参考[链接](https://help.tableau.com/current/pro/desktop/en-us/data_interpreter.htm)。 3. **工作表**:在示例中,Orders、People和Returns会以不同图标显示两次,分别表示数据作为表格和命名范围从Sample – Superstore传入。有关命名范围的更多信息,可访问[链接](https://help.tableau.com/current/pro/desktop/en-us/examples_excel.htm#:~:text=Both%20the%20named%20range%20and,and%20then%20selecting%20Insert%20%3E%20Table)。 4. **新建联合**:这是一个可点击的资源,允许用户通过将表格拖入弹出窗口来手动或自动创建数据联合。联合与连接不同,联合是一个包含与另一个源相同字段的数据源,用于追加数据而不是定义连接关系。 5. **数据模型**:显示数据源之间的连接方式。在示例中使用的是Relationships模型,这是为Tableau设计和增强的模型,具有更大的灵活性和动态性。虽然仍然支持连接,但在可能的情况下,建议使用关系。更多信息可参考[链接](https://help.tableau.com/current/pro/desktop/en-us/relate_tables.htm)。 6. **连接方式**:指示连接是实时的还是提取的。默认情况下,数据以实时方式传入,但也可以提取数据以处理静态的时间点数据。可以通过手动或自动数据刷新来提高性能。 7. **过滤器**:对于使用Tableau Online或Tableau Server的用户,数据源过滤器是在创建可视化时减少可见数据的一种方式。它与工作表过滤器不同,是Tableau Desktop中最强大的过滤器。 8. **数据预览部分**:可以预览字段数量、行数、数据类型、字段名称、物理表来源和远程字段名称等信息。远程字段名称对于确定字段在Tableau Desktop中修改后其原始名称很重要。可以在数据预览部分的右上角更新显示的行数。 ### 2.5 数据源窗格中的字段格式化 Tableau Desktop提供了有效的基本数据清理工具。以下是数据源窗格中可以进行的基本操作: 1. **表格标识符**:右侧可看到字段(或列)数和行数,使用下拉菜单可访问模型中其他表格的信息。 2. **数据类型、字段名称、物理表和远程字段名称显示**:显示数据的相关信息。 3. **数据类型指示器**:日期类型更新通常在此窗格进行,也可以使用第2部分和工作表进行。更新字段名称时,建议使用此部分或工作表,因为Tableau在识别数据类型方面能力较强,更新前审查数据很重要,以免因字段中存在非数字组件而导致数据类型错误。 4. **字段名称和排序功能**:显示字段名称和基本的升序和降序排序功能,可在此查看数据。 5. **示例数据**:为第4部分显示的字段提供示例数据,可在此审查和验证数据类型。 ## 3. 数据源窗格中的核心清理功能 数据很少以完美的状态出现,即使数据源相对干净,通常也需要进行额外的操作才能使其按预期工作。Tableau Desktop应用程序可以完成一些清理工作,以下是在数据源窗格中右键单击字段时可以进行的一些更新操作: | 操作 | 示例 | | --- | --- | | 数字(小数) | 2.32 | | 数字(整数) | 2 | | 日期与时间 | 05/22/2022 12:45:02 | | 日期 | 05/22/2022 | | 字符串 | 文本字段 | | 空间 | 地理信息 | | 布尔值 | 真/假字段 | | 地理角色 | 许多角色在Tableau的帮助文档中有介绍:[链接](https://help.tableau.com/current/pro/desktop/en-us/maps_geographicroles.htm) | 需要注意的是,Tableau会显示字段当前的类型。在修改日期字段时,要确保数据是日期格式。当将维度转换为度量时,如果字段格式不正确且包含一个或多个字符串而不是数字,Tableau可能会将字符串字段转换为数字字段,并在字段名称后添加(count)。大多数包含错误数据的字段会显示为字符串,例如,如果日期字段中添加了非日期值,它可能会显示为字符串。 以下是不同类型字段的修改操作,以字符串字段为例: | 操作 | 说明 | | --- | --- | | 重命名 | 允许更改字段名称,方便理解和供最终用户使用。 | | 复制值 | 将字段名称和示例行(默认100行,可修改)存储到剪贴板。 | | 隐藏 | 使字段及其数据在工作表中不可见,适用于对最终用户无用但来自数据源的字段。 | | 拆分 | Tableau根据数据情况创建默认拆分(作为追加字段显示),但需验证是否需要此操作,若要完全控制和可预测的拆分,需使用自定义拆分选项。 | | 自定义拆分… | 可指定用于拆分字段的字符,如逗号或破折号。 | | 别名… | 用于识别字段是否有别名。 | 其他选项在工作表上使用效果更好,后续会有相关介绍。在数据源窗格的右上角有一个强大的搜索和排序功能,默认显示100行数据,还可以一键显示字段别名和隐藏字段,并提供额外的排序功能。 ### 3.1 操作流程总结 下面通过mermaid流程图展示在Tableau中进行数据摄取和处理的主要流程: ```mermaid graph LR A[准备工具和数据] --> B[选择数据源类型] B --> C{连接数据源} C -- 成功 --> D[进入数据源窗格] C -- 失败 --> B D --> E[查看和清理数据] E --> F[格式化字段] F --> G[进行数据可视化] ``` ### 3.2 详细操作步骤列表 1. **准备工具和数据** - 选择合适的Tableau版本(Tableau Desktop或Tableau Public)并下载安装,确保版本为2021.1或更高。 - 获取Superstore Sales数据集,可从Tableau Desktop自带或从指定资源下载。 2. **选择数据源类型** - 可以选择服务器(如Tableau、Amazon Redshift、Microsoft SQL Server等)或文件(如CSV、Excel等)作为数据源。 3. **连接数据源** - 在Tableau Desktop中,选择相同类型的数据源以提高性能,例如使用Excel文件时,其他Excel文件连接效果更好。 - 以连接Sample – Superstore为例,直接选择该数据源,连接成功后进入Sheet 1查看表格和字段。 4. **进入数据源窗格** - 在界面左下角找到数据源窗格,了解其各个组件的功能,如连接、使用数据解释器、工作表、新建联合、数据模型、连接方式、过滤器和数据预览部分等。 5. **查看和清理数据** - 检查数据格式,确保没有空白行导致的错误标题或字段。 - 使用数据解释器清理来自Excel、CSV、PDF或Google Sheets的数据源。 - 对于多数据源,确保有键字段用于链接表格。 - 处理透视与非透视数据,尽量使用透视数据以提高Tableau处理效率。 - 审查数据质量,避免字段出现意外的数据类型。 6. **格式化字段** - 在数据源窗格中,通过表格标识符、数据类型显示、字段名称和排序功能、示例数据等部分查看和操作字段。 - 右键单击字段进行数据类型更新、重命名、复制值、隐藏、拆分等操作。 7. **进行数据可视化** - 在完成数据摄取和处理后,利用Tableau的可视化功能创建各种图表和报表。 通过以上步骤和方法,可以在Tableau中高效地完成数据摄取、处理和可视化工作,为数据分析和决策提供有力支持。
corwn 最低0.47元/天 解锁专栏
买1年送3月
点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

勃斯李

大数据技术专家
超过10年工作经验的资深技术专家,曾在一家知名企业担任大数据解决方案高级工程师,负责大数据平台的架构设计和开发工作。后又转战入互联网公司,担任大数据团队的技术负责人,负责整个大数据平台的架构设计、技术选型和团队管理工作。拥有丰富的大数据技术实战经验,在Hadoop、Spark、Flink等大数据技术框架颇有造诣。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

制动软件架构设计(一):模块化与接口规范落地实践

![制动软件架构设计(一):模块化与接口规范落地实践](https://img-blog.csdn.net/20171130150226385?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcXJsaGw=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) # 摘要 本文围绕制动软件架构设计的核心理念与实践方法展开系统研究,重点分析模块化设计与接口规范在制动系统开发中的应用价值与实现路径。首先,文章阐述了模块化设计的基本概念、划分原则与实现技术

【Qt本地数据库构建】:使用SQLite存储历史温度数据详解

![【Qt本地数据库构建】:使用SQLite存储历史温度数据详解](https://duythanhcse.wordpress.com/wp-content/uploads/2013/06/31_sqlite_0.png) # 摘要 本文围绕基于Qt与SQLite数据库的温度数据存储与处理系统展开研究,系统介绍了SQLite数据库的核心特性、数据类型与SQL语法,并详细阐述了其在Qt开发平台中的集成方式。文章重点探讨了温度数据模型的设计与实现过程,包括数据库初始化、数据操作及性能优化策略。同时,结合Qt的数据可视化能力,分析了温度趋势图的绘制、数据导出与异常处理机制。最后,通过完整项目实

【Matlab样式定制宝典】:drawSankey颜色配置与图表美化实战技巧

![输出:桑基图](https://www.sqlshack.com/wp-content/uploads/2019/02/if-we-hover-the-mouse-over-any-particular-category.png) # 摘要 本文系统讲解了基于Matlab平台的图形样式定制方法,重点围绕绘图机制、Sankey图实现与图表美化技术展开。首先介绍Matlab图形对象模型及其样式属性管理机制,分析图形句柄与交互响应的实现原理;随后深入解析Sankey图的数据结构、drawSankey工具的参数配置及其渲染策略;进一步探讨颜色模型应用、图表元素美化技巧及多图风格统一方案。通过

【Weibull进阶实战】:三参数模型如何精准匹配复杂工程场景?

![【Weibull进阶实战】:三参数模型如何精准匹配复杂工程场景?](https://community.jmp.com/t5/image/serverpage/image-id/47573i462746AE4105B48C?v=v2) # 摘要 Weibull三参数模型因其在描述寿命、强度及环境数据方面的灵活性和适应性,广泛应用于可靠性工程、材料科学和可再生能源等多个领域。本文系统阐述了Weibull分布的基本理论及其三参数扩展形式,深入探讨了参数估计方法、模型拟合评估标准及其实现技术。结合多个工程实际案例,分析了该模型在寿命预测、结构安全评估与风速建模中的关键应用。同时,本文介绍了

三遥功能实战配置指南:ABB RTU在配电自动化中的遥信、遥测、遥控实现详解

![三遥功能实战配置指南:ABB RTU在配电自动化中的遥信、遥测、遥控实现详解](http://www.energetica21.com/images/ckfinder/images/Screenshot_3(45).jpg) # 摘要 本文围绕配电自动化系统中的三遥(遥信、遥测、遥控)功能展开,系统阐述其技术原理与通信基础,重点分析ABB RTU设备在SCADA系统中的通信架构与功能实现机制。文章详细介绍了三遥功能在RTU中的配置流程与实现方法,涵盖信号采集、数据传输、控制执行等关键环节,并针对配置过程中常见的技术问题提出调试与优化方案。同时,结合工程实践,探讨了三遥系统的集成测试方

自定义监控新姿势:SQLTracker插件开发实战指南(附SDK下载链接)

![自定义监控新姿势:SQLTracker插件开发实战指南(附SDK下载链接)](https://img-blog.csdnimg.cn/direct/f10ef4471cf34e3cb1168de11eb3838a.png) # 摘要 SQLTracker插件是一款面向分布式系统中SQL性能监控与追踪的扩展工具,旨在提升数据库操作的可观测性与调优效率。本文围绕SQLTracker插件的设计与实现,系统阐述了监控系统的核心原理、插件架构设计、关键技术实现路径及其在实际场景中的应用价值。文章首先分析了分布式监控的基本逻辑与SQL追踪机制,继而详细介绍了插件在SQL拦截、上下文绑定、调用链组

GPU加速实战:大气廓线反演算法性能提升10倍的实现路径

![GPU加速实战:大气廓线反演算法性能提升10倍的实现路径](https://www.intel.com/content/dam/developer/articles/technical/gpu-quicksort/gpu-quicksort-code-2.jpg) # 摘要 本文围绕GPU加速技术在大气廓线反演中的应用展开系统研究,介绍了大气辐射传输模型与反演算法的理论基础,分析了传统串行算法在计算效率与内存访问方面的瓶颈。基于GPU的并行架构与CUDA编程模型,本文提出针对反演算法的并行化重构策略,并探讨了内存布局优化、数据传输机制以及数值稳定性的实现方法。通过构建性能评估体系,验

Fluent湍流模型调试终极指南:为什么你的结果总不收敛?

![Fluent湍流模型调试终极指南:为什么你的结果总不收敛?](https://d3i71xaburhd42.cloudfront.net/685c7657ea29f0c582b278597ef87aea31b56c8f/2-Figure1-1.png) # 摘要 本文系统探讨了Fluent中湍流模型的基本概念、理论基础、设置调参及收敛性优化策略。首先介绍了湍流的本质特性与主流数值模拟方法的适用性差异,分析了常见湍流模型(如Spalart-Allmaras、k-ε、k-ω及其SST变体)的适用场景与计算表现。随后详细阐述了在Fluent中合理配置湍流模型的关键参数与流程,并针对收敛性问

异步调用与回调机制实现:miniRPC进阶开发技巧与事件驱动模型设计

![minirpc:RPC,C,便携式,小型,嵌入式系统](https://itexamanswers.net/wp-content/uploads/2019/08/67.png) # 摘要 本文围绕异步调用与回调机制在miniRPC框架中的设计与实现展开系统研究。首先介绍了异步调用的基本原理与实现策略,分析了事件循环、任务调度机制及其在miniRPC中的具体实现方式。随后,深入探讨了回调机制的设计结构、生命周期管理及其在RPC通信中的集成应用。进一步地,本文结合事件驱动模型,研究了事件总线的构建与跨服务通信的实现方式。最后,针对异步调用与回调机制在实际应用中可能出现的性能瓶颈与稳定性问

光栅耦合器设计实战:RCWA仿真应用详解与Matlab实现技巧

# 摘要 本文围绕光栅耦合器的设计与仿真展开,系统阐述了其基本原理与设计需求,并深入解析了基于严格耦合波分析(RCWA)方法的理论基础与实现流程。文章详细介绍了光波在周期结构中的传播特性、RCWA方法的数学推导过程以及材料模型与边界条件的设置方法,进一步探讨了基于RCWA的多层结构仿真建模策略,涵盖了网格划分、激励源设置及S矩阵级联算法等内容。为提升仿真效率,文中结合Matlab平台介绍了代码优化与并行计算技巧,并通过典型光栅耦合器的设计实例,验证了仿真方法的有效性与适用性。最后,文章分析了RCWA方法的局限性、光栅耦合器在前沿光子系统中的应用潜力以及光子器件自动化设计的发展趋势。 #