0% found this document useful (0 votes)

158 views28 pages

Data Profiling Tools in SQL Server

1) Data profiling involves examining existing data sources and collecting statistics and metadata about the data. 2) It can uncover useful information such as the number of distinct values in each column, data types, frequent patterns, and potential keys. 3) The results of data profiling are used to clean, explore, manage and integrate data in databases and big data systems.

Uploaded by

Zaigham Abbas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

158 views28 pages

Data Profiling Tools in SQL Server

Uploaded by

Zaigham Abbas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

11/5/15

Data Profiling
Helena Galhardas
DEI/IST

References

Slides Data Profiling course, Felix Naumann,

Trento, July 2015
Z. Abedjan, L. Golab, F. Naumann, Profiling
Relational Data A Survey, VLDBJ 2015
T. Papenbrock and others, Data Profiling with
Metanome, demo paper, VLDB 2015

1
11/5/15

Definition Data Profiling

Data profiling is the process of examining the
data available in an existing data source [...] and
collecting statistics and information about that
data.
Wikipedia 09/2013
Data profiling refers to the activity of creating
small but informative summaries of a database.
Ted Johnson, Encyclopedia of Database Systems

Data profiling is the set of activities and

processes to determine the metadata about a
given dataset.
3

Profiling in Spreadsheets

Felix Naumann | Data Proling

4
| Trento 2015

2
11/5/15

els
lab
n
m
C olu

Felix Naumann | Data Proling

5
| Trento 2015

ows
er of r
b
Num
Felix Naumann | Data Proling
6
| Trento 2015

3
11/5/15

Many interesting questions remain

What are the possible primary keys and foreign keys?
Phone
firstname, lastname, street
Are there any functional dependencies?
zip -> city
race -> voting behavior
Which columns correlate?
Date-of-Birth and first name
State and last name
What are frequent patterns in a column?
ddddd
dd aaaa St

Felix Naumann | Data Proling

7
| Trento 2015

Results of data profiling

Encompasses several methods to examine
datasets and produce metadata
Simple results to compute:
Number of null and distinct values in a column
Data type of a column
Most frequent patterns of data values in a column
More difficult results to compute involve several
columns:
Inclusion dependencies
Functional dependencies, etc
8

4
11/5/15

Challenges
Managing the input
Decide which profiling tasks to execute on which
parts of the data
Performing the computation
Computational complexity depends on the
number of rows, and the number of columns;
sorting is a typical operation
Managing the output
Meaningfully interpret the profiling results; usually
performed by database and domain experts

Existing technology
SQL queries and spreadsheet browsing
Dedicated tools or components
E.g., IBM Information Analyzer, Microsoft SQL Server
Integration Services, Informatica Data Explorer
Innovative ways to handle the challenges
E.g., using indexes, parallel processing
Methods to deliver approximate results
E.g., by profiling samples
Narrowing the discovery process to certain
columns or tables
E.g., verifying inclusion dependencies on user-
suggested pairs of columns

5
11/5/15

Typical data profiling procedure

1. User specifies data to be profiled and
chooses type of metadata to be generated
2. Tool computes the metadata in batch mode
(using SQL queries or specialized
algorithms)
Can last minutes or hours
3. Tool displays results in a vast collection of
tabs, tables, charts, and other visualizations
Discovered results can be translated into rules
or constraints to be enforced in a subsequent
data cleaning step

Use Cases for Data Profiling

Data cleaning
Data profiling results can be used to measure/monitor the quality of a dataset
Data exploration
To have an insight of new datasets: simple ad-hoc SQL queries return simple statistics (e.g., nb
distinct values)
Automated data profiling is required
Database management
Basic statistics gathered by a DBMS: number of values, number of non-null values, etc
Optimizer uses these statistics to estimate selectivity of operators and perform query
optimization
Database reverse engineering
To identify relations and attributes, domain semantics, foreign keys and cardinalities
Result: ER model or logical schema to assist experts in maintaining, integrating and querying
the DB
Data integration
For finding semantically correct correspondences between elements of two schemata (schema
matching)
Cross-DB inclusion dependencies suggest which tables may be combined with a join operation
Big Data analytics
Profiling as preparation and for initial insights
Important to determine which data to mine, how to import it into various tools and how to
interpret the results

Data profiling as preparation for any other data management task 12

6
11/5/15

Types of storage of input data

Relational database
So data profiling methods make use of SQL
queries and indexes
CSV file
Data profiling methods need to create its own
data structures in memory or disk
Mixed approach
Data originally in the database are read once and
processed further outside the database

The type of storage for input data has an

impact on the performance of the data
profiling algorithms and tools
13

Data profiling vs. data mining

Data profiling gathers technical metadata to support
data management
Data mining and data analytics discovers non-obvious
results to support business management with new
insights

Data profiling results: information about columns and

column sets
Data mining results: information about rows or row
sets
clustering, summarization, association rules,
Recommendation or classification are not related to data
profiling

7
11/5/15

Outline
Data profiling tasks
Data profiling tools
Visualization

8
11/5/15

Classification of Traditional
Data Profiling Tasks
CardinaliEes

PaGerns and
Single column data types

Value

Data proling
distribuEons

Key discovery

Uniqueness CondiEonal

ParEal

Foreign key
discovery
MulEple columns Inclusion
dependencies CondiEonal

ParEal

CondiEonal
FuncEonal
dependencies
ParEal
17

Data profiling tasks and their primary uses

9
11/5/15

Single column profiling

Analysis of individual columns in a given
table
Most basic form of data profiling
Assumption: All values are of same type
Assumption: All values have some common
properties to be discovered
Discover data types
Often part of the basic statistics gathered by DBMS
Complexity: Number of values/rows

Cardinalities
Number of values (nb of rows)
Length of values in terms of characters
Number of distinct values
Number of NULLs
MIN and MAX value

Useful for
Query optimization
Categorization of attribute
Relevance of attribute

10
11/5/15

Data completness
Finding disguised missing values (e.g., when
using web forms including fields whose values
must be chosen from pull-down lists)
9999-999 for the zip code
Alabama for the USA state
Methods: determine the distribution of values
and find out that disguised missing values are
occurring much more often

Data types and value patterns

Discovering the basic type of a column:
String vs. number
String vs. number vs. date
Increasing Difficulty

SQL data types (CHAR, INT, DECIMAL,)

Extracting frequent patterns observed in the
data of a column:
Regular expressions (\d{3})-(\d{3})-(\d{4})-(\d+)
Finding the meaning of a column (semantic
domain)
Adress, phone, email, first name

11
11/5/15

Value distributions
Probability distribution for numeric values
Detect whether data follows some well-known distribution
Determine that distribution function for data values
If no specific/useful function detectable: histograms

Normal distributions Laplace distributions 23

Histograms
Determine (and display) value frequencies for value intervals or for
individual values
Estimation of probability distribution for continuous variables

Grade distribu,on
15

0
01 01 02 02 02 03 03 03 04 04 05

Useful for
Query optimization
Outlier detection
Visualize distribution
24

12
11/5/15

Multi-column data profiling

Covers multiple columns simultaneasously
Identifies inter-value dependencies and column
similarities
Identifies correlations between values through
frequent patterns or association rules
Complexity: Number of columns and number of
values

Correlations and association rules

Correlation analysis reveals related numeric
columns (e.g., salary and age in relation
Employees)
Nave method: compute pairwise correlations
among all pairs of columns
Association rules: denote relationships or patterns
between attribute values among columns
Ex: Employees(emp-nb, dept, position, allowance}!
{dept=finance, position=manager} -> {allowance=
$1000}!
Algorithms: Apriori, FP-growth

13
11/5/15

Clustering
To segment the records into homogeneous
groups using a clustering algorithm
Records that do not fit any cluster flagged
as outliers
May indicate data quality problems
Algorithms: K-means, for example

Dependencies
Metadata that describe relationships
among columns
Discovery of primary keys with the help of unique
column combinations
Discovery of foreign keys with the help of inclusion
dependencies
Functional dependencies
Complexity: Number of columns and number of
values
Several algorithms for detecting dependencies
28

14
11/5/15

Uniqueness and keys

Set of columns R.X that contain only unique
value combinations
(Primary) key candidate
No null values
Uniqueness and non-null in one instance do not
imply key: Only human can specify keys
Algorithms: Gordian, DUCC, SWAN
Useful for
Schema design, data integration, indexing,
optimization
Inverse: non-uniques are duplicates

Inclusion dependencies (IND) and

foreign keys (FKs)
R.A S.B
All values in R.A are also present in S.B
R.A1,,[Link] S.B1,,[Link]:
All value combinations in R.A1,,[Link] are also present
in S.B1,,[Link]
Prerequisite for foreign key:
Used across relations
Use across databases
But again: Discovery on a given instance, only user can specify
for schema
Algorithms for IND detection: Spider, BINDER
INDs useful for
suggesting how to join two relations 30

15
11/5/15

Functional dependencies
XA
whenever two records have the same X values, they
also have the same A values, where X is a set of
attributes
E.g., street, numberzip-code

Algorithms for detecting FDs: TANE, FUN, FD-Mine, etc

Useful for
Schema design
Normalization
Keys
Data cleansing

Partial dependencies
Real datasets contain exceptions to the rule so dependencies
can be relaxed
Aka approximate dependencies: hold for a subset of records
INDs and FDs that do not perfectly hold
For all but 10 of the tuples
Only for 80% of the tuples
Only for 1% of the tuples

Also for patterns, types, uniques, and other constraints

Useful for
Data cleansing

16
11/5/15

Conditional dependencies
Given a partial IND or FD: For which part do the hold?
Example: conditional unique column combination
street is unique for all records with city = Lisbon
Expressed as a condition over the attributes of the
relation
Problems:
Infinite possibilities of conditions
Interestingness:
Many distinct values: less interesting
Few distinct values: surprising condition high coverage

Useful for
Integration: cross-source cINDs

Outline
Data profiling tasks
Data profiling tools

17
11/5/15

Research data profiling tools

Bellman: Column statistics, column similarity, candidate
key discovery
Potters Wheel: Column statistics (including value
patterns)
Data Auditor: CFD and CIND discovery
RuleMiner: Denial constraint discovery
MADlib: Simple column statistics
Profiler: visual data profiler tool
Metanome: in a few slides

Commercial data profiling tools

IBM InfoSphere Information Analyzer
[Link]
Oracle Enterprise Data Quality
[Link]
Talend Data Quality
[Link]
Ataccama DQ Analyzer
[Link]
SAP BusinessObjects Data Insight and SAP BusinessObjects Information Steward
[Link]
[Link]
Informatica Data Explorer
[Link]
Microsoft SQL Server Integration Services Data Profiling Task and Viewer
[Link]
Trillium Software Data Profiling
[Link]
CloverETL Data Profiler
[Link]
OpenRefine
[Link] OSen packaged with data quality / data cleansing
and many more soSware 36

18
11/5/15

Very long feature lists

Num rows Single column primary key discovery
Min value length MulE-column primary key discovery
Median value length Single column IND discovery
Max value length
Inclusion percentage
Avg value length
Single-column FK discovery
Precision of numeric values
Scale of numeric values MulE-column IND discovery
QuarEles MulE-column FK discovery
Basic data types Value overlap (cross domain analysis)
Num disEnct values ("cardinality") Single-column FD discovery
Percentage null values MulE-column FD discovery
Data class and data type Text proling
Uniqueness and constancy
Single-column frequency histogram
MulE-column frequency histogram
PaGern discovery (Aa9)
Soundex frequencies
Benford Law Frequency

Screenshots from Talend Data Quality

Felix Naumann | Data Proling

38
| Trento 2015

19
11/5/15

Screenshots from Talend

Felix Naumann | Data Proling

39
| Trento 2015

Screenshots from Talend

Felix Naumann | Data Proling

40
| Trento 2015

20
11/5/15

Screenshots for
IBM Information Analyzer

21
11/5/15

Typical Shortcomings of Tools

(and research methods)
Usability
Complex to configure
Results complex to view and interpret
Scalability
Main-memory based
SQL based DBMS
Efficiency
Coffee, Lunch, Overnight
Functionality
Restricted to simplest tasks
Restricted to individual columns or small column sets
Realistic key candidates vs. further use-cases
SAP R3 schema has many tables with up to 16 columns as key
Interpretation of profiling results Thats the big one

Metanome

Extensible profiling platform that incorporates

several state-of-the-art metadata discovery
algorithms
Goals:
To provide novel profiling algorithms from research
To perform comparative evaluations
To support developers in building/testing new algorithms
Typical users:
Database administrators and IT professionals
Developers and researchers
See in: [Link]
[Link]

22
11/5/15

Design Goals
Simplicity
Should be easy to setup and use
Extensibility
New algorithms and datasets should be easily
addable to the system
Standardization
All common tasks, tooling, input parsing, result
handling should be provided
Flexibility
Make as few restrictions as possible to the
algorithms

Metanome architecture

Algorithm execution Algorithm configuration

Result Result
management presentation

SWAN
Configuration jar
DB2 txt
Measurements DB2 csv
MySQL xml SPIDER DUCC
Results jar jar

23
11/5/15

Most important tasks

Input parsing
Build an abstraction around input sources; specific formats are
irrelevant to profiling algos
Handles relational databases/files/tables, JSON/RDF/XML files
Output processing
Standardize the output formats depending on the type of metadata the
algorithm discovers
Most important metadata supported: unique column combinations,
INDs, FDs, order dependencies, basic statistics
Parameterization handling
Defines the parameterization of algorithms through the configuration
variables exposed by the profiling algorithms (set by the user)
Temporary data management
Provides dedicated temp-files for storing temporary data written by
profiling algorithms

Profiling algorithms
A profiling algorithm needs to implement a given
set of light-weight interfaces
Work autonomously: they are treated as foreign
code modules that manage themselves
providing maximum flexibility for their design
Algorithms supported:
UCCs: DUCC
INDs: MIND, SPIDER, BINDER
FDs: TANE, FUN, FD_MINE, etc
ODs: ORDER
48

24
11/5/15

Snapshot visualization of results

Snapshot different visualization

techniques

25
11/5/15

Outline
Data profiling tasks
Data profiling tools
Visualization

Motivation
Human in the loop for data profiling and data
cleansing.

Advanced visualization techniques

Beyond bar-charts and pie-charts

Interactive visualization
Support users in visualizing data, profiling results
Support any action taken upon the results
Cleansing, sorting,
Re-profile and visualize immediately
52

26
11/5/15

Profiler: Integrated Statistical Analysis

and Visualization for Data Quality
hGp://[Link]/les/[Link]

Assessment

Felix Naumann | Data Proling

53
| Trento 2015

[Link]

hGp://[Link]/GapminderMedia/wp-uploads/[Link]
54

27
11/5/15

Next Lecture
Introduction to Data Warehouse

Data Profiling Overview and Techniques
No ratings yet
Data Profiling Overview and Techniques
58 pages
Data Profiling: Methods and Challenges
No ratings yet
Data Profiling: Methods and Challenges
11 pages
Data Profiling and Cleansing Guide
No ratings yet
Data Profiling and Cleansing Guide
7 pages
Data Preparation for Machine Learning
No ratings yet
Data Preparation for Machine Learning
28 pages
Data Profiling: Enhancing Data Quality
No ratings yet
Data Profiling: Enhancing Data Quality
7 pages
Statistics in the Analytics Lifecycle
No ratings yet
Statistics in the Analytics Lifecycle
34 pages
Data Analytics: Steps & Types Explained
No ratings yet
Data Analytics: Steps & Types Explained
16 pages
Data Analytics Roles and Processes Explained
No ratings yet
Data Analytics Roles and Processes Explained
14 pages
Data Profiling and Cleansing Techniques
No ratings yet
Data Profiling and Cleansing Techniques
14 pages
Data Analytics Approaches Explained
No ratings yet
Data Analytics Approaches Explained
11 pages
Unit 1
No ratings yet
Unit 1
64 pages
Data Quality and Profiling in Informatica
No ratings yet
Data Quality and Profiling in Informatica
28 pages
Comprehensive Guide to Data Analytics
No ratings yet
Comprehensive Guide to Data Analytics
83 pages
Data Profiling Market Insights
No ratings yet
Data Profiling Market Insights
3 pages
Data Visualization Techniques Overview
No ratings yet
Data Visualization Techniques Overview
101 pages
Data Analytics Roles and Processes Explained
No ratings yet
Data Analytics Roles and Processes Explained
14 pages
Data Analytics_Module 1-Compressed
No ratings yet
Data Analytics_Module 1-Compressed
39 pages
Understanding Data Profiling Essentials
No ratings yet
Understanding Data Profiling Essentials
7 pages
Data Analysis Terms Glossary A-Z
No ratings yet
Data Analysis Terms Glossary A-Z
1 page
Data Profiling and Cleansing Overview
No ratings yet
Data Profiling and Cleansing Overview
4 pages
Usability Assessment of Data Sources
No ratings yet
Usability Assessment of Data Sources
14 pages
Introduction to Data Analytics Basics
No ratings yet
Introduction to Data Analytics Basics
50 pages
Data Preparation: Purpose Convert Acquired Raw' Datasets Into Valid, Consistent Data
No ratings yet
Data Preparation: Purpose Convert Acquired Raw' Datasets Into Valid, Consistent Data
26 pages
Understanding Data Profiling Techniques
No ratings yet
Understanding Data Profiling Techniques
7 pages
Introduction to Data Science Basics
No ratings yet
Introduction to Data Science Basics
242 pages
Introduction to Data Analytics Basics
100% (1)
Introduction to Data Analytics Basics
30 pages
Data Mining: Techniques and Applications
No ratings yet
Data Mining: Techniques and Applications
27 pages
Understanding Data Analytics Basics
No ratings yet
Understanding Data Analytics Basics
50 pages
Data Analytics: Steps and Types Explained
No ratings yet
Data Analytics: Steps and Types Explained
16 pages
Data Analytics Fundamentals Explained
No ratings yet
Data Analytics Fundamentals Explained
31 pages
Data Science Overview and Analytics Types
No ratings yet
Data Science Overview and Analytics Types
341 pages
Data Analytics Overview and Applications
No ratings yet
Data Analytics Overview and Applications
53 pages
Introduction to Data Mining & Analytics
No ratings yet
Introduction to Data Mining & Analytics
78 pages
Flair Data Analytics Tutorial
No ratings yet
Flair Data Analytics Tutorial
9 pages
Data Analysis and Visualization Guide
No ratings yet
Data Analysis and Visualization Guide
58 pages
Proximity Measure for Binary Attributes
No ratings yet
Proximity Measure for Binary Attributes
67 pages
Data Mining vs. Data Profiling Explained
No ratings yet
Data Mining vs. Data Profiling Explained
7 pages
Understanding Data Analytics Types
No ratings yet
Understanding Data Analytics Types
20 pages
Introduction to Data Analytics Course
No ratings yet
Introduction to Data Analytics Course
29 pages
Understanding Machine Learning Basics
No ratings yet
Understanding Machine Learning Basics
41 pages
Data Mining: Uncovering Knowledge from Data
No ratings yet
Data Mining: Uncovering Knowledge from Data
40 pages
Data Storage Solutions for Analytics
No ratings yet
Data Storage Solutions for Analytics
80 pages
Data Analytics Interview Q&A Guide
No ratings yet
Data Analytics Interview Q&A Guide
64 pages
Data Analysis Techniques and Tools
No ratings yet
Data Analysis Techniques and Tools
21 pages
Data Analytics Course Overview and Insights
No ratings yet
Data Analytics Course Overview and Insights
65 pages
EDA and Descriptive Statistics Overview
100% (1)
EDA and Descriptive Statistics Overview
209 pages
IoT Cloud Data Analytics Overview
No ratings yet
IoT Cloud Data Analytics Overview
17 pages
Data Mining Functionalities Explained
No ratings yet
Data Mining Functionalities Explained
16 pages
Data Mining Concepts and Techniques
No ratings yet
Data Mining Concepts and Techniques
56 pages
Spreadsheet Functions in Data Analysis
No ratings yet
Spreadsheet Functions in Data Analysis
35 pages
Data Mining: Techniques and Processes
No ratings yet
Data Mining: Techniques and Processes
25 pages
Unit 1 Business Analytics
No ratings yet
Unit 1 Business Analytics
17 pages
BCA 5th Sem Data Mining Notes
100% (1)
BCA 5th Sem Data Mining Notes
46 pages
Exploratory Data Analysis Techniques
No ratings yet
Exploratory Data Analysis Techniques
99 pages
Usability of Candidate Data Sources
No ratings yet
Usability of Candidate Data Sources
39 pages
Midterm Result Sheet - IT-102 Spring 2016
No ratings yet
Midterm Result Sheet - IT-102 Spring 2016
1 page
PM Fee Reimbursement Scheme Open
No ratings yet
PM Fee Reimbursement Scheme Open
2 pages
Methodologies in Sufi Studies
No ratings yet
Methodologies in Sufi Studies
17 pages
Concept Note - Smart Cities
No ratings yet
Concept Note - Smart Cities
46 pages
Binary and Decimal Number Systems
No ratings yet
Binary and Decimal Number Systems
10 pages
Connect Facebook Ads to Power BI
No ratings yet
Connect Facebook Ads to Power BI
22 pages
Binary Octal
100% (3)
Binary Octal
10 pages
National Symposium on Plant Protection
No ratings yet
National Symposium on Plant Protection
1 page
Splay Tree Operations and Examples
No ratings yet
Splay Tree Operations and Examples
15 pages
Business Plan for One Stop Pet Shop
100% (1)
Business Plan for One Stop Pet Shop
21 pages
Overview of Algorithm Types
No ratings yet
Overview of Algorithm Types
14 pages
Computer Networks in Business Operations
100% (1)
Computer Networks in Business Operations
20 pages
Data Dissemination in VANETs
No ratings yet
Data Dissemination in VANETs
196 pages
CS601 IC Datasheet Overview
No ratings yet
CS601 IC Datasheet Overview
16 pages
Cyclic MAC Scheduler for Sensor Networks
No ratings yet
Cyclic MAC Scheduler for Sensor Networks
15 pages
Desktop, Network, and Storage Virtualization
No ratings yet
Desktop, Network, and Storage Virtualization
8 pages
PostgreSQL Installation Guide
No ratings yet
PostgreSQL Installation Guide
7 pages
National Artist Award in the Philippines
100% (1)
National Artist Award in the Philippines
41 pages
English Test for Grade 7 - Midterm 2024
No ratings yet
English Test for Grade 7 - Midterm 2024
4 pages
Oracle SQLPlus and PL/SQL Commands Guide
No ratings yet
Oracle SQLPlus and PL/SQL Commands Guide
5 pages
Humour and Pathos in Lamb's Essay
No ratings yet
Humour and Pathos in Lamb's Essay
4 pages
Understanding Constructivism in Education
No ratings yet
Understanding Constructivism in Education
30 pages
Umberto Eco's Superman Myth Analysis
No ratings yet
Umberto Eco's Superman Myth Analysis
10 pages
Product Data Sheet Deltav Virtual Studio For Hyperconverged Infrastructure Deltav en 8486150
No ratings yet
Product Data Sheet Deltav Virtual Studio For Hyperconverged Infrastructure Deltav en 8486150
16 pages
C Program for File Copying
No ratings yet
C Program for File Copying
3 pages
Chad Emoji Overview and Usage
No ratings yet
Chad Emoji Overview and Usage
1 page
7 Steps of Character Creation Explained
No ratings yet
7 Steps of Character Creation Explained
19 pages
Cloud Migration Solution Assessment Guide
No ratings yet
Cloud Migration Solution Assessment Guide
5 pages
Understanding Frost's "A Roadside Stand"
100% (2)
Understanding Frost's "A Roadside Stand"
28 pages
Setup Guide Extract
No ratings yet
Setup Guide Extract
17 pages
Framing Questions: Class 10 Guide
No ratings yet
Framing Questions: Class 10 Guide
5 pages
February Monthly Test for Level 3
No ratings yet
February Monthly Test for Level 3
2 pages
Yash Deshmukh: Software Engineer Profile
No ratings yet
Yash Deshmukh: Software Engineer Profile
1 page
Clock Sources Report Script Overview
No ratings yet
Clock Sources Report Script Overview
2 pages
Worksheet
No ratings yet
Worksheet
2 pages
Globalization's Media Influence Explained
No ratings yet
Globalization's Media Influence Explained
51 pages
Snapmint Cardless EMI Integration Guide
No ratings yet
Snapmint Cardless EMI Integration Guide
26 pages
C Compiler Lexical Analyzer Design
No ratings yet
C Compiler Lexical Analyzer Design
5 pages
Verb Tenses and Activities Guide
No ratings yet
Verb Tenses and Activities Guide
10 pages
FRE101: French Grammar Course Guide
0% (1)
FRE101: French Grammar Course Guide
190 pages
Top 5 C++ Books for Beginners
No ratings yet
Top 5 C++ Books for Beginners
61 pages
Tips for Becoming a Great MC
No ratings yet
Tips for Becoming a Great MC
2 pages
The Power of the Divine Name
No ratings yet
The Power of the Divine Name
405 pages
English Exam for Grade 6 - Semester 2
No ratings yet
English Exam for Grade 6 - Semester 2
4 pages
FortiNAC High Availability Setup Guide
No ratings yet
FortiNAC High Availability Setup Guide
51 pages

Data Profiling Tools in SQL Server

Uploaded by

Data Profiling Tools in SQL Server

Uploaded by

11/5/15

Slides Data Profiling course, Felix Naumann,

Definition Data Profiling

Data profiling is the set of activities and

Felix Naumann | Data Proling

Felix Naumann | Data Proling

Many interesting questions remain

Felix Naumann | Data Proling

Results of data profiling

Typical data profiling procedure

Use Cases for Data Profiling

Data profiling as preparation for any other data management task 12

Types of storage of input data

The type of storage for input data has an

Data profiling vs. data mining

Data profiling results: information about columns and

Data profiling tasks and their primary uses

Single column profiling

Data types and value patterns

SQL data types (CHAR, INT, DECIMAL,)

Normal distributions Laplace distributions 23

Multi-column data profiling

Correlations and association rules

Uniqueness and keys

Inclusion dependencies (IND) and

Algorithms for detecting FDs: TANE, FUN, FD-Mine, etc

Also for patterns, types, uniques, and other constraints

Research data profiling tools

Commercial data profiling tools

Very long feature lists

Screenshots from Talend Data Quality

Felix Naumann | Data Proling

Screenshots from Talend

Felix Naumann | Data Proling

Screenshots from Talend

Felix Naumann | Data Proling

Typical Shortcomings of Tools

Extensible profiling platform that incorporates

Algorithm execution Algorithm configuration

Most important tasks

Snapshot visualization of results

Snapshot different visualization

Advanced visualization techniques

Profiler: Integrated Statistical Analysis

Felix Naumann | Data Proling

You might also like