0% found this document useful (0 votes)

10 views8 pages

Lab 01-Form

The document provides an introduction to Weka, an open-source software for data mining, detailing its features and functionalities. It outlines tasks for exploring datasets, building classifiers, and using filters within the Weka environment, specifically focusing on datasets like weather and glass. Additionally, it includes instructions for visualizing data and evaluating classifier performance.

Uploaded by

nhatnampham0603

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views8 pages

Lab 01-Form

Uploaded by

nhatnampham0603

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

Introduction to Data Mining

Lab 1: Introduction to Weka

1.1. Introduction
Weka is an open-source software available at www.cs.waikato.ac.nz/ml/weka. Weka stands for the
Waikato Environment for Knowledge Analysis. It offers clean, spare implementation of the simplest
techniques, designed to aid understanding of the data mining techniques. It also provides a work-bench
that includes full, working, state-of-the-art implementations of many popular learning schemes that can
be used for practical data mining or for research.

In the first class, we are going to get started with Weka: exploring the “Explorer” interface, exploring
some datasets, building a classifier, using filters, and visualizing your dataset. (See the lecture of class 1
by Ian H. Witten, [1])

Task: Taking notes how you find the Explorer, and answering questions in the following sections

1.2. Exploring the Explorer

Follow the instructions in [1]

1.3. Exploring datasets

Follow the instructions in [1]

In dataset weather.nominal.arff, how many attributes are there in the relation? What are their values?
What is the class and its values? Counting instances for each attribute value.

1
Dataset Attributes Values #Instances
outlook sunny 5
Relation: overcast 4
weather.symBolic rainy 5
#Instances: 14 Distinct 3
#Attributes: 5 hot 4
temperature mild 6
cool 4
Distinct 3
high high
humidity normal normal
Distinct 2
TRUE TRUE
windy FALSE FALSE
Distinct 2
Class play yes yes
no no
Distinct 2

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Weather.numeric.arff

Dataset Attributes Values #Instances

outlook sunny 5
Relation: weather overcast 4
#Instances: 14 rainy 5
#Attributes: 5 Distinct 3
Minimum 64 Distinct 12
temperature Maximum 85
Mean 73.571
StdDev 6.572
Minimum 65 Distinct 10
humidity Maximum 96
Mean 81.643
StdDev 10.285
TRUE 6
windy FALSE 8
Distinct 2
Class play yes 9
no 5
Distinct 2

Glass.arff

Dataset Attributes Values #Instances

2
Dataset Attributes Values #Instances
Rl Minimum 1.511
Relation:Glass Maximum 1.534
#Instances: 214 Mean 1.518
#Attributes: 10 StdDev 0.003
Distinct: 178
Na Minimum 10.73
Maximum 17.38
Mean 13.408
StdDev 0.817
Distinct: 142
Mg Minimum 0
Maximum 4.49
Mean 2.685
StdDev 1.442
Distinct: 94
Al Minimum 0.29
Maximum 3.5
Mean 1.445
StdDev 0.499
Distinct: 118
Si Minimum 69.81
Maximum 75.41
Mean 72.651
StdDev 0.775
Distinct: 133
K Minimum 0
Maximum 6.21
Mean 0.497
StdDev 0.652
Distinct: 65
Ca Minimum 5.43
Maximum 16.19
Mean 8.957
StdDev 1.423
Distinct: 143
Ba Minimum 0
Maximum 3.15
Mean 0.175
StdDev 0.497
Distinct: 34
Fe Minimum 0
Maximum 0.51
Mean 0.057
StdDev 0.097
Distinct: 32
Class Type build wind float 70

3
build wind non-float 76
vehic wind float 17
vehic wind non-float 0
containers 13
tableware 9
headlamps 29
Distinct: 6

Create a file of ARFF format and examine it.

Dataset Attributes Values #Instances

temperature Minimum 20

Relation: air_quality Maximum 35

#Instances: 10 Mean 27.8

#Attributes: 5 StdDev 4.803

Distinct: 10

humidity Minimum 50

Maximum 90

Mean 70.8

StdDev 13.155

Distinct: 10

CO2_level Minimum 300

Maximum 800

Mean 535

StdDev 171.675

Distinct: 9

wind_speed Minimum 2

Maximum 7

Mean 4.1

4
StdDev 1.663

Distinct: 6

Class pollution low 4

moderate 3

high 3

Distinct: 3

1.4. Building a classifier

Follow the instructions in [1]

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

Algorithm Pruned/unpruned minNumObj No. of Leaves Correctly

Classified
Instances
J48 unpruned 15 8 131

Random tree N/A N/A N/A 150

5
Evaluate the confusion matrix every time running an algorithm.

J48 - unpruned - minNumObj = 15:

The algorithm is skewed towards classifying into a = build wind float, and b = build wind non-float

RandomTree:

The algorithm is skewed towards classifying into a = build wind float, and b = build wind non-float.
However, RandomTree provides better results than 148.

1.5. Using a filter

Follow the instructions in [1], and remark

6
_Use a filter to remove an attribute 

- What are attributeIndices? -

_Remove instances where humidity is high 

- What are nominalIndices? -

_Fewer attributes, better classification:

Follow the instructions in [1], review the outputs of J48 applied to glass.arff:

Filter Leaf size Correctly Classified Remark

Instances

Original

Remove Fe

Remove all
attributes
except RI and
MG

1.6. Visualizing your data

Follow the instructions in [1], how do you find “Visualize classifier errors”?

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? -

- What are they?

Instance Predicted class Actual class

7
8

Lab 01-PhamBinhDuong ITCSIU21054
No ratings yet
Lab 01-PhamBinhDuong ITCSIU21054
9 pages
NguyenCongSang ITITIU20292 Lab1
No ratings yet
NguyenCongSang ITITIU20292 Lab1
7 pages
NguyenThanhNam ITCSIU22311 Lab01
No ratings yet
NguyenThanhNam ITCSIU22311 Lab01
20 pages
Lab 01 - Nguyen Duy Phuc - ITDSIU21030
No ratings yet
Lab 01 - Nguyen Duy Phuc - ITDSIU21030
12 pages
Data Warehousing Lab Manual
No ratings yet
Data Warehousing Lab Manual
36 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
70 pages
Data Mining & Warehousing Lab Guide
No ratings yet
Data Mining & Warehousing Lab Guide
35 pages
DW Lab Manual
No ratings yet
DW Lab Manual
37 pages
Exp 6
No ratings yet
Exp 6
12 pages
Exp 2
No ratings yet
Exp 2
6 pages
WEKA Data Analysis Guide
No ratings yet
WEKA Data Analysis Guide
85 pages
Data Mining - Session #1 - Unlocked
No ratings yet
Data Mining - Session #1 - Unlocked
22 pages
Workshop 1
No ratings yet
Workshop 1
16 pages
WEKA Lab Manual
100% (2)
WEKA Lab Manual
107 pages
LAB Experiment Data Mining and Warehousing
No ratings yet
LAB Experiment Data Mining and Warehousing
33 pages
Lecture 12 - Weka Tutorial
No ratings yet
Lecture 12 - Weka Tutorial
84 pages
WEKA Toolkit Guide for Beginners
No ratings yet
WEKA Toolkit Guide for Beginners
37 pages
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
No ratings yet
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
6 pages
J48 & Naive Bayes Classification Guide
No ratings yet
J48 & Naive Bayes Classification Guide
3 pages
DMW FIle
No ratings yet
DMW FIle
27 pages
Introduction to WEKA: Features & Usage
No ratings yet
Introduction to WEKA: Features & Usage
51 pages
DWDM Lab - KUNYI KELVIN M
No ratings yet
DWDM Lab - KUNYI KELVIN M
60 pages
WEKA Manual
No ratings yet
WEKA Manual
25 pages
Examquestionbank PR
No ratings yet
Examquestionbank PR
4 pages
Weka Exercise 1: Beginner's Guide
No ratings yet
Weka Exercise 1: Beginner's Guide
7 pages
Weka Exercise 1
No ratings yet
Weka Exercise 1
7 pages
Data Warehousing - To Write
No ratings yet
Data Warehousing - To Write
23 pages
Lab Assignment Report: ECS 851 Data Warehousing and Data Mining
No ratings yet
Lab Assignment Report: ECS 851 Data Warehousing and Data Mining
69 pages
DM Assignments
No ratings yet
DM Assignments
4 pages
Data Mining with WEKA: Lab Manual
No ratings yet
Data Mining with WEKA: Lab Manual
69 pages
BI - Experiment - No - 1
No ratings yet
BI - Experiment - No - 1
7 pages
Weka Lab
No ratings yet
Weka Lab
11 pages
Data Mining and Warehouse Lab Manual
100% (1)
Data Mining and Warehouse Lab Manual
69 pages
Weka Data Analysis Guide
No ratings yet
Weka Data Analysis Guide
21 pages
Data Mining Record
No ratings yet
Data Mining Record
24 pages
DW Lab Manual
No ratings yet
DW Lab Manual
62 pages
Weka Data Mining & Preprocessing Guide
No ratings yet
Weka Data Mining & Preprocessing Guide
11 pages
Weka 3.6 Tutorial: Data Mining Guide
No ratings yet
Weka 3.6 Tutorial: Data Mining Guide
4 pages
DMW LabFile 0901CS243D11 Swastik
No ratings yet
DMW LabFile 0901CS243D11 Swastik
25 pages
Lab Manual
No ratings yet
Lab Manual
16 pages
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
No ratings yet
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
42 pages
Data Mining Unit 5
No ratings yet
Data Mining Unit 5
12 pages
NNN
No ratings yet
NNN
19 pages
DMLab
No ratings yet
DMLab
27 pages
Weka Data Mining for Breast Cancer Analysis
No ratings yet
Weka Data Mining for Breast Cancer Analysis
3 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
71 pages
Data Mining Guidelines
No ratings yet
Data Mining Guidelines
4 pages
CVR DWDM Manual
100% (1)
CVR DWDM Manual
70 pages
Data Mining Experiments with WEKA
No ratings yet
Data Mining Experiments with WEKA
33 pages
DWBI Lab Manual 2023-24 Final
No ratings yet
DWBI Lab Manual 2023-24 Final
40 pages
Weka Data Mining Guide
No ratings yet
Weka Data Mining Guide
12 pages
WEKA Data Transformation Guide
No ratings yet
WEKA Data Transformation Guide
9 pages
DMDV 210
No ratings yet
DMDV 210
63 pages
Impact of Background Music on Student Behavior
No ratings yet
Impact of Background Music on Student Behavior
57 pages
LAC Sessions Topics
No ratings yet
LAC Sessions Topics
4 pages
Neurodiversity in The Workplace
No ratings yet
Neurodiversity in The Workplace
2 pages
Lesson Plan Checking Farm Tools Co1
No ratings yet
Lesson Plan Checking Farm Tools Co1
5 pages
Fall 2024 Midterm Exam Schedule
No ratings yet
Fall 2024 Midterm Exam Schedule
2 pages
Data Science As Scientific Inquiry Moving Beyond Tools
No ratings yet
Data Science As Scientific Inquiry Moving Beyond Tools
3 pages
Embrace Your Dark Side A New Perspective On Negative Emotions - Big Think
No ratings yet
Embrace Your Dark Side A New Perspective On Negative Emotions - Big Think
1 page
Senior Design Project Proposal Template
No ratings yet
Senior Design Project Proposal Template
1 page
Illustrated Tajweed 2 (Jan 2025-Aug 2025)
0% (1)
Illustrated Tajweed 2 (Jan 2025-Aug 2025)
2 pages
MBT Quality Manual for Practitioners
100% (2)
MBT Quality Manual for Practitioners
123 pages
LISTING Layout Proof New
No ratings yet
LISTING Layout Proof New
11 pages
Multiples 10, 100, and 1 000
No ratings yet
Multiples 10, 100, and 1 000
4 pages
Chameleon Color Change Explained
No ratings yet
Chameleon Color Change Explained
2 pages
3-Month Internship Progress Report
No ratings yet
3-Month Internship Progress Report
1 page
Pivot How Top Entrepreneurs Adapt and Change Course To Find Ultimate Success 1st Edition Remy Arteaga
100% (3)
Pivot How Top Entrepreneurs Adapt and Change Course To Find Ultimate Success 1st Edition Remy Arteaga
22 pages
25 Ways For Colleges To Cut Costs US News
No ratings yet
25 Ways For Colleges To Cut Costs US News
3 pages
Motivation and Capability Exercises
No ratings yet
Motivation and Capability Exercises
6 pages
Christopher Cole's Marketing Resume
No ratings yet
Christopher Cole's Marketing Resume
1 page
Geometry Translation Guide
No ratings yet
Geometry Translation Guide
7 pages
1-AF Orientation 2023-09-12 06 - 44 - 36
No ratings yet
1-AF Orientation 2023-09-12 06 - 44 - 36
32 pages
Impact of 4G Technology in India
No ratings yet
Impact of 4G Technology in India
6 pages
Angol Nyelv: Középszint
No ratings yet
Angol Nyelv: Középszint
6 pages
Principles of Effective Curriculum Design
No ratings yet
Principles of Effective Curriculum Design
5 pages
IB History Paper 2 Authoritarian States Revision
No ratings yet
IB History Paper 2 Authoritarian States Revision
4 pages
IC Emerging Trends in Business Management Entrepreneurship, Technology, and Sustainability
No ratings yet
IC Emerging Trends in Business Management Entrepreneurship, Technology, and Sustainability
2 pages
Christmas Around the World Unit Plan
No ratings yet
Christmas Around the World Unit Plan
13 pages
Observing and Assessing Children Learning Story Assignment #3
No ratings yet
Observing and Assessing Children Learning Story Assignment #3
6 pages
International Business Honours Module
No ratings yet
International Business Honours Module
1 page
Quran Revolution Level 2 Course Overview
No ratings yet
Quran Revolution Level 2 Course Overview
7 pages
CURRICULUM MAP - VALUES 9-For Revision
No ratings yet
CURRICULUM MAP - VALUES 9-For Revision
17 pages

Lab 01-Form

Uploaded by

Lab 01-Form

Uploaded by

Introduction to Data Mining

Lab 1: Introduction to Weka

1.2. Exploring the Explorer

1.3. Exploring datasets

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Dataset Attributes Values #Instances

Dataset Attributes Values #Instances

Create a file of ARFF format and examine it.

Dataset Attributes Values #Instances

Relation: air_quality Maximum 35

#Instances: 10 Mean 27.8

#Attributes: 5 StdDev 4.803

CO2_level Minimum 300

Class pollution low 4

1.4. Building a classifier

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

Algorithm Pruned/unpruned minNumObj No. of Leaves Correctly

Random tree N/A N/A N/A 150

J48 - unpruned - minNumObj = 15:

1.5. Using a filter

- What are attributeIndices? -

_Remove instances where humidity is high 

- What are nominalIndices? -

_Fewer attributes, better classification:

Filter Leaf size Correctly Classified Remark

1.6. Visualizing your data

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? -

Instance Predicted class Actual class

You might also like