R Programming for Data Analysis

1. Frank originally had 10 ounces of gold in each of his 3 bags. Sally added gold to each bag: 5 ounces to the first bag, 3 ounces to the second bag, and 12 ounces to the third bag. So now Frank has 15, 13, and 22 ounces of gold in each respective bag. 2. The document shows how to create data frames and manipulate data within them. Various plotting and summary functions are applied to the data frames as demonstrations. 3. The document demonstrates various statistical and data visualization techniques including describing data through measures like mean, median, range, standard deviation, histograms, boxplots, scatterplots and barplots. It also shows how to handle outliers and missing data.

Uploaded by

Xie Tia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

117 views6 pages

R Programming for Data Analysis

Uploaded by

Xie Tia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

1.

Frank has 3 bags of gold, containing 10 ounces each.

Sally adds five ounces to one of his bags, 3 ounces to another, and 12 to the last.
Use Vectors to show how much gold Frank has in each bag.
Upload R code to Assignment 1 using R Markdown in a Word (docx) format
Frank <-c(10,10,10)
Sally <-c(5,3,12)
Total <-Frank+Sally
Total
2.
#Print out one cell from the dataframe.
Sale[2,1]
View(Sale)
#Split the dataframe into two pieces
split(Sale, Sale$Cost)
split(Sale, Sale$Profit)
#Add up all the values in one column of the dataframe
sum(Sale$Cost)
3.
#Create a dataframe with 5 columns.
C1<-c(1,2,3,4,5,6,7,8,9)
C2<-c(2,3,4,5,6,7,8,9,10)
C3<-c(3,4,5,6,7,8,9,10,11)
C4<-c(4,5,6,7,8,9,10,11,12)
C5<-c(5,6,7,8,9,10,11,12,13)
dataframe<-[Link](C1,C2,C3,C4,C5)
View(dataframe)
#Boxplot
boxplot(dataframe)
#Scatterplot
plot(dataframe)
#Histogram
hist(dataframe)
#Calculate the standard deviation of the data in one column.
standard_deviation_C1<-sd(C1)
standard_deviation_C1
#Replace one of the datapoints with an outlier
dataframe[5,2]<-50
#Generate a new boxplot showing the outlier.
boxplot(dataframe)
4.
#Describing data
some_numbers<-c(13,15,16,20,30,4,5,6,7,8,90)
some_numbers<-some_numbers + some_numbers
some_numbers
#mean, median, range qiantile
mean_some_numbers<-mean(some_numbers)
mean_some_numbers

median_some_numbers<-median(some_numbers)
median_some_numbers

range_some_numbers<-range(some_numbers)
range_some_numbers

quantile_some_numbers<-quantile(some_numbers)
quantile_some_numbers

#standard deviation
standard_deviation_some_numbers<-sd(some_numbers)
standard_deviation_some_numbers

different_numbers<- c(1,3,4,5,6,7,7,7,3,8,10)
summary(some_numbers)
summary(different_numbers)
View(some_numbers)

#visualizing
plot(some_numbers)
some_numbers
plot(some_numbers, type = "h", col="pink", main="statistics", xlab="Value",ylab="number")
hist(some_numbers)
barplot(some_numbers)
boxplot(some_numbers)
some_dataframe<-[Link](some_numbers,different_numbers)
some_dataframe
plot(some_dataframe, type = "h", col="pink", main="statistics", xlab="Value",ylab="number")
some_dataframe[10,2]<-50
some_dataframe
5.
mydata<-Stocks
str(mydata)
head(mydata)
View(mydata)

names(mydata) [1:12]<-c("day", "Stock1","Stock2","Stock3","Stock4", "Stock5",

"Stock6","Stock7", "Stock8", "Stock9","Stock10", "Rating")
names(mydata)[1:12]
str(mydata)

mydata$Stock1<-[Link]([Link](mydata$Stock1))
mydata$Stock2<-[Link]([Link](mydata$Stock2))
mydata$Stock3<-[Link]([Link](mydata$Stock3))
mydata$Stock4<-[Link]([Link](mydata$Stock4))
mydata$Stock5<-[Link]([Link](mydata$Stock5))
mydata$Stock6<-[Link]([Link](mydata$Stock6))
mydata$Stock7<-[Link]([Link](mydata$Stock7))
mydata$Stock8<-[Link]([Link](mydata$Stock8))
mydata$Stock9<-[Link]([Link](mydata$Stock9))
mydata$Stock10<-[Link]([Link](mydata$Stock10))
mydata$Rating<-[Link]([Link](mydata$Rating))
str(mydata)
#check for null"NA"values
table([Link](mydata))
[Link](mydata)
#remove NA's by overwriting with the mean of that column
mydata$Stock1[[Link](mydata$Stock1)]=mean(mydata$Stock1,[Link] = TRUE)
6.
#Use three columns of data
weather<-c("rainy","snow","sunny")
time<-c("urgent","adequate","adequate")
health<-c("bad","good","good")
lawn<-c("no","yes","yes")
dataset<-[Link](weather,time,health,lawn)
View(dataset)
str(dataset)
dataset$weather<-[Link]([Link](dataset$weather))
dataset$time<-[Link]([Link](dataset$time))
dataset$health<-[Link]([Link](dataset$health))
dataset$lawn<-[Link]([Link](dataset$lawn))
str(dataset)
#Predicted
[Link](999)
train=dataset[trainIndex, ]
test=dataset[-trainIndex, ]
print(table(dataset$lawn))
print(train(dataset$lawn))
NBclassfier=naiveBayes(lawn~weather+time+health, dataset=train)
print(NBclassfier)
[Link] bayer
str(CreditRating)
CreditRating$PurchaseFrequency<-[Link]([Link](CreditRating$PurchaseFrequency))
CreditRating$CreditRating<-[Link]([Link](CreditRating$CreditRating))
CreditRating$Age<-[Link]([Link](CreditRating$Age))
CreditRating$Approval<-[Link]([Link](CreditRating$Approval))
str(CreditRating)

#Get package to divide data into training & test data

library(caret)
[Link](7267166) #random number generator
trainIndex=createDataPartition(CreditRating$Approval, p=0.7)$Resample1
train=CreditRating[trainIndex, ]
test=CreditRating[-trainIndex, ]

# check the balance y predicted

print(table(CreditRating$Approval))

print(table(train$Approval))
NBclassfier=naiveBayes(Approval~CreditRating+Age+Approval, data=train)
print(NBclassfier)
8.
#load dataset: iris
data("iris")
#view structure of dataset
str(iris)
#view summary of dataset
summary(iris)
#view top row
head(iris)
#creat new dataset
[Link]<- iris[,c(1,2,3,4)]
[Link]<- iris[,"Species"]
#view top row
head([Link])
head([Link])
normalize <- function(x){return ((x-min(x))/(max(x)-min(x)))}
[Link]$[Link]<- normalize([Link]$[Link])
[Link]$[Link]<- normalize([Link]$[Link])
[Link]$[Link]<- normalize([Link]$[Link])
[Link]$[Link]<- normalize([Link]$[Link])
#view top row
head([Link])
#apply k-means clustering algorithm
result<- kmeans([Link],3)
#give number of each cluster
result$size
# gives value of cluster center datapoint value
result$centers
#gives cluster vector
result$cluster
#Verify results of clustering
par(mfrow=c(2,2), mar=c(5,4,2,2))
# Plot to see sepal length and sepal width been distributed in clusters
plot([Link][c(1,2)], col=result$cluster)
# Plot to see Sepal. length and Sepal. width been distributed originally as per "class"
attribute in dataset
plot([Link][c(1,2)], col=[Link])
# Plot to see how [Link] and [Link] data points have been distributed in clusters
plot([Link][c(3,4)], col=result$cluster)
plot([Link][c(3,4)], col=[Link])
#Result of table
table(result$cluster,[Link])
9.
#explore data
View(grades)
str(grades)
table(grades$Level)
#clean data
grades$Level<-[Link]([Link](grades$Level))
str(grades)
[Link](2134)
ind<-sample(2,nrow(grades),replace = TRUE, prob = c(0.7,0.3))
train_set<-grades[ind==1,]
test_set<-grades[ind==2,]
nrow(train_set)
nrow(test_set)
#building desision tree
mytree<-tree(Level~Quiz1+Quiz2+Quiz3+Quiz4+Quiz5, data = train_set)
#summarize the model
summary(mytree)
#plot the tree
plot(mytree)
text(mytree,pretty=0, cex=0.6)
10.
#Import the [Link] file into Rstudio.
Summarize the data.
Remove the last column and create a boxplot from the remaining columns.
Create a scatterplot of column 1 and column 3.
Calculate the correlation between column 1 and 3.
data1<-[Link]("[Link]")
summary(data1)
data2<-data1[,-6]
boxplot(data2)
pairs(data2[, 1:3])
cor(data2[, 1:3])

Data Analysis of Dirty Iris Dataset
No ratings yet
Data Analysis of Dirty Iris Dataset
19 pages
R Lab Program
No ratings yet
R Lab Program
20 pages
Datamining 2
No ratings yet
Datamining 2
54 pages
Data Analytics Programs
No ratings yet
Data Analytics Programs
12 pages
Final Practical
No ratings yet
Final Practical
53 pages
R Data Analysis and Probability Toolkit
No ratings yet
R Data Analysis and Probability Toolkit
27 pages
Codes
No ratings yet
Codes
14 pages
Rlab
No ratings yet
Rlab
7 pages
R Assignment
No ratings yet
R Assignment
8 pages
ISYE6501 Homework 2
No ratings yet
ISYE6501 Homework 2
11 pages
R Program
No ratings yet
R Program
22 pages
Assignment 4 R Program1
No ratings yet
Assignment 4 R Program1
11 pages
R File Code
No ratings yet
R File Code
16 pages
Lecture 9 Machine Learning Using Caret API Updated
No ratings yet
Lecture 9 Machine Learning Using Caret API Updated
46 pages
DSR LAB MANUAL - 10 Programs
No ratings yet
DSR LAB MANUAL - 10 Programs
34 pages
R Course - Part7 ML - Exercise Sheet 2024
No ratings yet
R Course - Part7 ML - Exercise Sheet 2024
8 pages
R Lab File Deepak
No ratings yet
R Lab File Deepak
27 pages
Handling The Dataset Using R - Word
No ratings yet
Handling The Dataset Using R - Word
54 pages
R Programming Practical Exercises
No ratings yet
R Programming Practical Exercises
13 pages
Datamining Lab Record
No ratings yet
Datamining Lab Record
36 pages
Big Data
No ratings yet
Big Data
17 pages
R Data Preprocessing Guide
No ratings yet
R Data Preprocessing Guide
6 pages
R - Language Lab Manual - PG 2024
No ratings yet
R - Language Lab Manual - PG 2024
29 pages
MKT4080-Codes
No ratings yet
MKT4080-Codes
9 pages
R Basics for Beginners
No ratings yet
R Basics for Beginners
24 pages
R Companion Data Mining
No ratings yet
R Companion Data Mining
370 pages
DATAMINING
No ratings yet
DATAMINING
24 pages
R Commands
No ratings yet
R Commands
18 pages
R Record-1
No ratings yet
R Record-1
53 pages
SVM and KNN Classification Assignment
No ratings yet
SVM and KNN Classification Assignment
18 pages
Data Science Project
No ratings yet
Data Science Project
31 pages
Department of Computer Engineering Academic Term: June-Nov 2021
No ratings yet
Department of Computer Engineering Academic Term: June-Nov 2021
6 pages
Praktikum Modul 3
No ratings yet
Praktikum Modul 3
5 pages
EXXAM
No ratings yet
EXXAM
3 pages
Record
No ratings yet
Record
23 pages
Saurabh
No ratings yet
Saurabh
22 pages
BDA MSC It
No ratings yet
BDA MSC It
35 pages
Datamining
No ratings yet
Datamining
20 pages
Unit 4 DSRP
No ratings yet
Unit 4 DSRP
119 pages
ML 3
No ratings yet
ML 3
24 pages
Da Exp9,10
No ratings yet
Da Exp9,10
9 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Vighnesh - S Log 13
No ratings yet
Vighnesh - S Log 13
4 pages
R Machine Learning Commands Guide
No ratings yet
R Machine Learning Commands Guide
2 pages
Data Science
No ratings yet
Data Science
15 pages
Model 1
No ratings yet
Model 1
14 pages
M PDF
No ratings yet
M PDF
13 pages
Datamininganddataware
No ratings yet
Datamininganddataware
25 pages
Da Thoery
No ratings yet
Da Thoery
24 pages
DM Lab Practical Examination Report
No ratings yet
DM Lab Practical Examination Report
18 pages
EU IT Salary Prediction Analysis
No ratings yet
EU IT Salary Prediction Analysis
23 pages
ISYE6501 HW1 Kevin
No ratings yet
ISYE6501 HW1 Kevin
7 pages
R Pgms 30
No ratings yet
R Pgms 30
6 pages
R Data Analysis Techniques
No ratings yet
R Data Analysis Techniques
9 pages
Final Data Lab
No ratings yet
Final Data Lab
21 pages
India Credit Risk Model Development
No ratings yet
India Credit Risk Model Development
14 pages
R Program Corrections
No ratings yet
R Program Corrections
20 pages
R Code
No ratings yet
R Code
9 pages
Software Testing Principles Overview
No ratings yet
Software Testing Principles Overview
86 pages
S10 Decision Making
No ratings yet
S10 Decision Making
12 pages
Computer Science Unit 2 Notes
No ratings yet
Computer Science Unit 2 Notes
4 pages
Ec Kia Soul 2014
100% (1)
Ec Kia Soul 2014
175 pages
Decision Tree Algorithm: and Classification Problems Too
No ratings yet
Decision Tree Algorithm: and Classification Problems Too
12 pages
Dynamic Programming Introduction - Tutorial (Updated)
No ratings yet
Dynamic Programming Introduction - Tutorial (Updated)
6 pages
IVECO Gearbox Parts List
No ratings yet
IVECO Gearbox Parts List
4 pages
Soil Stress Analysis Guide
No ratings yet
Soil Stress Analysis Guide
15 pages
SCARP User Manual - r1.4
No ratings yet
SCARP User Manual - r1.4
50 pages
Technical Document Medonic M-Series M32 Hematology Analyzer: Product Name Manufacturer
No ratings yet
Technical Document Medonic M-Series M32 Hematology Analyzer: Product Name Manufacturer
18 pages
r912005518 vfcx610 Quick Start Guide 15 en 2017-12-12
No ratings yet
r912005518 vfcx610 Quick Start Guide 15 en 2017-12-12
92 pages
Cylinder Liner
100% (1)
Cylinder Liner
4 pages
Biology Experiment Guide
No ratings yet
Biology Experiment Guide
8 pages
Hydrocarbon JA
No ratings yet
Hydrocarbon JA
17 pages
EN FM-Eco4 User Manual
No ratings yet
EN FM-Eco4 User Manual
32 pages
IPL Win - Loss Doc 14 - 6 - 24
No ratings yet
IPL Win - Loss Doc 14 - 6 - 24
29 pages
Mathematical Modelling 1 Cheatsheet
No ratings yet
Mathematical Modelling 1 Cheatsheet
2 pages
MTR 14
No ratings yet
MTR 14
140 pages
GCE Physics Exam Guide 2004
No ratings yet
GCE Physics Exam Guide 2004
85 pages
2019 Old Mutual Final
No ratings yet
2019 Old Mutual Final
7 pages
Just in Time Revisited: Literature Review and Agenda For Future Research
No ratings yet
Just in Time Revisited: Literature Review and Agenda For Future Research
5 pages
Musical Excerpts Journal #1
50% (2)
Musical Excerpts Journal #1
5 pages
Understanding Poka-Yoke Mechanisms
No ratings yet
Understanding Poka-Yoke Mechanisms
2 pages
质子治疗束配系统电离室电子学研究赵斌清
No ratings yet
质子治疗束配系统电离室电子学研究赵斌清
111 pages
Air Compressibility Factor Table
No ratings yet
Air Compressibility Factor Table
2 pages
CMOS VLSI Design A Circuits and Systems Perspective 4th Edition Edition Weste Full Access
No ratings yet
CMOS VLSI Design A Circuits and Systems Perspective 4th Edition Edition Weste Full Access
125 pages
In Equality
No ratings yet
In Equality
7 pages
Music of Greek Antiquity PDF
100% (1)
Music of Greek Antiquity PDF
2 pages
FM Global Property Loss Prevention Data Sheets: List of Figures
No ratings yet
FM Global Property Loss Prevention Data Sheets: List of Figures
27 pages
Woodward-Fieser Rules for λmax Calculations
No ratings yet
Woodward-Fieser Rules for λmax Calculations
7 pages