0% found this document useful (0 votes)

82 views

Datascience 2 PDF

The document describes performing bivariate and multivariate analysis on diabetes data from a UCI dataset. It includes: 1) Bivariate analysis using linear and logistic regression to analyze relationships between various feature pairs. 2) Multiple linear regression to analyze the relationship between outcomes and multiple explanatory features simultaneously. 3) Visualization of the data using various plotting functions in Seaborn, including density plots, histograms, scatter plots, and 3D plots to explore relationships in the data. 4) Mapping and visualization of geographic city data from California using basemap to plot cities on a map with colors and sizes representing population and area features.

Uploaded by

Vijayan .N

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

82 views

Datascience 2 PDF

Uploaded by

Vijayan .N

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 24

5.

b) BIVARIATE ANALYSIS ON DIABETES DATA

(i) BIVARIATE ANALYSIS USING LINEAR REGRESSION

PROGRAM:
import pandas as pd
import statsmodels.api as sm
data=pd.read_csv(“pima_diabetes.csv")
#create correlation matrix
data.corr()

#Bivariate Analysis of Glucose-Insulin features

#define response variable 1
y1= data['Glucose']

#define explanatory variable 1

x1= data[['Insulin']]

#add constant to predictor variables

x1= sm.add_constant(x1)

#fit linear regression model

model1 = sm.OLS(y1, x1).fit()

#view model summary

print(model1.summary())

#Bivariate Analysis of Age-Pregnancies features

#define response variable 2
y2 = data['Age']

#define explanatory variable 2

x2 = data['Pregnancies']
#add constant to predictor variables
x2 = sm.add_constant(x2)

#fit linear regression model model2

= sm.OLS(y2, x2).fit()

#view model summary

print(model2.summary())

#Bivariate Analysis of SkinThickness-BMI features

#define response variable 3
y3 = data['SkinThickness']

#define explanatory variable 3

x3 = data[['BMI']]

#add constant to predictor variables

x3 = sm.add_constant(x3)

#fit linear regression model

Model3 = sm.OLS(y3, x3).fit()

#view model summary

print(model3.summary())
OUTPUT:
a. Correlation Matrix

b. Bivariate Analysis of Glucose-Insulin features

c. Bivariate Analysis of Age-Pregnancies features

d. Bivariate Analysis of SkinThickness-BMI features

(ii) BIVARIATE ANALYSIS USING LOGISTIC REGRESSION

PROGRAM:
# importing libraries
import statsmodels.api as sm
import pandas as pd

# loading the training dataset

data = pd.read_csv('pima_diabetes.csv', index_col = 0)

# defining the dependent and independent variables

Xtrain = data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI',
'DiabetesPedigreeFunction','Age']]
ytrain = data[['Outcome']]

# building the model and fitting the data

log_reg = sm.Logit(ytrain, Xtrain).fit()

# printing the summary table

print(log_reg.summary())
OUTPUT:
5.c) MULTIPLE REGRESSION ANALYSIS ON DIABETES DATA

PROGRAM:
# importing modules and packages
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import statsmodels.api as ssm

# importing data
df = pd.read_csv('pima_diabetes.csv')

# creating feature variables

X = df.drop('Outcome', axis=1)
Y = df['Outcome']

X=ssm.add_constant(X) #to add constant value in the model

model= ssm.OLS(Y,X).fit() #fitting the model predictions=
model.summary() #summary of the model predictions
OUTPUT:
6. APPLICATION OF PLOTTING FUNCTIONS ON UCI DATASET

a) NORMAL CURVES

PROGRAM:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)

df = pd.read_csv("adult.csv")

#Check the structure of the data df.info()

sns.set(font_scale=1.5)
sns.catplot(x="relationship", y="age", data=df,
kind="point",hue='income',capsize=0.4,ci=None,aspect=2)

# Show plot
plt.xticks(rotation=90) plt.show()

sns.set(font_scale=1)
sns.relplot(x="educational-num", y="hours-per-week",
data=df, kind="line",row='income' , ci=None,
hue="relationship",style="relationship",markers=True,
dashes=False,aspect=2)

# Show plot
plt.show()
OUTPUT:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 age 48842 non-null int64
1 workclass 48842 non-null object
2 fnlwgt 48842 non-null int64
3 education 48842 non-null object
4 educational-num 48842 non-null int64
5 marital-status 48842 non-null object
6 occupation 48842 non-null object
7 relationship 48842 non-null object
8 race 48842 non-null object
9 gender 48842 non-null object
10 capital-gain 48842 non-null int64
11 capital-loss 48842 non-null int64
12 hours-per-week 48842 non-null int64
13 native-country 48842 non-null object 14 income 48842 non-null
object dtypes: int64(6), object(9)
memory usage: 5.6+ MB
b) DENSITY AND CONTOUR PLOTS

PROGRAM:
import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

import warnings warnings.simplefilter(action="ignore", category=FutureWarning)

df = pd.read_csv("adult.csv")

# set seaborn style

sns.set_style("white")

#Map a third variable “income” with a hue semantic to show conditional distributions
sns.kdeplot(data=df, x="age", y="educational-num", hue="income")

#Show filled contours

sns.kdeplot(data=df, x="age", y="educational-num", hue="income", fill=True)

sns.kdeplot(data=df, x="age", y="fnlwgt", hue="income")

sns.kdeplot(data=df, x="age", y="fnlwgt", hue="income", fill=True)

sns.kdeplot(data=df, x="age", y="hours-per-week", hue="income")

sns.kdeplot(data=df, x="age", y="hours-per-week", hue="income", fill=True)

c) CORRELATION AND SCATTER PLOTS

PROGRAM:

import numpy as np import

pandas as pd import

matplotlib.pyplot as plt import

seaborn as sns

import warnings

warnings.simplefilter(action="ignore", category=FutureWarning)

df = pd.read_csv("adult.csv")

# set seaborn style

sns.set_style("white")

sns.scatterplot(data=df[0:100], x="educational-num", y="hours-per-week")

sns.scatterplot(data=df[0:100], x="relationship", y="age")

sns.scatterplot(data=df[0:100], x="relationship", y="age", hue="income")

cormat = df.corr()
sns.heatmap(cormat, annot=True);
d) HISTOGRAMS

PROGRAM:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)

df = pd.read_csv("adult.csv")

# set seaborn style

sns.set_style("white")

<AxesSubplot:xlabel='hours-per-week', ylabel='Count'>
sns.histplot(data=df[:100], x="hours-per-week", kde=True, color="red")
<AxesSubplot:xlabel='hours-per-week', ylabel='Count'>

sns.distplot(df["hours-per-week"], color="green")
<AxesSubplot:xlabel='hours-per-week', ylabel='Density'>

sns.histplot(data=df, x="hours-per-week", bins=10)

<AxesSubplot:xlabel='hours-per-week', ylabel='Count'>
sns.histplot(data=df[:100], x="hours-per-week", hue="income", multiple="stack")

sns.histplot(data=df[:100], x="age", hue="income", multiple="stack")

<AxesSubplot:xlabel='age', ylabel='Count'>
df.hist(figsize=(12,12), layout=(3,3), sharex=False)
array([[<AxesSubplot:title={'center':'age'}>,
<AxesSubplot:title={'center':'fnlwgt'}>,
<AxesSubplot:title={'center':'educational-num'}>],
[<AxesSubplot:title={'center':'capital-gain'}>,
<AxesSubplot:title={'center':'capital-loss'}>,
<AxesSubplot:title={'center':'hours-per-week'}>],
[<AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>]], dtype=object)
e) THREE-DIMENSIONAL PLOTTING

PROGRAM:
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px

df = pd.read_csv("adult.csv")

fig = px.scatter_3d(df[:200], x='age', y='capital-gain', z='hours-per-week', color='income')

fig.show()

fig1 = px.scatter_3d(df[:200], x='age', y='educational-num', z='relationship', color='income')

fig1.show()
7 . VISUALIZING GEOGRAPHIC DATA WITH BASEMAP

PROGRAM:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.basemap import Basemap

cities = pd.read_csv('california_cities.csv')

# Extract the data

lat = cities['latd'].values
lon = cities['longd'].values
population = cities['population_total'].values
area= cities['area_total_km2'].values
# Draw the map background
fig = plt.figure(figsize=(8, 8))
m = Basemap(projection='lcc', resolution='h', lat_0=37.5, lon_0=-119, width=1E6,
height=1.2E6)
m.shadedrelief()
m.drawcoastlines(color='gray')
m.drawcountries(color='gray')
m.drawstates(color='gray')

# scatter city data, with color reflecting population and size reflecting area
m.scatter(lon, lat, latlon=True, c=np.log10(population), s=area, cmap='Reds', alpha=0.5)

# create colorbar and legend

plt.colorbar(label=r'$\log_{10}({\rm population})$') plt.clim(3, 7)

# make legend with dummy points for

a in [100, 300, 500]:
plt.scatter([], [], c='k', alpha=0.5, s=a, label=str(a) + ' km$^2$')
plt.legend(scatterpoints=1, frameon=False, labelspacing=1, loc='lower left')

Supervised Learning
100% (1)
Supervised Learning
15 pages
IASSC LeanSixSigma BoK GreenBelt
100% (1)
IASSC LeanSixSigma BoK GreenBelt
8 pages
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
No ratings yet
Step-By-Step-Diabetes-Classification-Knn-Detailed-Copy1 - Jupyter Notebook
12 pages
Project paarth (1) (1)
No ratings yet
Project paarth (1) (1)
21 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
06 Seaborn
No ratings yet
06 Seaborn
13 pages
CS-3361-Data-science-lab Manual
No ratings yet
CS-3361-Data-science-lab Manual
36 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
Data Visualization
No ratings yet
Data Visualization
13 pages
datascience pgms
No ratings yet
datascience pgms
5 pages
FDS Lab Question Bank
No ratings yet
FDS Lab Question Bank
11 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Logistic Regression With Pyspark
No ratings yet
Logistic Regression With Pyspark
19 pages
Salary Prediction
No ratings yet
Salary Prediction
32 pages
4-10 Aiml
No ratings yet
4-10 Aiml
25 pages
DALab Part-B BCU&BU
No ratings yet
DALab Part-B BCU&BU
12 pages
Data science and analtics Laboratory
No ratings yet
Data science and analtics Laboratory
21 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
DA Manual - Part B
No ratings yet
DA Manual - Part B
13 pages
Linear and Multilinear Regression
No ratings yet
Linear and Multilinear Regression
5 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
Health Insurance Lead Prediction
No ratings yet
Health Insurance Lead Prediction
21 pages
Unit5 - Logistic Regression
No ratings yet
Unit5 - Logistic Regression
4 pages
ML Proj Diabetes.pptx
No ratings yet
ML Proj Diabetes.pptx
51 pages
Vedant,Aiml
No ratings yet
Vedant,Aiml
63 pages
Data Science Manual
No ratings yet
Data Science Manual
16 pages
ML 7
No ratings yet
ML 7
6 pages
DOC-20241108-WA0003
No ratings yet
DOC-20241108-WA0003
16 pages
Logistic Regression
No ratings yet
Logistic Regression
12 pages
Rimjhim
No ratings yet
Rimjhim
21 pages
Data Pre-Processing
No ratings yet
Data Pre-Processing
22 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
Fds Slips
No ratings yet
Fds Slips
6 pages
batch1 ds
No ratings yet
batch1 ds
15 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
No ratings yet
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
8 pages
healthcare-project-simplilearn- Week3
No ratings yet
healthcare-project-simplilearn- Week3
7 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
Credit_defaulters_prediction-using-logostic-regression
No ratings yet
Credit_defaulters_prediction-using-logostic-regression
17 pages
Fds Mannual
No ratings yet
Fds Mannual
39 pages
ML Data Preprocessing in Python
No ratings yet
ML Data Preprocessing in Python
9 pages
# Load Packages: Pandas Pandas PD PD Numpy Numpy NP NP
No ratings yet
# Load Packages: Pandas Pandas PD PD Numpy Numpy NP NP
17 pages
'Name-Piyush Tiwari''/n' 'Section - C'/N' 'Roll - No-2001610100142'
No ratings yet
'Name-Piyush Tiwari''/n' 'Section - C'/N' 'Roll - No-2001610100142'
28 pages
EDA Python Code Cheatsheets
No ratings yet
EDA Python Code Cheatsheets
52 pages
healthcare-project-simplilearn- Week2
No ratings yet
healthcare-project-simplilearn- Week2
8 pages
CS3362 Data Science Laboratory Manual 2022-23
No ratings yet
CS3362 Data Science Laboratory Manual 2022-23
54 pages
Python Solution
No ratings yet
Python Solution
30 pages
Pandas Visualisation
No ratings yet
Pandas Visualisation
27 pages
Pandas Plotting Capabilities
No ratings yet
Pandas Plotting Capabilities
27 pages
Logistic Regression
No ratings yet
Logistic Regression
16 pages
Building Logistic regression model in python
No ratings yet
Building Logistic regression model in python
24 pages
Experiment No 9
No ratings yet
Experiment No 9
13 pages
ML Lab Programs PDF
No ratings yet
ML Lab Programs PDF
15 pages
Diabetes_Prediction_1704256341
No ratings yet
Diabetes_Prediction_1704256341
17 pages
Logistic - Ipynb - Colaboratory
No ratings yet
Logistic - Ipynb - Colaboratory
6 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Diabetic Prediction Using LogicalRegression
No ratings yet
Diabetic Prediction Using LogicalRegression
9 pages
Print Print Print Print: Import As
No ratings yet
Print Print Print Print: Import As
6 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
50 Java Concepts Every Developer Should Know
From Everand
50 Java Concepts Every Developer Should Know
Hernando Abella
No ratings yet
Instant Download Basic Business Statistics 13th Edition (eBook PDF) PDF All Chapters
100% (5)
Instant Download Basic Business Statistics 13th Edition (eBook PDF) PDF All Chapters
55 pages
Group 8 - EFC Project Report
No ratings yet
Group 8 - EFC Project Report
21 pages
Chapter 3 Special Continuous Distribution
No ratings yet
Chapter 3 Special Continuous Distribution
54 pages
Analisis Sistem Antrian Terhadap Kepuasan Nasabah
No ratings yet
Analisis Sistem Antrian Terhadap Kepuasan Nasabah
7 pages
House Price Prediction Analysis Project
No ratings yet
House Price Prediction Analysis Project
7 pages
Answers and Solutions To Exercises
No ratings yet
Answers and Solutions To Exercises
14 pages
Select Answers To Montgomery (5th Ed)
No ratings yet
Select Answers To Montgomery (5th Ed)
4 pages
S1 Oct 22 QP
No ratings yet
S1 Oct 22 QP
28 pages
Goodness of Fit Test
No ratings yet
Goodness of Fit Test
3 pages
Nov 2024 p2 [1 of 3] Stats (Last Supper)
No ratings yet
Nov 2024 p2 [1 of 3] Stats (Last Supper)
7 pages
Hypothesis Testing: Two Populations: Learning Objectives
No ratings yet
Hypothesis Testing: Two Populations: Learning Objectives
23 pages
Datamites Data Analyst Brochure
No ratings yet
Datamites Data Analyst Brochure
17 pages
Identifying Market Opportunities - Market Research
No ratings yet
Identifying Market Opportunities - Market Research
7 pages
Download Study Resources for Miller and Freunds Probability and Statistics for Engineers 9th Edition Johnson Solutions Manual
100% (17)
Download Study Resources for Miller and Freunds Probability and Statistics for Engineers 9th Edition Johnson Solutions Manual
56 pages
Araw, Eronn Ezekiel F. - Assignment3-Stat
No ratings yet
Araw, Eronn Ezekiel F. - Assignment3-Stat
3 pages
Session 10 Lecture Notes 0216
No ratings yet
Session 10 Lecture Notes 0216
17 pages
P.S.G.R.Krishnammal College For Women
No ratings yet
P.S.G.R.Krishnammal College For Women
4 pages
Experimental Design I Lecture Notes 1
No ratings yet
Experimental Design I Lecture Notes 1
33 pages
MOdule 4 - Measures of Position
No ratings yet
MOdule 4 - Measures of Position
13 pages
Corelatii
No ratings yet
Corelatii
16 pages
Uster Statistics-50s CBD Compact Cone
100% (1)
Uster Statistics-50s CBD Compact Cone
6 pages
Output Dot Plot Chapter 4 Hal. 95
No ratings yet
Output Dot Plot Chapter 4 Hal. 95
9 pages
Vector Auto Regression in Eview Ike
100% (3)
Vector Auto Regression in Eview Ike
37 pages
Kinerja Harga Saham Jangka Pendek Dan Jangka Panjang Setelah Penawaran Saham Perdana (Ipo)
No ratings yet
Kinerja Harga Saham Jangka Pendek Dan Jangka Panjang Setelah Penawaran Saham Perdana (Ipo)
18 pages
Introduction To Econometrics, 5 Edition
No ratings yet
Introduction To Econometrics, 5 Edition
33 pages
Structural Equation Modeling
No ratings yet
Structural Equation Modeling
14 pages
Quality) Terhadap Keputusan Pembelian (Purchase Decision) Melalui
No ratings yet
Quality) Terhadap Keputusan Pembelian (Purchase Decision) Melalui
12 pages
Midterm BioStat 2023 Ans
No ratings yet
Midterm BioStat 2023 Ans
13 pages
Tutorial Chapter 3-STA
No ratings yet
Tutorial Chapter 3-STA
2 pages

Datascience 2 PDF

Uploaded by

Datascience 2 PDF

Uploaded by

5.

b) BIVARIATE ANALYSIS ON DIABETES DATA

(i) BIVARIATE ANALYSIS USING LINEAR REGRESSION

#Bivariate Analysis of Glucose-Insulin features

#define explanatory variable 1

#add constant to predictor variables

#fit linear regression model

#view model summary

#Bivariate Analysis of Age-Pregnancies features

#define explanatory variable 2

#fit linear regression model model2

#view model summary

#Bivariate Analysis of SkinThickness-BMI features

#define explanatory variable 3

#add constant to predictor variables

#fit linear regression model

#view model summary

b. Bivariate Analysis of Glucose-Insulin features

d. Bivariate Analysis of SkinThickness-BMI features

# loading the training dataset

# defining the dependent and independent variables

# building the model and fitting the data

# printing the summary table

# creating feature variables

X=ssm.add_constant(X) #to add constant value in the model

#Check the structure of the data df.info()

import matplotlib.pyplot as plt

import seaborn as sns

import warnings warnings.simplefilter(action="ignore", category=FutureWarning)

# set seaborn style

#Show filled contours

sns.kdeplot(data=df, x="age", y="educational-num", hue="income", fill=True)

sns.kdeplot(data=df, x="age", y="fnlwgt", hue="income", fill=True)

sns.kdeplot(data=df, x="age", y="hours-per-week", hue="income", fill=True)

import numpy as np import

matplotlib.pyplot as plt import

# set seaborn style

sns.scatterplot(data=df[0:100], x="educational-num", y="hours-per-week")

sns.scatterplot(data=df[0:100], x="relationship", y="age", hue="income")

# set seaborn style

sns.histplot(data=df, x="hours-per-week", bins=10)

sns.histplot(data=df[:100], x="age", hue="income", multiple="stack")

fig = px.scatter_3d(df[:200], x='age', y='capital-gain', z='hours-per-week', color='income')

fig1 = px.scatter_3d(df[:200], x='age', y='educational-num', z='relationship', color='income')

# Extract the data

# create colorbar and legend

# make legend with dummy points for

You might also like