0% found this document useful (0 votes)

31 views6 pages

Data Extraction and Analysis Techniques

Uploaded by

21131a05t4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

31 views6 pages

Data Extraction and Analysis Techniques

Uploaded by

21131a05t4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

week-1

January 29, 2024

#Week - 1
##1. Extract data from different file formats and display the summary statistics.
[ ]: import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

##Extraction from CSV file

[ ]: files = pd.read_csv("/content/sample_data/california_housing_train.csv")

[ ]: files.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17000 entries, 0 to 16999
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 longitude 17000 non-null float64
1 latitude 17000 non-null float64
2 housing_median_age 17000 non-null float64
3 total_rooms 17000 non-null float64
4 total_bedrooms 17000 non-null float64
5 population 17000 non-null float64
6 households 17000 non-null float64
7 median_income 17000 non-null float64
8 median_house_value 17000 non-null float64
dtypes: float64(9)
memory usage: 1.2 MB

[ ]: files.describe()

[ ]: longitude latitude housing_median_age total_rooms \

count 17000.000000 17000.000000 17000.000000 17000.000000
mean -119.562108 35.625225 28.589353 2643.664412
std 2.005166 2.137340 12.586937 2179.947071
min -124.350000 32.540000 1.000000 2.000000

1
25% -121.790000 33.930000 18.000000 1462.000000
50% -118.490000 34.250000 29.000000 2127.000000
75% -118.000000 37.720000 37.000000 3151.250000
max -114.310000 41.950000 52.000000 37937.000000

total_bedrooms population households median_income \

count 17000.000000 17000.000000 17000.000000 17000.000000
mean 539.410824 1429.573941 501.221941 3.883578
std 421.499452 1147.852959 384.520841 1.908157
min 1.000000 3.000000 1.000000 0.499900
25% 297.000000 790.000000 282.000000 2.566375
50% 434.000000 1167.000000 409.000000 3.544600
75% 648.250000 1721.000000 605.250000 4.767000
max 6445.000000 35682.000000 6082.000000 15.000100

median_house_value
count 17000.000000
mean 207300.912353
std 115983.764387
min 14999.000000
25% 119400.000000
50% 180400.000000
75% 265000.000000
max 500001.000000

[ ]: sns.boxplot(files["median_house_value"])

[ ]: <Axes: >

2
##Extraction from JSON file
[ ]: import json

[ ]: sample = json.load(open("/content/sample_data/anscombe.json"))

[ ]: sample = pd.DataFrame(sample)

[ ]: sample.describe()

[ ]: X Y
count 44.000000 44.000000
mean 9.000000 7.500455
std 3.198837 1.959244
min 4.000000 3.100000
25% 7.000000 6.117500
50% 8.000000 7.520000
75% 11.000000 8.747500
max 19.000000 12.740000

[ ]: sns.boxplot(sample)

3
[ ]: <Axes: >

##Extracting from MarkDown file

[ ]: import markdown as md
from bs4 import BeautifulSoup as bs
html = md.markdown(open("/content/sample_data/README.md").read())
print("".join(bs(html).findAll(text=True)))

This directory includes a few sample datasets to get you started.

california_housing_data*.csv is California housing data from the 1990 US

Census; more information is available at:
https://developers.google.com/machine-learning/crash-course/california-
housing-data-description

mnist_*.csv is a small sample of the

MNIST database, which is
described at: http://yann.lecun.com/exdb/mnist/

4
anscombe.json contains a copy of
Anscombe's quartet; it
was originally described in
Anscombe, F. J. (1973). 'Graphs in Statistical Analysis'. American
Statistician. 27 (1): 17-21. JSTOR 2682899.
and our copy was prepared by the
vega_datasets library.

<ipython-input-53-6b35d5dcf2d9>:4: DeprecationWarning: The 'text' argument to

find()-type methods is deprecated. Use 'string' instead.
print("".join(bs(html).findAll(text=True)))
##Extraction from Excel file
[ ]: ext = pd.read_excel("/content/drive/MyDrive/SAMPLES.xlsx")

[ ]: ext.describe()

[ ]: Amount Profit Quantity

count 19.000000 19.000000 19.000000
mean 1653.263158 146.684211 5.473684
std 1556.337825 527.299625 2.988281
min 6.000000 -891.000000 1.000000
25% 253.000000 -201.500000 4.000000
50% 1854.000000 1.000000 5.000000
75% 2430.500000 545.500000 6.500000
max 5729.000000 1151.000000 14.000000

[ ]: sns.boxplot(ext["Profit"])

[ ]: <Axes: >

5
[ ]:

California Housing Project
No ratings yet
California Housing Project
5 pages
Week 1 Get Familier With Jupyter Notebook
No ratings yet
Week 1 Get Familier With Jupyter Notebook
4 pages
P04 The Regression Pipeline - Preprocessing Ans
No ratings yet
P04 The Regression Pipeline - Preprocessing Ans
19 pages
Numpy
No ratings yet
Numpy
9 pages
Python Cheatsheet
No ratings yet
Python Cheatsheet
2 pages
Data Manipulation With Pandas - Yulei's Sandbox
No ratings yet
Data Manipulation With Pandas - Yulei's Sandbox
18 pages
Lab 03
No ratings yet
Lab 03
32 pages
Neural Network Housing Price Prediction
No ratings yet
Neural Network Housing Price Prediction
30 pages
California Housing Dataset
No ratings yet
California Housing Dataset
3 pages
Marvel Vs DC
No ratings yet
Marvel Vs DC
1 page
Python Assignment 1.ipynb - Colaboratory
No ratings yet
Python Assignment 1.ipynb - Colaboratory
3 pages
12.1 - 12.9 Introduction To Modules - Libraries For DataScience
No ratings yet
12.1 - 12.9 Introduction To Modules - Libraries For DataScience
54 pages
Pandas for Data Analysis Enthusiasts
No ratings yet
Pandas for Data Analysis Enthusiasts
9 pages
ISMLA Module5
No ratings yet
ISMLA Module5
25 pages
WQU Lecon 8 3
No ratings yet
WQU Lecon 8 3
549 pages
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
No ratings yet
Exp - 2-EDA - CaliforniaData Set - HeatMap - PairPlot-checkpoint - Jupyter Notebook
12 pages
Project Intern - Jupyter Notebook
No ratings yet
Project Intern - Jupyter Notebook
16 pages
Unit 2
No ratings yet
Unit 2
78 pages
Pandas Plotting Capabilities
No ratings yet
Pandas Plotting Capabilities
27 pages
Pandas Visualisation
No ratings yet
Pandas Visualisation
27 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
Real Estate Price Prediction Guide
No ratings yet
Real Estate Price Prediction Guide
13 pages
Injecttive Blockchain
No ratings yet
Injecttive Blockchain
14 pages
Day08-Pandas-Tutorial: Pandas - by Punith V T
No ratings yet
Day08-Pandas-Tutorial: Pandas - by Punith V T
8 pages
Lab 05 Questions
No ratings yet
Lab 05 Questions
7 pages
Python Data Analysis for Engineers
No ratings yet
Python Data Analysis for Engineers
13 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
Assignment-2: Pandas PD Numpy NP Seaborn Sns Matplotlib - Pyplot PLT
No ratings yet
Assignment-2: Pandas PD Numpy NP Seaborn Sns Matplotlib - Pyplot PLT
14 pages
Tung Wah College GEN3005 / GED3005 Big Data and Data Sciences
No ratings yet
Tung Wah College GEN3005 / GED3005 Big Data and Data Sciences
6 pages
External
No ratings yet
External
11 pages
4.1 Data Retrieval and Preprocessing of Python
No ratings yet
4.1 Data Retrieval and Preprocessing of Python
57 pages
Test 1 Datasheet
No ratings yet
Test 1 Datasheet
3 pages
Regression Pipeline in AI Techniques
No ratings yet
Regression Pipeline in AI Techniques
94 pages
Unit - 4 - Part 2
No ratings yet
Unit - 4 - Part 2
36 pages
DSPWK 12
No ratings yet
DSPWK 12
11 pages
Data Cleaning EDA
No ratings yet
Data Cleaning EDA
5 pages
End-to-End ML Pipeline Example
No ratings yet
End-to-End ML Pipeline Example
50 pages
Machine Learning Laboratory
No ratings yet
Machine Learning Laboratory
23 pages
Data Science Lab Manual: Pandas & Analysis
No ratings yet
Data Science Lab Manual: Pandas & Analysis
53 pages
Python For Data Analysis Jan 28
No ratings yet
Python For Data Analysis Jan 28
105 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
Untitled 5
No ratings yet
Untitled 5
10 pages
Module 2notes
No ratings yet
Module 2notes
44 pages
Fundamental - Python
No ratings yet
Fundamental - Python
3 pages
2 Program
No ratings yet
2 Program
8 pages
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
No ratings yet
Exp - 1 - Introduction To Data Analytics and Python Fundamentals - SDK - Ok
9 pages
ML Lab - Exp1-10
No ratings yet
ML Lab - Exp1-10
4 pages
Murali Internship
No ratings yet
Murali Internship
34 pages
California Housing Dataset Analysis
No ratings yet
California Housing Dataset Analysis
6 pages
13 Boost Your Data Analysis With Pandas
No ratings yet
13 Boost Your Data Analysis With Pandas
21 pages
10 Minutes To Pandas - Pandas 2.1.1 Documentation
No ratings yet
10 Minutes To Pandas - Pandas 2.1.1 Documentation
24 pages
The Data Science Process
100% (1)
The Data Science Process
53 pages
Python For Data Science - Unit 6 - Week 3
No ratings yet
Python For Data Science - Unit 6 - Week 3
4 pages
Python Data Science Week 3 Assignment
No ratings yet
Python Data Science Week 3 Assignment
3 pages
Data Visualization Techniques in Python
No ratings yet
Data Visualization Techniques in Python
5 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Data Science Lab Manual..
No ratings yet
Data Science Lab Manual..
54 pages
Pandas & PyNumS Essentials
No ratings yet
Pandas & PyNumS Essentials
10 pages
House Price Prediction Analysis
No ratings yet
House Price Prediction Analysis
10 pages
Social Media and The Internet
No ratings yet
Social Media and The Internet
1 page
Architecture as Structural Art
100% (2)
Architecture as Structural Art
183 pages
G2a Guide
No ratings yet
G2a Guide
12 pages
Game Crash Report: Windows 10
No ratings yet
Game Crash Report: Windows 10
5 pages
BSI ISO 14001 ISO 9001 Case Study APS UK EN PDF
No ratings yet
BSI ISO 14001 ISO 9001 Case Study APS UK EN PDF
2 pages
Computer-Aided Drawing
No ratings yet
Computer-Aided Drawing
38 pages
Registration For Unisys India Recruitment Drive 2025 Graduated Batch
No ratings yet
Registration For Unisys India Recruitment Drive 2025 Graduated Batch
2 pages
Infinite Ocean For Cinema 4D by C4Depot
No ratings yet
Infinite Ocean For Cinema 4D by C4Depot
4 pages
DCP T300 T500+DCP T700 Corto
No ratings yet
DCP T300 T500+DCP T700 Corto
4 pages
DTU Assistant Professor Recruitment 2019
No ratings yet
DTU Assistant Professor Recruitment 2019
22 pages
Computer Networks Exam Solutions
No ratings yet
Computer Networks Exam Solutions
6 pages
Liteon 2023 - FullProductBrochure - 20230419
No ratings yet
Liteon 2023 - FullProductBrochure - 20230419
20 pages
1 - An Introduction To Management Information Systems (MIS)
No ratings yet
1 - An Introduction To Management Information Systems (MIS)
37 pages
CBR+PNK - GM Guide - Prerelease (OEF) (2022-08-14)
No ratings yet
CBR+PNK - GM Guide - Prerelease (OEF) (2022-08-14)
2 pages
Smartphone Shopping Insights
No ratings yet
Smartphone Shopping Insights
19 pages
Ch-01 Introduction To Digital Electronics
No ratings yet
Ch-01 Introduction To Digital Electronics
35 pages
SaaS Security for IT Administrators
No ratings yet
SaaS Security for IT Administrators
5 pages
Digital Hardware: Integrated Circuits Overview
No ratings yet
Digital Hardware: Integrated Circuits Overview
20 pages
Computer System Architecture Course
No ratings yet
Computer System Architecture Course
3 pages
10 5 2011 14 23 7933 Vivek Kumar Dixit
No ratings yet
10 5 2011 14 23 7933 Vivek Kumar Dixit
3 pages
PAN Card Application & Correction Form
No ratings yet
PAN Card Application & Correction Form
1 page
Udaipur Times: Strategy of A Hyperlocal News Website: A Report For The Course
No ratings yet
Udaipur Times: Strategy of A Hyperlocal News Website: A Report For The Course
10 pages
Intro to Data Structures and Algorithms
No ratings yet
Intro to Data Structures and Algorithms
36 pages
Spatial and Attribute Data
No ratings yet
Spatial and Attribute Data
11 pages
Gallagher Scott
No ratings yet
Gallagher Scott
16 pages
Voice Mail Script for ERP Consulting
No ratings yet
Voice Mail Script for ERP Consulting
4 pages
Resistance Lab Report
100% (4)
Resistance Lab Report
14 pages
Unit 3, Pharmaceutical Engineering, B Pharmacy 3rd Sem, Carewell Pharma
No ratings yet
Unit 3, Pharmaceutical Engineering, B Pharmacy 3rd Sem, Carewell Pharma
55 pages
Job Profiles and Descriptions Compilation
No ratings yet
Job Profiles and Descriptions Compilation
9 pages
MSC Electronics Syllabus Final 2021
No ratings yet
MSC Electronics Syllabus Final 2021
43 pages

Data Extraction and Analysis Techniques

Uploaded by

Data Extraction and Analysis Techniques

Uploaded by

week-1

January 29, 2024

##Extraction from CSV file

[ ]: longitude latitude housing_median_age total_rooms \

total_bedrooms population households median_income \

##Extracting from MarkDown file

This directory includes a few sample datasets to get you started.

california_housing_data*.csv is California housing data from the 1990 US

mnist_*.csv is a small sample of the

<ipython-input-53-6b35d5dcf2d9>:4: DeprecationWarning: The 'text' argument to

[ ]: Amount Profit Quantity

You might also like