100% found this document useful (1 vote)

216 views1 page

Scikit-Learn Python Cheat Sheet

This document provides an overview of preprocessing techniques, model evaluation metrics, and machine learning algorithms in scikit-learn. It discusses preprocessing methods like standardization, normalization, binarization, imputing missing values, and generating polynomial features. It also covers metrics for evaluating classification models like accuracy score, classification report, and confusion matrix, as well as metrics for regression like mean absolute error, mean squared error, and R2 score. Finally, it introduces scikit-learn as a Python library for machine learning and provides a basic example of fitting a k-nearest neighbors classifier to the iris dataset.

Uploaded by

Lourdes Victoria Urrutia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

216 views1 page

Scikit-Learn Python Cheat Sheet

Uploaded by

Lourdes Victoria Urrutia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

> Preprocessing The Data > Evaluate Your Model’s Performance

Python For Data Science

Standardization Classification Metrics

Scikit-Learn Cheat Sheet >>>

>>>
>>>
from [Link] import StandardScaler

scaler = StandardScaler().fit(X_train)

standardized_X = [Link](X_train)

Accuracy Score
>>> [Link](X_test, y_test) #Estimator score method

>>> from [Link] import accuracy_score #Metric scoring functions

>>> standardized_X_test = [Link](X_test) >>> accuracy_score(y_test, y_pred)

Learn Scikit-Learn online at [Link]
Classification Report
Normalization >>> from [Link] import classification_report #Precision, recall, f1-score and support

>>> print(classification_report(y_test, y_pred))

>>> from [Link] import Normalizer

Confusion Matrix
>>> scaler = Normalizer().fit(X_train)

Scikit-learn >>>
>>>
normalized_X = [Link](X_train)

normalized_X_test = [Link](X_test)
>>> from [Link] import confusion_matrix

>>> print(confusion_matrix(y_test, y_pred))

Scikit-learn is an open source Python library that implements a range of Binarization Regression Metrics
machine learning, preprocessing, cross-validation and visualization

algorithms using a unified interface. >>> from [Link] import Binarizer

Mean Absolute Error
>>> binarizer = Binarizer(threshold=0.0).fit(X)
>>> from [Link] import mean_absolute_error

>>> binary_X = [Link](X)

A Basic Example >>> y_true = [3, -0.5, 2]

>>> mean_absolute_error(y_true, y_pred)

>>> from sklearn import neighbors, datasets, preprocessing

Encoding Categorical Features Mean Squared Error

>>> from sklearn.model_selection import train_test_split
>>> from [Link] import mean_squared_error

>>> from [Link] import accuracy_score

>>> from [Link] import LabelEncoder
>>> mean_squared_error(y_test, y_pred)
>>> iris = datasets.load_iris()
>>> enc = LabelEncoder()

>>> X, y = [Link][:, :2], [Link]

R² Score
>>> y = enc.fit_transform(y)
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33)
>>> from [Link] import r2_score

>>> scaler = [Link]().fit(X_train)

>>> r2_score(y_true, y_pred)
>>>
>>>
X_train = [Link](X_train)

X_test = [Link](X_test)

Imputing Missing Values

>>> knn = [Link](n_neighbors=5)

>>> from [Link] import Imputer

Clustering Metrics
>>> [Link](X_train, y_train)

>>> y_pred = [Link](X_test)

>>> imp = Imputer(missing_values=0, strategy='mean', axis=0)

>>> imp.fit_transform(X_train) Adjusted Rand Index

>>> accuracy_score(y_test, y_pred)
>>> from [Link] import adjusted_rand_score

Generating Polynomial Features >>> adjusted_rand_score(y_true, y_pred)

> Loading The Data Also see NumPy & Pandas

>>> from [Link] import PolynomialFeatures

Homogeneity

>>> from [Link] import homogeneity_score

>>> poly = PolynomialFeatures(5)

>>> homogeneity_score(y_true, y_pred)
Your data needs to be numeric and stored as NumPy arrays or SciPy sparse matrices. Other types that are >>> poly.fit_transform(X)
convertible to numeric arrays, such as Pandas DataFrame, are also acceptable. V-measure
>>> import numpy as np
>>> from [Link] import v_measure_score

> Create Your Model

>>> X = [Link]((10,5))
>>> metrics.v_measure_score(y_true, y_pred)
>>> y = [Link](['M','M','F','F','M','F','M','M','F','F','F'])

>>> X[X < 0.7] = 0

Cross-Validation
Supervised Learning Estimators
> Training And Test Data Linear Regression
>>> from sklearn.cross_validation import cross_val_score

>>> print(cross_val_score(knn, X_train, y_train, cv=4))

>>> print(cross_val_score(lr, X, y, cv=2))

>>> from sklearn.linear_model import LinearRegression

>>> from sklearn.model_selection import train_test_split

>>> lr = LinearRegression(normalize=True)
>>> X_train, X_test, y_train, y_test = train_test_split(X,

random_state=0)
Support Vector Machines (SVM)
>>> from [Link] import SVC

> Tune Your Model

>>> svc = SVC(kernel='linear')

Grid Search
> Model Fitting
Naive Bayes
>>> from sklearn.naive_bayes import GaussianNB

>>> gnb = GaussianNB() >>> from sklearn.grid_search import GridSearchCV

>>> params = {"n_neighbors": [Link](1,3),

Supervised learning KNN "metric": ["euclidean", "cityblock"]}

>>> [Link](X, y) #Fit the model to the data

>>> from sklearn import neighbors
>>> grid = GridSearchCV(estimator=knn,

>>> [Link](X_train, y_train)

>>> knn = [Link](n_neighbors=5) param_grid=params)

>>> [Link](X_train, y_train) >>> [Link](X_train, y_train)

>>> print(grid.best_score_)

Unsupervised Learning
Unsupervised Learning Estimators >>> print(grid.best_estimator_.n_neighbors)
>>> k_means.fit(X_train) #Fit the model to the data

>>> pca_model = pca.fit_transform(X_train) #Fit to data, then transform it

Principal Component Analysis (PCA) Randomized Parameter Optimization
>>> from [Link] import PCA

>>> pca = PCA(n_components=0.95) >>> from sklearn.grid_search import RandomizedSearchCV

> Prediction K Means

>>> params = {"n_neighbors": range(1,5), "weights": ["uniform", "distance"]}

>>> rsearch = RandomizedSearchCV(estimator=knn, param_distributions=params,

>>> from [Link] import KMeans

cv=4, n_iter=8, random_state=5)

Supervised Estimators >>> k_means = KMeans(n_clusters=3, random_state=0) >>> [Link](X_train, y_train)

>>> print(rsearch.best_score_)
>>> y_pred = [Link]([Link]((2,5))) #Predict labels

>>> y_pred = [Link](X_test) #Predict labels

>>> y_pred = knn.predict_proba(X_test) #Estimate probability of a label

Unsupervised Estimators
Learn Data Skills Online at [Link]
>>> y_pred = k_means.predict(X_test) #Predict labels in clustering algos

Python Data Science Cheat Sheet
100% (1)
Python Data Science Cheat Sheet
1 page
Scikit-learn Machine Learning Tutorial
No ratings yet
Scikit-learn Machine Learning Tutorial
17 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
5 pages
Data Science Interview Quesions
No ratings yet
Data Science Interview Quesions
22 pages
Machine Learning
100% (5)
Machine Learning
56 pages
Scikit-learn ML Course Guide
100% (1)
Scikit-learn ML Course Guide
23 pages
Customer Data Analysis & Feature Engineering
No ratings yet
Customer Data Analysis & Feature Engineering
35 pages
Machine Learning Lab Assignments
100% (2)
Machine Learning Lab Assignments
23 pages
Intro to ML: House Price Prediction
No ratings yet
Intro to ML: House Price Prediction
18 pages
Bagging and Random Forest Presentation1
100% (4)
Bagging and Random Forest Presentation1
23 pages
Data Structures Cheat Sheet
100% (1)
Data Structures Cheat Sheet
2 pages
ML0101EN Clus K Means Customer Seg Py v1
100% (1)
ML0101EN Clus K Means Customer Seg Py v1
8 pages
Machine Learning Concepts Explained
100% (3)
Machine Learning Concepts Explained
65 pages
Bagging and Boosting Regression Algorithms
100% (1)
Bagging and Boosting Regression Algorithms
84 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
2 pages
Statistics Probability
No ratings yet
Statistics Probability
66 pages
Understanding Decision Trees in Classification
100% (1)
Understanding Decision Trees in Classification
58 pages
Lecture 9 PDF
100% (1)
Lecture 9 PDF
28 pages
Coincent - Data Science With Python Assignment
100% (2)
Coincent - Data Science With Python Assignment
23 pages
Customer Churn Prediction Analysis
100% (1)
Customer Churn Prediction Analysis
3 pages
Stats & ML Model Comparisons
100% (1)
Stats & ML Model Comparisons
72 pages
Correlation Measures and Hypothesis Tests
100% (1)
Correlation Measures and Hypothesis Tests
24 pages
The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
AdaBoost Classifier Tutorial Python
100% (1)
AdaBoost Classifier Tutorial Python
9 pages
Azure Machine Learning Algorithm Cheat Sheet Nov2019
100% (1)
Azure Machine Learning Algorithm Cheat Sheet Nov2019
1 page
Module 1 Quiz - Coursera166
No ratings yet
Module 1 Quiz - Coursera166
1 page
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
4 pages
Finance-Focused Big Data Techniques
100% (1)
Finance-Focused Big Data Techniques
23 pages
Patient Data Management System
100% (1)
Patient Data Management System
27 pages
Bagging vs Pasting in Machine Learning
100% (1)
Bagging vs Pasting in Machine Learning
21 pages
Python Interview Questions 1653100147
No ratings yet
Python Interview Questions 1653100147
24 pages
Machine Learning Bits
100% (2)
Machine Learning Bits
28 pages
Project 5 PDF
100% (1)
Project 5 PDF
48 pages
Importing Stock Data with Pandas
100% (1)
Importing Stock Data with Pandas
4 pages
Cognizant GenC Python Cheat Sheet
No ratings yet
Cognizant GenC Python Cheat Sheet
2 pages
Outlines: Statements of Problems Objectives Bagging Random Forest Boosting Adaboost
100% (1)
Outlines: Statements of Problems Objectives Bagging Random Forest Boosting Adaboost
14 pages
KNN for Telecom Customer Segmentation
100% (1)
KNN for Telecom Customer Segmentation
11 pages
Thinkcspy 3
100% (1)
Thinkcspy 3
415 pages
Data Science Experiment Guide
100% (2)
Data Science Experiment Guide
43 pages
Classifying mRNA vs ncRNA Using ML
100% (1)
Classifying mRNA vs ncRNA Using ML
27 pages
Credit Card Fraud Detection Using Machine Learning
100% (1)
Credit Card Fraud Detection Using Machine Learning
82 pages
Key Scikit-Learn Models and Hyperparameters
No ratings yet
Key Scikit-Learn Models and Hyperparameters
1 page
IIIT-B Postgrad Assessment Guide
No ratings yet
IIIT-B Postgrad Assessment Guide
13 pages
Pandas Data Wrangling Cheat Sheet
100% (2)
Pandas Data Wrangling Cheat Sheet
6 pages
13 PracticalMachineLearning
100% (1)
13 PracticalMachineLearning
84 pages
Supervised Learning
No ratings yet
Supervised Learning
3 pages
Python Programs for Basic Calculations
No ratings yet
Python Programs for Basic Calculations
7 pages
Loading The Dataset: 'Churn - Modelling - CSV'
No ratings yet
Loading The Dataset: 'Churn - Modelling - CSV'
6 pages
Machine Learning and Linear Regression
100% (1)
Machine Learning and Linear Regression
55 pages
Tutorial 2 - Clustering
100% (2)
Tutorial 2 - Clustering
6 pages
Deep Learning CNN
100% (1)
Deep Learning CNN
22 pages
Python Revision Tour
No ratings yet
Python Revision Tour
14 pages
Decision Trees and Ensemble Learning
100% (1)
Decision Trees and Ensemble Learning
162 pages
Machine Learning Hands-On
100% (1)
Machine Learning Hands-On
18 pages
Scikit-Learn Algorithm Overview
No ratings yet
Scikit-Learn Algorithm Overview
1 page
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
1 page
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Scikit-Learn Classification Cheat Sheet
No ratings yet
Scikit-Learn Classification Cheat Sheet
1 page
Scikit-Learn: Library For Machine Learning and Data Science With Python
100% (1)
Scikit-Learn: Library For Machine Learning and Data Science With Python
11 pages
TDS WiredDesktop600 0906A
No ratings yet
TDS WiredDesktop600 0906A
2 pages
Lingua Latina Per Se Illustrat - Ørberg, Hans H. - 8297
83% (6)
Lingua Latina Per Se Illustrat - Ørberg, Hans H. - 8297
429 pages
STAT 0202 Outlier Syllabus - Spring 2020 - Regular Term (14-Wk) - 12-2
No ratings yet
STAT 0202 Outlier Syllabus - Spring 2020 - Regular Term (14-Wk) - 12-2
7 pages
Scipy Cheat Sheet Python For Data Science: Linear Algebra
No ratings yet
Scipy Cheat Sheet Python For Data Science: Linear Algebra
1 page
Numpy Cheat Sheet Python For Data Science: Inspecting Your Array Sorting Arrays
No ratings yet
Numpy Cheat Sheet Python For Data Science: Inspecting Your Array Sorting Arrays
1 page
Oracle Cloud Services Pricing
No ratings yet
Oracle Cloud Services Pricing
12 pages
Battlecards 001 CrowdStrike Channel Cloud v2-2
No ratings yet
Battlecards 001 CrowdStrike Channel Cloud v2-2
2 pages
FPGA TN 02052 1 4 iCE40 sysCLOCK PLL Design User Guide
No ratings yet
FPGA TN 02052 1 4 iCE40 sysCLOCK PLL Design User Guide
36 pages
AZ-104 Exam Part 2 Edited
No ratings yet
AZ-104 Exam Part 2 Edited
806 pages
Intro to Computer Systems & Binary
No ratings yet
Intro to Computer Systems & Binary
68 pages
Hardware Design - RISC-V - Single Cycle Datapath - Part-01 by Hassu Medium
No ratings yet
Hardware Design - RISC-V - Single Cycle Datapath - Part-01 by Hassu Medium
1 page
Se Home Assgnment
No ratings yet
Se Home Assgnment
2 pages
Characteristics of Robots
No ratings yet
Characteristics of Robots
6 pages
Sedco Magna L3200 C 2022
No ratings yet
Sedco Magna L3200 C 2022
3 pages
Microprocessor & Microcontroller Course
No ratings yet
Microprocessor & Microcontroller Course
3 pages
CNS Lab Manual
No ratings yet
CNS Lab Manual
32 pages
Cloud Security: Timothy Brown
No ratings yet
Cloud Security: Timothy Brown
40 pages
SD-WAN Control Plane Configuration-Final
No ratings yet
SD-WAN Control Plane Configuration-Final
18 pages
Computer Programming Assignments
No ratings yet
Computer Programming Assignments
5 pages
SAP RFC and Basis TCodes Overview
No ratings yet
SAP RFC and Basis TCodes Overview
2 pages
Nithya Narasimhan
No ratings yet
Nithya Narasimhan
14 pages
Lab Guide - Programming II - CIS-PRO-122
No ratings yet
Lab Guide - Programming II - CIS-PRO-122
112 pages
Salesforce Expert for IT Solutions
No ratings yet
Salesforce Expert for IT Solutions
7 pages
SCS 304 Course Outline
No ratings yet
SCS 304 Course Outline
3 pages
Chapter-3 2
No ratings yet
Chapter-3 2
79 pages
Jett D 25 00082
No ratings yet
Jett D 25 00082
29 pages
DA-IICT Placement Brochure 2024-25
No ratings yet
DA-IICT Placement Brochure 2024-25
53 pages
msp430 Unit4
No ratings yet
msp430 Unit4
118 pages
BC 1500
No ratings yet
BC 1500
22 pages
Prog12 1sbce101
No ratings yet
Prog12 1sbce101
32 pages
Comprehensive Guide to Artificial Intelligence
No ratings yet
Comprehensive Guide to Artificial Intelligence
4 pages
Advanced Tech Solutions Overview
No ratings yet
Advanced Tech Solutions Overview
48 pages
Data Center Insights & Trends 2023
100% (1)
Data Center Insights & Trends 2023
19 pages
Bluetooth - Smart - Software BLE 1.4 API RM
No ratings yet
Bluetooth - Smart - Software BLE 1.4 API RM
226 pages