0% found this document useful (0 votes)

14 views6 pages

Medical Data Analysis and Modeling

Uploaded by

Murali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views6 pages

Medical Data Analysis and Modeling

Uploaded by

Murali

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

In [ ]: # Import required libraries

import pandas as pd
import numpy as np
import [Link] as plt
import seaborn as sns
from scipy import stats

In [ ]: # Read the dataset

df = pd.read_csv('medical_dataset.csv')

In [ ]: # 1. Basic Dataset Information

print("Dataset Shape:", [Link])
print("\nColumns:", [Link]())
print("\nData Types:\n", [Link])
print("\nMissing Values:\n", [Link]().sum())

In [ ]: # 2. Statistical Summary
print("\nNumerical Features Summary:")
numerical_summary = [Link]()
display(numerical_summary)
print("\nCategorical Features Summary:")
categorical_summary = df.select_dtypes(include=['object']).describe()
display(categorical_summary)

In [ ]: # 3. Disease Distribution
[Link](figsize=(12, 6))
[Link](data=df, x='diagnosis')
[Link]('Distribution of Diseases')
[Link](rotation=45)
plt.tight_layout()
[Link]()

In [ ]: # 4. Age Distribution by Disease

[Link](figsize=(12, 6))
[Link](data=df, x='diagnosis', y='age')
[Link]('Age Distribution by Disease')
[Link](rotation=45)
plt.tight_layout()
[Link]()

In [ ]: # 5. Correlation Analysis for Numerical Features

numerical_features = df.select_dtypes(include=['float64', 'int64']).columns
correlation_matrix = df[numerical_features].corr()

[Link](figsize=(12, 10))
[Link](correlation_matrix, annot=True, cmap='coolwarm', center=0)
[Link]('Correlation Matrix of Numerical Features')
plt.tight_layout()
[Link]()

In [ ]: # 6. Symptom Analysis by Disease

symptoms = ['fatigue', 'headache', 'nausea', 'chest_pain', 'shortness_of_breath', 'joint_pain', 'dizziness']

[Link](figsize=(15, 8))
df_symptoms_mean = [Link]('diagnosis')[symptoms].mean()
[Link](df_symptoms_mean, annot=True, cmap='YlOrRd', fmt='.2f')
[Link]('Average Symptom Intensity by Disease')
plt.tight_layout()
[Link]()

In [ ]: # 7. Vital Signs Distribution

vital_signs = ['blood_pressure_systolic', 'blood_pressure_diastolic', 'heart_rate', 'temperature']

fig, axes = [Link](2, 2, figsize=(15, 10))

[Link]('Distribution of Vital Signs')

for i, vital in enumerate(vital_signs):

row = i // 2
col = i % 2
[Link](data=df, x='diagnosis', y=vital, ax=axes[row, col])
axes[row, col].tick_params(axis='x', rotation=45)

plt.tight_layout()
[Link]()

In [ ]: # 8. BMI and Glucose Level Analysis

[Link](figsize=(12, 6))
[Link](data=df, x='bmi', y='glucose_level', hue='diagnosis', alpha=0.6)
[Link]('BMI vs Glucose Level by Disease')
plt.tight_layout()
[Link]()

In [ ]: # 9. Gender Distribution across Diseases

[Link](figsize=(12, 6))
gender_disease = [Link](df['diagnosis'], df['gender'], normalize='index') * 100
gender_disease.plot(kind='bar', stacked=True)
[Link]('Gender Distribution Across Diseases (%)')
[Link]('Percentage')
[Link](title='Gender')
plt.tight_layout()
[Link]()

In [ ]: # 10. Statistical Tests

print("\nStatistical Tests:")

# ANOVA test for age differences among diseases

f_statistic, p_value = stats.f_oneway(*[group['age'].values for name, group in [Link]('diagnosis')])
print("\nANOVA Test for Age Differences among Diseases:")
print(f"F-statistic: {f_statistic:.4f}")
print(f"p-value: {p_value:.4f}")

# Chi-square test for gender and disease association

chi2, p_value, dof, expected = stats.chi2_contingency([Link](df['diagnosis'], df['gender']))
print("\nChi-square Test for Gender and Disease Association:")
print(f"Chi-square statistic: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")

In [ ]: # 11. Descriptive Statistics by Disease

print("\nKey Metrics by Disease:")
disease_stats = [Link]('diagnosis').agg({
'age': ['mean', 'std'],
'bmi': ['mean', 'std'],
'glucose_level': ['mean', 'std'],
'cholesterol': ['mean', 'std']
}).round(2)
display(disease_stats)

In [ ]: # 12. Feature Distribution Plots

def plot_feature_distributions(df, features, ncols=3):
nrows = (len(features) + ncols - 1) // ncols
fig, axes = [Link](nrows, ncols, figsize=(15, 4*nrows))
axes = [Link]()

for i, feature in enumerate(features):

[Link](data=df, x=feature, hue='diagnosis', multiple="stack", ax=axes[i])
axes[i].tick_params(axis='x', rotation=45)

# Remove empty subplots if any

for j in range(i+1, len(axes)):
[Link](axes[j])

plt.tight_layout()
[Link]()

numerical_features = ['age', 'bmi', 'glucose_level', 'cholesterol', 'heart_rate']

plot_feature_distributions(df, numerical_features)

In [ ]: import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from [Link] import StandardScaler, LabelEncoder
from [Link] import accuracy_score, classification_report, confusion_matrix
from sklearn.linear_model import LogisticRegression
from [Link] import DecisionTreeClassifier
from [Link] import RandomForestClassifier, GradientBoostingClassifier
from [Link] import SVC
from [Link] import KNeighborsClassifier
import xgboost as xgb
import warnings
# Suppress scikit-learn warnings
[Link]("ignore", category=UserWarning)

In [ ]: # Load and preprocess the data

def prepare_data(file_path='medical_dataset.csv'):
# Read the dataset
df = pd.read_csv(file_path)

# Separate features and target

X = [Link](['diagnosis', 'patient_id'], axis=1)
y = df['diagnosis']

# Get unique classes

unique_classes = [Link]()

# Encode categorical variables

le_gender = LabelEncoder()
le_blood = LabelEncoder()
le_diagnosis = LabelEncoder()

X['gender'] = le_gender.fit_transform(X['gender'])
X['blood_type'] = le_blood.fit_transform(X['blood_type'])
y = le_diagnosis.fit_transform(y)

# Store label encoders and unique classes for future reference

encoders = {
'gender': le_gender,
'blood_type': le_blood,
'diagnosis': le_diagnosis,
'unique_classes': unique_classes
}

# Split the data

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Scale the features

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = [Link](X_test)

return X_train_scaled, X_test_scaled, y_train, y_test, encoders

def train_and_evaluate_models(X_train, X_test, y_train, y_test, encoders):

# Initialize models
models = {
'Logistic Regression': LogisticRegression(max_iter=1000),
'Decision Tree': DecisionTreeClassifier(),
'Random Forest': RandomForestClassifier(),
'Gradient Boosting': GradientBoostingClassifier(),
'SVM': SVC(),
'KNN': KNeighborsClassifier(),
'XGBoost': [Link]()
}

# Dictionary to store results

results = {}

# Get actual class names present in the data

class_names = list(encoders['unique_classes'])

# Train and evaluate each model

for name, model in [Link]():
print(f"\nTraining {name}...")

# Train the model

[Link](X_train, y_train)

# Make predictions
y_pred = [Link](X_test)

# Calculate metrics
accuracy = accuracy_score(y_test, y_pred)
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
# Store results
results[name] = {
'accuracy': accuracy,
'cv_mean': cv_scores.mean(),
'cv_std': cv_scores.std(),
'predictions': y_pred,
'model': model # Store the trained model
}

# Print results
print(f"{name} Results:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Cross-validation Score: {cv_scores.mean():.4f} (+/- {cv_scores.std()*2:.4f})")

# Get the labels actually present in the test set

unique_labels = [Link]([Link]([y_test, y_pred]))
present_class_names = [class_names[i] for i in unique_labels]

print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=present_class_names))

# Plot confusion matrix

[Link](figsize=(10, 8))
cm = confusion_matrix(y_test, y_pred)
[Link](cm, annot=True, fmt='d', cmap='Blues',
xticklabels=present_class_names,
yticklabels=present_class_names)
[Link](f'Confusion Matrix - {name}')
[Link]('True Label')
[Link]('Predicted Label')
[Link](rotation=45)
plt.tight_layout()
[Link]()

return results

def plot_model_comparison(results):
# Prepare data for plotting
models = list([Link]())
accuracies = [results[model]['accuracy'] for model in models]
cv_means = [results[model]['cv_mean'] for model in models]

# Plot comparison
[Link](figsize=(12, 6))
x = [Link](len(models))
width = 0.35

[Link](x - width/2, accuracies, width, label='Test Accuracy')

[Link](x + width/2, cv_means, width, label='CV Mean Accuracy')

[Link]('Models')
[Link]('Accuracy')
[Link]('Model Performance Comparison')
[Link](x, models, rotation=45)
[Link]()
plt.tight_layout()
[Link]()
def get_best_model(results):
# Find the model with the highest cross-validation score
best_model = max([Link](), key=lambda x: x[1]['cv_mean'])
return best_model[0], best_model[1]['cv_mean'], best_model[1]['model']

# Function to make predictions with the best model

def predict_disease(model, new_data, encoders, scaler):
# Preprocess new data
if isinstance(new_data, [Link]):
if 'gender' in new_data.columns:
new_data['gender'] = encoders['gender'].transform(new_data['gender'])
if 'blood_type' in new_data.columns:
new_data['blood_type'] = encoders['blood_type'].transform(new_data['blood_type'])

# Scale the features

new_data_scaled = [Link](new_data)

# Make prediction
prediction_encoded = [Link](new_data_scaled)

# Decode prediction
prediction = encoders['diagnosis'].inverse_transform(prediction_encoded)

return prediction

# Main execution
if __name__ == "__main__":
# Prepare the data
X_train, X_test, y_train, y_test, encoders = prepare_data()

# Train and evaluate models

results = train_and_evaluate_models(X_train, X_test, y_train, y_test, encoders)

# Plot model comparison

plot_model_comparison(results)

# Get the best model

best_model_name, best_score, model = get_best_model(results)
print(f"\nBest performing model: {best_model_name}")
print(f"Cross-validation accuracy: {best_score:.4f}")

In [ ]:

ML PDF
No ratings yet
ML PDF
30 pages
Disease Prediction with Machine Learning
No ratings yet
Disease Prediction with Machine Learning
573 pages
Machine Learning Algorithms in Python
No ratings yet
Machine Learning Algorithms in Python
8 pages
Evaluate Machine Learning Models in Python
No ratings yet
Evaluate Machine Learning Models in Python
7 pages
Diabetes Healthcare Data Analysis
No ratings yet
Diabetes Healthcare Data Analysis
6 pages
Wine Quality Prediction Models Analysis
No ratings yet
Wine Quality Prediction Models Analysis
4 pages
Data Preprocessing and ML Models
No ratings yet
Data Preprocessing and ML Models
5 pages
Data Analysis and Visualization Techniques
No ratings yet
Data Analysis and Visualization Techniques
13 pages
Scalable ML for Large Datasets Analysis
No ratings yet
Scalable ML for Large Datasets Analysis
7 pages
Python Code for Healthcare ML Analysis
No ratings yet
Python Code for Healthcare ML Analysis
8 pages
SK Krai Hardware Data Analysis Techniques
No ratings yet
SK Krai Hardware Data Analysis Techniques
38 pages
Data Analysis and ML Techniques Guide
No ratings yet
Data Analysis and ML Techniques Guide
18 pages
Fisher Iris Classification Analysis
No ratings yet
Fisher Iris Classification Analysis
22 pages
Python Machine Learning Programs Overview
No ratings yet
Python Machine Learning Programs Overview
12 pages
Data Analysis and Model Training Guide
No ratings yet
Data Analysis and Model Training Guide
7 pages
Decision Tree and Machine Learning Models
No ratings yet
Decision Tree and Machine Learning Models
40 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
37 pages
Handling Urllib Attribute Error
No ratings yet
Handling Urllib Attribute Error
30 pages
Build Regression and Classification Models
No ratings yet
Build Regression and Classification Models
15 pages
KNN and SVM for Car Purchase Prediction
No ratings yet
KNN and SVM for Car Purchase Prediction
36 pages
Heart Disease ML Classification Guide
No ratings yet
Heart Disease ML Classification Guide
8 pages
Heart Disease Data Analysis Insights
No ratings yet
Heart Disease Data Analysis Insights
9 pages
Heart Disease Data Analysis & Modeling
No ratings yet
Heart Disease Data Analysis & Modeling
29 pages
CatBoost with Auto Class Weights
No ratings yet
CatBoost with Auto Class Weights
12 pages
Correlation Analysis of California Housing
No ratings yet
Correlation Analysis of California Housing
33 pages
Tumor Classification with SVM in Python
No ratings yet
Tumor Classification with SVM in Python
13 pages
Data Preprocessing and EDA in Python
No ratings yet
Data Preprocessing and EDA in Python
21 pages
Machine Learning Model Implementations
No ratings yet
Machine Learning Model Implementations
23 pages
Machine Learning Lab Manual for B.Tech
No ratings yet
Machine Learning Lab Manual for B.Tech
19 pages
Titanic Dataset ML Analysis
No ratings yet
Titanic Dataset ML Analysis
10 pages
Titanic Data Analysis with Python
No ratings yet
Titanic Data Analysis with Python
20 pages
Heart Disease Classification with ML
No ratings yet
Heart Disease Classification with ML
10 pages
Parkinson's Disease Prediction Guide
No ratings yet
Parkinson's Disease Prediction Guide
16 pages
Perceptron Training and Evaluation Guide
No ratings yet
Perceptron Training and Evaluation Guide
10 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
9 pages
Data Science with maXbox 20
No ratings yet
Data Science with maXbox 20
7 pages
Mercedes-Benz Sustainable Manufacturing
0% (1)
Mercedes-Benz Sustainable Manufacturing
16 pages
Heart Disease Prediction with ML
No ratings yet
Heart Disease Prediction with ML
9 pages
Build Regression, Decision Trees, SVMs
No ratings yet
Build Regression, Decision Trees, SVMs
19 pages
NumPy and Pandas Data Analysis Techniques
No ratings yet
NumPy and Pandas Data Analysis Techniques
14 pages
Logistic Regression Model Evaluation
No ratings yet
Logistic Regression Model Evaluation
4 pages
KNN Classification Model Implementation
No ratings yet
KNN Classification Model Implementation
21 pages
Stress Dataset Analysis with ANN
No ratings yet
Stress Dataset Analysis with ANN
6 pages
Installing pgmpy for Bayesian Models
No ratings yet
Installing pgmpy for Bayesian Models
12 pages
Car Evaluation Data Analysis
No ratings yet
Car Evaluation Data Analysis
12 pages
Data Wrangling and Analysis Techniques
No ratings yet
Data Wrangling and Analysis Techniques
16 pages
California Housing Data Analysis
No ratings yet
California Housing Data Analysis
9 pages
Pattern Recognition Lab Experiments Guide
No ratings yet
Pattern Recognition Lab Experiments Guide
26 pages
Oracle Certified MSE Lab Assignments
No ratings yet
Oracle Certified MSE Lab Assignments
15 pages
FIND-S and ID3 Algorithm Implementations
No ratings yet
FIND-S and ID3 Algorithm Implementations
9 pages
Machine Learning Models in Python
No ratings yet
Machine Learning Models in Python
14 pages
Diet Data Classification with Python
No ratings yet
Diet Data Classification with Python
35 pages
Data Preprocessing and Model Evaluation Techniques
No ratings yet
Data Preprocessing and Model Evaluation Techniques
12 pages
Personal Loan Analysis with Machine Learning
100% (1)
Personal Loan Analysis with Machine Learning
15 pages
K-Means Clustering on Breast Cancer Data
No ratings yet
K-Means Clustering on Breast Cancer Data
15 pages
Heart Disease Prediction with ML Models
No ratings yet
Heart Disease Prediction with ML Models
16 pages
Remote Sensing Data Classification Techniques
No ratings yet
Remote Sensing Data Classification Techniques
43 pages
Diabetes Prediction Model in Python
No ratings yet
Diabetes Prediction Model in Python
4 pages
Data Visualization and SVM Experiments
No ratings yet
Data Visualization and SVM Experiments
19 pages
Understanding C++ Functions Basics
No ratings yet
Understanding C++ Functions Basics
47 pages
LEDI Network IN User Manual
No ratings yet
LEDI Network IN User Manual
72 pages
Mohamed Moshrif's Professional CV
No ratings yet
Mohamed Moshrif's Professional CV
1 page
SPSS Chart Creation Guide
No ratings yet
SPSS Chart Creation Guide
15 pages
A Sample Wi-Fi Hotspot Business Plan Template - ProfitableVenture
100% (2)
A Sample Wi-Fi Hotspot Business Plan Template - ProfitableVenture
13 pages
Using gcloud auth to List Accounts
No ratings yet
Using gcloud auth to List Accounts
8 pages
UAE SVF Compliance Regulation Overview
No ratings yet
UAE SVF Compliance Regulation Overview
7 pages
4-ANN Level 2
No ratings yet
4-ANN Level 2
61 pages
Understanding SIMD Architecture in Computing
No ratings yet
Understanding SIMD Architecture in Computing
67 pages
Toshiba e-STUDIO Error Codes Guide
No ratings yet
Toshiba e-STUDIO Error Codes Guide
3 pages
Understanding Hypervisors in Cloud Computing
No ratings yet
Understanding Hypervisors in Cloud Computing
54 pages
TMS 1000 Series Data Manual Dec76
No ratings yet
TMS 1000 Series Data Manual Dec76
46 pages
TSP Reading Brick
No ratings yet
TSP Reading Brick
88 pages
Control-M Scheduler/Administrator Profile
No ratings yet
Control-M Scheduler/Administrator Profile
2 pages
Low Pass Filter on Noisy Image
No ratings yet
Low Pass Filter on Noisy Image
1 page
Kubernetes Basics for Beginners Guide
100% (1)
Kubernetes Basics for Beginners Guide
76 pages
AViTRoN: Autonomous EV Charging System
No ratings yet
AViTRoN: Autonomous EV Charging System
22 pages
PyTorch Workflow Fundamentals Guide
No ratings yet
PyTorch Workflow Fundamentals Guide
43 pages
Graph Foundation Models: Insights & Challenges
No ratings yet
Graph Foundation Models: Insights & Challenges
23 pages
SIP Call Flow Analysis and Debugging
No ratings yet
SIP Call Flow Analysis and Debugging
8 pages
PPSC Provincial Management Test MCQs
No ratings yet
PPSC Provincial Management Test MCQs
126 pages
Launching Your First MVP Guide
No ratings yet
Launching Your First MVP Guide
39 pages
Memahami Computational Thinking dan TOKI
No ratings yet
Memahami Computational Thinking dan TOKI
33 pages
Beam Saber RPG Playtest Guide
0% (1)
Beam Saber RPG Playtest Guide
157 pages
CX300 ComXpert Communications Monitor
No ratings yet
CX300 ComXpert Communications Monitor
8 pages
Choosing the Right Internet Service Provider
No ratings yet
Choosing the Right Internet Service Provider
14 pages
Reliability Prediction Work Log Summary
No ratings yet
Reliability Prediction Work Log Summary
3 pages
Catalog Sync and Error Log Analysis
No ratings yet
Catalog Sync and Error Log Analysis
48 pages
COMP313 Test 2 Model Answers
No ratings yet
COMP313 Test 2 Model Answers
7 pages
5G's Transformative Role in Healthcare
No ratings yet
5G's Transformative Role in Healthcare
13 pages