0% found this document useful (0 votes)

275 views4 pages

Big Data Analytics Exam Answers Cleaned

The document provides answers to exam questions on Big Data Analytics, covering key concepts such as the characteristics of big data (volume, velocity, variety) and the differences between Business Intelligence and Data Science. It details the data science process, logistic regression, Hadoop architecture, distributed analysis patterns, and Spark SQL interface architecture. Each section outlines essential methodologies and applications relevant to data analytics.

Uploaded by

desaiadvait17

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

275 views4 pages

Big Data Analytics Exam Answers Cleaned

Uploaded by

desaiadvait17

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Big Data Analytics - Exam Answers

Answers to Big Data Analytics Exam Questions (MSc IT)

---

**Q.1 (A) (ii): What are the three characteristics of big data? Explain the differences
between BI and Data Science.**

Three Characteristics of Big Data (3Vs):

1. **Volume:** Big data involves massive amounts of data generated from various sources
like social media, sensors, digital transactions, etc. Traditional tools cannot handle such
huge volumes.
2. **Velocity:** Refers to the speed at which data is generated and processed. Big data
systems must handle real-time or near real-time data flows.
3. **Variety:** Big data comes in various formats including structured (databases), semi-
structured (XML, JSON), and unstructured (videos, images, text).

Differences between BI and Data Science:

| Feature | Business Intelligence (BI) | Data Science
|
|---------------------|----------------------------------------------------------|------------------------------------
--------------------|
| **Focus** | Past and present data analysis for decision-making | Predictive and
prescriptive analytics |
| **Tools** | Excel, SQL, Power BI, Tableau | Python, R, Machine Learning
libraries (e.g., scikit-learn) |
| **Data Handling** | Mostly structured data | Structured, semi-
structured, and unstructured data |
| **Output** | Dashboards, reports, KPIs | Predictive models,
algorithms, actionable insights |
| **Goal** | Business reporting and tracking | Discovering patterns,
automating decision-making |

---

**Q.1 (B) (ii): Write a short note on data science and data science process.**

**Data Science:**
Data Science is an interdisciplinary field that combines techniques from statistics, computer
science, and domain expertise to extract meaningful insights and knowledge from data. It
involves collecting, cleaning, analyzing, and interpreting large volumes of data to support
decision-making and create predictive models.
**Data Science Process:**
1. **Problem Understanding:** Define the objective and understand the business need.
2. **Data Collection:** Gather relevant data from different sources.
3. **Data Cleaning:** Remove inconsistencies, handle missing values, and correct errors.
4. **Exploratory Data Analysis (EDA):** Analyze trends, patterns, and relationships in the
data.
5. **Feature Engineering:** Create new features that can improve model performance.
6. **Model Building:** Apply algorithms such as regression, classification, or clustering.
7. **Evaluation:** Test the model using accuracy, precision, recall, etc.
8. **Deployment:** Integrate the model into the production environment.
9. **Monitoring and Maintenance:** Ensure continued model performance over time.

---

**Q.2 (A) (ii): What is Logistic Regression? Explain in detail. Also explain any two of its
applications.**

**Logistic Regression:**
Logistic regression is a statistical method used for binary classification problems, where the
outcome is categorical (e.g., yes/no, true/false). It uses a logistic function (sigmoid) to
model the probability of a binary response based on one or more independent variables.

**Logistic Function:**
\[ P(Y=1) = rac{1}{1 + e^{-(eta_0 + eta_1X_1 + \dots + eta_nX_n)}} \]

**Working:**
- It calculates the probability of a data point belonging to a certain class.
- Based on a threshold (usually 0.5), it classifies the data point into class 0 or class 1.

**Applications:**
1. **Spam Detection:** Identifying whether an email is spam or not.
2. **Medical Diagnosis:** Predicting whether a patient has a disease based on symptoms
and test results.

---

**Q.3 (A) (i): Write a short note on: The Data Science Pipeline**

Data Science Pipeline:

A data science pipeline outlines the sequence of steps followed in a data science project. It
helps streamline the process from data collection to model deployment.

**Phases:**
1. **Data Collection:** Gather data from APIs, databases, or web scraping.
2. **Data Preparation:** Clean, normalize, and transform raw data for analysis.
3. **Exploratory Data Analysis (EDA):** Visualize and explore data to find trends, patterns,
and correlations.
4. **Modeling:** Choose and apply appropriate algorithms to build predictive or
classification models.
5. **Evaluation:** Validate model accuracy using metrics like confusion matrix, ROC curve,
F1-score.
6. **Deployment:** Integrate the model into a business application or web interface.
7. **Monitoring:** Track model performance and update as needed.

---

Q.3 (B) (ii): Write a short note on Hadoop architecture.

**Hadoop Architecture:**
Hadoop has two primary components:

1. HDFS (Hadoop Distributed File System):

- Manages distributed storage.
- Consists of NameNode (master) and DataNodes (slaves).
- Stores large data by breaking it into blocks and distributing them.

2. YARN (Yet Another Resource Negotiator):

- Resource management and job scheduling layer.
- Contains ResourceManager and NodeManagers.

**Features:**
- Supports parallel processing.
- Ensures fault tolerance by replicating data.
- Allows scalability by adding new nodes.
- Data locality optimization ensures that computation occurs near data.

---

**Q.4 (A) (i): What are the Distributed Analysis and Patterns?**

**Distributed Analysis:**
It involves processing large data sets by distributing the data across multiple systems or
nodes. This enables faster computation and the ability to handle big data volumes.

**Common Patterns:**
1. **MapReduce Pattern:** Splits data into small chunks (Map), processes them in parallel,
and then combines the output (Reduce).
2. **Master-Slave Pattern:** One central master node manages multiple slave nodes which
perform the actual processing.
3. **Pipeline Pattern:** Data passes through a series of processing stages, each transforming
the data incrementally.

These patterns help optimize performance, improve fault tolerance, and make systems
scalable.
---

**Q.4 (B) (ii): Explain Spark SQL interface architecture with a neat diagram.**

Spark SQL Interface Architecture:

**Components:**
1. **Data Sources:** Includes Hive, JSON, JDBC, Parquet, Avro, etc.
2. **DataFrame API:** Allows developers to perform SQL-like operations on data.
3. **Catalyst Optimizer:** Optimizes queries using rule-based and cost-based strategies.
4. **Tungsten Execution Engine:** Improves execution using whole-stage code generation
and memory management.
5. **Query Execution:** Optimized query plans are executed over the distributed Spark
Core.

**Workflow:**
- User writes SQL or uses DataFrame API.
- Catalyst builds a logical plan and optimizes it.
- Tungsten executes the plan efficiently.

Data Analytics and Visualization Previous Year Questions
No ratings yet
Data Analytics and Visualization Previous Year Questions
4 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
CHAPTER 5 Slides
No ratings yet
CHAPTER 5 Slides
68 pages
Lec 6 Data Visualization
No ratings yet
Lec 6 Data Visualization
101 pages
Big Data Analytics Course Syllabus
No ratings yet
Big Data Analytics Course Syllabus
4 pages
1.+basics of DBMS
0% (1)
1.+basics of DBMS
45 pages
Data Mining-Outlier Analysis
No ratings yet
Data Mining-Outlier Analysis
6 pages
BCSC 1201 Digital Logic and Electronic Circuits EXAM MS
No ratings yet
BCSC 1201 Digital Logic and Electronic Circuits EXAM MS
7 pages
Question Bank - CSE-DS
No ratings yet
Question Bank - CSE-DS
5 pages
Scsa4003 - Business Analytics QB
No ratings yet
Scsa4003 - Business Analytics QB
6 pages
DSV Module-3
No ratings yet
DSV Module-3
24 pages
Digital Image Processing Question Bank
No ratings yet
Digital Image Processing Question Bank
1 page
CS3352 Fds
No ratings yet
CS3352 Fds
23 pages
KJSIT - ICETS 2025 Brochure
100% (1)
KJSIT - ICETS 2025 Brochure
7 pages
CS3352-FDS 2 Marks Questions With Answer
No ratings yet
CS3352-FDS 2 Marks Questions With Answer
20 pages
BCS Level 4 Module in Dat+
No ratings yet
BCS Level 4 Module in Dat+
19 pages
L1 - S2-23 - DSECLZG555 - Data Visualization and Interpretation
No ratings yet
L1 - S2-23 - DSECLZG555 - Data Visualization and Interpretation
73 pages
Data Stream Mining Techniques
No ratings yet
Data Stream Mining Techniques
16 pages
Overview of Data Science Concepts
No ratings yet
Overview of Data Science Concepts
40 pages
UNIT-III Data Warehouse and Minig Notes MDU
No ratings yet
UNIT-III Data Warehouse and Minig Notes MDU
42 pages
Data Warehousing and Mining Syllabus
No ratings yet
Data Warehousing and Mining Syllabus
2 pages
A Big Data Analytics Study Challenges, Unresolved Research Issues, and Techniques
100% (1)
A Big Data Analytics Study Challenges, Unresolved Research Issues, and Techniques
8 pages
DSBDAL - Assignment No 9
No ratings yet
DSBDAL - Assignment No 9
12 pages
Data Science For Business
No ratings yet
Data Science For Business
18 pages
Big Data Analytics Course 2023
No ratings yet
Big Data Analytics Course 2023
6 pages
Data Mining and Data Visualization Lab Manual 303108304
No ratings yet
Data Mining and Data Visualization Lab Manual 303108304
43 pages
OLAP, Data Mining, and Analysis Techniques
No ratings yet
OLAP, Data Mining, and Analysis Techniques
2 pages
Pitfalls in Relational Database Design
No ratings yet
Pitfalls in Relational Database Design
66 pages
Data Discretization Techniques
No ratings yet
Data Discretization Techniques
21 pages
Data Mining: Association Rules Basics
No ratings yet
Data Mining: Association Rules Basics
31 pages
Data Preprocessing
No ratings yet
Data Preprocessing
3 pages
Chapter 3 Database Systems and Big Data
No ratings yet
Chapter 3 Database Systems and Big Data
39 pages
Data Science and Big Data Analytics
0% (1)
Data Science and Big Data Analytics
3 pages
Fdsa Unit 5
No ratings yet
Fdsa Unit 5
48 pages
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
No ratings yet
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
15 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
10 pages
Challenges and Scope of Data Science Project
No ratings yet
Challenges and Scope of Data Science Project
21 pages
Machine Learning Regression Guide
No ratings yet
Machine Learning Regression Guide
6 pages
UNIX File System Basics
No ratings yet
UNIX File System Basics
62 pages
Object-Relational & NoSQL Databases
No ratings yet
Object-Relational & NoSQL Databases
46 pages
Mutual Fund Performance Analysis Tool
No ratings yet
Mutual Fund Performance Analysis Tool
24 pages
Unit 1 - Introduction
No ratings yet
Unit 1 - Introduction
8 pages
2022 Dec. ITT401-A
No ratings yet
2022 Dec. ITT401-A
2 pages
Data Mining Course Overview and Syllabus
No ratings yet
Data Mining Course Overview and Syllabus
129 pages
DS Module 1 Notes
No ratings yet
DS Module 1 Notes
25 pages
DWDM Unit 6 Cluster Analysis
No ratings yet
DWDM Unit 6 Cluster Analysis
183 pages
Object Relational DBMSs
No ratings yet
Object Relational DBMSs
34 pages
DWM-Experiment No-1,2,3,4,5,6,7,8
No ratings yet
DWM-Experiment No-1,2,3,4,5,6,7,8
42 pages
Syllabus - Social, Web and Mobile Analytics
No ratings yet
Syllabus - Social, Web and Mobile Analytics
7 pages
DBMS Basic Concepts
No ratings yet
DBMS Basic Concepts
56 pages
Counting Distinct Elements in Streams
No ratings yet
Counting Distinct Elements in Streams
19 pages
PART 1 - The Database Environment and Development Process
No ratings yet
PART 1 - The Database Environment and Development Process
34 pages
Data Preprocessing & Mining Techniques
No ratings yet
Data Preprocessing & Mining Techniques
8 pages
Data Mining
No ratings yet
Data Mining
15 pages
BigData Hadoop Notes
No ratings yet
BigData Hadoop Notes
101 pages
MCQs Topic 2.1 CRISP-DM Framework
No ratings yet
MCQs Topic 2.1 CRISP-DM Framework
6 pages
Unit 6
No ratings yet
Unit 6
143 pages
Harteg Notes
No ratings yet
Harteg Notes
4 pages
Big Data Questions Answers
No ratings yet
Big Data Questions Answers
2 pages
Bda Answers
No ratings yet
Bda Answers
18 pages
Troubleshooting ISL Isolation on TE Ports
No ratings yet
Troubleshooting ISL Isolation on TE Ports
3 pages
McKinsey's QuantumBlack Horizon Launch
No ratings yet
McKinsey's QuantumBlack Horizon Launch
5 pages
SF LRN Credit System Impl
No ratings yet
SF LRN Credit System Impl
22 pages
PTC Mathcad Prime v6.0.0.0 - Data Link
No ratings yet
PTC Mathcad Prime v6.0.0.0 - Data Link
3 pages
AC-DC System Interaction in HVDC Transmission
100% (9)
AC-DC System Interaction in HVDC Transmission
55 pages
19ges20 - Renewable Energy Sources
No ratings yet
19ges20 - Renewable Energy Sources
49 pages
Export RFC Destination Before System Refresh
No ratings yet
Export RFC Destination Before System Refresh
3 pages
Class X IT Sample Paper 2 Guide
No ratings yet
Class X IT Sample Paper 2 Guide
3 pages
Hi Ranger TM Series Specifications
No ratings yet
Hi Ranger TM Series Specifications
2 pages
VSAT Field Engineering Training
No ratings yet
VSAT Field Engineering Training
12 pages
Gamma Tips and Tricks
No ratings yet
Gamma Tips and Tricks
17 pages
X - Does Anyone Else Feel Like God Is Talking To Them - Paranormal - 4chan
No ratings yet
X - Does Anyone Else Feel Like God Is Talking To Them - Paranormal - 4chan
2 pages
Load Haul Dump: General Specification
No ratings yet
Load Haul Dump: General Specification
2 pages
RS Series Product Catalog Full
No ratings yet
RS Series Product Catalog Full
40 pages
A6V12027144 - Automation Station PXC4.E16 - en
No ratings yet
A6V12027144 - Automation Station PXC4.E16 - en
14 pages
Essenza RF
100% (3)
Essenza RF
118 pages
Iphone 12 and Iphone 12 Pro Service Program For No Sound Issues - Apple Support
No ratings yet
Iphone 12 and Iphone 12 Pro Service Program For No Sound Issues - Apple Support
2 pages
Samsung Watch Active2 en
No ratings yet
Samsung Watch Active2 en
81 pages
Ansys Autodyn: Workshop 6 Bird Strike
No ratings yet
Ansys Autodyn: Workshop 6 Bird Strike
26 pages
5AC Controllers
100% (1)
5AC Controllers
44 pages
API Security Solution Overview
No ratings yet
API Security Solution Overview
31 pages
Solis Manual s6 Eh1p (3 8) K L Plus Au
No ratings yet
Solis Manual s6 Eh1p (3 8) K L Plus Au
75 pages
Line Following Robot Algorithm Review
No ratings yet
Line Following Robot Algorithm Review
12 pages
Design and Technologies
100% (1)
Design and Technologies
92 pages
Sams Citizen Band Radio Vol 1 1961
100% (1)
Sams Citizen Band Radio Vol 1 1961
164 pages
The RDDL Network - Vision For A Physical Trust Layer - v1.3
No ratings yet
The RDDL Network - Vision For A Physical Trust Layer - v1.3
27 pages
RS3 Datasheet UHF
No ratings yet
RS3 Datasheet UHF
2 pages
A ISTQB CFTL 2018 Sample Questions Exam Set A
No ratings yet
A ISTQB CFTL 2018 Sample Questions Exam Set A
48 pages
Accord Campus Hiring 2022 Batch at GSSSIETW
No ratings yet
Accord Campus Hiring 2022 Batch at GSSSIETW
2 pages
اسئله سايبر فاينل
No ratings yet
اسئله سايبر فاينل
72 pages

Big Data Analytics Exam Answers Cleaned

Uploaded by

Big Data Analytics Exam Answers Cleaned

Uploaded by

Big Data Analytics - Exam Answers

**Answers to Big Data Analytics Exam Questions (MSc IT)**

**Three Characteristics of Big Data (3Vs):**

**Differences between BI and Data Science:**

**Data Science Pipeline:**

**Q.3 (B) (ii): Write a short note on Hadoop architecture.**

1. **HDFS (Hadoop Distributed File System):**

2. **YARN (Yet Another Resource Negotiator):**

**Spark SQL Interface Architecture:**

You might also like

Answers to Big Data Analytics Exam Questions (MSc IT)

Three Characteristics of Big Data (3Vs):

Differences between BI and Data Science:

Data Science Pipeline:

Q.3 (B) (ii): Write a short note on Hadoop architecture.

1. HDFS (Hadoop Distributed File System):

2. YARN (Yet Another Resource Negotiator):

Spark SQL Interface Architecture: