ANÁLISIS DE DATOS EN POWER BI
INTRODUCCIÓN
Como analista de datos, tiene una misión entender y usar bases de datos para influir de
manera positiva en el cambio dentro de la empresa.
Debe ser capaz de examinar los datos y facilitar decisiones empresariales de confianza.
Después, necesitará la capacidad de examinar las métricas y comprender claramente su
significado.
INFORMACIÓN GENERAL SOBRE EL ANÁLISIS DE DATOS
El análisis de datos es el proceso de identificar, limpiar, transformar y modelar los datos para
detectar información significativa y útil luego los datos se convierten en una historia a
través de informes para el análisis con el fin de admitir el proceso crítico de toma de decisiones.
Aunque el proceso de análisis de datos se centra en las tareas de limpieza, modelado y
visualización de datos, el concepto de análisis de datos y su importancia para las empresas no se
debe subestimar. Para analizar los datos, los componentes principales del análisis se dividen en
las siguientes categorías:
Análisis descriptivo Responde a preguntas de lo que ha sucedido en base a Datos
históricos generación de informes para una mejor visualización de datos y resultados.
Análisis de diagnóstico Responde a preguntas de por qué ha sucedido usan datos
del análisis descriptivo para identificar la causa del evento, luego se usan indicadores de
rendimiento para saber si los eventos han mejorado o empeorado. Se usan 3 pasos:
1. Identificación de anomalías cambios inesperados en una métrica o un valor.
2. Recopilación de estos datos de anomalías
3. Uso de técnicas estadísticas para detectar relaciones y tendencias para explicar
estas anomalías.
Análisis Predictivo Responde preguntas de sobre lo que ocurrirá en el futuro usan
datos históricos para identificar tendencias y determinar la probabilidad de que se repitan.
Técnicas de estadísticas y aprendizaje automático.
Análisis Prescriptivo Responde preguntas sobre las acciones que se deben realizar
para llegar al objetivo. Permite tomar decisiones fundamentadas
POWER BI
Es una colección de servicios de software, aplicaciones y conectores convierten orígenes de
datos sin relación en información coherente y visual, Por tanto, puede convertirse en su
herramienta personal de creación de informes y visualización, pero también puede actuar como
el motor de análisis y de decisión que impulsa proyectos en grupo, divisiones o empresas enteras.
Bloques de creación Son bloques básicos que componen los informes y paneles consumidos
por los usuarios finales:
Los informes constan de visualizaciones y conjuntos de datos creados con la aplicación
Power BI Desktop.
Los paneles constan de los iconos de las visualizaciones de informes creadas en el
servicio Power BI en línea
Visualizaciones representación visual de los datos. Power BI tiene infinidad de tipos de
visualización.
Conjunto de datos colección de datos que usa Power BI para crear las visualizaciones
(Excel) o un conjunto de datos de diferentes orígenes que serán filtrados y usados luego en Pbi.
Puede crear un informe de Power BI a partir de casi cualquier dato, gracias a los numerosos
conectores de datos disponibles, como Excel, una base de datos de Microsoft SQL Server, Azure,
Oracle, Facebook, Salesforce y MailChimp.
Informes Colección de visualizaciones que aparecen juntas o en varias páginas y combinan
datos relacionados.
Paneles grupo seleccionado de objetos visuales que proporcionan información rápida e
importante sobre los datos que se intenta representar, estos se limitan a 1 sola página.
Iconos es una visualización única en un panel.
EXTRAER DATOS
Antes de crear informes, debe extraer datos de los distintos orígenes de datos. No es lo mismo
interactuar con SQL Server que con Excel, por lo que debe conocer los matices de ambos
sistemas. Una vez que haya obtenido conocimientos de los sistemas, puede usar Power Query
para limpiar los datos, como cambiar el nombre de las columnas, reemplazar valores, eliminar
errores y combinar los resultados de la consulta.
Una vez que los datos se han limpiado y organizado, ya puede generar informes en Power BI.
Archivos planos es aquel que solo tiene una tabla de datos y en el que cada fila de datos
está en la misma estructura. El archivo no contiene jerarquías. Probablemente, estará
familiarizado con los tipos más comunes de archivos planos: los archivos de valores separados
por comas (.csv), los archivos de texto delimitado (.txt) y los archivos de ancho fijo. Otro tipo
serían los archivos de salida de diversas aplicaciones, como los libros de Microsoft Excel (.xlsx).
Importar Archivos Planos:
Seleccionar el archivo
Seleccionar los datos de archivo a importar
Ahora puede seleccionar el botón Cargar para cargar los datos automáticamente en el modelo de
Power BI, o bien seleccionar el botón Transformar datos para iniciar el Editor de Power Query,
en el que puede revisar y limpiar los datos antes de cargarlos en el modelo de Power BI.
RESOLVER ERRORES DE IMPORTACIÓN DE DATOS:
Al importar datos en Power BI, pueden producirse errores como consecuencia de factores como
los siguientes:
tiempo de espera agotado: Este error indica que ha extraído demasiados datos según las
directivas de la organización extraiga menos columnas o filas de una misma table.
No se han encontrado datos en formato de tabla: Power BI espera encontrar datos con
formato de tabla de Excel Abra el libro de Excel y resalte los datos que quiere
importar. Presione el método abreviado de teclado Ctrl+T. La primera fila probablemente
incluirá los encabezados de columna. Compruebe que los encabezados de columna
reflejan el nombre que quiere asignar a las columnas. Después, pruebe a volver a
importar los datos de Excel. Esta vez debería funcionar.
No se ha podido encontrar ningún archivo: Normalmente, este error se produce porque
las ubicaciones o los permisos de los archivos han cambiado debe buscar el archivo y
cambiar la configuración de origen.
Errores de tipo de datos: A veces, al importar datos en Power BI, las columnas aparecen
en blanco. Esta situación se produce como consecuencia de un error al interpretar el tipo
de datos en Power BI. La solución de este error es única del origen de datos.
LABORATORIO 1
Open a Report
1. Open Power BI Desktop.
2. to open the starter Power BI Desktop file, select the File > Open Report > Browse
Reports.
3. In the Open window, navigate to the D:\PL300\Labs\01-prepare-data-with-power-
query-in-power-bi-desktop\Starter folder.
4. Select the Sales Analysis file.
5. Save a copy of the file with Save As in to the D:\PL300\MySolution folder.
Get data from SQL Server
This task teaches you how to connect to a SQL Server database and import tables, which create
queries in Power Query.
1. On the Home ribbon tab, from inside the Data group, select SQL Server.
2. In the SQL Server Database window, in the Server box, enter localhost, then
select OK.
Note: In this lab, you’ll connect to the SQL Server database by using localhost because
gateway data sources can't resolve localhost. This isn’t a recommended practice when
creating your own solutions.
3. If prompted for credentials, in the SQL Server Database window, select Use my
current credentials, and then Connect.
4. In the Navigator window, at the left, expand the AdventureWorksDW2020 database.
Note: The AdventureWorksDW2020 database is based on
the AdventureWorksDW2017 sample database. It has been modified to support the
learning objectives of the course labs.
5. Select—but don’t check—the DimEmployee table
6. n the right pane, notice a preview of the table data. The preview data allows you to see
the columns and a sample of rows.
7. To create queries, select the checkbox next to the following six tables:
a. DimEmployee
b. DimEmployeeSalesTerritory
c. DimProduct
d. DimReseller
e. DimSalesTerritory
f. FactResellerSales
8. Complete this task by clicking Transform Data, which will open Power Query Editor.
a. This lab is only intended to connect to and profile the data, but not transform
data.
Preview Data in Power Query Editor
This task introduces the Power Query Editor and allows you to review and profile the data. This
helps you determine how to clean and transform the data later.
1. In the Power Query Editor window, at the left, notice the Queries pane.
The Queries pane contains one query for each table you checked.
2. Select the first query—DimEmployee.
The DimEmployee table in the SQL Server database stores one row for each employee.
A subset of the rows from this table represents the salespeople, which will be relevant to
the model you’ll develop.
3. At the bottom left corner of the status bar, some table statistics are provided—the table
has 33 columns, and 296 rows.
4. In the data preview pane, scroll horizontally to review all columns. Notice that the last
five columns contain Table or Value links.
These five columns represent relationships to other tables in the database. They can be
used to join tables together. You’ll join tables in the Load Data in Power BI
Desktop lab.
5. To assess column quality, on the View ribbon tab, from inside the Data Preview group,
check Column Quality. The column quality feature allows you to easily determine the
percentage of valid, error, or empty values found in columns.
6. Notice that the Position column has 94% empty (null) rows.
7. To assess column distribution, on the View ribbon tab, from inside the Data
Preview group, check Column Distribution.
8. Review the Position column again, and notice that there are four distinct values, and one
unique value.
9. Review the column distribution for the EmployeeKey column—there are 296 distinct
values, and 296 unique values.
When the distinct and unique counts are the same, it means the column contains unique
values. When modeling, it’s important that some model tables have unique columns.
These unique columns can be used to create one-to-many relationships, which you'll do
in the Model Data in Power BI Desktop lab.
10. In the Queries pane, select the DimEmployeeSalesTerritory query.
The DimEmployeeSalesTerritory table stores one row for each employee and the sales
territory regions they manage. The table supports relating many regions to a single
employee. Some employees manage one, two, or possibly more regions. When you model
this data, you’ll need to define a many-to-many relationship.
11. In the Queries pane, select the DimProduct query. The DimProduct table contains one
row per product sold by the company.
12. Horizontally scroll to reveal the last columns. Notice
the DimProductSubcategory column.
When you add transformations to this query in the Load Data in Power BI Desktop lab,
you’ll use the DimProductSubcategory column to join tables.
13. In the Queries pane, select the DimReseller query.
The DimReseller table contains one row per reseller. Resellers sell, distribute, or value
add to the Adventure Works products.
14. To view column values, on the View ribbon tab, from inside the Data Preview group,
check Column Profile.
15. Select the BusinessType column header, and notice the new pane beneath the data
preview pane.
16. Review the column statistics and value distribution in the data preview pane.
Notice the data quality issue: there are two labels for warehouse (Warehouse, and the
misspelled Ware House).
17. Hover the cursor over the Ware House bar, and notice that there are five rows with this
value.
You’ll apply a transformation to relabel these five rows in the Load Data in Power BI
Desktop lab.
18. In the Queries pane, select the DimSalesTerritory query.
The DimSalesTerritory table contains one row per sales region, including Corporate
HQ (headquarters). Regions are assigned to a country, and countries are assigned to
groups. In the Model Data in Power BI Desktop lab, you’ll create a hierarchy to
support analysis at region, country, or group level.
19. In the Queries pane, select the FactResellerSales query.
The FactResellerSales table contains one row per sales order line—a sales order
contains one or more-line items.
20. Review the column quality for the TotalProductCost column, and notice that 8% of the
rows are empty.
Missing TotalProductCost column values is a data quality issue. To address the issue, in
the Load Data in Power BI Desktop lab, you’ll apply transformations to fill in missing
values by using the product standard cost, which is stored in the
related DimProduct table.
Get data from a CSV file
In this task, you'll create a new query based on CSV files.
1. To add a new query, in the Power Query Editor window, on the home ribbon tab, from
inside the New Query group, select the New Source down-arrow, and then
select Text/CSV.
2. In the Open window, navigate to the D:\PL300\Resources folder, and select
the ResellerSalesTargets.csv file. Select Open.
3. In the ResellerSalesTargets.csv window, review the preview data. Select OK.
4. In the Queries pane, notice the addition of the ResellerSalesTargets query.
The ResellerSalesTargets CSV file contains one row per salesperson, per year. Each
row records 12 monthly sales targets (expressed in thousands). The business year for the
Adventure Works company commences on July 1.
5. Notice that no column contains empty values. When there isn’t a monthly sales target, a
hyphen character is stored instead.
6. Review the icons in each column header, to the left of the column name. The icons
represent the column data type. 123 is whole number, and ABC is text.
7. Repeat the steps to create a query based on the D:\PL300\Resources\
ColorFormats.csv file.
The ColorFormats CSV file contains one row per product color. Each row records the
HEX codes to format background and font colors.
You should now have two new queries, ResellerSalesTargets and ColorFormats.
Finish up
In this task, you'll complete the lab.
1. On the View ribbon tab, from inside the Data Preview group, uncheck the three data
preview options that were previously enabled in this lab:
o Column quality
o Column distribution
o Column profile
2. Save the Power BI Desktop file. When prompted to apply the pending changes,
select Apply Later.
Tip: Applying the queries will load their data to the data model. You’re not ready to do
that, as there are many transformations that must be applied first.
LIMPIEZA TRANSFORMACIÓN Y CARGA DE DATOS
Es importante dar forma a los datos para asegurarse de que satisfacen sus necesidades y son
adecuados para su uso en los informes.
Editor de Power Query se registran todos los pasos que se realizan para dar forma a los
datos. Después, cada vez que la consulta se conecta al origen de datos, aplica automáticamente
los pasos, por lo que los datos siempre tendrán la forma especificada. El Editor de Power Query
solo realiza cambios en una vista determinada de los datos, de modo que pueda tener confianza
en los cambios que se han realizado en el origen de datos original.
Identificación de encabezados y nombres de columna El primer paso para dar forma
a los datos iniciales es identificar los encabezados y nombres de columna en los datos y,
después, evaluar dónde se encuentran para asegurarse de que están en el lugar correcto.
Promoción de encabezados Se pueden promover los encabezados de dos maneras:
seleccionando la opción Usar la primera fila como encabezado en la pestaña Inicio o
seleccionando el botón desplegable situado junto a Column1 y, luego, Usar la primera
fila como encabezado.
Cambio de nombre a las columnas Se puede cambiar el nombre de los encabezados
de columna de dos maneras. Un enfoque consiste en hacer clic con el botón derecho en el
encabezado, seleccionar Cambiar nombre, editar el nombre y, luego, presionar Enter.
De forma alternativa, puede hacer doble clic en el encabezado de columna y sobrescribir
el nombre que quiere cambiar por el correcto.
Quitar las filas superiores Para quitar estas filas sobrantes, seleccione Quitar
filas>Quitar filas superiores en la pestaña Inicio.
Eliminación de Columnas Es mejor quitar las columnas en una fase temprana del
proceso en lugar de más adelante, especialmente cuando se han establecido relaciones
entre las tablas. Quitar las columnas innecesarias le ayudará a centrarse en los datos que
necesita y a mejorar el rendimiento general de los conjuntos de datos e informes de
Power BI Desktop. Se pueden quitar las columnas de dos maneras. El primer método
consiste en seleccionar las columnas que quiere quitar y, después, en la pestaña Inicio,
seleccionar Quitar columnas. También puede seleccionar las columnas que quiere
mantener y, después, en la pestaña Inicio, seleccionar Quitar columnas>Quitar otras
columnas.
Anulación de dinamización de columnas Resalte las columnas 2018 y 2019,
seleccione la pestaña Transformar en Power Query y, después, Anular dinamización.
Dinamizar Columnas Si los datos a los que se van a dar forma son planos (es decir,
tienen mucho detalle, pero no se organizan ni agrupan de ninguna manera), la falta de
estructura puede complicar la capacidad de identificar patrones en estos datos. Puede usar
la característica Columna dinámica para convertir los datos planos en una tabla que
contenga un valor agregado para cada valor único de una columna. Por ejemplo, tal vez
quiera usar esta característica para resumir los datos mediante funciones matemáticas
diferentes, como Recuento, Mínimo, Máximo, Mediana, Media o Suma. En la pestaña
Transformar, seleccione Transformar > Columnas dinámicas.
El Editor de Power Query registra todos los pasos que se llevan a cabo para dar forma a los datos
y la lista de pasos se muestra en el panel Configuración de la consulta. Si se han realizado todos
los cambios necesarios, seleccione Cerrar y aplicar para cerrar el Editor de Power Query y
aplicar los cambios al modelo de datos. Aun así, antes de seleccionar Cerrar y aplicar, se pueden
realizar más pasos para limpiar y transformar los datos en el Editor de Power Query.
SIMPLIFICACIÓN DE LA ESTRUCTURA DE DATOS
Cambio de nombre de una consulta En el Editor de Power Query, en el panel
Consultas situado a la izquierda de los datos, seleccione la consulta cuyo nombre quiere
cambiar. Haga clic con el botón derecho en la consulta y seleccione Cambiar nombre.
Edite el nombre actual o escriba uno nuevo y, después, presione Entrer.
Reemplazar valores Seleccione la columna que contenga el valor que se quiere
reemplazar y, después, seleccione Reemplazar valores en la pestaña Transformar. En
el cuadro Valor a buscar, escriba el nombre del valor que se quiere reemplazar y,
después, en el cuadro Reemplazar por, escriba el nombre del valor correcto y seleccione
Aceptar.
Reemplazo de valores NULL Si el valor es NULL, las medias no se calcularán
correctamente. Una solución sería cambiar los valores NULL a cero, lo que generará la
media más precisa, En esta instancia, el uso de los mismos pasos que se han seguido
anteriormente ayudará a reemplazar los valores NULL por cero.
Eliminación de duplicados Para realizar esta acción, seleccione una columna, haga
clic con el botón derecho en el encabezado de columna y, después, seleccione la opción
Quitar duplicados. Es mejor copiar la tabla antes de quitar los duplicados. La opción
Copiar se encuentra en la parte superior del menú contextual. Copiar la tabla antes de
quitar los duplicados proporcionará una comparación de las tablas y permitirá usar
ambas, si es necesario.
Un procedimiento recomendado consiste en proporcionar a las tablas, columnas y medidas
términos empresariales descriptivos y reemplazar los guiones bajos ("_") por espacios. Sea
coherente con las abreviaturas, los prefijos y palabras como "número" e "Id.". Las abreviaturas
demasiado cortas pueden causar confusión si no se usan normalmente dentro de la organización.