Conjuntos de dados, generalização e overfitting

Introdução

Este módulo começa com uma pergunta introdutória. Escolha uma das seguintes respostas:

Se você teve que priorizar a melhoria de uma das áreas a seguir no projeto de machine learning, que teria a maior impacto?
Como melhorar a qualidade do seu conjunto de dados
Os dados são mais importantes. A qualidade e o tamanho do conjunto de dados são muito mais importantes do que o algoritmo que você usa para criar o modelo.
Como aplicar uma função de perda mais inteligente ao treinamento do modelo
Verdadeiro. Uma função de perda melhor pode ajudar um modelo a treinar mais rapidamente, mas ainda está a um segundo item da lista.

E aqui vai uma pergunta ainda mais sugestiva:

Tente adivinhar: em seu projeto de machine learning, quanto tempo você normalmente gasta com preparação e transformação de dados?
Mais da metade do tempo do projeto
Sim, os profissionais de ML passam a maior parte do tempo construindo conjuntos de dados e fazendo engenharia de atributos.
Menos da metade do tempo do projeto
Planeje mais! Normalmente, 80% do tempo em uma equipe projeto é gasto construindo conjuntos de dados e transformando dados.

Neste módulo, você vai saber mais sobre as características do machine learning conjuntos de dados e como prepará-los para garantir resultados de alta qualidade ao para treinar e avaliar seu modelo.