Data Quality & Cleaning

Preparation:

Exercise 1: Par-øvelse

  • Observer følgende dataset

    • http://www.sufoi.dk/obs/obs-2019/obs19-k1.php

  • Besvar:

    • Hvad er indholdet i datasettet?

    • Hvilke kvalitetskriterier overskrider datasettet?

    • Beskriv observationer og hvordan kvalitetskriterier overskrides

  • Udforsk:

    • Hvordan er dataen indsamlet?

    • Hvem kan lave indberetninger?

    • Er der en sammenhæng mellem indsamling og kvalitet?

  • Udarbejd et forslag:

    • Hvordan kan datakvaliteten hæves?

Exercise 2: Par-øvelse

  • Opret en database

  • Data Exploration:

    • Hvordan ser datasettet ud? Hvad beskriver det?

    • Hvilke kolonner har problemer med NULL værdier?

    • Hvilke kolonner har problemer med fejlværdier (ifht. deres skala / "umulige" værdier - fx. en tidslængde mindre end 0)

  • Data Cleaning

    • Ret 3 NULL fejl i datasettet vha. UPDATE

    • Beskriv:

      • Hvordan fandt i fejlen?

      • Hvordan rettede i fejlen?

  • Data Cleaning

    • Ret 3 umulige værdier i datasettet vha. UPDATE

    • Beskriv:

      • Hvordan fandt i fejlen?

      • Hvordan rettede i fejlen?

  • (Advanced)

    • Der findes også en sidste type fejl i datasettet end NULL og "umulige" værdier

    • Hvordan fandt i denne? Hvordan rettede i denne?

    • Hint: case-sensitivity?

Last updated