Skip to main content

Chyby v datech. Jaké jsou důsledky používání nekvalitních dat?

By 16 listopadu, 20226 února, 2023FME
Chyby-data-dusledky

Denně se na celém světě vygeneruje 2,5 bilionu bajtů dat. Přestože se data stala široce dostupnými, jejich kvalita je stále problematická. Nesprávná a nespolehlivá data jsou velkou zátěží pro každého, kdo s daty pracuje. Podle statistik společnosti Kissmetrics mohou nekvalitní data způsobit společnostem ztrátu až 20 % zisku. Nesprávná data jsou také významnou překážkou rozvoje podnikání.

Přečtěte si tento článek a dozvíte se:

Proč jsou moje data nekvalitní? Sedm hlavních důvodů

Příčin chyb v datech může být mnoho a obvykle jich je více než jedna. Podívejme se na nejčastější příčiny:

1. Zastaralá a neaktuální data

Data, zejména ta získaná v terénu, jsou získávána z různých míst a s různou četností. Není zaručeno, že se všechna shromážděná data vztahují ke stejnému časovému období. Navíc v případě velkých projektů může sběr dat trvat tak dlouho, že na konci procesu již budou data zastaralá.

To je běžné u manuálního sběru dat, který nedokáže držet krok s neustálými změnami. Příkladem může být ruční sběr dat v terénu týkající se např. zásobování vodou, energetiky nebo telekomunikačních sítí.

prostorova-data-a-neprostorova-grafika-1

2. Různé datové modely

Ruční sběr je zřejmou příčinou rozdílů v datových modelech, a to i v případě, že je shromažďuje stejná osoba. Je až s podivem, kolik způsobů zápisu názvu ulice existuje. Vezměme si třeba Třídu 4. července (4th of July Avenue). Může být zapsána také jako Fourth of July Avenue, 4 July Ave, 4-th of July Ave atd. Jednoduchá změna v názvu, která může snadno zůstat nepovšimnuta, způsobí nekonzistenci dat. Systémy pro zpracování dat je považují za zcela odlišné informace.

Za nedostatečnou konzistenci dat nemohou jen lidé. Rozdíly v datových modelech mají několik důvodů. Často pramení z aktualizací informačních systémů, zejména při výrazných aktualizacích, které způsobí, že software přejde o několik verzí výš. Aktualizovaný systém může obsahovat nové atributy, takže se přenesená data stanou neúplnými.

Problém různých datových modelů často souvisí s fúzemi společností. Fúze vyžadují integraci databází používaných společnostmi, které se spojují, do jednoho subjektu.

Důvody rozdílů v datových modelech

Změna zápisu dat

Aktualizace IT systémů

Slučování systémů různých společností

3. Nedostatek referenčních kritérií/hodnot

Zejména při použití otevřených dat je zásadní definovat správné ukazatele, které vám umožní srovnat/ověřit spolehlivost dat.

Kromě nesporné výhody dostupnosti otevřených dat s sebou nesou i značné riziko chyb. Je to proto, že jsou aktualizována širokým publikem. Příkladem platformy otevřených dat je OpenStreetMap.

Abyste se vyhnuli zkresleným výsledkům analýzy, je vhodné porovnat několik souborů dat z různých zdrojů. To vám umožní zachytit společné části i části s nejvýznamnějšími rozdíly. Můžete například porovnat data z OpenStreetMap a Topographic Object Database.

4. Přílišná důvěra v externí zdroje dat

Častou chybou je přílišná důvěra v data z externích zdrojů.

Obvykle jsou ověřeny a jejich kvalita je uspokojivá. Databáze poštovních adres však tomuto tvrzení odporují. Obsahují mnoho adres, ale obvykle jen malá část z nich je skutečně užitečná. Chybí znalosti o tom, jak byly tyto údaje shromážděny a zda jsou aktuální, úplné a konzistentní. Neexistuje také žádná záruka, že budou podporovat vaše aktivity.

duvera-v-data

Při analýze dat byste měli vzít v úvahu také kontext a dobu, kdy byla data získána, a také to, kdo je shromáždil a za jakým účelem. Předpojatost může ovlivnit data již ve fázi sběru, což může mít vliv na výsledky analýzy.

5. Mnoho zdrojů dat ve společnosti

Zdroje dat mohou být rozptýleny i v rámci jedné organizace. Různé typy dat mohou být shromažďovány různými způsoby, takže může chybět konzistentní datový model nebo formát.

Při pokusu o integraci těchto dat vznikají problémy. V centrálním systému, který shromažďuje data z několika zdrojů, se může určitý záznam (např. týkající se jednoho z klientů) objevit opakovaně. Proto je třeba rozhodnout, která databáze nebo systém by měly být nadřazeny ostatním, které pouze doplňují hlavní zdroj dat. Nepotřebné položky by pak měly být odstraněny.

Více informací o výhodách integrace dat se dozvíte z našeho článku “Prostorová data – majetek, který zlepšuje řízení vaší společnosti”.

6. Duplicitní záznamy

Po sloučení několika zdrojů často výsledný soubor dat obsahuje duplicitní záznamy. To není problém, pokud jsou identické, protože stačí opakující se data odstranit. Složitější je to v případě, že se záznamy liší pouze v jediném atributu, v malém detailu, jako je například číslice v telefonním čísle. Pak nevíte, který z nich je správný a který je třeba odstranit. V této situaci je třeba provést další ověření dat.

7. Lidské chyby

O lidských chybách jsme se již zmínili. Ty se objevují při přepisu dat do systému nebo databáze. Mohou to být neplatné hodnoty atributů, překlepy nebo nesrovnalosti v zápisu způsobené rozdíly mezi jazyky (např. tečky nebo čárky při zápisu desetinných míst).

Tento typ chyb je důsledkem lidské únavy nebo nesoustředěnosti související s opakujícími se, nudnými úkoly. Mohou se vyskytnout také v případě, že zaměstnanec nemá dovednosti potřebné k dokončení úkolu, například neví, jak vyplnit určitý formulář.

Nejčastější chyby v datech

Chyby v datech se obecně týkají atributů:

  • chybějící nebo neznámé hodnoty,
  • překlepy,
  • chybějící diakritika,
  • různé zápisy daného atributu, např. číslo popisné: č.p./č. popisné, …, Praha 6 – Břevnov: Praha 6/Praha 6 – Břevnov/Praha Břevnov/P6 – Břevnov, … atd. Nedostatečná konzistence datových modelů z různých zdrojů, např. náměstí Václava Havla vs. náměstí V. Havla,
  • chybějící identifikační číslo (ID),
  • různé formáty dat a/nebo různé jednotky

Mezi další časté chyby patří:

nesoulad s přijatým modelem nebo schématem,
duplicitní záznamy nebo objekty vzniklé integrací různých zdrojů,
neplatné nebo chybějící odkazy na externí datové sady nebo lexikální zdroje.

Výsledky našeho průzkumu ukazují, že nízká kvalita dat je obvykle důsledkem lidských chyb nebo zastaralých dat z různých zdrojů.

Chyby prostorových dat

Je překvapivé, kolik společností a institucí začíná využívat svá prostorová data. Tento trend bude stále narůstat, proto je důležité se o svá geoprostorová data starat.

Připomínáme, že prostorová data jsou taková data, která kromě obvyklého seznamu atributů obsahují navíc informace o jejich poloze.

Všechny výše popsané chyby dat mohou platit jak pro prostorová, tak pro neprostorová data.

V obou případech může docházet k chybějícím atributům, neplatným hodnotám, překlepům atd., které mohou být důsledkem zastaralých systémů, lidských chyb, různých zdrojů dat, duplicitních objektů z databázových integrací atd.

Prostorová data mohou bohužel obsahovat další specifické chyby.

Nejčastější chyby prostorových dat

Mezi nejčastější chyby prostorových dat patří:

geometrické a topologické chyby ve vektorových datech:
  • neuzavřené polygony,
  • linie nedoléhající k bodům,
  • linie, které se kříží,
  • nesprávně umístěné vrcholy nebo průsečíky,
  • neplatný typ geometrie,
  • nesprávně definované modelové schéma,
  • neplatné jednotky nebo souřadnicové systémy,
  • nekonzistentní síť a nedostatek vazeb mezi objekty.
klasifikační chyby ve fotogrammetrických datech způsobené rozdíly v definicích tříd (systémech klasifikace)

Příkladem je problém související s klasifikací půd v přeshraničních oblastech. Při validaci se mohou některé profily překrývat.

chyby v generalizaci

Nesprávné použití generalizačních technik nebo parametrů pro vektorová data, např. příliš velký parametr vyhlazení (smoothing) nebo zjednodušení (simplification).

Kde se berou chyby v prostorových datech?

Zdroje chyb prostorových dat jsou podobné těm, které jsme již zmínili dříve. Mohou se vyskytovat, protože:

  • zdroje dat vytvářejí nezkušení lidé, kteří se mohou dopustit mnoha chyb,
  • data nejsou před jejich běžným sdílením ověřována,
  • použité informace jsou zastaralé,
  • data byla vytvořena v systému nebo modelu, který není podporován novějšími systémy a nelze jej správně přečíst,
  • člověk pracující s prostorovými daty není dostatečně zkušený, aby věděl, např. který souřadnicový systém by měl použít nebo která generalizační či klasifikační technika je pro danou sadu dat nejlepší.
svet-podnikani-s-daty

Jaké jsou důsledky používání nekvalitních dat?

Především použití nekvalitních dat vede ke stejně nekvalitní práci.

Používání analýz dat obsahujících chyby vás nutí vyvozovat nesprávné závěry, a proto je každé rozhodnutí, které na základě těchto analýz učiníte, také nesprávné. To je obzvláště špatná strategie, zejména na stále více konkurenčním trhu, kde přežití mnoha společností závisí na správných rozhodnutích.

V případě prostorových i neprostorových dat chyby značně narušují a zdržují práci. To má za následek zpoždění projektů, nespokojené klienty, finanční ztráty a ztrátu partnerství.

V naší anketě jsme se účastníků ptali na nejčastější důsledky práce s nekvalitními daty. Jejich odpovědi poukazují na neefektivitu práce, nesprávné analýzy a ztracené obchodní příležitosti.

Chyby v prostorových datech mají ještě závažnější důsledky než ztráty v podnikání.

Na kvalitě prostorových dat někdy závisí i lidské životy.

Nejoblíbenějším využitím prostorových dat je GPS a navigace. Tu používají záchranné složky, aby se dostaly na místo události. V takové situaci může být každá vteřina zpoždění pro někoho poslední. Nesprávné údaje mohou způsobit, že sanitka dorazí nejdříve na nesprávné místo, což prodlouží dobu čekání lidí, kteří potřebují pomoc.

Ambulance

Existuje ještě jeden, méně dramatický příklad, který však ukazuje dopad nesprávných dat. Stavební firma může při použití map s nesprávnými údaji omylem poškodit energetické zařízení nebo vodovodní/plynovodní potrubí. To může být nejen zbytečný náklad pro společnost, ale i nebezpečné a nepříjemné pro zasažené lidi, kteří dočasně ztratí přístup k plynu, vodě nebo elektřině.

Shrnutí

Nyní znáte zdroje a typy chyb prostorových i neprostorových dat. Nekvalitní data mohou negativně ovlivnit jak obchodní činnost, tak každodenní život mnoha lidí. Proto se vyplatí dbát na kvalitu dat ještě před jejich použitím v analýzách a projektech. Zajistíte si tak spolehlivost své práce a analýz používaných pro přijímání zásadních strategických rozhodnutí.

V příštím článku se dozvíte, jak eliminovat chyby v datech. Sledujte nás na LinkedInu, abyste ho nezmeškali!

Chcete se dozvědět více o řešení problémů s daty? Kontaktujte nás!