Profilowanie, oczyszczanie i zapobieganie powstawaniu dirty data

Kamila Migdał-Najman , Krzysztof Najman

Abstract

There are almost unlimited sources of large streams of information now being referred to as Big Data. Because of it we hope for a faster, cheaper, more precise and versatile description in the world around us. At the same time, in such data sets, apart from data of a proper quality (clear data), significant share is false, outdated, noisy data, often multiplied, incomplete or incorrect (dirty data), as well as data of unknown quality or usefulness (dark data). A significant share of dirty data and dark data causes a number of negative consequences in the analysis of Big Data sets. The aim of this article is to review and systemically capture the procedures for minimizing the negative effects of dirty data in the analysis of Big Data. The design of the data collection system includes the most important profiling procedures (profiling data), cleansing data and defect prevention of dirty data in the process of building and analyzing the Big Data sets.
Author Kamila Migdał-Najman (FM / DS)
Kamila Migdał-Najman,,
- Department of Statistics
, Krzysztof Najman (FM / DS)
Krzysztof Najman,,
- Department of Statistics
Other language title versionsDirty data - profiling, cleansing and prevention
Journal seriesPrace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, ISSN 1899-3192, e-ISSN 2392-0041 [0324-8445], (B 10 pkt)
Issue year2018
No508
Pages146-156
Publication size in sheets0.5
Keywords in PolishBig Data, dirty data, profilowanie danych, oczyszczanie danych, zapobieganie powstawaniu zanieczyszczeń w danych
Keywords in EnglishBig Data, dirty data, profiling data, data cleansing, defect prevention
Abstract in PolishZbiory Big Data oferują dostęp do niemal nieograniczonej liczby danych, dając nadzieję na szybszy, tańszy, bardziej precyzyjny i wszechstronny opis świata. Jednocześnie w takich zbiorach poza danymi o odpowiedniej jakości (clear data) znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często zwielokrotnione, niepełne lub błędne (dirty data), a także dane o nieznanej jakości czy użyteczności (dark data). Znaczący udział dirty i dark data ma szereg negatywnych konsekwencji w analizie zbioru Big Data. Celem prezentowanych badań jest przegląd i systemowe ujęcie procedur minimalizowania negatywnych efektów dirty data w analizie Big Data. W konstrukcji systemu oczyszczania zbioru danych uwzględniono najważniejsze procedury profilowania (profiling data), oczyszczania (cleansing data) i zapobiegania (defect prevention) powstawaniu dirty data w procesie budowy i analizy zbioru Big Data.
DOIDOI:10.15611/pn.2018.508.15
URL http://www.dbc.wroc.pl/dlibra/docmetadata?id=44620&from=publication
Languagepl polski
LicenseOther; published final; Uznanie Autorstwa - Użycie Niekomercyjne - Bez utworów zależnych (CC-BY-NC-ND); with publication
Score (nominal)10
ScoreMinisterial score = 10.0, 16-11-2018, ArticleFromJournal
Ministerial score (2013-2016) = 10.0, 16-11-2018, ArticleFromJournal
Citation count*
Cite
Share Share

Get link to the record


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back