Big Data = Clear + Dirty + Dark Data

Kamila Migdał-Najman , Krzysztof Najman

Abstract

The development of technology data communications, the Internet and computer with the simultaneous decrease the unit costs of data collection and storage results in significant quantitative and qualitative changes in the approach to the same data, and the possibility of their analysis. The increasingly dense, continuous and unstructured data stream, called Big Data, evokes a lot of emotion today. On the one hand, the lack of adequate quantities of data has always been a challenge for the methods of statistical inference and one of the stimuli of their development. On the other hand, the large sets included threats to the reliability of the inference. In such collections, in addition to data of sufficient quality (Clear Data), the data which are inaccurate, outdated, noisy, often repeatedly duplicate, incomplete or erroneous (Dirty Data), as well as data about which quality or usability nothing is known (Dark Date) have a significante share. The aim of this study is to present the structure of the critical qualitative set of Big Data.
Author Kamila Migdał-Najman KS
Kamila Migdał-Najman,,
- Department of Statistics
, Krzysztof Najman KS
Krzysztof Najman,,
- Department of Statistics
Journal seriesPrace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, ISSN 1899-3192, e-ISSN 2392-0041 [0324-8445]
Issue year2017
No469
Pages131-139
Publication size in sheets0.5
Keywords in PolishBig Data, Clear Data, Dirty Data, Dark Data
Keywords in EnglishBig Data, Clear Data, Dirty Data, Dark Data
Abstract in PolishRozwój techniki teleinformacyjnej, Internetu i informatyki przy jednoczesnym spadku jednostkowych kosztów gromadzenia i przechowywania danych powoduje istotne ilościowe i jakościowe zmiany w podejściu zarówno do samych danych, jak i możliwości ich analizy. Ten coraz bardziej gęsty, ciągły i niestrukturyzowany strumień danych, nazywany Big Data, wywołuje współcześnie wiele emocji. Z jednej strony brak odpowiedniej ilości danych był zawsze wyzwaniem dla metod wnioskowania statystycznego i jednym z bodźców ich rozwoju. Jednak z drugiej strony, w dużych liczebnościach prób zawarte są liczne zagrożenia dla wiarygodności wnioskowania. W zbiorach takich, poza danymi o odpowiedniej jakości (Clear Data), znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często wielokrotnie zduplikowane, niekompletne lub błędne (Dirty Data), a także dane, o których jakości czy użyteczności nic nie wiadomo (Dark Data). Celem prezentowanych badań jest krytyczne przedstawienie struktury jakościowej zbioru Big Data.
DOIDOI:10.15611/pn.2017.469.13
URL http://www.dbc.wroc.pl/dlibra/docmetadata?id=37072
Languagepl polski
LicenseOther; published final; Uznanie Autorstwa - Użycie Niekomercyjne - Bez utworów zależnych (CC-BY-NC-ND); with publication
Score (nominal)10
ScoreMinisterial score = 10.0, 15-12-2017, ArticleFromJournal
Ministerial score (2013-2016) = 10.0, 15-12-2017, ArticleFromJournal
Citation count*0
Cite
Share Share

Get link to the record
msginfo.png


* presented citation count is obtained through Internet information analysis and it is close to the number calculated by the Publish or Perish system.
Back