Стандардизација на податоци: Дефинирајте, тестирајте и трансформирајте

Стандардизација на податоци

Додека организациите се насочуваат кон воспоставување култура на податоци низ претпријатието, многумина сè уште се борат да ги добијат своите податоци правилно. Повлекувањето податоци од различни извори и добивањето различни формати и претстави на она што се претпоставува дека се истите информации - предизвикува сериозни пречки во вашето патување со податоци.

Тимовите доживуваат доцнења и грешки додека ги извршуваат своите рутински операции или извлекуваат увид од збирките на податоци. Ваквите проблеми ги принудуваат бизнисите да воведат механизам за стандардизација на податоците - кој гарантира дека податоците се присутни во конзистентен и униформен поглед низ организацијата. 

Ајде да го разгледаме подлабоко процесот на стандардизација на податоците: што значи тоа, чекорите што ги вклучува и како можете да постигнете стандарден приказ на податоци во вашето претпријатие.

Што е стандардизација на податоци?

Едноставно кажано, стандардизацијата на податоците е процес на трансформирање на вредностите на податоците од неточен формат во правилен. За да се овозможи стандардизиран, униформен и конзистентен приказ на податоци низ организацијата, вредностите на податоците мора да одговараат на бараниот стандард - во контекст на полињата со податоци на кои припаѓаат.

Пример за грешки при стандардизација на податоците

На пример, записот на истиот клиент кој живее на две различни локации не треба да содржи несовпаѓања во името и презимето, адресата на е-пошта, телефонскиот број и адресата на живеење:

Име Е-мејл адреса Телефонски број Дата на раѓање Пол Станбена адреса
Џон Онеел john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Извор 1

Име Презиме Е-мејл адреса Телефонски број Дата на раѓање Пол Станбена адреса
Џон Онил john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Машки 11400 W Олимпик 200
Извор 2

Во горниот пример, можете да ги видите следниве видови недоследности:

  1. Структурни: Првиот извор го опфаќа Името на клиентот како едно поле, додека вториот го складира како две полиња - Име и Презиме.
  2. Уметност: Првиот извор има а валидна шема на е-пошта се наметнува на полето за адреса на е-пошта, додека на второто видливо недостасува @ симбол. 
  3. Тип на податоци: Првиот извор дозволува само цифри во полето Телефонски број, додека вториот има поле за тип на низа што содржи и симболи и празни места.
  4. Формат: Првиот извор го има датумот на раѓање во формат ММ/ДД/ГГГГ, додека вториот го има во формат ДД/ММ/ГГГГ. 
  5. Вредност на доменот: Првиот извор дозволува вредноста на родот да се зачува како M или F, додека вториот извор ја складира целосната форма - Машко или Женско.

Ваквите недоследности на податоците ве наведуваат да направите сериозни грешки што може да предизвикаат вашиот бизнис да изгуби многу време, трошоци и напор. Поради оваа причина, имплементирање на механизам од крај до крај за стандардизација на податоците е од клучно значење за одржување на хигиената на вашите податоци.

Како да се стандардизираат податоците?

Стандардизацијата на податоците е едноставен процес во четири чекори. Но, во зависност од природата на недоследностите присутни во вашите податоци и што се обидувате да постигнете, методите и техниките што се користат за стандардизација може да варираат. Овде, презентираме генеричко правило кое секоја организација може да го користи за да ги надмине своите грешки при стандардизацијата. 

  1. Дефинирајте што е стандардот

За да постигнете каква било состојба, прво мора да дефинирате што всушност е државата. Во првиот чекор од секој процес на стандардизација на податоците е да се идентификува што е потребно да се постигне. Најдобар начин да знаете што ви треба е да ги разберете деловните барања. Треба да ги скенирате деловните процеси за да видите кои податоци се потребни и во кој формат. Ова ќе ви помогне да поставите основна линија за вашите барања за податоци.

Стандардната дефиниција за податоци помага да се идентификуваат:

  • Средствата на податоци клучни за вашиот деловен процес, 
  • Потребните полиња со податоци за тие средства,
  • Типот на податоци, форматот и моделот, нивните вредности мора да одговараат на,
  • Опсегот на прифатливи вредности за овие полиња итн.

  1. Тестирајте ги збирките на податоци според дефинираниот стандард

Откако ќе имате стандардна дефиниција, следниот чекор е да тестирате колку добро функционираат вашите збирки на податоци во однос на нив. Еден начин да се оцени ова е да се користи профилирање на податоци алатки кои генерираат сеопфатни извештаи и пронаоѓаат информации како процентот на вредности што одговараат на барањата на полето за податоци, како што се:

  • Дали вредностите го следат потребниот тип и формат на податоци?
  • Дали вредностите лежат надвор од прифатливиот опсег?
  • Дали вредностите користат скратени форми, како што се кратенки и прекари?
  • Се адреси стандардизирани по потреба – како на пр USPS стандардизација за адреси во САД?

  1. Трансформирајте несоодветни вредности

Сега конечно е време да се трансформираат вредностите кои не се во согласност со дефинираниот стандард. Ајде да ги погледнеме вообичаените техники за трансформација на податоци што се користат.

  • Парсирање на податоци – Некои полиња со податоци мора прво да се анализираат за да се добијат потребните компоненти за податоци. На пример, парсирање на полето за име за да се одделат првото, средното и презимето, како и сите префикси или суфикси присутни во вредноста.
  • Тип на податоци и конверзија на формат – Можеби ќе треба да отстраните несоодветни знаци за време на конверзијата, на пример, отстранување симболи и азбуки од телефонски број само со цифри.
  • Усогласување и валидација на моделот – Конверзијата на шаблонот се врши со конфигурирање на регуларен израз за шаблонот. За вредностите на адресите на е-пошта кои одговараат на регуларен израз, тие мора да се анализираат и трансформираат во дефинираната шема. адресата за е-пошта може да се потврди со користење на regex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Проширување на кратенката – Имињата на компаниите, адресите и имињата на лицата често содржат скратени форми што може да доведат до вашата база на податоци да содржи различни претстави за истите информации. На пример, можеби ќе треба да ги проширите државите на земјата, како што е конвертирање на Њујорк во Њујорк.
  • Отстранување на шум и корекција на правопис – Одредени зборови навистина не додаваат никакво значење на вредноста, и наместо тоа, внесуваат многу бучава во базата на податоци. Ваквите вредности може да се идентификуваат во базата на податоци со тоа што ќе ја извршите на речник што ги содржи овие зборови, ќе ги означите и ќе одлучите кои трајно да се отстранат. Истиот процес може да се изврши за да се пронајдат правописни грешки и грешки при пишување.

  1. Повторно тестирајте ја базата на податоци според дефинираниот стандард

Во последниот чекор, трансформираната база на податоци повторно се тестира според дефинираниот стандард за да се открие процентот на грешки во стандардизацијата на податоците што биле поправени. За грешките што сè уште остануваат во вашата база на податоци, можете да ги подесите или реконфигурирате вашите методи и повторно да ги извршите податоците низ процесот. 

Заврши

Количината на податоци што се генерираат денес - и разновидноста на алатки и технологии што се користат за снимање на овие податоци - ги наведува компаниите да се соочат со страшниот хаос на податоци. Тие имаат се што им треба, но не се сосема сигурни зошто податоците не се присутни во прифатлива и употреблива форма и форма. Усвојувањето на алатките за стандардизација на податоците може да помогне да се поправат таквите недоследности и да се овозможи многу потребната култура на податоци низ вашата организација.

Што мислите?

Оваа страница користи Akismet за намалување на спам. Научете како се обработува вашиот коментар.