본문 바로가기
왔으나, 알지 못한 "미래" 보기/IT Trend & Keyword

[Basic Term] #1. 데이터 ①

by 저녁숲 2023. 6. 19.
728x90
Bacsic Term 시리즈에서는
기본적인 IT개념에 대해 정리해보고,
(기회가 된다면) 주기적으로
업데이트 해보도록 하겠습니다.

[개념 정의] 

빅데이타는 좁게는 데이터 자체를 뜻하며,

넓게는 관리.분석을 위한 인력/조직, 기술도 포함

 

[주요 기술]

데이터 생애주기를 기준으로 2개로 나뉨 : 

"수집 및 저장, 처리 및 관리"의 빅데이터 플랫폼

"분석 및 예측, 활용 및 시각화"의 분석활용 체계

1. 빅데이터 플랫폼

① 인터페이스 유형에 따른 분류

- 정형 데이터 : 관계형 DB처럼 잘 정리되어있음

- 반정형   "     : 형식(JSON, XML, HTML),

                          메타데이터를 포함하여 저장함 

- 비정형   "     : 텍스트, 이미지, 동영상 by 크롤링

 

② 수집주기에 따른 분류

: 배치(주기적) 관련 기술,
  or 실시간 데이터 수집(스트리밍, On-line)

 

*Hadoop : 빅데이터 저장/처리用 오픈소스

▷ 10만 노드 규모의 유연한 확장성,

      분산병렬처리 가능한 고성능,

      저가스트리지, x86서버 기반의 비용효율,

      특정노드 장애에도 서비스 가능 고가용성

 

▶ Haddop Core

- 분산파일 시스템 : 분산 장비에 대용량 파일 저장

- 맵 리듀스 : 데이터를 분산시켜 처리한 후 통합

- YARN : 로직 실행 및 자원관리 담당

 

2. 빅데이터 분석활용

① 데이터 분석 유형 : 효용 및 복잡도에 따라

- 묘사적 : 현황파악用, 월별 매출 추세 차트

- 진단적 : 과거 사건 원인 파악用,

                  월별 매출-반품간 관계, 통계검증

- 예측 : 진단분석결과에 따라 미래를 예측,

               모델의 구축 및 검증 진행

- 처방 : 문제에 대한 최적결과(대안) 제시,

             제한된 자원의 할당으로 최상안 

 

② 분석기법

해결하고자하는 문제의 성격과주어진 데이터의 형태/특성에 따라 다양함

 

 

3. 데이터분석 프로세스

① 목표수립

문제정의 → 해결방향 구체화 → 분서과제정의

→분석시나리오/평가방법/평가기준 정의

 

② 분석환경 구성

 

③ 데이터 수집/연동
: 상당한 Effort가 들어가, 사전파악 및 계획이 중요

 

④ 탐색적 데이터 분석(EDA)

데이터 연관성 파악, 통계적 가설검증,모델구현에

필요한 새 변수 도출 등

 

⑤ 모델링 개발/검증/평가를 통한 분석결과 적용

 

4. 자동 데이터분석(Auto ML)

ML 실행할 때 발생하는 수많은 반복작업을 자동화

*코딩, 알고리즘 선택, 튜닝작업

 

5. Data Fabric

플랫폼 및 비즈니스 간에 제각각인 데이터 소스를

통합하여 데이터를 사용할 수 있게 돕는 아키텍처

 

6. Data Literacy(데이터 문해력)

데이터를 목적에 맞게 생성하고, 숨은 의미를 찾고,

이해한 다음, 해석된 결과를 업무에 적용-소통하는 역량

 

728x90

댓글