Bacsic Term 시리즈에서는
기본적인 IT개념에 대해 정리해보고,
(기회가 된다면) 주기적으로
업데이트 해보도록 하겠습니다.
[개념 정의]
빅데이타는 좁게는 데이터 자체를 뜻하며,
넓게는 관리.분석을 위한 인력/조직, 기술도 포함
[주요 기술]
데이터 생애주기를 기준으로 2개로 나뉨 :
"수집 및 저장, 처리 및 관리"의 빅데이터 플랫폼
"분석 및 예측, 활용 및 시각화"의 분석활용 체계
1. 빅데이터 플랫폼
① 인터페이스 유형에 따른 분류
- 정형 데이터 : 관계형 DB처럼 잘 정리되어있음
- 반정형 " : 형식(JSON, XML, HTML),
메타데이터를 포함하여 저장함
- 비정형 " : 텍스트, 이미지, 동영상 by 크롤링
② 수집주기에 따른 분류
: 배치(주기적) 관련 기술,
or 실시간 데이터 수집(스트리밍, On-line)
*Hadoop : 빅데이터 저장/처리用 오픈소스
▷ 10만 노드 규모의 유연한 확장성,
분산병렬처리 가능한 고성능,
저가스트리지, x86서버 기반의 비용효율,
특정노드 장애에도 서비스 가능 고가용성
▶ Haddop Core
- 분산파일 시스템 : 분산 장비에 대용량 파일 저장
- 맵 리듀스 : 데이터를 분산시켜 처리한 후 통합
- YARN : 로직 실행 및 자원관리 담당
2. 빅데이터 분석활용
① 데이터 분석 유형 : 효용 및 복잡도에 따라
- 묘사적 : 현황파악用, 월별 매출 추세 차트
- 진단적 : 과거 사건 원인 파악用,
월별 매출-반품간 관계, 통계검증
- 예측 : 진단분석결과에 따라 미래를 예측,
모델의 구축 및 검증 진행
- 처방 : 문제에 대한 최적결과(대안) 제시,
제한된 자원의 할당으로 최상안
② 분석기법
해결하고자하는 문제의 성격과주어진 데이터의 형태/특성에 따라 다양함
3. 데이터분석 프로세스
① 목표수립
문제정의 → 해결방향 구체화 → 분서과제정의
→분석시나리오/평가방법/평가기준 정의
② 분석환경 구성
③ 데이터 수집/연동
: 상당한 Effort가 들어가, 사전파악 및 계획이 중요
④ 탐색적 데이터 분석(EDA)
데이터 연관성 파악, 통계적 가설검증,모델구현에
필요한 새 변수 도출 등
⑤ 모델링 개발/검증/평가를 통한 분석결과 적용
4. 자동 데이터분석(Auto ML)
ML 실행할 때 발생하는 수많은 반복작업을 자동화
*코딩, 알고리즘 선택, 튜닝작업
5. Data Fabric
플랫폼 및 비즈니스 간에 제각각인 데이터 소스를
통합하여 데이터를 사용할 수 있게 돕는 아키텍처
6. Data Literacy(데이터 문해력)
데이터를 목적에 맞게 생성하고, 숨은 의미를 찾고,
이해한 다음, 해석된 결과를 업무에 적용-소통하는 역량
'왔으나, 알지 못한 "미래" 보기 > IT Trend & Keyword' 카테고리의 다른 글
[IT Big Trend] Application Modernization, 어플 현대화 (0) | 2023.06.19 |
---|---|
[Basic Term] #1. 데이터 ② (1) | 2023.06.19 |
[IT Big Trend] ChatGPT, 특이점의 출현인가? (0) | 2023.06.16 |
[IT Big Trend] Composable Application, 모듈식 구축 (0) | 2023.06.15 |
[IT Big Trend] #3. Low-code/No-code ① 정의 (0) | 2023.06.15 |
댓글