본문 바로가기
경영정보시스템

[경영정보시스템] 12. 의사결정을 위한 데이터베이스 활용

by Jennieee's 2021. 9. 19.

1. 빅데이터와 비즈니스 인텔리전스 기반구조

. 빅데이터(big data)

1) 빅데이터의 특성

- Volume: 초대용량의 데이터, Exponential Increasing

- Variety: 다양한 형태, Structured data 비정형 data

- Velocity: Near real time

- Value: Predict Optimize

 

2) 빅데이터의 등장배경

데이터 규모 EB(Exa Byte) :
90년대
 = 100EB
ZB(Zetta Byte) 진입 :
2011 = 1.8ZB
ZB 본격화 시대 :
2020  2011 대비
50 증가
데이터 유형 정형 데이터 :
데이터베이스, 사무정보
비정형 데이터 :
이메일, 멀티미디어, SNS
사물정보, 인지정보 :
RFID, Sensor, 사물통신
데이터 특성 구조화 다양성, 복합성, 소셜  현실성, 실시간성

 

전세계 정보량 증가 추이

[2011]

전세계 디지털 정보량은 1.8ZB

1.8ZB = 1.8 GB

        - 2000 이상의 고화질(HD)영화를 4700만년 동안 시청할 있는 정보의 정보량

[2020]

2020년에 관리해야 정보의 양은 50 이상 증가(DC & EMC, Digital Universe Study 2011)

 

3) 빅데이터에 대한 5가지 미신

(1) 빅데이터 분석에서 가장 중요한 것은 데이터 규모이다.

     → 다양성과 속도가 중요

 

(2) 빅데이터는 SNS 데이터이고, 기업전략과 의사결정에 중요한 분석기회를 제공한다.

     → 기업 내부데이터가 많고 중요하다.

 

(3) 빅데이터 분석기법을 적용하면 획기적인 성과를 거둘 있다.

     → 분석 자체만으로는 성과를 없고, 데이터에 근거한 의사결정 문화와 분석이 내재된 프로세스가 있어야 성과를 있다.

 

(4) 빅데이터 분석은 데이터과학자 같은 전문가들의 업무이다.

     → 데이터 분석은 모든 임직원들의 기본 업무이다.

         - 분석요건이 정해지지 않으면, 분석을 수행할 없다.

     → 분석을 하면서, 결과를 보고 새로운 질문들이 만들어 간다.

 

. 비즈니스 인텔리전스란?

  • 비즈니스 인텔리젼스란 결정을 내리고 행동에 옮기기 위해 데이터, 통계분석과 계량분석, 설명 모델과 예측모델, 사실에 바탕을 경영관리 등을 폭넓게 활용하는

 

. 비즈니스 인텔리전스 기반구조

= 오늘날의 기반구조에는 각각의 시스템들을 위한 다수의 도구들과 빅데이터가 포함됨

1) 데이터웨어하우스(data warehouse)

(1) 다수의 핵심적인 거래처리시스템들로부터 현재 과거 데이터들을 저장함

(2) 전사적인 사용을 위해 정보를 통합하고 표준화하지만, 변경은 없음

(3) 분석 리포팅 도구들을 제공함

 

2) 데이터마트(data mart)

(1) 데이터웨어하우스의 일부분

(2) 특정 사용자 집단이 사용할 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분

(3) 초점은 일반적으로 단일 주제 영역이나 업무 영역에 맞춤

 

3) 하둡(Hadoop)

(1) 저렴한 컴퓨터들에 걸쳐 있는 방대한 양의 데이터들을 분산병행처리 방식으로 다룰 있게 해줌

(2) 핵심 서비스

(3) 하둡 분산 파일 시스템(Hadoop Distributed File System: HDFS): 데이터 저장소

(4) 맵리듀스(MapReduce): 데이터들을 처리 작업 그룹들로 분할함

(5) Hbase: NoSQL 데이터베이스

(6) Facebook, Yahoo, NextBio 등이 사용하고 있음

 

4) 인메모리 컴퓨팅(in-memory computing)

(1) 빅데이터 분석에 사용됨

(2) 컴퓨터의 주기억장치(RAM) 데이터 저장소로 사용함으로써 디스크로부터 데이터를 불러오는 걸리는 시간소모를 없앰

(3) 시간/ 수준의 처리 시간을 수준으로 줄일 있음

(4) 최적화된 하드웨어 필요

 

5) 애널리틱 플랫폼(analytic platform)

대용량 데이터세트에 최적화된 관계형 비관계형 도구들을 사용하는 초고속 플랫폼

 

2. 데이터 분석 도구

= 비즈니스 의사결정을 잘 할 있도록 대용량의 데이터를 통합하고 분석하는 도구

 

. 온라인분석처리(OnLine Analytical Processing: OLAP)

    - 다차원(multidimensional) 데이터 분석 지원

  • 여러 개의 기준을 이용하여 데이터를 다차원 데이터를 보여줌
  • 각각의 차원은 정보에 대한 측면(제품, 가격, 비용, 지역, 또는 기간)의미함

: 6월에 동부 지역에서 다른 지역에 비해 얼마나 많은 고리쇠들이 팔렸는가?

 

   - OLAP 특별한 질문들에 대해 온라인 상에서 빠른 답변을 얻을 있도록 해줌

 

나. 데이터마이닝(data mining)

  • 데이터세트에서 숨겨진 패턴과 관계들을 찾아냄

      예: 고객들의 구매 패턴

  • 미래의 행위를 예측하기 위한 규칙들을 추론함
  • 데이터마이닝으로부터 얻을 있는 정보들의 유형: 연관(association), 순차(sequence), 분류(classification), 군집화(clustering), 예측(forecasting)

 

. 텍스트마이닝(text mining)

= 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함

  • 이메일에 저장된 내용
  • 콜센터 상담 녹취록
  • 고소장
  • 특허 기술(descriptions)
  • 서비스 리포트 등등
  • 감정 분석(sentiment analysis) 소프트웨어
  • 이메일, 블로그, 소셜 미디어를 분석하여 의견들을 파악함

 

. 웹마이닝(web mining)

  • 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것

- 고객 행위 이해

- 웹사이트의 성과 평가 등등

 

  • 웹콘텐츠마이닝(web content mining)

- 페이지들의 콘텐츠들을 분석함

 

  • 웹구조마이닝(web structure mining)

- 페이지와 관련된 도착 출발 링크들을 분석함

 

  • 웹사용마이닝(web usage mining)

- 서버에 기록된 사용자 상호작용 데이터들을 분석함

 

3. 데이터 자원관리

. 정보 정책 수립

  • 데이터의 공유, 관리, 표준화를 위한 기업의 규칙, 절차, 역할
  • 데이터관리(data administration) : 데이터 관리를 위한 정책 절차들을 수립함
  • 데이터 거버넌스(data governance) : 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책 프로세스들을 특히 정부 법규와 관련하여 다룸
  • 데이터베이스 관리(database administration) : 데이터베이스를 생성하고 유지관리함

 

. 데이터 품질 보증

= 포춘 1,000대 기업의 데이터베이스의 중요 데이터 중 25% 이상이 부정확하거나 불완전함

  • 중복 데이터
  • 불일치 데이터
  • 입력오류 데이터

     = 새로운 데이터베이스를 구축하기 전에 다음과 같은 것들을 수행해야

  • 잘못된 데이터를 식별하고 수정함
  • 데이터베이스가 운영된 후에는 나은 데이터 수정 절차를 구축함

 

. 데이터 품질 감사(data quality audit)

  • 정보시스템의 데이터에 대한 정확성과 완전성 수준에 대한 구조화된 조사

- 데이터 파일에 대한 조사

- 데이터 품질에 대한 최종사용자 조사

 

. 데이터 정제(data cleansing)

  • 부정확하거나 불완전하거나 중복되었거나 포맷이 부적절한 데이터들을 조사하고 수정
  • 여러 정보시스템들 간의 불일치 데이터들에 대한 일치성 강화
반응형

댓글0