본문 바로가기
상식 및 정보

데이터 마이너 - 자료에 의미를 부여하는 사람

by frhp맨 2021. 11. 25.

'데이터 마이닝(Data mining)'은 자료를 분석해서 그 중에서 유용한 정보를 얻는 작업을 의미하는데 이런 일을 하는 사람을 바로 '데이터 마이너(Data miner)'라고 한다. 이들은 주로 컴퓨터를 이용해서 자료를 뽑고 사실들을 바탕으로 앞날을 예측하기도 한다.

 

데이터 마이너란

 

데이터마이너는 세계가 바야흐로 '빅데이터' 시대로 접어들게 되면서 새로 등장한 직업이다. 이 빅데이터라는 것이 말 그대로 그 규모조차 파악이 안될 정도로 방대한 양의 정보를 의미한다. 가령 사람들이 인터넷을 통해 물건을 산다든지, 검색사이트에서 다양한 정보를 찾는 것등이 모두 데이터화되고 있다. 그리고 거리에 설치된 CCTV와 심지어 교통카드조차에도 이런 디지털기록이 남게 된다. 이와 같이 과거에는 상상조차 할 수 없을 정도로 정보량이 급증하면서 이를 분석하여 보다 의미있고 활용성이 높은 정보를 뽑아내는 직업인 데이터 마이너가 필요하게 된 것이다. 대부분이 전산화되어 있고, 대다수의 산업이 컴퓨터를 기반으로 하고 있기 때문에 어느 곳에나 데이터는 존재하게 마련이다. 따라서 데이터 마이너는 막대한 정보가 있다면 어느 곳에서나 일할 수 있다. 

 

데이터 마이너가 하는 일중에서 가장 핵심적인 업무는 방대하고 다양한 정보를 주로 소프트웨어를 비롯한 분석 도구를 활용해서 원하는 목적과 관점에 따라 분류하고 요약하는 것이다. 이 과정을 통해서 흩어져 있던 자료들이 연결되면서 비로서 자료로써의 의미와 가치가 부여된다.

 

데이터마이닝 과정이 기업활동에 응용되면 다음과 같이 진행된다. 우선은 다양한 사실기록 문서라든지, 숫자자료 등이 존재한다. 예를 달면 판매기록, 가격, 재고, 급여 등이 이에 해당될 것이다. 하지만 이 자체로서는 의미가 없다. 그것은 그냥 단순한 자료이지 정보가 아닌 것이다. 이들 자료의 상호연관성이나 관계 등을 파악해야 비로소 그 자료들은 하나의 정보가 된다. 즉 매출 기록은 하나의 자료에 불과하나, 전체적인 분석을 통해서 어떤 물건이 언제 얼마나 팔리는 지 알 수 있는 정보가 되는 것이다. 그리고 더 나아가 각 정보들을 이전의 정보들과 비교해서 하나의 시간적 패턴을 찾아낸다면 그것은 바로 지식이 되는 것이다. 또 과거에 구매 정보를 파악하게 되면 향후에 소비자들이 어떤 물건을 구매할지 예상 할 수도 있다.

 

데이터 마이닝의 효용성

 

1990년대 미국 대형 할인점 월마트에서는 이상한 현상이 일어났다. 누가 봐도 전혀 연관성도 없고 어울리지도 않는 기저귀와 맥주의 각 매출이 비슷한 양상을 보인 것이다. 이는 남자들이 아내의 기저귀 심부름을 왔다가 맥주도 같이 샀기 때문이라는 분석이 나왔다. 이 분석에 따라 금요일 저녁에 기저귀 옆에 맥주를 같이 진열해 놓고 팔았는데 실제로 맥주의 매출이 급격하게 늘어났다. 이는 데이터 마이닝의 효용성을 설명해주는 대표적인 사례이다. 즉 겉으로 보기에는 기저귀와 맥주 매출 사이에는 직접적인 인과관계가 없다. 하지만 데이터 마이닝에서는 기저귀 매출과 맥주 매출 간의 상관 관계에 주목한다. 이와 같이 데이터 마이너는 겉으로 보기에는 전혀 연관성 없는 것처럼 보이더라도 눈에 보이지 않는 연관성을 찾아내고 또 이를 근거로 향후의 현상도 예측하는 일을 한다.

 

소셜미디어와 빅데이터 분석을 결합해 주식 투자에 활용하는 프로그램도 개발됐다. 강형구 한양대 경영학부 교수팀은 디지털 데이터분석 기업인 다음소프트와 트위터 분석을 주식 매매에 활용하는 프로그램을 지난 4월 만들었다. 트위터에 쏟아지는 단문 속에 나타난 집단 감성에 따라 주식을 투자하는 ‘소셜 감성 기반 트레이드’이다. 즉, 일반인들이 트위터에서 주고받는 ‘우울해’ ‘짜증나’ ‘행복하다’와 같은 감성 표현을 담은 트윗을 분석해 매수 종목과 매도 종목을 고르는 식이다. 이 과정에서 최신 금융공학 기법과 데이터마이닝 기술이 동원됐다. 트위터 메시지를 ‘정보’로 바꾸기 위해서는 정교한 모델링이 필요했기 때문이다. 금융에 수학적 모델을 적용한 금융공학 전문가와 대량의 데이터를 분석해 유의미한 정보를 추출하는 데이터마이너가 만나 새로운 금융기법을 창조한 셈이다.

 

데이터 마이너가 되려면

 

데이터 마이너가 되려면 우선적으로 수리적지식과 통계적 지식을 갖추고 있어야 하는데, 이는 자료의 대다수가 통계적(수학적)인 방법에 의해 분석되기 때문이다. 게다가 방대한 양의 자료를 분석하기 위해서는 도구에 해당하는 프로그램을 다뤄야 하기 때문에 컴퓨터 프로그래밍 언어에 대한 이해도 요구된다. 이 밖에 보다 더 의미 있는 정보화를 위해서 해당 산업 또는 관련 분야에 대한 통찰력도 필요하다.

 

하지만 그 지식의 특성상 많은 노력과 시간이 필요하다. 즉 관련 지식을 갖췄다고 하더라도 이후에는 끊임없는 자기계발이 더 중요한 것이다. 바꿔 말하면 데이터 마이닝 과정에 여러 학문의 지식이 필요하기 때문에 특별히 정해진 전공이 없다는 뜻도 된다. 실제로 데이터마이너의 상당수가 통계학 전공자들이기는 하지만 개중에는 산업공학, 경제학, 수학, 경영학 전공자들도 있다. 그렇다 하더라도 기본적으로는 수리적 분석을 해야 하는 직업이므로 숫자나 컴퓨터와는 어느 정도 친숙해져 있어야 한다.

 

데이터 마이너가 되기 위한 별도의 자격은 없고 다만 관련된 자격증으로는 'SAS 국제 공인 인증시험'이 있는데, 너무 자격증에는 연연할 필요는 없고 그보다는 평소에 다방면의 지식을 쌓고 현업에서는 실제로 데이터를 취급하는 기술을 익히는 것이 더 필요하다.

 

뭐니뭐니 해도 데이터 마이너에게 있어 가장 흥미있는 부분은 미래를 예측하는 것이다. 아무 의미 없이 여기저기에 흩어져 있는 데이터를 의미화하고 더 나아가서 향후의 의사결정에도 도움을 준다는 것은 매우 매력적인 일이다. 



'상식 및 정보' 카테고리의 다른 글

지하수 - 땅속의 물  (0) 2021.11.30
빵 - 유래와 기원  (0) 2021.11.29
와인 종류 및 특징  (0) 2021.11.24
조향사 - 향기를 만드는 사람  (0) 2021.11.23
계면활성제 알아보기  (0) 2021.11.22

댓글