2019-07-05 09:59

데이터가 크다고?

기고/최갑근 교수


빅데이터라는 용어가 사람들에게 회자되기 시작한 때는 2000년대 후반 부터다. 그 전에도 데이터라는 용어는 정보통신 분야에서 흔히 사용되던 말이었으나 빅데이터는 좀 뜬금없다. 데이터가 크다는 말인지 많다는 말인지 단어만 들어봐서는 혼동이 오기 쉽다. 그래서 실제로 정보통신분야에 종사하는 사람들 조차 정확한 의미를 이해하지 못하고 잘못된 이해를 하는 사람들이 많았던 것으로 기억한다. ‘빅데이터’라는 단어가 사용되고 거론되기 시작한 시절은 앞서 말한 것 처럼 2000년대 후반인데 그 시절에는 중요한 사건이 하나 있었다. 스티브 잡스의 애플사에서 아이폰 3G를 발표한 것이다. 정보통신분야에서는 혁명이라고 할 만큼 엄청난 변화를 가져온 것이 바로 아이폰으로 시작된 스마트폰 열풍이다. 스마트폰은 전화, 카메라, 인터넷 기능, 미디어플레이어 기능에 정전 방식(손가락의 미세전류를 이용해 감지하는 방식)으로 화면을 터치해서 입력하는 방식과 스와이프(손가락으로 밀어서 입력하는 방식)방식 등으로 한 뼘도 안되는 작은 정보통신기기를 들고 다니면서 기존에 책상위에 있었던 퍼스널 컴퓨터의 대부분의 기능의 소화가 가능하게하는 ‘매직’으로 사람들의 관심과 인기를 한몸에 얻었다. 이처럼 통신이 가능은 복합멀티미디어 기기가 개인화 되고 휴대되면서 응용프로그램의 형태도 변화하게 되는데 그 대표적인 것이 사회관계망 서비스 앱이다. SNS(Social Network Service)라고 불리우는 사회관계망 서비스는 사람들의 사회적 관계를 최대한 연결하여 사이버 공간상에서 다양한 사람들과의 소통이 가능하게 했고 이러한 사회적 기능으로 관심과 인기를 누리게 되었다. 스마트폰은 여기에 위치기반 기능(GPS)을 포함시켜 스마트폰을 소지한 사람의 위치도 GPS와 통신기능을 통해 실시간으로 알 수 있게하는 것이 가능하게 되었다. 이러한 스마트폰 기능은 개인의 사생활 뿐만 아니라 사회관계망 서비스에 올라오는 다양한 게시글을 통해 여론의 향방도 가늠하게 할 수 있도록 해 주었는데 이런 데이터들을 분석해 마케팅, 정책개발, 시장조사, 상권 분석 등 수없이 많은 사회적 문제에 대한 대응책의 기초데이터로서의 가치가 부각되기 시작했다. 이처럼 관심 증폭된 스마트폰을 통한 활동데이터는 실시간으로 매초마다 수없이 많은 양의 데이터들이 시계열(시간 순서가 의미 있는)데이터 형태로 발생했으며, 처리해야 할 데이터가 되기 시작했는데 이런 데이터의 발생특성 때문에 따로 빅데이터라고 불리우게 된 것이다. 빅데이터는 스마트폰에 내장된 각종 센싱값(GPS, 관성 데이터, 각종 로그 데이터)과 사회관계망서비스에 올라온 각종 문자 데이터 뿐만 아니라 스마트폰으로 촉발된 네트웍 서비스의 발전으로 IoT(Internet of Things)를 통한 각종 사물들(전자제품 뿐만 아니라 통신이 가능한 생할도구를 포함)의 데이터까지를 수용해야 하는 것을 포함한다. 이렇게 시작한 빅데이터는 사회 각 분야에서 그 동안 생성되었던 다양한 누적데이터까지 의미가 확장되기 시작했고 많은 양의 데이터를 의미하는 일반명사가 되었다.

빅데이터의 이러한 특징은 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)으로 요약하며 3V라고 표현하기도 한다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 특징이다. 융복합 환경에서 디지털 데이터는 앞서 말한 것과 같이 다양한 형태로 매우 빠르게 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미한다. 또한 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다. 여기서 정형데이터는 데이터베이스에 저장될 수 있도록 정리된(계산할 수 있는) 데이터를 의미한다. 반정형 데이터는 HTML, XML등과 같은 인터넷 문서에 포함된 형태의 데이터로서 정형데이터와 같이 데이터베이스의 고정된 필드에 저장된 데이터 형태가 아니다. 비정형데이터는 데이터베이스의 고정된 필드에 저장된 형태가 아닌 데이터를 의미하며 사진, 오디오, 음원, 워드, 유튜브동영상 등과 같은 형태의 데이터들이다. 통상적으로 알려진 것은 빅데이터에서 85%이상이 비정형데이터라고 알려져 있다.

한편 빅데이터가 수십 테라바이트(Terabyte) 이상의 대규모 데이터라고 본다면 빅데이터의 가치는 무엇인가? 빅데이터는 그 자체로서의 의미보다는 데이터를 분석해서 얻을 수 있는 다양하고 의미있는 정보(인사이트)로 볼 수 있다. 이를 달성하기 위해서는 데이터의 수집, 정제, 분석 및 시각화의 단계를 거치는데 그 하나 하나의 면면을 보면 먼저 데이터의 수집은 사회관계망서비스의 댓글, 스마트폰의 로그데이터, IoT 기기에서 발생되는 데이터등 수없이 많다. 수집 단계는 대용량의 데이터를 빠르게 수집할 수 있는 능력이 있어야한다. 다음으로 정제과정은 실무적으로 빅데이터 분야에서 가장 중요한 단계이다. 데이터의 수집은 앞서 언급했듯이 빅데이터 자체가 85%이상이 비정형 데이터인 것 처럼 바로 분석을 위한 준비가 안되어 있는 경우가 많다. 일례를 들면 사회관계망 서비스에서 수집된 문자(텍스트)데이터를 처리하기 위해서는 구두점, 띄어쓰기, 변칙 문자 등 시스템이 이해할 수 없는 형태의 문자데이터들도 수집될 수 있다. 이 경우 정제(Cleansing)하지 않고 그대로 자연어처리 모듈이나 분석 툴(R과 같은)에 입력을 하게 되면 원하는 형태의 출력을 얻지 못하거나 이해할 수 없는 출력을 얻을 수 있다. 분석 자체를 할 수 없는 것이다. 따라서 계산가능한 형태로 데이터를 정리해 줘야 하는데 이 과정을 정제(Cleansing)라고 한다. 정제과정을 거치고 나면 이제 분석을 해야 한다. 분석을 할 때는 통계적인 방법을 사용하여 그 결과를 시각화(Visualization)하여 특징 또는 정보를 도출하는 데 그걸 보통은 데이터 인사이트라고 한다. 시각화 방법은 다양하다. 텍스트를 이용한 시각화에서 흔히 많이 사용하는 방법 중 워드 클라우드가 있다. 워드 클라우드는 특정 대상에서 수집된 단어 중 빈도수가 가장 많은 단어를 크게 보여주는 형태를 말하는 것인데 가장 크게 나온 단어는 빈도수가 많았다는 것을 의미하기 때문에 수집 대상의 관심도를 반영한다고 볼수 있다. 그 외에 많은 양의 데이터를 축약해서 함축적으로 보여줄 수 있는 도구가 그래프이기 때문에 통계적 처리 후 그 결과를 그래프로 출력해서 데이터의 특징과 인사이트를 도출한다.  빅데이터는 데이터 단독으로 보다는 인공지능의 기계학습과 함께 있을때 더욱 강력한 힘을 발휘한다. 빅데이터를 통해 분석된 다양한 데이터 인사이트는 단순데이터가 줄 수 없는 다양한 정보를 제공하며 이를 통해 얻어진 정보를 통해 기계학습의 분류, 군집화, 예측 등의 기능과 합쳐지면 강력한 활용도가 발생하는 것이다.

최근 들어 시설물에 대한 예지보전 기술이 각광을 받고있다. 시설물 예지보전 기술은 빅데이터를 산업분야에서 사용하는 대표적인 예인데 그 개념을 간략히 소개하면 기존에 시설물을 관리하던 방식은 시설물 예방정비라고 표현했다. 예방정비는 시설물의 주요시설에 대해 사용 연한을 정해 두고 그 시기가 되면 성능의 상태를 보지 않고 무조건 교체하는 방식을 의미한다. 이렇게 되면 아무래도 사용할 수 있는 설비까지 교체주기가 차면 폐기하고 교체해서 낭비의 요소가 있을 수 있다. 시설물 예지보전 기술은 교체주기를 중심으로 설비를 교체하는 것이 아니라 설비에 센서를 배치하고 센싱된 값을 분석해서 시설물의 상태를 예측하여 문제가 생기기전에 고장가능성이 있는 시설만 예측해서 교체하는 방식이다. 사용 연한에 따른 일괄 교체방법 보다는 시설의 상태를 기반으로 고장을 예측해 교체하는 방식으로 사고를 미연에 방지할 수 있을 뿐만 아니라 유지보수 비용도 저렴하게 들 수 있는 장점이 있다.

예지보전과 관련해 필자의 경험을 소개하면 몇년 전 국내 공공기관에서 시설물예지보전을 위해 사업을 실시했던 때가 있었다. 물론 사업의 안전성을 위해 해외 유수 업체의 솔루션에 대한 설명을 들었다. 그런데 여기서 재미난 것은 해외 솔루션 업체 대부분은 한국시장에 대한 판매만 관심이 있기 때문에 어떤 시설을 운영하는 공공기관에 가서라도 운영되는 시설에 대한 데이터 3년치만 주면 예지보전을 할 수 있다고 설명한다. 시설의 운영특성이나 내용에 대해서는 관심도 없는 것이다. 당연히 이렇게 해서 사업을 한 예지보전 시스템이나 빅데이터는 엄청난 투자에도 불구하고 쓸모가 없다. 빅데이터 투자 실패가 이런 식이 많았던 것이다. 그 이유를 집어보자. 사실 국내 공공기관이 운영하는 시설의 데이터 3년치는 무의미할 수도 있다. 왜냐 하면 특징이 없기 때문이다. 당연히 사고 없이 안정적으로 운영했을 텐데 누적운영데이터 3년이라고 정해서 받는게 무슨 의미가 있겠는가? 제공된 데이터에서 특징과 인사이트를 도출하려면 다양한 형태의 데이터가 제공되어야 한다. 그래야 안정 상태와 고장 상태, 고장 직전 상태를 파악할 수 있지 않겠는가? 또 그래야 기계학습을 해서 분류를 하던, 예측을 하던 하지 않겠는가? 무턱대고 아무 변화도 없는 데이터 3년치를 받아다가 무슨 분석을 해서 어떤 예측을 하겠다는 건지 도무지 알 수 없는 것이다. 외산 솔루션은 점쟁이인가? 사실 이럴 때는 설비의 특성을 반영해서 시뮬레이션하는 것이 중요하다. 시뮬레이션을 통해서라도 상황에 맞는 가상데이터를 생성해 학습을 시키고 점진적으로 설비 상황을 학습해 가야 해당 시설에 적합한 예지보전 기술이 나올거라고 생각한다. 데이터의 특징은 전혀 고려하지 않고 무조건 3년치 데이터를 수집해 분석해서 모델을 만들고, 빅데이터 구축 솔루션을 설치하고, 기계학습 솔루션을 설치해 봐야 어떤 도움을 줄 수 있는지 알 수 없는 것이다.

요즘 TV를 보면 신선식품 새벽 배송, 배달서비스 등 물류와 관련된 산업의 광고가 많이 나온다. 아마존이 물류기업이지만 IT업체 처럼 보이는 것도 물류가 ICT기술 특히 AICBM과 관련한 4차 산업혁명기술을 통한 혁신을 많이 해 왔고 앞으로도 해야할 분야가 많다는 것을 반증한다. 물류분야의 지능화와 자동화를 통해 물류비용을 낮추는 것이 지금과 앞으로의 핵심 경쟁력이라고 말 할 때 누구도 반대하지 않는 것이 지금의 형편이다. 따라서 물류현장에서 발생하는 빅데이터를 이용해 인공지능화해서 물류효율화를 통한 원가경쟁력 확보는 이제 기업들의 핵심 경쟁력이 아닐까 생각된다.

18세기 산업혁명시절에는 증기 기관을 사용했기 때문에 증기 기관을 운전하기 위한 에너지가 석탄이었다. 지금의 4차 산업혁명시기는 지능화를 필두로 인공지능이 대세 역할을 한다. 그렇다면 인공지능에서의 에너지는 무엇인가? 바로 데이터다. 사람의 경쟁력 중 하나가 경험이듯이 인공지능의 경험은 데이터가 된다. 또 인공지능의 에너지는 바로 데이터다. 결국 데이터가 가장 중요하다는 말이 되는 것이다.

1차 산업혁명시대에 석탄을 에너지로 경쟁했듯이 이제는 데이터를 에너지로 경쟁해야 하는 시대가 됐다고 필자는 말하고 싶다. 또한 지금 시대의 원가경쟁력 핵심은 물류비용의 저감이라고 생각한다. 신선식품을 위한 콜드체인, 종단 배송을 위한 라스트마일등 물류현장에서 지능화를 통해 효율성을 달성할 부분이 매우 많다는 것이 핵심이고, 이를 위해 기업들은 데이터의 수집 능력과 분석능력, 업무에 적용하는 능력 등을 배양해 새로운 경영환경에 대응할 준비를 하는 것이 필요할 것이고 그러기 위한 기회의 요소가 많은 분야가 물류분야라는 것에 대해 이견이 없을 것이라고 생각한다. 

 

< 물류와 경영 >

로그인 후 작성 가능합니다.

0/250

확인
맨위로
맨위로

선박운항스케줄

인기 스케줄

  • BUSAN HOCHIMINH

    선박운항스케줄 목록 - 선박운항스케줄목록으로 Vessel, D-Date, A-Date, Agent를 나타내는 테이블입니다.
    Vessel D-Date A-Date Agent
    Pegasus Proto 11/28 12/03 Pan Con
    Pegasus Proto 11/28 12/03 Dongjin
    Kmtc Pusan 11/28 12/05 Dongjin
  • BUSAN SHUAIBA

    선박운항스케줄 목록 - 선박운항스케줄목록으로 Vessel, D-Date, A-Date, Agent를 나타내는 테이블입니다.
    Vessel D-Date A-Date Agent
    Hmm Raon 11/30 01/02 Yangming Korea
    Kota Satria 12/05 01/09 PIL Korea
    Hakata Seoul 12/06 01/05 KOREA SHIPPING
  • BUSAN MANILA

    선박운항스케줄 목록 - 선박운항스케줄목록으로 Vessel, D-Date, A-Date, Agent를 나타내는 테이블입니다.
    Vessel D-Date A-Date Agent
    Sunny Freesia 11/28 12/02 KMTC
    Wan Hai 288 11/28 12/12 Wan hai
    Wan Hai 288 11/28 12/13 Wan hai
  • BUSAN CHITTAGONG

    선박운항스케줄 목록 - 선박운항스케줄목록으로 Vessel, D-Date, A-Date, Agent를 나타내는 테이블입니다.
    Vessel D-Date A-Date Agent
    Mogral 11/28 12/28 KOREA SHIPPING
    Ym Warmth 12/03 12/26 Yangming Korea
    Star 12/03 12/27 SEA LEAD SHIPPING
  • BUSAN JAKARTA

    선박운항스케줄 목록 - 선박운항스케줄목록으로 Vessel, D-Date, A-Date, Agent를 나타내는 테이블입니다.
    Vessel D-Date A-Date Agent
    Kmtc Haiphong 11/28 12/09 KMTC
    Wan Hai 288 11/28 12/17 Wan hai
    Incheon Voyager 11/29 12/12 KMTC
출발항
도착항

많이 본 기사

광고 문의
뉴스제보
포워딩 콘솔서비스(포워딩 전문업체를 알려드립니다.)
자유게시판
추천사이트
인터넷신문

BUSAN OSAKA

선박명 항차번호 출항일 도착항 도착일 Line Agent
x

스케줄 검색은 유료서비스입니다.
유료서비스를 이용하시면 더 많은 스케줄과
다양한 정보를 보실 수 있습니다.

로그인