비정형 데이터 온라인상의 비정형 데이터가 급증하고 있다. 블로그, 트위터, 페이스북의 인기와 동시에 BUZZ, 형태가 일정하지 않는 비정형 데이타가 늘어가고 있다. 일반적인 정형 데이터는 분석을 쉽게 하기 위하여 이름, 성별, 나이 등 각각의 데이터의 목적에 맞는 속성별로 구분하여 저장한다. 하지만 온라인상에서 발생되는 일반적인 데이터의 대부분은 형식을 가지고 있지 못한 비정형 데이터 이다. 예를 실시간 트위터의 글 대부분은 일상적인 용어로 올라오고 있다. 주어 동사도 불분명한 하나의 완벽한 문장을 갖추고 있지도 않는 글도 상당수를 차지한다. (8월 31일 ‘곽노현’ 키워드로 올라오는 실시간 트윗 문자의 구조뿐만 아니라 줄임 말을 통한 신조어들이 발생된다) 온라인상의 정보 80%이상이 비정형 데이터이고 ..