1 본고는 한국부동산연구원의 연구보고서(한부연 2022-06) ‘감정평가 선례정보 수집·구축 개선을 위한 연구’ 내용을 수정·보완하였다.
글. 이소윤 부동산학 박사(한국부동산연구원 부연구위원)
한국감정평가사협회(이하 협회)는 1990년대 이후부터 정보시스템을 지속적으로 개발·구축하고, 이를 통해 다양한 감정평가정보를 수집·구축해오고 있다.
감정평가정보는 감정평가 선례정보뿐만 아니라 이를 활용하여 가공된 통계정보 등 감정평가에 관련된 일체의 모든 정보를 말한다. 감정평가 선례정보는 감정평가법인등이
협회에 제출한 감정평가정보로, 감정평가법인등이 감정평가 업무를 수행하는 데 활용하거나 감정평가와 관련된 학술 연구 목적 등으로 통계정보를 생산하는 데 유용하게
활용되는 중요한 데이터이다.
감정평가정보가 수집·구축된 지 30여 년이 지난 지금까지 협회는 감정평가법인등이 감정평가 업무를 수행하는 데 필요한 정보에 맞추어 데이터와 정보시스템을
운영·관리해 왔다. 최근 빅데이터(Big data)와 인공지능(Artificial Intelligence, AI)이 사회적 이슈로 떠오르면서 협회가
수집·구축한 감정평가정보를 빅데이터로 인식·전환하고, 감정평가정보 중 감정평가 선례정보를 활용하여 감정평가업계에 유용한 통계정보를 제공하려는 노력이 시도되어
왔다. 그러나 선례정보를 데이터화하는 과정에서 나타난 문제점들로 인해 정확한 통계정보를 생산하는 데 어려움이 있었다.
감정평가 선례정보에는 데이터 활용에 부적합한 정보가 포함되어 있다. 여기서 부적합한 정보란 선례정보의 일부 항목이 입력되지 않았거나, 정확하지 않은 정보가
포함되어 있거나, 중요한 항목이 빠져 있거나, 동일한 데이터가 둘 이상 존재하는 등의 데이터를 말한다. 부적합한 데이터를 활용하여 통계정보를 생산하는 경우
잘못된 통계 결과를 얻게 될 것이고, 정보이용자가 이를 이용한다면 그의 의사결정이나 판단에 부정적인 영향을 미칠 것이다. 이를 방지하기 위해 단순히 부적합한
데이터를 모두 제외할 수 있으나 데이터를 충분히 확보하지 못함에 따라 정확한 통계 결과를 산출하지 못할 가능성이 있다. 이를 해결하기 위해 협회 업무담당자가
직접 감정평가서를 확인해서 문제 있는 항목을 수정·보완하거나 감정평가법인등에 해당 선례정보의 수정·보완을 요청해야 할 것이다. 결국 선례 정보가 정확하고
체계적으로 수집·구축되지 않는다면 데이터 정제를 위한 인적, 시간적 비용이 크게 소요될 것이다.
이러한 측면에서 지금까지 감정평가업계는 부동산 자동가치산정에 관한 관심과 연구가 주를 이루어 왔다. 감정평가의 결과물이자 부동산 자동가치산정의 주요 데이터인
감정평가정보에 관한 연구는 거의 찾아볼 수 없다. 감정평가정보를 빅데이터 관점에서 접근한 연구는 더욱 찾아보기 힘들다.
이에 본 연구는 감정평가정보의 핵심인 감정평가 선례정보를 대상으로 데이터의 수집·구축과 관련된 문제점을 검토한 후, 데이터의 양과 질을 높일 수 있는 선례정보
수집·구축 개선 방향을 제시하는 데 목적이 있다. 이하에서는 통계정보를 생산하는 데 데이터를 활용하기 위한 측면에서 선례정보의 수집·구축에 대한 논의를
전개한다.
감정평가 선례정보를 살펴보기 위해서는 감정평가정보의 개념을 이해할 필요가 있다.2 감정평가정보란
‘감정평가법인등이 협회가 제공하는 정보시스템에 제출해야 하거나 제출한 감정평가 선례정보와 공시지가·지가변동률·임대정보·수익률·실거래가 등 감정평가에 필요한
정보 및 이를 바탕으로 가공된 일체의 모든 정보’를 말한다(「감정평가 정보체계 구축·운영지침」 제2조 제1호, 협회 「감정평가정보의 구축, 이용, 제공 및
관리에 관한 규정」 제2조 제2호 및 제8조 제1항 제5호).
감정평가법인등은 협회 「감정평가정보의 구축, 이용, 제공 및 관리에 관한 규정」 제3조 제1항과 「윤리규정」 제35조에 따라 감정평가정보를 제출할 의무가
있다.
협회는 감정평가법인등이 제출한 감정평가정보를 바탕으로 <표 1>과 같이 다양한 데이터를 수집·구축하고 있다.
2 연구의 편의상 감정평가 정보체계에 대한 논의를 배제하였다.
구분 | 분류 | 세부정보 |
---|---|---|
내부 데이터 | 감정평가추천 | 사업정보, 사업총액, 의뢰기관, 추천기관, 추천결과 |
감정평가심사 | 감정평가서, 사업정보, 의뢰기관, 감정평가기관, 감정평가액, 물건목록 | |
연계 데이터 | 감정평가 선례정보 | 공통정보, 토지정보, 집합건물정보, 건물정보, 물건 및 권리정보 |
감정평가서 | 산출근거, 결정의견, 명세표·요항표, 건물개황도, 위치도, 지적도, 현장사진 | |
업무실적 | 사업정보, 의뢰기관, 감정평가기관, 감정평가액, 물건수, 물건별총액 | |
외부 데이터 | 공시데이터 | 토지공시지가, 주택공시가격 |
공부데이터 | 토지이용계획, 토지(임야)대장, 건축물대장, 등기부등본, 법원등기변경내역 | |
공공데이터 | 토지소유정보, 토지이동이력정보, 대지권, 가스/전기사용량, 소상공인정보 | |
공간데이터 | 도로명주소, 부동산/전자지도, 연속지적도, 경계정보, 위성사진, 특성정보, 위치정보(학교/공인중개사무소), 토지/건물 공간정보, 철도/지하철/도로 정보 |
|
통계데이터 | 지가변동률, 부동산시장동향조사, 실거래가격지수, 경매정보, 이동자수 |
자료 : 한국감정평가사협회 내부자료
감정평가 선례정보란 ‘평가기관·평가목적·기준시점·감정평가액 및 대상 토지·건물의 소재지·지번·지목·용도지역 또는 용도 등’을 말한다(「감정평가법 시행규칙」
제4조 제1호, 「감정평가 정보체계 구축·운영지침」 제2조 제2호).
감정평가법인등은 협회 「회칙」 제8조 제1항 제9호에 따라 감정평가서에 대한 감정평가 선례정보를 제출할 의무가 있다.
감정평가 선례정보 수집·구축 항목을 살펴보기 위해 감정평가서 기재사항과 선례정보 제출항목을 비교·검토하였다. 토지 선례정보 제출항목에는 소재지, 지목, 사정
면적, 용도지역, 토지이용상황, 감정평가액, 적용단가 등이 있고, 집합건물 선례정보 제출항목에는 소재지, 단지명, 용도, 동·층·호, 전용면적, 감정평가액
등이 있으며, 일반건물 선례정보 제출항목에는 소재지, 사정 면적, 건물용도, 감정평가액 등이 있다.
검토 결과, 감정평가 선례정보 제출항목은 대상 물건에 대한 기본적인 정보를 중심으로 이루어진 반면, 감정평가법인등이 감정평가액을 결정하는 데 참고한 감정평가서
기재항목의 상당 부분이 제외되어 있었다.
감정평가 선례정보 제출 또는 수집·구축 관련 정보시스템에는 협회가 1990년대 개발·구축한 선례정보 관리시스템과 감정평가서 작성을 지원하기 위해 개발·구축한
감정평가관리시스템(Appraisers Information Management System, AIMS), 그리고 감정평가법인등의 업무를 지원하기 위해
개발·구축한 법인통합프로그램 등이 있다. 일부 감정평가법인등은 자체적으로 개발하거나 직접 구매한 법인프로그램을 이용하여 협회에 선례정보를 제출하기도 한다.
감정평가법인등이 어떤 시스템/프로그램을 이용하여 선례정보를 제출하든 선례정보는 협회 정보시스템에 최종적으로 수집·구축된다. 따라서 이하에서는 협회 정보시스템을
중심으로 논의를 전개한다.
한편, 감정평가목적을 보상평가, 경·공매평가, 담보평가로 구분한다고 가정하였을 때, 보상평가와 경·공매평가는 감정평가법인등이 선례정보를 따로 제출하지 않아도
협회가 제공하는 연계시스템을 통해 선례정보가 정보시스템에 자동으로 생성·제출되는 반면, 담보평가는 감정평가법인등이 선례정보를 정보시스템에 직접 입력해서
제출해야만 한다.
주 : 국토관리청, 중앙토지수용위원회, 한국농어촌공사, 한국철도공사
정보시스템상 감정평가 선례정보 입력표준 양식은 선례 상세, 토지/보상토지, 집합건물, 일반건물, 기타/보상건물의 다섯 가지 양식으로 구성되어 있다. 선례
상세는 마스터 정보로 감정평가서 건별 정보에 해당하고, 나머지 토지/보상토지, 집합건물, 일반건물, 기타/보상건물은 디테일 정보로 감정평가서에 포함된
대상물건별 정보에 해당한다.
감정평가 선례정보 필수입력항목을 살펴보면 다음과 같다. 선례 상세에는 평가기관, 평가목적, 기준시점, 감정평가액, 의뢰인 등 공통된 일반정보를 입력해야 한다.
토지/보상토지에는 토지/보상토지를 대상으로 소재지, 지목, 사정 면적, 용도지역, 토지이용상황, 감정평가액, 적용단가 등의 정보를 입력한다. 집합건물에는
공동주택, 오피스텔과 같이 둘 이상의 대상 물건이 일체로 거래되거나 대상 물건 상호 간에 용도상 불가분의 관계가 있는 집합건물을 대상으로 소재지, 건물명,
용도, 동·층·호, 전유부분 면적, 감정평가액 등의 정보를 입력한다. 일반건물에는 단독주택, 다가구주택, 일반건물 등을 대상으로 소재지, 사정 면적,
건물용도, 감정평가액 등의 정보를 입력한다. 기타/보상건물은 토지/보상토지와 집합건물 및 일반건물에 해당되지 않는 대상 물건과 보상건물을 대상으로 소재지,
구조 및 규격, 감정평가액 등의 정보를 입력한다.
정보시스템상 감정평가 선례정보 입력·제출 방식은 선례상세를 기본으로 토지, 집합건물, 일반건물, 기타, 보상토지, 보상건물 등 감정평가 대상물건에 해당하는
탭(Tab)을 클릭한 후 엑셀(Excel) 파일을 이용하여 대상물건별 정보를 직접 입력·제출하는 방식으로 이루어져 있다.
예를 들어 토지는 소재지(법정동, 본번, 부번), 지목, 면적, 감정평가액, 적용단가 등은 직접 입력하는 반면, 용도지역, 토지이용상황, 도로접면, 방향,
형상, 고저 등은 공시데이터, 즉 개별공시지가를 연계하면 자동으로 입력된다. 집합건물의 경우 소재지(법정동, 본번, 부번), 건물명, 용도, 동·층·호,
면적, 감정평가액, 적용단가, 구조, 보증금, 월세 등 모든 정보를 직접 입력해야 한다.
감정평가법인등은 하나의 데이터 항목에 대해 그 명칭을 자의적 혹은 임의적으로 표기하는 것으로 확인된다. 토지 감정평가 선례정보 제출항목 중 하나인 용도지역을
사례로 살펴보면, 예를 들어 ‘제1종일반주거지역’을 정식명칭으로 간주하는 경우 제1종 일반주거지역과 같이 띄어 쓰거나 제1종일반주거, 제1종일주와 같이 줄여서
입력하거나, 아니면 일반주거로만 처리되어 제1종인지 직접 확인 불가능한 경우도 있다. 집합건물 선례정보 제출항목 중 하나인 층을 사례로 살펴보면, 예를 들어
‘지하1층’을 정식명칭으로 간주하는 경우 지하 1층과 같이 띄어 쓰거나 지하1, B1, B-1, 비1층 등 다양한 방식으로 표기되어 있다. 호의 경우에는 예를
들어 ‘제103호’를 정식명칭으로 간주하는 경우 103호, 103 등으로 표기되어 있다. 그에 따라 층·호의 경우에는 더 다양한 경우의 수가 나올 것이며,
층과 호 사이에도 한 칸을 띄우거나 붙여서 입력하거나 ‘-’를 이용하는 등 더 다양한 경우의 수가 발생할 수 있다.
통계정보를 생산하는 데 세부항목에 대한 띄어쓰기나 줄임말과 같이 명칭에 대한 표기 방식에 차이가 있거나 세부항목에 대한 특정 정보가 생략된 감정평가 선례정보를
활용하는 경우, 통계프로그램이 해당 데이터를 제대로 인식하지 못하고 이를 처리하는 과정에서 자동적으로 데이터를 제외하거나 아니면 새로운 정보로 받아들여 잘못된
통계 결과를 도출할 가능성이 있다.
구분 | 세부항목 | 정식명칭 | 표기 방식 |
---|---|---|---|
토지 | 용도지역 | 제1종일반주거지역 | 제1종 일반주거, 제1종일주, 일반주거, … |
집합건물 | 층 | 지하1층 | 지하 1층, 지하1, 지1, B1, B-1, 비1층, 비1, … |
호 | 제103호 | 103호, 103, … | |
층·호 | 지하1층 제103호 | 지하1층-제103호, 지하1 103호, 지하1-103호, B1 103호, B1-103호, B1 103, B1-103, … |
감정평가법인등이 감정평가 선례정보를 입력하는 과정에서 데이터의 일부 항목을 입력하지 않거나 잘못 입력할 수 있는 것으로 확인된다. 대상 물건의 공통된 선례정보 제출항목 중 하나인 소재지를 사례로 살펴보면, 지번이나 본번 항목이 하나 이상 입력되지 않았거나 실제 주소와는 다른 지번/본번 정보가 입력되어 있는 경우가 있다. 토지 선례정보 제출항목 중 하나인 면적, 적용단가, 감정평가액을 사례로 살펴보면, 최소한 하나 이상의 항목이 입력되지 않았거나 ‘.’ 또는 ‘ ’로 처리되었거나, 아니면 감정평가액에 입력된 수치가 면적과 적용단가에 입력된 수치를 곱한 결과와 일치하지 않는 경우도 있다.
입력 누락이나 오류가 포함된 감정평가 선례정보를 활용한다면 잘못된 통계 결과가 도출될 것이므로, 이러한 데이터를 단순히 제외하거나 아니면 누락이나 오류가 있는 항목을 찾아서 일일이 수정·보완할 수밖에 없을 것이다.
감정평가 선례정보에는 중복데이터가 일부 존재하는 것으로 확인된다. 예를 들어 토지에 대한 중복데이터 유형을 살펴보기 위해 중복데이터의 판단기준을 감정평가기관,
감정평가서 번호, 감정평가목적, 기준시점, 소재지(법정동 기준), 지목, 사정 면적, 결정단가, 감정평가액의 9개 정보로 삼는다고 가정하자. 가장 대표적인
중복데이터 유형이 9개 정보가 모두 일치하는 사례가 될 것이다. 다른 8개 정보는 모두 일치하나 감정평가목적만이 다른 두 개 이상의 데이터가 존재하는 사례도
있다.3
데이터 활용 시 중복데이터가 있다고 판단되는 경우에는 최종 데이터 하나만을 남기고 중복으로 판단되는 나머지 데이터는 제외해야 할 것이다. 문제는
감정평가목적만이 다른 사례와 같이 어떤 감정평가 선례정보가 감정평가서와 동일한 최종의 데이터인지 확인하기 어려운 경우이다. 이때는 중복데이터를 모두 사용하지
않거나, 데이터이용자가 중복데이터에 대한 합리적인 판단기준을 마련하거나 아니면 직접 확인해서 올바른 데이터를 채택하여야 하는 어려움이 있다.
3 감정평가법인등은 감정평가를 의뢰받았을 때 「감정평가에 관한 규칙」 제9조에 따라 의뢰인과 협의하여 감정평가목적을 확정해야 한다.
감정평가법인등이 감정평가서를 작성할 때에는 관련 법령/규정에 따라 감정평가에 참고한 사항을 모두 기재해야만 한다. 그러나 앞서 살펴보았듯이 감정평가 선례정보
제출항목은 대상 물건에 대한 기본적인 정보를 중심으로 항목이 구성되어 있으므로, 통계정보를 생산하는 데 필요한 특성 항목은 정작 빠져 있는 경우가 많다. 예를
들어 집합건물을 살펴보면 선례정보 제출항목에는 소재지, 단지명, 용도, 동·층·호, 전용면적 등이 있으나, 감정평가액을 결정하는 데 영향을 미칠 수 있는
사용승인일(내용연수), 단지 규모(연면적, 건축면적, 건폐율, 용적률, 동수, 세대수), 승강기, 조망, 향 등과 같은 특성정보는 빠져 있다.
이러한 점을 고려하여 협회 정보시스템에서는 감정평가법인등이 필요에 따라 원하는 정보를 입력할 수 있도록 감정평가 선례정보 입력란 이외에 비고란을 따로 마련하고
있다. 그러나 비고란 역시 엑셀 파일에 직접 입력하는 방식으로, 비고란에 어떤 정보를 입력할 수 있는지 혹은 어떤 방식으로 입력해야 하는지에 대한 기준이
마련되어 있지 않다. 따라서 비고란에 선례정보 이외의 어떤 중요한 특성정보가 입력되어 있다고 하더라도 동일한 항목에 대한 명칭 표기나 제출되는 항목 자체에도
큰 차이가 나타나, 이를 데이터로 활용하기에는 한계가 있다.
이처럼 감정평가 선례정보에는 감정평가액을 결정하는 데 중요한 특성정보가 상당 부분 빠져 있을 뿐만 아니라 이를 체계적으로 수집·구축하는 시스템 역시 갖추고
있지 않은 것으로 보인다. 대상 물건의 감정평가액 또는 적용단가에 영향을 미치는 요인을 분석하기 위해 선례정보를 활용하고자 한다면 데이터이용자가 자신의 이용
목적에 맞게 특성정보를 따로 수집·구축해야 하는 어려움이 있다.
구분 | 특성정보 |
---|---|
토지 | 사업유형, 접근성, 유해시설/위험시설, … |
집합건물 | 사업유형, 구조, 사용승인일, 단지 규모, 승강기, 조망, 향, 소음, 임대 공동주택, 전매제한주택, 1층 전용정원/최상층다락방/복층, 증·개축/리모델링, 멸실 여부, 접근성, … |
일반건물 | 사용승인일, 연면적, 건축면적, 건폐율, 용적률, 건물 지붕, 특수설비, 층별 특성, 증·개축/리모델링, 공가 주택, 접근성, … |
앞서 살펴보았듯이 감정평가 선례정보에는 대상 물건의 감정평가액 또는 적용단가를 결정하는 데 영향을 미칠 수 있는 특성정보가 제대로 수집·구축되어 있지 않은
경우가 대부분이다. 이때 데이터이용자가 자신의 데이터 활용 목적에 필요한 특성정보를 따로 수집·구축하지 않더라도 이러한 정보를 포함하고 있는 타 데이터를
매칭(Matching)할 수만 있다면, 선례정보 제출 의무에서 배제된 중요한 특성정보를 상당 부분 보완할 수 있을 것으로 예상한다.
그러나 문제는 감정평가 선례정보와 타 데이터를 매칭할 수 있는 기준이 마련되어 있지 않다는 데 있다. 이로 인해 선례정보 이외에 감정평가추천, 감정평가심사,
감정평가서, 업무실적, 공시/공부/공공 데이터 등 협회가 감정평가정보를 다양하게 수집·구축하고만 있을 뿐, 이를 효율적으로 활용하지 못하는 한계가 있다.
표준화란 코드, 용어, 도메인, 메타데이터, 데이터셋 등의 표준을 수립하여 데이터베이스에 일관되게 적용하는 일련의 활동을 말한다. 데이터 표준화는
테이블(명), 칼럼(명), 데이터 타입(숫자/문자/날짜 등), 길이, 칼럼 구성항목 세부내용에 대한 데이터 표준체계를 구축하는 것에서부터 시작될 수
있다(「공공기관의 데이터베이스 표준화 지침」 제2조 제2호 및 제4호, 제7조).
감정평가 선례정보의 수집·구축에 대한 쟁점 검토 결과, 협회는 가장 먼저 선례정보의 데이터 표준화를 추진할 필요가 있다. 공공기관의 데이터 표준화 사업을
참고하여 협회 여건에 맞는 표준화 관리체계를 구축하고, 무엇보다 감정평가 선례정보의 테이블, 칼럼 구성항목, 데이터 타입, 길이 등을 재정비할 수 있도록
데이터 표준체계를 마련하는 것이 바람직해 보인다.
공공기관은 일정 기준에 따라 업무를 간편하게 처리할 수 있도록 공공 데이터베이스를 구축·운영하면서 정보시스템상으로 유일성이 보장된 코드값과 코드값 의미를
일대일로 정한 행정 표준코드를 정의하도록 권장하고 있다(「공공기관의 데이터베이스 표준화 지침」, 「행정기관의 코드표준화 추진지침」). 이와 마찬가지로 통계청은
표준화된 절차에 근거하여 통계를 효율적으로 작성·이용할 수 있도록 정보시스템을 구축·운영하고, 통계 데이터베이스를 구축할 때 표준화된 통계 데이터베이스 분류
코드로 작성하도록 하고 있다(「통계법」). 데이터베이스를 구축·운영하는 데 있어서 행정 목적뿐만 아니라 통계 목적상으로도 표준분류 코드 관리체계가 필수적이라는
의미이다.
협회 정보시스템은 감정평가법인등, 감정평가목적 등 일부 감정평가 선례정보에 대해서는 표준분류 코드로 관리하고 있다. 그러나 표준분류 코드 체계를 전반적으로
갖추었다고 말하기에는 다소 무리가 있다. 데이터 표준분류 코드 대상은 대상 물건의 소재지, 용도지역, 지목, 토지이용상황, 건물명, 동·층·호, 용도 등
대부분의 선례정보가 될 것이다. 선례정보에 적합한 표준분류 코드 체계를 마련하여 유일성이 보장된 코드값과 코드값 의미를 일대일로 정하고, 이를 통해 선례정보를
입력·제출받아 데이터를 체계적으로 수집·구축하는 것이 바람직해 보인다.
데이터는 데이터 속성에 따라 정형데이터, 반정형데이터, 비정형데이터로 구분할 수 있다. 정형데이터는 질적 데이터와 양적 데이터로 구분할 수 있다. 질적
데이터에는 명목형과 순서형이 있고, 양적 데이터에는 이산형과 연속형이 있다.4
감정평가 선례정보는 현재 별도의 처리 없이 곧바로 활용할 수 없으나 고정필드에 저장되는 정형데이터에 해당한다. 선례정보를 곧바로 활용하지 못하는 이유 중
하나는 선례정보를 제출받을 때 데이터 속성이 고려되지 않았기 때문인 것으로 보이며, 이로 인해 용도지역이나 동·층·호와 같이 동일한 데이터 항목에 대한 표기
방식이 달라질 수 있는 것으로 보인다.
감정평가 선례정보는 정형데이터에 해당하므로 데이터 유형을 명목형, 순서형, 이산형, 연속형으로 구분할 수 있다. 구체적으로 선례정보 항목 중 소재지,
감정평가목적, 토지이용상황, 건물구조 등은 명목형으로, 도로조건, 건물등급, 접근성조건 등은 순서형으로, 세대수, 건물 층수, 방수, 물건 수량 등은
이산형으로, 면적, 적용단가, 감정평가액, 거리 등은 연속형으로 분류할 수 있을 것이다. 선례정보 속성을 고려한다면 다음과 같이 데이터 입력 방식을 취할 수
있을 것이다.
첫째, 소재지, 감정평가목적과 같은 명목형 데이터는 해당 정보에 대한 코드값과 코드값 의미를 사전에 정하여 일대일로 매칭하는 방식을 취한다. 감정평가법인등이
해당 정보에 대한 코드값을 찾아서 클릭해서 입력하면 그에 해당하는 코드값 의미가 자동적으로 매칭될 것이다.
둘째, 도로조건, 건물등급과 같은 순서형 데이터 역시 명목형 데이터와 마찬가지로 해당 정보에 대한 코드값과 코드값 의미를 사전에 정하여 일대일로 매칭하는
방식을 취한다. 다만, 도로조건과 같이 기본적으로 양적 데이터 형태로 제출받을 수 있는 경우에는 처음부터 양적 데이터 형태로 정보를 입력·제출받고, 데이터
이용자가 필요 시 일정한 기준에 따라 순서형 데이터로 바꾸어 활용하는 편이 데이터 활용 측면에서 보다 효과적일 수 있다.
셋째, 세대수, 건물 층수와 같은 이산형 데이터는 감정평가법인등이 해당 정보에 대한 수치를 직접 입력하기보다는 질적 데이터 입력 방식을 준용하여 해당 정보에
대한 수치값을 찾아서 클릭하는 방식을 취한다. 다만, 사전에 정보시스템에서 데이터 타입을 지정할 때 문자가 아닌 숫자로 지정하여야 할 것이며, 이와 함께 해당
정보의 값을 찾아서 클릭할 수 없는 경우에는 감정평가법인등이 직접 입력할 수 있도록 조치한다.
넷째, 면적, 적용단가, 감정평가액과 같은 연속형 데이터는 기본적으로 감정평가법인등이 직접 입력할 수밖에 없을 것이다. 따라서 입력 방식보다는 해당 정보를
입력하지 않거나 잘못 입력하는 경우를 방지하는 것에 보다 주의를 기울일 필요가 있다.
4
① 정형데이터(Structured data)는 고정필드에 저장되는 데이터로, 별도의 처리 없이 곧바로 활용 가능한 데이터를 말한다.
반정형데이터(Semi-structured data)는 고정필드는 없으나 스키마, 메타데이터 등을 포함하는 데이터로, 정해진 형식은 있으나
파싱(Parsing) 처리를 통해 필요한 정보를 추출해야 하는 데이터를 말한다. 비정형데이터(Unstructured data)란 고정필드에 저장되지
않는 데이터로, 정해진 형식이나 규칙이 없으므로 필요한 정보를 추출하기 위하여 별도의 분석이 필요한 데이터를 말한다.
② 질적 데이터는 데이터의 값이 수치가 아닌 범주로 구분할 수 있는 데이터를 의미하고, 양적 데이터는 데이터의 값이 수치로 나타나 연산이 가능한
데이터를 의미한다. 질적 데이터에서 명목형은 성별이나 지역과 같이 순서가 없는 경우이며, 순서형은 학점이나 척도와 같이 일정한 순서를 가지는 경우이다.
양적 데이터에서 이산형은 쉽게 말해 인구수나 세대수와 같이 소수점으로 나타낼 수 없는 경우에 해당하고, 연속형은 면적이나 거리와 같이 소수점으로 나타낼
수 있는 경우에 해당한다.
감정평가법인등이 감정평가 선례정보를 입력할 때 제출항목을 입력하지 않거나 잘못 입력할 수 있으므로, 정보시스템이 자동으로 검증/입력하는 기능을 도입한다면
데이터에 누락이나 오류가 생기는 것을 방지할 수 있을 것으로 보인다. 데이터 자동 검증/입력 기능에 대한 구체적인 사례를 살펴보면 다음과 같다.
첫째, 감정평가 선례정보 제출항목 중 입력되지 않거나 ‘.’ 또는 ‘ ’로 처리된 경우 다음 단계로 넘어가거나 최종 제출로 넘어가기 이전에 “OO정보가
입력되지 않았습니다.” 혹은 “OO정보가 잘못 입력되었습니다.”와 같은 확인 창을 이용할 수 있다.
둘째, 면적, 적용단가, 감정평가액의 경우 면적과 적용단가 정보만 입력하면 감정평가액이 자동으로 계산·입력되는 것보다 각 정보를 모두 직접 입력하는 것이
합리적일 수 있다. 단, 면적과 단가를 곱한 수치가 입력된 감정평가액의 수치와 일치하는지 정보시스템상으로 자동 검증될 수 있도록 사전 프로그래밍하여, 두
수치가 일치하지 않은 때에는 “면적과 단가를 곱한 금액이 감정평가액과 일치하지 않습니다.” 또는 “입력된 정보가 적정하지 않습니다.”와 같은 확인 창을 이용할
수 있다. 또한, 하나의 감정평가서에 둘 이상의 대상 물건이 포함되어 있을 때에도 각 정보를 모두 직접 입력함으로써, 개별물건의 감정평가액을 모두 합한 수치가
감정평가액(총액) 수치와 일치하는지 정보시스템상으로 자동 검증될 수 있도록 프로그래밍할 수 있다.
셋째, 앞서 언급하였듯이 질적 데이터나 이산형 데이터의 경우 표준분류 코드 체계에 따라 해당 정보에 대한 코드값과 코드값 의미를 일대일로 정하여 매칭하는
방식이 합리적일 수 있다. 예를 들어 지목 코드 “08” 클릭 시 지목 명칭 “대”, 용도지역 코드 “21” 클릭 시 용도지역 명칭 “중상” 또는
“중심상업지역”과 같이 표준화된 데이터가 자동 입력되도록 사전 프로그래밍하면, 하나의 정보 입력 시 그에 매칭된 정보가 자동 입력되면서 정보에 대한 재확인이
즉시 가능해질 뿐만 아니라 동일한 항목에 대해 명칭을 서로 다르게 표기할 일도 줄어들게 된다.
중복데이터와 관련하여 중복 일관성이란 ‘동일한 데이터를 중복하여 관리하는 경우 원천 데이터와 중복데이터를 구분할 수 있고, 동일한 시점에 중복데이터가 같은
값을 가지고 있는지 진단’하는 것을 의미한다. 중복데이터를 진단하기 위해 중복칼럼에 대한 데이터 검증규칙과 중복데이터에 대한 목록을 정의·관리해야
한다(한국정보화진흥원, 2020: 10, 17, 41, 48).
또한, 구축데이터는 원천적으로 중복이 없어야 하지만 만약의 경우를 대비해서 정제단계에서 데이터 중복을 확인하여 제외해야 한다.
“정제단계 품질관리를 위해서는 정제기준을 명확하게 정의하고, 중복성 방지를 위한 품질활동을 수행해야 한다. 정제기준을 명확하게 정의한다는 것은 구축 목적에
적절한 데이터를 선별하기 위한 명확한 정제 기준을 수립하고, 기준 미달 또는 활용 불가능한 데이터를 효과적으로 제거할 수 있는 방법을 수립하는 것을 의미한다.
중복성 방지는 구축된 데이터 중 유사도가 높거나, 활용 목적에 필요한 특성이 포함되어 있지 않은 데이터의 경우 이를 제거하는 등의 적절한 정제를 수행하여야
함을 말한다(과학기술정보통신부·한국지능정보사회진흥원, 2021: 35).”
감정평가 선례정보에는 중복자료가 존재하는 것으로 확인된다. 최종/원천 데이터와 중복데이터를 모두 수집·구축하거나 아니면 최종/원천 데이터만을 남기거나에
상관없이 결과적으로는 중복데이터를 구분할 수 있는 일정한 판단기준이 필요하다. 따라서 선례정보의 중복 여부를 진단하기 위해 중복칼럼에 대한 검증규칙을
정의·관리하고, 최종/원천 데이터를 선별하기 위해 중복데이터에 대한 목록 역시 정의·관리할 필요가 있다.
데이터 연계란 둘 이상의 데이터를 결합하여 하나의 완전한 통합데이터로 만드는 것을 말한다. 데이터를 상호 연계하는 경우 데이터의 양과 질을 향상시킬 수 있고,
하나의 데이터만으로는 알 수 없는 새로운 정보를 생산·제공할 수 있는 장점이 있다. 일반적으로 두 기관이 가진 데이터를 연계하려면 데이터 제공기관과 데이터
활용기관이 연계표준이나 기준 등에 관한 연계정보를 사전에 협의해야만 한다(이수민 외, 2023: 17; 정보인권연구소, 2017: 1).
협회는 감정평가 선례정보를 중심으로 추천, 심사와 같은 내부데이터나 업무실적, 감정평가서와 같은 연계데이터뿐만 아니라 특히 공부 데이터, 공공 데이터와 같은
외부데이터를 연계·매칭할 수 있는 연계체계를 마련하고 이를 표준화할 필요가 있다. 선례정보와 타 데이터를 연계하기 위해서는 두 데이터 간 연계표준이나 기준
등이 미리 정해져 있어야 하므로, 선례정보와 타 데이터 간에 통용될 수 있는 표준용어나 표준단어, 표준도메인, 표준코드를 정의·관리하는 동시에 두 데이터를
상호 연계할 수 있는 칼럼(속성), 즉 연계키를 발굴하는 것이 바람직해 보인다.5
선례정보와 타 데이터의 연계가 가능하다면 부서 간 업무가 원활해지고,
데이터를 효율적으로 운영·관리할 수 있을 것이다. 뿐만 아니라 선례정보 제출항목에서 배제된 중요한 특성정보를 상당 부분 보완함으로써, 감정평가시장과
부동산시장이 요구하는 다양한 정보를 제공하고, 더 나아가 데이터이용자가 자신이 원하는 그 이상의 새로운 정보를 생산할 수 있을 것으로도 생각한다.
데이터를 통합하거나 연계하기 위해서는 데이터 표준화가 필수적이다. 감정평가 선례정보의 데이터 표준화를 기반으로 타 데이터와의 연계체계를 구축한다면 선례정보의
양과 질을 향상시키고 새로운 정보를 생산·제공하는 기반을 마련할 수 있을 것이다. 결과적으로 선례정보의 데이터 표준화와 타 데이터와의 연계체계 마련이 협회에
수집·구축되는 선례정보의 양과 질을 향상시키는 핵심 역할을 할 것으로 기대한다.
5 「공공기관의 데이터베이스 표준화 지침」과 한국지능정보사회진흥원(2021)을 참고할 수 있다.