본문 바로가기
온톨로지

[펌] 시멘틱웹의 가능성과 한계

by 사우람 2010. 7. 12.

##########0*정보획득 능력의 차이가 사람의 능력을 좌우한다. 원시시대에는 귀동냥으로 정보를 획득했지만, 시대가 흐름에 따라 문자를 통한 정보획득이 가능해지면서 축적된 정보의 활용이 가능해졌다. 인쇄술의 발달은 정보의 대중화를 이루었으며, 매스컴은 문자를 넘어서서 음성과 멀티미디어 정보를 실시간에 저렴한 비용으로 배포할 수 있게 했다.

 

그러나 이런 모든 정보유통의 발전도 지난 10여 년간 웹 중심의 인터넷이 이루어낸 정보유통의 변화와 비교 할 수 없다. 인터넷은 정보소비자와 정보생산자의 구별을 없애고 정보획득 장벽을 철폐함으로써 정보유통의 민주화와 대중화를 가져왔다. 멀티미디어 정보를 비롯한 모든 종류의 정보를 거의 공짜에 가까운 비용으로 배포하고 획득할 수 있게 했다. 이런 정보유통의 혁명은 사회민주화와 세계화를 이루어 내면서, 동시에 정보획득 불균형의 확대라는 새로운 문제를 야기했다. 더구나 인터넷에 의해 무차별로 배포되는 정보에서 알짜 정보를 찾고, 거짓 정보, 쓰레기 정보, 불필요한 정보를 제거하는 것은 현재 사용하는 단순링크(링크에 정보가 없이 지시만 하는) 기반 인터넷에서는 현실적으로 불가능하다.

 

정보를 이용하려면, 먼저 다양한 방법으로 정보를 획득하고, 이를 자신이 원하는 목적에 따라 분석하고 가공하여 정보를 통합하고, 이를 바탕으로 정보를 활용하거나 또는 통합한 정보를 다시 배포하게 된다. 그런데 단순링크 기반 인터넷에서는 색인어에 기반을 둔 정보검색시스템이나 주제에 따라 홈페이지를 분류한 분류시스템에서 제공하는 정보를 바탕으로 필요한 정보를 획득해야 한다. 그런데 정보검색 시스템이 제시하는 정보는 지나치게 많으며, 분류시스템의 분류방법은 대부분 사용자가 원하는 형태로 되어있지 않다.

 

따라서 정보획득이 우연에 의해 이루어질 수밖에 없다. 이 문제를 가장 쉽게 해결하는 방법은 언어나 멀티미디어 정보를 인간처럼 이해하여 처리할 수 있는 기술을 개발하는 것이다. 그러나 이런 기술이 조만간 개발될 가능성은 없다. 한편, 오랜 기간 동안 특정 분야에서 정보를 획득한 경험자는 자기만의 경험적 지식을 바탕으로 필요한 정보를 획득한다. 그리고 일부 전문가는 정보획득에 필요한 정보(일종의 메타정보)를 모은 사이트를 만들기도 한다.

 

그런데 같은 분야의 전문가라도 각자 정보획득에 사용하는 방법 또는 표현 방법에 차이가 있다. 그런데 이런 전문가가 정보획득에 도움을 주고자 만든 사이트 자체가 역시 단순링크 기반으로 정보가 표현됨으로써 한계가 있다. 더구나 다양한 전문가가 각자 다른 관점에서 정보를 찾는 방법을 표현했다면 모든 사이트를 방문하여 분석하고, 그 결과를 바탕으로 필요한 정보를 획득해야 하므로 어려움이 크다. 정보이용자는 자신이 원하는 정보만을 자신이 원하는 형태로 제공받기를 원한다. 지금처럼 거의 무한으로 확장되고 있으면서 거짓정보와 진짜정보, 필요한 정보와 불필요한 정보가 뒤섞인 인터넷 환경에서 정보유통의 효율화를 이루면서, 정보이용의 격차를 극복하고, 정보 이용을 극대화하려면 사용자가 원하는 정보만을 획득할 수 있는 방법론이 제공되어야 한다.

 

이 일환으로 Tim Berners-Lee가 제시한 새로운 인터넷 환경이 시맨틱웹이다. 시맨틱웹이 정말 이런 문제를 해결할 수 있을지는 아무도 모른다. 그러나 지금까지 제시된 방법론 중에서는 가장 설득력이 있다. 이 글에서는 시맨틱웹의 장점, 한계, 극복해야 할 점 등을 중심으로 시맨틱웹의 가능성과 한계를 살펴보겠다.

 

시맨틱웹, 가능성과 한계

 

##########1*인간은 의미 또는 개념에 따라 정보를 획득하고 가공한다. 그러나 기존기술로는 기계가 언어를 이해하기는 불가능하다. 따라서 Tim Bereners-Lee는 의미를 인간이 직접 메타정보로 제공하는 방법을 생각했다. 즉, 인터넷에서 접근할 수 있는 또는 세상에 존재하는 객체(object, URI로 표현)에 대해 의미에 기초하여 정보의 내용과 개념 따위를 표현하는 체계를 만든 것이 시맨틱웹이다. 정보 제공자나 이용자가 경험에서 얻은 정보획득에 필요한 메타정보 또는 자기가 접근한 사이트나 페이지의 내용에 대한 정보 따위를 의미에 기초하여 기록하여 인간뿐 아니라 기계도 활용하게 하는 것이다.

 

그런데 ‘의미(뜻)’ 그 자체를 정의하거나 표현하기는 매우 어렵다. ‘커피’라는 말은 그 차체로 뜻이 있지만, 응용분야에 따라 의미를 더 세분화해야 할 수도 있다. 즉, 문맥에 따라‘커피나무’, ‘커피열매’, ‘음식’또는 ‘음료수’따위로 다르게 해석할 수 있다[홍재성(서울대) 교수의 발표 중]. 따라서 어떤 차원에서 의미를 표현하느냐에 따라 달라질 수 있다. 따라서 우리가 쓰는 단어를 그대로 의미표현에 쓸 수는 없다. 시맨틱웹에서 뜻하는‘의미표현’은 인간뿐 아니라 기계(프로그램)도 이해할 수 있는‘의미’를 뜻한다. 기계가 이해한다는 말은 매우 중요하다. 즉, 인간이 메타정보를 주면, 그것을 이해하여 프로그램이 의미에 따라 정보를 통합하여 제공할 수 있어야 한다는 전제조건을 가정한 것이다. 따라서 응용분야에서 기계가 하나로만 해석할 수 있는‘의미’단위를 가정해야 한다.

 

그런데 이런 의미를 모두가 공감하게 표현하는 방법은 없다. 이에 따라서 일종의 name space에서 이야기하는 의미 표현방법을 시맨틱웹이 도입하고 있다. 즉, 나는 “여기서 이 단어를 이런 의미로 사용한다.”라고 선언하고, 그에 따라 의미를 표현하는 접근을 취한다. name space는 어떤 용어(terminology)를 어떤 의미 (gloss, 주석으로 구체화)로 사용하겠다고 정의한 것이다. 예를 들어, ‘역학’을 쓸 때, 물리학에서 이야기하는 ‘역학(力學)’으로 쓰겠다거나 주역에서 말하는‘역학(易學)’으로, ‘역학(疫學, 질병 관련)’또는‘역학(曆學)’으로 쓰겠다는 것을 의미에 따라 구별하여 쓸 수 있게 하는 것이다.

 

용어뿐 아니라 개념을 표현할 때도 의미해석에 중의성이 없어야 한다. Dublin Core에 의해 날짜를 표현하면 해석이 언제나 일정한 것이 예가 된다. 예를 들어, “URI가 가리키는 객체(사이트)에는 어떤 정보가 있는데 신뢰도는 어느 정도다”라는 것을 개념화하여 기계가 이해할 수 있는 형태로 표현할 수 있어야 한다. 이렇게 함으로써 기계가 뜻을 이해하고, 정보를 정확히 추출하며, 또한 다양한 정보를 통합하여 제공할 수 있다. 개념화하여 정보를 표현하기 위한 언어가 RDF(Resource Description Framework)이며, RDF에 형(type)을 제공하여 의미적 완결성을 보장하기 위한 방법이 RDFSchema이다. RDF가 3개 요소(triple, URI, Property,Value)로 지식을 표현하는 것은 이것이 가장 단순하면서 보편적인 지식표현 구조이기 때문이다. 또 RDF로 표현된 메타데이터에서 필요한 정보를 추론하고, 정보를 통합하기 위한 도구가 OIL이다.

 

그런데 인간이 의미에 따라, 중의성이 제거된 개념화를 거쳐 메타데이터로 정보를 표현하기는 매우 어렵다. 더구나 같은 내용을 사람에 따라 다른 방법으로 표현할 수도 있다. 따라서 시맨틱웹은 분야별로 개념표현 방법을 표준화하고, 이를 바탕으로 메타데이터를 표현한다. 그러나 인간이 정보를 표준화한 방법으로 제공해야 한다는 것은 시맨틱웹의 한계가 될 수 있다.

 

Tim Berners-Lee는 이 문제가 개방 환경인 인터넷의 특성에 의해 많은 사람(다수의 힘)이 다양한 형태로 메타데이터를 제공할 것이므로 해결할 수 있다고 본다. 그런데 현재 상용화된 시맨틱웹 기반 응용 시스템은 많아야 100개 내외의 개념만 활용하고 있다. 이는 언어처리나 지식처리 분야에서 사용하는 개념의 수에 비하면 매우 적다. 그 이유는 응용분야를 제약함으로써 그만큼 필요한 지식을 표현하는 데 쓰이는 개념의 수가 적은 데 기인할 수도 있고, 개념의 수가 너무 다양해지면 그만큼 인간의 노력이 더 들기 때문일 수도 있다. 기존 시맨틱웹 응용 시스템은 인간이 직접 표현한 메타정보와 데이터베이스의 구조에서 얻은 메타정보 및 기계가 자동처리하여 얻은 메타정보(정보검색시스템이 제공한 시맨틱웹의 가능성과 한계 순위정보, 다른 시맨틱웹이 제공하는 정보)를 바탕으로 정보를 통합하여 정보를 제공한다.

 

최근 시맨틱웹의 응용영역은 크게 확장되고 있다. 인터넷에서 프로그램과 프로그램이 의미에 따라 정보를 교환하기 위한 시맨틱웹에 기반을 둔 웹서비스를 구상하기도 하고(시맨틱 웹서비스), 업무 흐름(business process)을 시맨틱웹에 기초하여 정의하고 이를 인터넷으로 통합하려고 노력하고도 있다. 또 제품의 사양, 하드웨어/소프트웨어 특성, 개인의 성향, 개인이 느끼는 가게나 제품에 대한 인상 등을 시맨틱웹에 의한 메타데이터로 표현하려고 하고도 있다.

 

‘Semantic Web Challenge 2003’에서 시맨틱웹 응용 시스템의 최소한 요구조건을 다음과 같이 정의했다. 응용시스템이 활용하는 정보가 지리적으로 분산되고, 소유권이 다양하여 제어가 어려우며 구조적으로나 의미상으로 이질적이며 실세계 자료를 바탕으로 해야 하고, 정보가 계속 변하는 개방형 환경에서 작동하는 응용시스템이어야 하며, 응용시스템이 사용하는 자료가 형식론적 표현(formal description)을 따라야 한다.

 

위에서 말하는‘지리적’이란 정의는 인터넷이 가진 분산 환경을 뜻하지만, 실제는‘개념적으로 분산되어 있다’는 말이 더 적합하다. 시맨틱웹에서 개념화는 매우 중요하다. 그런데 응용목적, 응용분야, 개념화하는 사람에 따라 사용하는 용어나 개념화에 차이가 나게 마련이다. 그러나 인터넷의 개방적 특성으로 볼 때, 이 모든 차이를 인정하면 제어가 어려워질 가능성이 크다. 따라서 시맨틱웹은 공통의 온톨로지를 이용한 개념화를 가정한다. 시맨틱웹에서 뜻하는 온톨로지는 특정영역에서 사용하는 어휘를 뜻한다. 이는 name space로 구현된다.

 

온톨로지에 쓰인 어휘들은 여러 가지 방법으로 체계화 할 수 있는데, 가장 손쉬운 방법이‘is-a’관계에 의한 시소러스 형태의 체계화이다. 이 외에도 ‘part-of’나 여러 다른 방법으로 어휘 간 관계를 정의할 수 있다. 그런데 온톨로지는 사용하는 언어가 다르거나, 온톨로지를 정의한 집단(전문분야)이 다르면 달라진다. 한편, 같은 내용을 같은 온톨로지로 표현하더라도 개념화가 다르면 결과는 다르다. 개념화할 때 사용하는 온톨로지가 다르면 만들어진 메타데이터도 달라진다. 같은 내용을 다른 목적에서 다른 온톨로지로 개념화하여 표현하면 달라진다.

 

그런데 시맨틱웹 응용시스템은 필요한 정보가 다른 온톨로지에 기초하여 다른 개념화에 의해 표현되었더라도, 온톨로지를 번역하고 개념을 추론하여 해당 응용시스템이 요구하는 정보로 가공하여 응용시스템의 메타데이터 형태로 변환할 수 있어야 한다고 주장한다. 이를 위해서는 메타데이터의 의미를 표현하는 언어가 형식론적으로 표현되어야 한다. 이렇게 되어야 추론을 통하여 지식을 변환할 수 있다.

 

위에서 말한 정의는 다른 온톨로지를 사용함에 따른 메타데이터에 쓰인 용어의 차이, 개념화를 다르게 함에 따른 표현구조나 의미표현 방법의 차이, 메타데이터를 만든 목적의 차이에 따른 개념화의 차이 등 개방적 구조에 따른 문제점을 극복하고, 정보를 획득하여 가공하고 통합하여 제공할 수 있는 응용시스템을 시맨틱웹 응용시스템으로 정의한다. 그러면 시맨틱웹에서 주장하는 온톨로지와 자연언어처리나 지식표현에서 말하는 온톨로지에 차이는 있을까? 기본적으로 RDF는 모든 지식을 표현할 수 있다. 따라서 제한 없이 자유롭게 쓴다면 차이가 없다. 더구나 언어처리나 지식표현에서 의미를 표현하기 위해 의미요소를 정의하는, 예를 들어 몬테규가 사용하는 의미표현은 name space와 유사한 면이 많다.

 

그러나 시맨틱웹은 일반상식을 표현하기 위한 의미체계를 가정하지 않는다. 따라서 언어처리나 지식표현에서 시맨틱웹, 개념화 그리고 온톨로지 요구하는 수준보다는 매우 낮은 수준의 의미표현을 가정한다. 즉, 응용영역을 제한하고, 그 영역에서 문제를 해결하는데 필요한 수준에서 의미를 표현하려고 한다. 따라서 지금까지 구현된 시맨틱웹 응용시스템은 100개 내외의 개념만 사용하고 있다. 의미표현에서 더 중요하고 더 큰 차이는 언어처리나 인공지능에서는 문제에 내재하는 중의성(ambiguity, 전산학에서는 모호성으로 번역)을 기계가 제거하는 데 온톨로지를 사용하지만, 시맨틱웹은 처음부터 중의성이 제거된 자료를 대상으로 하며, 추론과정에서도 중의성이 발생하지 않는다고 본다는 면이다. 사람이 처음부터 메타데이터를 만들 때, 또는 다른 프로그램에서 정보를 가져올 때 이미 자료에 중의성이 없다는 가정은 시맨틱웹이 의미기반의 메타데이터를 쓰되 언어처리나 인공지능에서 극복하지 못한 기술적 장벽을 피하려는 시도로 보인다.

 

따라서 언어처리나 인공지능을 위한 지식표현방법을 시맨틱웹 응용에 바로 적용하는 것은 매우 위험하다. 더구나 인공지능에서 말하는 시맨틱 네트워크를 시맨틱웹과 동일시하는 것은 잘못되었다. 언어처리나 인공지능을 위한 지식표현은 온톨로지의 번역이나 통합이라는 개념을 쓰지 않지만 시맨틱웹이 이 개념을 쓰는 이유도 영역에 따라 또는 응용분야에 따라 다르게 표현된 정보를 활용하고, 통합하려는 시도에서 나왔다. 그런데 아주 제한된 수준에서 만들어진 온톨로지가 아니고, 실제 문제에 활용된 온톨로지를 자동으로 통합하고, 이를 통해 필요한 정보를 의미에 따라 번역하여 활용할 수 있을까? 그렇게 희망적이지는 않다. 한 가지 해결방법은 워드넷과 같은 일반적 의미체계를 기반으로 영역별 온톨로지를 만드는 방법이 있다. 이렇게 하면 어느 정도 자동으로 온톨로지를 통합할 수 있다.

 

이에따라 최근에는 온톨로지를 통합하면서 인간이 어느 정도 개입하는 방법을 주로 쓰고 있다. 그렇더라도 무작위로 만든 온톨로지를 통합하기는 쉽지 않을 것이다. 이에 대한 연구가 잘 되느냐가 시맨틱웹의 성공에 큰 영향을 줄 것이다. 온톨로지가 통합되면 개념화하여 표현된 지식의 변환이 가능할까? 이 또한 부정적인 면이 많다. 물론‘사람과 직업, 주소’, ‘자동차를 만든 회사’따위의 간단한 지식은 쉽게 변환할 수 있다. 그러나 선호도를‘상, 중, 하’로 분류한 사이트와‘1-10’의 단위로 분류한 사이트의 개념을 통합하려면 어려움이 상당히 있다.

 

더구나 어떤사람의 건강에 대한 평가를 수치로 표현한 정보를 얻었더라도, 그 수치가 구체적으로 무엇을 뜻하는지를 정보를 제공한 사이트에서 정확히 얻지 못한다면 수치는 의미가 없다. 그런데 시맨틱웹은 개방성을 가정하므로 이런 문제는 쉽게 해결하지 못할 것이다. 더구나 수치에 대한 판단이 통계를 바탕으로 지속하여 바뀐다면 그 내용을 메타데이터로 받지 않는 한 사용할 수 없다. 지식(메타데이터) 또는 정보의 재활용은 시맨틱웹의 성공에 중요한 요소다. 온톨로지의 개발은 어렵고 비용이 많이 들므로 대부분 기존에 개발된 온톨로지를 쓰거나 약간 바꾸어 쓸 것이라는 면은 시맨틱웹의 성공에 긍정적인 면이다.

 

또 어떤 전문분야 사람이 자신이 가진 정보획득 지식이나 경험을 표현하는 방법은 비슷하므로, 한번 개발한 온톨로지나 개념화 방법은 비슷한 영역에서 같이 사용될 것이라는 것도 같다. 또 전자상거래와 같이 자신의 정보를 최대한 다른 필요로 하는 사람이 원하는 형태로 쉽게 획득할 수 있게 하려는 의도가 있는 사이트는 표준화만 한다면 이 온톨로지를 따를 것이므로 역시 시맨틱웹이 힘을 발휘할 것이다.

 

여러 기관이 정보를 공유해야 하는 분야도 시맨틱웹 개념이 잘 활용될 수 있다. 또 웹서비스를 활용한 ASP(Application Service Provider), 분산정보처리 등도 시맨틱웹이 잘 활용될 수 있는 분야로 본다. 기존 인터넷은 정보과부하에 따라 한계에 도달했으며, 어떤 형태로든 이 문제를 해결해야 한다. 이 해결방법은 의미에 의한 정보접근일 수밖에 없다. 또 인터넷에 있는 정보의 양으로 볼 때 기계가 능동적으로 의미에 기초하여 사용자가 원하는 형태로 정보를 통합하고 가공하여 제공해야 한다. 그러나 이런 문제를 해결할 만큼의 지능성이 있는 기계의 개발은 쉽지 않다. 따라서 이 문제의 극복 방법으로 현재 가장 실현가능성이 큰 것이 시맨틱웹이다.

 

글: 권혁철 교수(부산대학교 전자전기정보컴퓨터공학부·hckwon@pusan.ac.kr)

* 본 내용은 원문을 요약 발췌한 내용입니다.
자세한 내용은 원문 출처를 통해 확인하실 수 있습니다.

원문출처: http://www.kisti.re.kr/html/kisti/knowledge/infra_2004_15/15_19.pdf
내용출처: 한국과학기술정보연구원: 지식정보인프라지 통권 15호