2009년 8월 6일 목요일

웹을 활용한 교수학습 컨텐츠와 비주얼교재의 자동생성



1. 서

정보기술의 발전에 의해 인터넷으로 대량의 지식을 향수할 수 있는 시대로 되었다. 정보홍수나 정보폭발이라는 키워드로 상징되듯이 1990년대 초, World-Wide Web의 등장 이래, 취득가능한 정보량은 나날이 발산적으로 확대되고 있다. 동시에 검색엔진기술의 진전에 의해 정보에의 액세스 정밀도도 향상을 거듭하고 있다. 정보량의 증대는 가치관의 다양화를 가속화하여 결과적으로 정보의 개인화에 관한 니즈를 향상시키고 있다.
이제는 우리 나라도 글로벌네트웍사회에서 지식을 소비하는 것이 아니라 지식을 축적하고 모두 쓸 수 있는 지식순환형사회를 목표로 할 필요가 있다. 지식이 확대재생산되고 더욱이, 새로운 지식의 창조가 행해지고 그 지식이 공유되는 지식순환, 혹은 지식사회의 도래가 기대되고 있다. 이것을 위해 작성자와 이용자가 일치하도록 하는 지식베이스를 구축하는 것이 필요하다.
여기에서 지식순환이 실현되기 위해서는 지식을 사회에서 공유하기 위한 구조를 제공하는 Ontology의 구축환경이나 가시화(visualization) 수법, 컨텐츠의 번역이나 검색, 요약 등의 기술이 필요하게 된다.
한 편, 특정한 검색엔진이나 문서포맷으로 대표되듯이 記述의 획일화가 정보 Literacy의 저하를 초래할지 모른다는 우려도 있다. 이상의 관점에서 지식순환을 실현하기 위한 기반기술로서 Ontology의 공유에 기반해서 Web 상의 컨텐츠나 서비스를 수집·구조화·축적하는 프레임이 필요하다.


2. 의미구조화 컴퓨팅(Semantic Computing)

최근, 인터넷의 발달에 의해 대량의 정보가 유통하는 가운데, 이용자가 필요한 정보를 적절하게 선택해서 취득하는 것은 곤란하게 되고 있다. 예를 들면, 보고서 내의 타사제품명에 대하여 그 제품정보나 기술정보, 평판정보를 수집하거나 뉴스 등에서 주목받고 있는 기술에 대해서 사내에서의 대처, 담당자를 조사하고 싶다는 다양한 요구에, 검색엔진이 충분히 부응하고 있다고는 하기 어려워, 대량의 검색결과로 필요한 정보를 이용자가 발견하지 않으면 안 된다.
이 문제에 대하여 Semantic Web이나 Ontology 등의 기술이 개발되어, 이용되기 시작하고 있다. Semantic Web은 Web 상의 문서에 의미를 부여함으로써 컴퓨터로 처리할 수 있도록 하기 위한 기술이다. Ontology는 원래는 철학용어로 존재론이라는 의미이지만, 정보처리분야에서는 개념(정보)과 개념(정보)의 의미적인 관계를 체계화한 것을 말한다.
우리들은 인트라네트나 인터넷 상의 잡다한 정보(비구조화 정보)와 데이터베이스나 Web서비스와 같은 구조화된 정보(구조화정보)를 Ontology에 의해 통합하고, 필요한 정보를 수집·정리해서 제공하는 시스템을 필요로 하고 있다.

종래의 지식베이스는 작성자와 이용자가 구별되어 있는 것이 많아, 지식순환에 소요되는 경로가 길었다. 여기에서 말하는 지식순환이란 이용자가 공유 데이터베이스로부터 지식을 취득할 뿐만 아니라, 그 데이터베이스에 지식을 제공함으로써 이용자(작성자)의 커뮤니티에서 지식을 유통시켜 확대재생산하는 것이다.
사업자나 중개자(정부나 자치단체나 NPO 등) 뿐만 아니라 일반의 소비자·생활자를 포함하는 불특정 다수의 이용자가 참여하는 지식순환을 촉진함으로써 경제, 정치, 문화, 교육 등, 다양한 측면에 걸쳐 사회의 활성을 높일 수 있을 것이다. 그러한 지식순환 사회를 향해서 지식의 이용을 정보기술로 지원하는 것이 긴요하다. 그를 위한 큰 틀로서 semantic computing을 제시한다.
Semantic Computing은 현재, 진행되고 있는 구문지향으로부터 의미지향으로라는 정보처리기술의 큰 변혁을 선도하는 역할을 맡는다. 이 구문지향 컴퓨팅에서 의미지향 컴퓨팅으로 라는 변동은 다음과 같은 정보처리기술의 진전의 결과다.


① 구문지향 컴퓨팅의 성숙
구문지향 데이터, 다시 말해 디지털컨텐츠 데이터의 처리기술이 확립되어 대량데이터의 축적이 진행되고 있다.


② 디지털미디어 처리기술의 진전
언어처리, 음성처리, 화상처리, 영상처리 등, 디지털컨텐츠를 대상으로 하는 구문수준의 처리기술이 진전되어 저렴하고 안정된 기술을 이용할 수 있게 되었다.
의미지향이라는 사고방식은 정보지향, 내용지향이라는 사고방식과도 궤를 같이 한다. 또 이러한 동향의 하나로서, 한 때 주목에서 멀어지고 있던 AI 기술이 다시 평가되기 시작하고 있음을 들 수 있다. 물리적인 신체동작기능을 안정되게 이용할 수 있게 된 로보트기술과 대량의 디지털데이터가 축적, 이용되게 된 Web기술의 분야에 있어서이다.
1980년대의 AI 붐에 있어서는 「지식」이라는 키워드가 주목을 끌어, 말하자면 지식지향 컴퓨팅으로의 기대가 비약적으로 높아졌다. 그러나 지식지향으로 나아가기 위해서는 의미지향이라는 또 하나의 one-step이 필요하다. 다시 말해 「의미」로부터 「지식」으로 어프로치하는 것이 필요하다.
「지식」이라는 어프로치는 인간의 두뇌 속에 있는 것을 컴퓨터 상에서 닫힌 형태로 실현한다고 하는 것이다. 한 편, 「의미」라는 어프로치는 두뇌의 밖에 있지만 의미를 열린 형태로 실현한다는 것이다. 다시 말해, 다음의 모든 점을 근거로 한다는 것이다.
․ 사람이 가지는 지식을 망라적으로 지식베이스로서 끝까지 실현하는 것은 당장의 기술로는 불가능하다.
․ 사람에 있어서의 지식은 컨텐츠(혹은 document)라는 형식으로 외재화되어 있다.
․ 컨텐츠가 표현하는 지식 모두를 컴퓨터에게 이해하게 할 수는 없지만, 지식의 일부를 의미로서 이해시킬 수 있다.
․ 의미를 서로 이해하는 컴퓨터와 사람과의 협조작업에 의해 컨텐츠를 제공하는 사람들의 지식활동을 효과적, 효율적인 것으로 대폭 끌어 올릴 수 있다.





3. 의미구조화 저작(Semantic Authoring)





Semantic Authoring이란 의미구조에 기반한 文작성이다. 의미구조화된 컨텐츠의 작성에는 통상의 文章작성 등보다도 손이 많이 간다고 생각되지만, 실제로는 그 반대이다. Semantic Authoring은 종래의 文章작성보다도 간단한 작업이며 게다가 경우에 따라서는 보다 품질이 높은 컨텐츠를 작성할 수 있다. Semantic Authoring에는 Authoring의 구체적 테마(분야)에 관한 Ontology에 기반한 것과 그렇지 않은 것이 있다. 우리들이 생활함에 있어 논문, 리포트 등은 말할 나위 없고, 메모쓰기, 편지, 메일 등 문장을 이용해서 정보를 다른 사람에게 전달하는 기회는 수없이 많다. 그러나 그것을 능숙하게 행하지 못하여, 안타까운 생각을 하고 있는 사람은 적지 않을 것이다. 「문장A와 문장B가 이러한 관계를 가지고 있기 때문에, 이 순서로 늘어 놓는다면 보다 이해하기 쉽다」는 것 같은 문장의 흐름이나 구성을 생각하는 것은 귀찮은 작업의 하나이며, 더욱이 文을 1차원으로 바꾸어 늘어놓음으로써 모두 전할 수 없는 정보가 있을 것이다.
이러한 문제를 해결하기 위해 하고 있는 것이 Semantic Authoring이다. 이것은 單文으로서 다양한 정보를 記述하고 더욱이 그 사이에 있는 관계를 링크로 이음으로써 컨텐츠를 구조화하여 記述하는 것이다.
이 그래프형식의 컨텐츠는 순서가 없으므로 선형으로 늘어놓는 비용이 없어지고, 작성하는 사람이 쓰기 쉽다는 이점이 있다. 이러한 형식으로 구조화함으로써 검색이나 요약, 발상지원 등에 유용한 것으로 기대되고 있다. 실제로, 구조화에 의해 문서검색의 정밀도가 향상된다는 결과를 얻을 수 있다.
물론, 단문이 가지는 의미는 문맥에 의존하는 등의 어려운 문제는 있지만, 될 수 있는 한 문장의 관계성을 명시화함으로써 문서처리를 실현가능한 수단으로 의미적으로 깊게 하고자 하는 것이 의미구조화의 어프로치이다. Semantic Authoring은 문서를 대신하는 새로운 지식의 記述수단으로서, 많은 사람에 의한 효율적인 지식공유나 축적을 위해 이용되는 것이 상정되어 있다.
그 때, 많은 사람이 다양한 내용에 대해서 컨텐츠를 기술하게 되므로, 방대한 그래프로부터 사용자가 필요로 하는 정보를 컴팩트하게 꺼내는 기술이 필요하게 된다. 이것은 그래프로 제시되는 컨텐츠로부터의 요약이라고 할 수도 있다.


4. 웹 상의 디지털 컨텐츠의 확장

종래의 Web 컨텐츠는 인간에게 이해되기 쉬운 점을 중시하여 제작되어 왔는데, 이것은 인간이 그 컨텐츠의 주된 이용자이기 때문에 지극히 당연한 것이다. 그러나 컨텐츠가 폭발적으로 증가하고, 더욱이 멀티미디어 data도 대량으로 on-line화되어 가면, 그것을 잘 처리하기 위해서 기계에 편리한 컨텐츠 제작을 고려하지 않을 수 없게 될 것이다.
기계가 컨텐츠를 보다 잘 「이해」할 수 있게 되면, 대량의 정보 중에서 정말로 필요한 것만을 시청하는 것이 가능하게 되기 때문에 컨텐츠의 이용법은 크게 바뀐다고 생각된다. 기계에게 이해를 쉽게 하기 위해서 컨텐츠에 보충정보를 부여하는 구조를 제안하고 있다.
「사람에게 쉬울」 뿐만 아니라 「기계에게 쉬운」 컨텐츠를 만듦으로써, 그렇지 않은 컨텐츠에 비하여 상당히 개별화하는 것이 용이해진다. 그것은 컨텐츠가 개인이 사용하는 디바이스 등의 시청환경에 자동적으로 적합하다는 것이다.
예를 들면 텍스트문서에 품사나 語義의 정보가 부여되어 있으면, Plain Text에 비해서 훨씬 용이하게 문법적으로 정확히 개인이 쉽게 읽는데 적합한 요약을 작성할 수 있을 것이다. 또 휴대폰의 포맷에 맞추거나 외국어로 번역하거나 하는 경우에도 유용하다.
다양한 포맷마다 컨텐츠를 구분하여 만드는 것은 대단히 많은 노력을 필요로 하지만 Annotation과 같은 보충정보를 이른 단계에서 컨텐츠에 연관되게 만들어 두면, 그 후의 처리는 상당한 부분이 개선되고, 그 결과 종래보다 훨씬 많은 시청자를 획득하는 것에 성공할 것이다.
Annotation을 이용함으로써 컨텐츠를 변경하지 않고 그 컨텐츠를 의미적으로 확장할 수 있다. 구체적으로는 컨텐츠에 포함된 텍스트 文요소에 언어적인 Annotation(보충정보)을 부가함으로써 요약이나 번역 등의 자연언어처리의 정밀도를 크게 향상시킬 수 있다.
예를 들면, Annotation에 의해 컨텐츠에 포함된 텍스트文의 의미를 명확히 하면, 정확한 요약이나 번역을 기대할 수 있다. 컨텐츠에 Annotation을 부가하는 수고가 늘어나지만, 중요한 정보에는 Annotation을 붙여서 정확하게 전달하고 공유해야 한다는 생각에 근거하고 있다. 이 Annotation은 컨텐츠의 내용 이해를 촉진하는 것으로 자리매김된다.
현재 原저자를 포함한 많은 사람들이 문서의 내용에 관한 보충적 정보를 부가할 수 있는 Frame제작이나 그 정보를 가미해서 문서를 독자에게 알맞은 형태로 가공하는 Frame제작이 활발해지고 있다. 특히 3종류의 Annotation, 즉 언어적 Annotation, Comment Annotation, Multimedia Annotation과 그것을 이용한 컨텐츠 가공, 즉 Transcoding이 있다.




5. 교육컨텐츠의 자동생성시스템

文章은 주어와 술어, 목적어의 세 부분으로 구성되고 있고 주어는 자원을, 목적어는 자원 혹은 문자열을 표현하고, 술어는 그들의 사이의 관계를 표현한다. 文章은 文의 연속으로 구성된다. 文章의 구성을 이해하기 위해서는 節 및 文의 성질을 분류한 후 그 구성에 대해서 조사할 필요가 있다. 인터넷 상의 텍스트를 바탕으로 Corpus를 자동생성하는 기술이나 다양한 지식베이스와 Corpus를 조합하여 보다 의미나 상황을 가미한 인텔리젠트한 Corpus 검색을 하는 기술도 개발되고 있다
자연언어처리의 기술이 발달함에 따라 文生成시스템, 즉 컴퓨터가 소박한 데이터집합으로부터 인간에 가까운 형태의 문장을 생성하는 응용에의 기대가 높아지고 있다. 자연스러운 텍스트를 컴퓨터 상에서 생성하기 위해서는 인간의 커뮤니케이션에서 중요한 결속성(cohesion)을 고려해서 개별의 文의 구성을 결정할 필요가 있다.
인간이 뉴스나 논문을 통해서 얻고 싶은 정보는 그 목적에 따라 구조화되어 있고 어느 정도 고정화되어 있다. 이 정보를 획득하고 싶은 의도의 구조에 대응한 담화구조를 구성함으로써 인간의 언어커뮤니케이션을 자각한 생성시스템이 실현된다. 담화구조는 담화단위에 기반하여 支配와 充足先行의 두 관계에 의해 정식화되고 tree구조로서 표현할 수 있다.




6. 교육컨텐츠의 비주얼화



정보의 가시화의 목적은 그래픽의 특성을 이용함으로써 정보의 구조를 파악하는 것이다. 개념구조의 파악을 돕기 위해서 개념구조의 가시화를 행한다. 개념 간에는 同義관계, 계층관계 등이 다양한 관계가 있고 관계를 따라 개념을 서로 연결해 가면, 개념의 네트워크가 생긴다. 이 네트워크를 개념구조라고 부른다. 개념구조는 복잡하므로 파악하는 것은 용이하지 않다.
개념구조를 파악하기 위해서는 구조를 표현할 필요가 있다. 그 표현방법에는 문자에 의한 표현 외에, 그래픽으로 표현하는 방법이 있다. 그래픽에서는 한 번에 전체를 파악할 수 있다는 특성이 있어, 최근 활발히 행해 지고 있는 정보의 可視化의 연구에 이용되고 있다.
웹 상의 다양한 컨텐츠를 활용하여 교수학습에서 익혀야 할 용어체계의 파악을 촉진할 목적으로 용어체계 可視化시스템을 구축할 수 있다. 가시화시스템에서는 사용자는 주목하는 단어나 그 단어가 가지는 관계를 용이하게 열람할 수 있게 될 뿐만 아니라, 각 체계의 상위점이나 다양한 용어의 통합 후의 체계의 구조를 직관적으로 파악할 수 있게 된다.