2009년 9월 1일 화요일

웹의 기계번역을 통한 교육컨텐츠 및 교재자동생성시스템 개발

1. 학습지원도구로서의 웹

교육의 질을 높이고 세련화·치밀화하는 하나의 수단은 교직원의 know-how와 교재의 전자화에 의한 효율화를 믹스하는 것이다. 전자화에 의해 교육을 지원하기 위해서는 교재가 과거의 紙베이스의 관리로부터 전자화한 관리로 이행할 필요가 있지만 실상으로는 교재가 이용하기 쉬운 형태로 전자화되지 않고 있다.
인터넷의 대명사적 존재인 World-Wide Web은 전세계에서 bottom-up으로 정보가 형성되는 미디어공간이다. 그것은 거대한 도서관에도 비유할 수 있지만 정보의 최신성, 다양성, 인터랙티브성, 또 정보의 열람과 발신이라는 두 모드를 겸비하고 그것이 학술, 비즈니스의 분야 뿐만 아니라 개인 level에서도 가능하다는 특질을 생각하면 미디어史 중에서도 epoch-making한 존재로서 자리매김될 수 있다.
교육의 분야에서도 on-line신문이나 잡지, 문학작품의 원문의 digital data, on-line corpus 등, WWW는 authentic한 소재를 입수하는 교재수집의 장으로서 높은 관심을 모으는 한편, 컴퓨터지원 교재개발을 위한 Authoring Tool로서도 주목받고 있다. 현재 홈페이지 상에서 볼 수 있는 on-line학습의 페이지도, WWW가 가지는 뛰어난 hypermedia 작성Tool로서의 특성을 이용한 것으로 e-learning으로 이어지는 시도다.
학습지원도구로서의 World-Wide Web의 학습미디어와 교재작성 Tool의 두 관점에서 교육컨텐츠를 전자화·자동화하는 프레임워크와 그 記述형식을 제시한다. 이것에 의해 교재컨텐츠를 紙와 전자베이스 양방에 이용할 수 있게 되고 자동생성교재의 분업작성이 가능한 authoring system이 구축되게 된다.


2. 의미구조 컴퓨팅을 통한 합의형성


인터넷을 이용한 교육소재의 제공은 현재 대단히 주목을 받고 있다. 예를 들면 인터넷을 통해서 대학의 전 강의자료를 무료로 배포할 것을 결정한 MIT의 Open Course Ware나 스탠포드대학이 대학원의 강의를 외국에 네트워크 송신하여 석사학위를 주고자 하는 프로그램 등이 있다.
구미에서는 이외에도 똑같은 인터넷을 통한 교재제공의 움직임이 왕성하여 많은 대학에서 여러 강의의 강의자료 등을 공개하고 있다. 예를 들면 데이터베이스 분야에서도 스탠포드대학의 Ullman과 Widom의 강의자료나 UCB의 Stonebraker과 Hellerstein의 강의자료 등을 간단히 보는 것이 가능하다.

서비스란 가치를 낳는 사회적 (즉 인간끼리의) 상호작용이다. 사회적 상호작용은 상품의 受渡 등의 물리적 작용과 정보의 전달을 포함하지만, 이들 모두에 대해서도 정보기술에 의해 지원 또는 대체할 수 있는 정도가 늘어나고 있다. 사회는 인간과 정보시스템과의 공동작업에 의해 경영되고 있다고 할 수 있을 것이다.
인간은 창조적·지적인 작업에 뛰어나다. 한편, 인간이 자신이 없는 대량의 단조로운 작업을 컴퓨터는 고속·정확하게 처리할 수 있다. 따라서 인간만으로도, 컴퓨터만으로도 할 수 없는 서비스가 양자의 공동작업에 의해 실현되는 셈이다.
이 공동작업이 성립하기 위해서는 인간과 컴퓨터가 의미를 공유할 필요가 있다. 즉 인간이 이해·조작할 수 있는 의미와 컴퓨터가 처리할 수 있는 의미와의 간에 공통부분이 있고, 그것을 통해서 인간의 의도가 컴퓨터에 전해지고 인간이 컴퓨터의 출력을 이해할 수 없으면 안 된다.
그러나 실제로는 인간이 다루는 의미와 컴퓨터가 처리하는 의미와의 사이의 괴리(semantic gap)에 의해, 인간과 컴퓨터 간에 의미가 충분히 공유되지 않고, 양자의 공동작업이 잘 되지 않는 경우가 자주 있다. 예를 들면, Google 등의 검색엔진에서 관계가 없는 정보가 산더미 같이 나오거나 알고 싶은 정보가 나타나지 않거나 하는 것은 인간이 무엇을 알고 싶은 것인지가 컴퓨터에게 정확하게 전해지지 않고 있기 때문이다.
또 PC의 OS를 업데이트하면 무선 LAN에 연결되지 않게 되어 하루를 공치게 된다는 것이 종종 있는데, 이것은 소프트웨어의 구조가 인간에게 이해하기 힘들기 때문이다. 소프트웨어는 인간의 생활세계와는 무관계로 거의 임의의 내용을 표현할 수 있으므로 인간에게 얼마든지 난해해질 수 있는 것이다.
인간과 컴퓨터가 공유하는 의미에 근거해서 정보시스템을 설계·운용하면, semantic gap의 상당한 부분을 해소할 수 있다고 생각된다. 즉 일반의 이용자가 이해가 가는 방법으로 정보시스템을 설계하고 구현한다는 방법론이다. 이것을 semantic computing이라고 부른다. Semantic Computing이란 인간의 생활세계의 「의미」를 정보시스템에 의한 계산처리의 직접적인 대상으로 한다는 것이다.
서비스란 본래는 인간끼리의 상호작용이며 기술이나 제도에 의해 증폭되는 경우도, 창조적인 문제해결 등은 거의 인간의 역할이다. 따라서 Semantic Computing의 기본적인 목적은 인간끼리의 공동행위(joint action)를 지원하는 것에 있다.
공동행위란 그 내용이나 목적(통상은 내용이나 원하는 상세가 아니라 개요)에 관한 참가자의 합의(공유신념) 아래 행해지는 행위이다. 당연하지만 이 합의의 품질이 높을수록 공동행위의 성공율이나 품질이 높고, 합의가 없으면 공동행위는 성립하지 않는다. 서비스도 기본적으로는 수용자나 제공자를 포함한 사람들 간에서의 공동행위이다. 따라서 서비스의 수용자와 제공자를 포함한 다양한 stakeholder 간에서의 서비스의 내용이나 목적에 관한 합의는 서비스의 생산성에서의 지극히 본질적인 요인이다.
서비스의 수용자와 제공자와의 사이에서의 상품이나 서비스의 내용에 관한 합의의 중요성은 지적할 필요도 없다. 본래 서비스의 내용이 수용자의 기대에 맞지 않으면 의미가 없다. 또, 예를 들면 치료의 목적을 환자와 의료자가 공유함으로써 치료효과가 높아지는 등, 서비스의 목적에 관한 합의에 의해 수용자와 제공자와의 공동행위의 품질이 향상되고, 부가가치가 향상한다.
한편, 특히 의료 등의 복잡한 서비스에 있어서는 그 프로세스가 관계자 간에 명시적으로 공유되지 않고 있는 것이 자주 생산성의 향상을 저해하고 있다. Semantic Computing은 인간과 컴퓨터와의 의미의 공유를 통하여 서비스의 다양한 stakeholder 간에서의 서비스에 관한 합의(공유신념)의 형성을 지원한다.

사회적인 합의형성의 지원



3. 웹검색으로부터의 유용한 지식베이스 구축

web에는 방대한 양의 텍스트 데이터가 있기 때문에 그것을 사용한 언어처리가 가능하다. 특히 신문기사나 논문과 같은 타입의 문서집합에는 없는 다양한 특징이 있다. 예를 들면, 口語의 표현을 포함하고 있고, user가 대단히 다양하고 user 간의 interaction의 데이터(게시판이나 blog에서의 교환)가 있고, 갱신이 빠르고 실시간으로 갱신되는 등이다. web은 무수한 목적·문맥에서 수많은 文이 있고, 특히 최근의 blog의 보급에 의해, 많은 user의 매일의 생활이 일상적인 말로 표현되게 되었다.
web으로부터 검색가능한 形의 문서데이터인 corpus를 이용하여 지식베이스를 간단히 구축할 수 있다. web검색엔진은 데이터베이스나 정보검색, 언어처리, 분산처리, user interface 등, 다양한 정보처리기술 상에 성립되고 있는 것이지만, 일반적인 user로부터 본 중요성과 학술적으로 본 검색엔진의 중요성은 전혀 다르다. 일반적인 사람이 걱정하는 것은 검색엔진의 편리성이나 비즈니스나 법제도에 주는 영향이지만, 학술적으로 보아도 중장기적으로 검색엔진이 차지하는 위치는 대단히 중요하다.
단순히 생각하면, web 상의 컨텐츠의 처리는 대규모의 자연언어문서(또는 다종다양한 미디어의 데이터)의 처리와 다름없다. 단지 양이 극단적으로 많은 것 뿐이다. 실제로 자연언어처리의 연구커뮤니티에서는 신문기사 등의 대규모 corpus의 연장으로서 web의 archive를 다루는 방향에서 연구가 진전되어 왔다.
방대한 사회현상, 언어현상을 검색엔진을 통해서 취득할 수 있고, 그것은 web으로부터의 대규모 지식의 추출이나 사회동향의 측정·분석 등, 향후 중요한 技術로 이어지는 필수불가결한 것이다.
물론 여기서 말하는 것은 다소 극단적으로, web 상에 없는 정보도 많이 있고, bias도 있다. 그러나 web은 현 시점에 인간이 입수할 수 있는 가장 대량이며 동시에 다양한 인간의 사회적 활동, 언어적 활동의 데이터인 것은 틀림 없을 것이다.
그리고 이 데이터의 「양」은 정보처리의 paradigm을 크게 바꾼다. 매우 단순한 알고리즘이 놀라울 만큼 효율적으로 작동한다. 데이터베이스의 query언어를 이용하여 데이터를 활용하는 정보처리시스템을 만드는 것처럼, 이제부터는 검색엔진의 검색을 이용하여 web 전체의 정보를 활용하는 기술이 점점 중요해져 갈 것이다.

전자화된 언어데이터의 구조화라는 관점에서 전자화된 텍스트(Corpus)를 구조화하기 위한 최신의 기술표준인 XML(Extensible Markup Language)의 규격에 따른 언어데이터를 작성하여 교육컨텐츠 및 교재작성의 자료로 활용할 수 있다. 언어데이터의 XML화를 염두에 두고 Corpus를 이용하는 언어연구자의 새로운 지식기반으로서 XML의 기초지식의 새로운 틀을 교육현장에서 만들 필요가 있다.


4. Semantic Web 교재의 자동생성시스템

전자화에 의해 교육을 지원하기 위해서는 교재가 과거의 紙베이스의 관리로부터 전자적으로 관리될 필요가 있지만 실상에서는 교재가 이용되기 쉬운 형태로 전자화되지 않고 있다. 조급히 (1) 교육컨텐츠를 전자화하는 프레임워크와 그 記述形式을 구축할 필요가 있다. 그러나 그것만으로는 단지 보존형태가 바뀔 뿐이다. (2) 전자화한 컨텐츠를 교재의 자동생성이라는 고도의 형태로 재이용이나 (3) end-user로부터 high-end user까지가 공동하여 교재를 작성, 공유할 수 있는 시스템이 구축되어야 비로소 참된 전자화라고 할 수 있다.
학습미디어란 문자·음성·영상을 개별로, 혹은 또는 그 조합으로 사용되는 것이다. 그 정보는 보다 밀접하게 연관되고 보완됨으로써 상승효과를 만들어낸다. WWW는 hypermedia 시스템이기 때문에 (가) 학습의 효율화와 개별화, (나) 창조·발신학습을 지원하는 Tool이라는 학습미디어의 관점에서 본 hypermedia의 이점에 부가하여 교재작성 미디어로서 이점을 가진다.
최근의 교육계에서의 Web교재 이용의 확대는 현저하지만, 다른 한편 그 교재 작성의 시간투자 및 전문지식의 습득에 시간이 걸려 교육현장의 문제로 되고 있다. XML, XSLT 등의 Semantic Web의 기술을 이용한 교재의 자동생성을 통해 이 문제를 해결할 수 있다. 본 시스템의 특징은 강사가 최저한의, 文章題에 관한 meta-level data를 기재하고 그것을 시스템에 입력하면, 자동적으로 XML파일이 생성되고 지정된 XSLT을 통해서 Web Browser 상에 교재가 표시되는 점이다.
종래부터 RDF나 XLT의 Semantic Web의 기술을 이용해서 교재를 자동생성하는 硏究는 있었지만 가상캐릭터에 의한 회화기능도 XSLT 상의 프로그래밍 기능으로서 미리 정의할 수 있다. 강의주제의 개념·지식 등을 미리 지식기초로 저장하고 연관된 관계 개념을 추론하게 하여 Web 상의 표현을 생성하게 할 수 있다.
이들의 기능에 의해 강사는 세세한 추론처리 및 결과표현의 Web化에 따르는 번잡한 작업으로부터 해방되고 더욱이 컴퓨터지식이 없는 강사라도 가상캐릭터를 이용한 교육생과의 회화기능을 자동생성할 수 있다. 이를 위해서는 현재의 XML태그 Schema, meta-level 記述파일의 Schema 및 지식베이스에의 지식룰이 저장되는 때의 데이터 Schema의 확장이 필요하다.

(가) Semantic Web 및 metadata
우선 교재에 대한 metadata로서는 IEEE Learning Technology Standards Committee(LTSC)가 Dublin Core8의 확장으로서 정의하고 있는 "Learning Objects Metadata Standard”(LOM), SCORM(Sharable Content Object Reference Model), IMS(Instructional Management Systems) 등이 있다.
교재를 전 세계에서 교환할 경우 이러한 metadata 표준화는 중요하다. 예를 들면 LOM에는 교재작성자, 언어, 키워드 등 전부 약 80개의 속성이 정의되어 있는데, 그 중에서 교재내용의 유별을 행할 때에 중요한 LOM의 태그는 "dc:subject”이며, 이것에 의해 상위 및 하위 테마 등의 테마계층을 참조 가능하게 한다.
이러한 교재용 metadata를 이용한 교재검색의 연구로서 Edutella, ARIADNE 등이 있다. metadata를 이용하여 사용자에게 적합한 hypermedia(adaptive의 hypermedia)를 작성하는 연구도 다수 있다. 또 metadata를 이용한, 복수로 교사를 작성 및 편집자로서 상정한 협조적인 교재개발시스템도 연구되고 있다.
(나) Authoring Tool
종래의 紙面의 교육소재를 용이하게 전자화하거나 구조화를 위한 XML의 태그의 자동생성이나 요약작성, 국제화를 위한 자동번역 등의 기능은 컨텐츠를 전자화, 개선하기 위한 유용한 수단이라고 할 수 있다. 그러한 경우에도 원래의 소재가 1대1로 변환되는 것이 전제이고 이용자 view로서는 변환된 컨텐츠를 통합하게 된다.
단지 교육소재를 원래 있는 대로 공개할 뿐만 아니라 축적된 소재를 유기적으로 통합하여 매력적인 이용자 view를 제공하는 것을 목표로 한다. 그렇게 함으로써 경우에 따라서는 실제로 강의를 받는 이상의 교육효과를 얻는 것도 가능해지고 원격교육이나 개인학습에서의 유용성을 기대할 수 있다.
예를 들면 강의비디오와 강의용의 프레젠테이션 자료의 통합을 생각할 수 있다. 특히 강의 등의 비디오는 뉴스프로그램이나 스포츠프로그램의 비디오 등과 달리, 장면의 바뀜이나 화면의 움직임이 적어, 지금까지 연구되어 온 scene 切出수법 등을 사용해도 유용한 切分이 불가능하고 색인화도 용이하지 않다.
그래서 강의프레젠테이션 자료의 페이지와 그것을 이용하고 있는 장면의 강의비디오의 위치가 서로 연관되어 있으면, 강의비디오를 도중부터 시작해도 그것과 同期해서 프레젠테이션자료를 표시할 수 있거나 프레젠테이션자료를 키워드로 검색하여 강의비디오에서 그 자료를 사용하고 있는 대응 scene을 출력하는 등의 기능을 제공할 수 있다.
혹은 프레젠테이션자료는 출력하지 않고 강의비디오의 scene을 자료의 키워드로부터 검출할 수 있다. 또 키워드에 관련된 정보의 인터넷검색 및 그 결과와의 통합도 가능하게 한다. 소재 바로 그것에 손질을 가해서 새로운 소재를 생성하는 것은 비용의 면과 소재의 재이용성의 면으로부터 반드시 바람직하지 못하다. 따라서 통일적인 틀로서 XML을 이용하는 것을 전제로 하고 있다. XML로부터 각 소재에의 링크를 준비함으로써 각 소재 바로 그것에는 손질을 가하지 않는다. 그러나 그것만으로는 대응하는 비디오 화면으로 이동하는 등의 기능이 실현되지 않게 되어버리므로 소재와 동시에 소재의 내용에 대한 인덱스를 준비하는 것이 중요하게 된다.