대한민국을 '日本'으로 번역하는 구글번역에 대해 갑자기 궁금해졌다.
과연 구글의 농간인가?
그래서 구글의 번역 알고리즘이 궁금해졌다..
웹검색을 시작해보자..
구글에 따르면 구글번역기는 인간 번역의 개입이 없는 기술에만 의존하는 방식이다. 구글번역기는 수많은 어휘와 문법을 정의하는 많은 작업을 필요로 하는 대부분의 상업용 기계번역 소프트웨어와 달리, 컴퓨터에 57개의 언어에 해당하는 수십 억개의 단어 및 텍스트와 더불어 사람이 번역한 텍스트 사례를 합께 입력한다. 또 이외에도 웹에는 이미 사람들이 번역해놓은 수억개의 자료가 존재한다.
이런 자료들을 통해 구글은 컴퓨터가 양쪽의 언어를 인식하도록 만든 후, ‘통계적 학습기법’을 이용해 번역 모델을 구축한다는 것이다. 즉, 사용자가 구글번역기에 특정 문구를 입력하면 구글은 그 문구의 패턴을 분석해 기존 자료 내에서 유사한 패턴을 찾아낸다. 그리고 패턴에 기반해 가장 적절한 번역문구를 제시한다는 것이다.
즉 고로 구글번역 = '통계적 기계 번역' ..
음.. 최신 자료는 검색의 미숙으로 제대로 검색을 못하고
찾다보니 2005년 6월에 구글 프레젠테이션에서 발표된 구글 번역 프로그램 관련기사를 볼 수 있었다.
------------------------------------------------------------------------------
[출처 : Christian Science Monitor
http://www.hackerslab.org/korg/view.fhz?menu=news&no=2112 ]
영어가 인터넷을 지배한다. 이것은 13억 중국인과 3억 2천 2백만 스페인어권 사람들에게는 불만족스런 일이다.
이들은 수적으로 영어권보다 우세하다. 온라인상의 사용자 2/3가 영어 아닌 다른 언어를 사용한다.
따라서 훌륭한 번역 프로그램이 나온다면 전 세계 사람들은 귀를 쫑긋 세울 것이다. 인터넷상의 모든 페이지를 자국어로 볼 수 있는 세상... 이것이야말로 진정한 월드와이드웹을 실현하는 길이다.
진 정한 월드와이드웹을 실현하기 위한 노력은 이번달 말경부터 시작된다. 미국 정括?오른팔인 NIST가 여러 기계 번역 시스템을 테스트해 그 결과를 발표해 우수한 프로그램에 상을 수여한다. 수상 프로그램은 대학이나 연구소의 언어학 프로그램이 아니고, 새로 등장한 구글 번역 프로그램이 될 것으로 기대된다. 구글은 언어학 기반이라기보다는 고등수학 기반으로 번역 시스템의 새 장을 열어, 인간 언어의 뉘앙스와 모호함으로 갈등을 겪었던 분야를 새로이 이끌어가게 될 것이다.
"우리 팀 중 중국어를 하는 사람은 아무도 없습니다" 구글의 기계 번역 연구팀 Franz Och는 말한다. "하지만 더 정확한 번역 프로그램을 만들고 있습니다. 다른 언어도 마찬가지입니다."
Och는 최근 구글 본사에서 열린 미디어 투어에서 구글 번역 프로그램의 뛰어난 번역 기능을 시연했다. 아랍 신문 헤드라인을 현재 시중에서 상용으로 판매되고 있는 번역 프로그램으로 돌리자
"Alpine white new presence tape registered for coffee confirms Laden." 이런 결과가 나왔다.
그런 뒤 구글 프로그램을 돌리자 아래와 같이 이해할 수 있는 문장이 되었다.
"The White House Confirmed the Existence of a New Bin Laden tape."
물 론 모든 번역 프로그램이 완벽한 것은 아니다. 각각 좋은 점과 나쁜 점이 있다고 전문가들은 말한다. 그러나 그동안의 룰 베이스의 시스템 일색이던 번역 분야에서 통계 시스템을 기반으로 한 룰 베이스 시스템이 탄생했다는데 의의가 있다.
"이런 번역은 몇 년 전까지만 해도 불가능했습니다. 그러나 값싸고 빠른 데이터 저장과 온라인 문서의 증가는 그 척도를 바꿔놓았습니다." 구글은 UN 문서의 대응 번역 같은 소스를 사용하고 약 1백만권의 책에 해당하는 텍스트를 컴퓨터에 입력해 번역 프로그램의 알고리즘을 개선했다.
구글의 번역 시스템은 아직 개발 중이며 일반에 공개되지 않았다. 그러나 이벤트에서 발표하는 것을 보면 아마도 몇개월 이내로 최소한 테스트 버전은 발표될 것이라고 사람들은 보고있다.
"번역 결과는 아주 인상적이었다. 인터넷상에서 흔히 보는 멍청한 기계번역이 아니었습니다." 필립 렌센은 말한다.
이것은 새로운 가능성을 열어줍니다. 렌센은 말한다. 그는 구글 웹 브라우저가 완벽한 역할을 해 줄 것으로 전망한다. 만일 구글이 웹브라우저를 만들기만 한다면, 전체 웹을 자국어로 검색하는 것이 가능할 것이라고 그는 믿는다.
오늘날 AOL, 알타비스타, 바벨피시 등 거의 모든 기계번역은 시스트란이 개발한 번역 테크놀로지에 의존한다. 구글도 마찬가지다. 시스트란은 30년 이상이나 번역을 개발해 왔고, 현재 매일 2천 백만개의 웹페이지를 번역한다.
기 계번역 개발에 있어서 가장 어려운 작업은 언어를 번역할 때 적용하는 룰을 생성하는 부분이며 이 작업은 몇 년 걸린다고 시스트란의 Dimitris Sabatakakis는 말한다. 구글처럼 통계적 방법을 사용하는 것은 잘 알려진 기술이다.
기계번 역은 불확실하거나 모호한 단어와 문장이 아닌, 명확하고 쉽게 번역할 수 있도록 원문이 작성되었을 때 가장 좋은 결과가 나온다고 Dimitris는 말한다. 오늘날 많은 웹사이트 특히, 전자 상거래 사이트들이 쉽게 번역되는 텍스트로 사이트를 작성하는데 노력을 기울이고 있다고 그는 말한다. 기계번역은 완벽하지는 않지만 웹사이트가 무엇에 관한 웹사이트인지 대충 파악하는데는 더할나위 없이 유용하다.
현재 시스트란은 40개 언어 번역을 제공하고 있다. 1년 후에는 40개 언어를 추가할 예정이라고 한다.
기계번역에 있어 언어와 언어의 번역 룰을 수작업으로 만드는 것과, 통계적 분석자료를 이용해 패턴을 알아내는 것에는 장점과 단점이 있다고 미 카네기 멜론 대학에서 기계 번역 센터에서 강의를 하는 로버트 프레더킹은 말한다.
프 레더킹에 의하면, 룰에 관련된 시스템은 개발하는데 시간이 걸리고 비용도 많이 든다. 이 시스템은 매뉴얼이나 특정 용어가 많이 등장하는 문서를 훌륭하게 번역해 낸다고 한다. 시스트란은 지난 30년 동안 수백명을 동원해 각 언어를 번역해 내는 룰을 개발했다고 한다. 반면 통계 시스템이 번역을 뛰어나게 잘 해내는지는 아직 증명되지 않았다고 한다. 그는 최근 NIST 평가 결과를 아직 못봤지만, 설사 봤다고 하더라도 그것으로 번역의 질을 평가하는 것은 어렵다고 말한다. 2002년부터 NIST는 번역 프로그램을 평가하는데 Bleu라 불리는 컴퓨터 프로그램을 사용했다. Bleu는 이제까지 별 무리없이 잘 사용되었다고 그는 말한다.
NIST의 심사 결과는 이번달 말이나 되어야 할 수 있을 것이다. NIST의 기계번역 프로젝트 담당자의 말이다. 그는 구글의 점수를 밝히지는 않았다. 20개의 연구 그룹이 이번 경연에 참여했다고 한다. 모두 아직 상용화되지 않은 새로운 기술로 만든 번역 시스템이라고 한다. 각 그룹은 100개의 뉴스 기사를 아랍어와 중국어에서 영어로 번역하게 된다.
룰과 통계 기반의 기계번역 시스템 두가지 모두 일반적인 문장은 잘 번역해내지 못할 수 있다. 월 스트리트 저널의 프레더킹은 번역을 할 때 문장의 1-2%는 엉뚱한 단어가 등장한다는 것을 발견했다.
적 절한 명사를 찾아 번역하는 것은 어려운 작업이다. 예를 들어 Julio Iglesias는 영어로 번역할 때 July Churches로 번역해서는 안된다. 기계 번역 시스템은 고유명사를 구별해 고유명사는 번역하지 말고 그대로 둘 수 있어야 한다. 하지만 일본어나 중국어 문자라면 문제가 또 달라질 것이다.
결국은 문법과 구문이 추가된 룰 기반 및 통계 기반 방식을 병용한 시스템이 개발될 것이라고 프레더킹은 말한다.
이 러던 참에 마침 구글이 보다 훌륭한 기계번역 시스템 개발 중이라고 발표를 해서 이 분야에 관한 일반의 관심이 높아졌다면서 그것은 좋은 현상이지만, 만능 솔루션은 없다고 시스트란의 Sabatakakis는 말한다. "언어는 통계적인 방식으로 습득되는 것이 아니기 때문입니다"
------------------------------------------------------------------------------
음 .. 마지막 말이 인상적이네요
"언어는 통계적인 방식으로 습득되는 것이 아니기 때문입니다."
이번 일로 포함이 되겠네요..
구글 번역을 까려는 건 아닙니다.
하지만 과연 저런 기계번역이 인간번역을 따라올 수 있을까요?
단순한 것은 몰라도 기계는 기계적일 뿐인 것 같습니다.
모호하거나 비논리적인 글이나 구어체를 모두 번역 할 수 있을까요?
구글번역이 아니라 기계 번역에 대한 한계를 알고 싶은 것입니다.
결국 기계번역은 어느정도까지 번역의 품질은 높일 수 있겠으나
결국 번역은 전산학적 보다 언어학적으로 접근해야 하지 않나 하는 생각입니다.
특히 한국어와 같이 문맥/의미간 변화가 많이 발생하는 언어에서는요..
우선적으로 언어간 변화규칙을 정립해야 겠죠..
아직은 무리라고 봅니다.
아무튼
‘Traduttore, traditore’란 이탈리아 속담처럼 ‘번역은 반역’이다란
말로 마무리 합니다.
-- 시간되면 영문 시를 한번 번역해 봐야겠습니다. 한문 시도.. 어떻게 나올까 궁금하네요
'기타' 카테고리의 다른 글
티동이 치즈 만들기 (0) | 2010.08.31 |
---|