제목: 음성인식기술의 응용
이 말은 어린 시절 누구나 한번쯤은 접해 보았을 것이다. "열려라 참깨!"를 음성인식의 관점에서 보면 화자독립 핵심어 인식(Speaker Independent Keyword Spotting) 기술이라고 생각된다. 왜냐하면 첫째, 도적들 뿐만 아니라 주인공의 말을 인식하였기 때문이다.(화자독립) 그리고 둘째, "열려라 참깨!" 이외의 말은 승인(Accept)하지 않았기 때문이다. 다시 말하면 동굴 문은 오직 "열려라 참깨!"를 외쳐야지만 열리게 된다(핵심어 인식). 화자독립 핵심어 인식(Speaker Independent Keyword Spotting)을 할 수 있는 사실을 보아서는 이 시절 음성인식 기술이 꽤 발전했던 모양이나 도적들이 음성 자물쇠(Voice Key)를 동굴 문에 설치하지 않은 사실을 보아서는 화자인식(Speaker Recognition) 기술이 그 당시에는 수준이 낮아서 상용화되어 있지 못했던 모양이다. 이 화자인식 기술이 동굴 문에 설치되었더라면 주인공은 동굴 속에 들어 갈 수 없었을 것이고, 알리바바와 40인의 도적 이야기를 지금처럼 펼쳐 나갈 수 없었을 것이다.
여기에서 잠시 대략적인 화자인식 기술에 대해서 설명하고자 한다. 증거로 확보된 녹음 테이프를 통해서 범인이 누구인가를 알아낼 수 있다. 바로 이러한 기술 즉 누구의 음성인가를 알아 내는 것이 화자인식(Speaker Recognition) 기술이다. 화자인식은 화자식별(Speaker Identification)기술과 화자검증(Speaker Verification)기술로 나눌 수 있다. 화자식별 기술은 고립단어 인식과 개념이 비슷하다. 고립단어 인식은 발화된 음성과 가장 가까운 단어를 등록된 인식 대상 단어 중에서 찾아낸다. 이와 마찬가지로 화자식별도 등록된 화자들 중에서 가장 유사한 화자를 골라내는 것이다. 이 기술은 여러 명의 용의자 중에서 누가 범인인지 알아내는데 사용될 수 있다. 화자검증 기술은 핵심어 인식과 같이 승인(Acceptance) 및 거절(Rejection) 과정을 거치게 된다. 이 과정은 기준 패턴과 입력 패턴을 서로 비교하여 미리 정해 놓은 발생 확률 값을 넘어서면 승인하고 그렇지 않으면 거절하는 것이다. 이 기술은 음성 자물쇠로 이용될 수 있다.
화자인식 시스템을 실제로 어떤 형태로 구현할 것인가의 관점에서 보면 문맥 종속(Text Dependent)와 문맥 독립(Text Independent)로 나눌 수 있다. 문맥 종속이란 정해진 말 즉 미리 정해 놓은 단어나 문장 등을 말하는 것을 뜻한다. 문맥 종속 시스템의 경우에는 그 특성 때문에 DTW(Dynamic Time Warping) 알고리즘을 주로 사용하며 성능이 좋은 반면 다른 사람이 정해진 말을 몰래 엿듣고 흉내낼 우려가 있다. 문맥 독립(Text Independent)이란 미리 정한 말이 없이 아무 말이나 하는 것이다. 문맥 독립 시스템의 경우에는 HMM(Hidden Markov Model) 알고리즘을 많이 사용하며 문맥 종속 시스템의 단점을 감소 시킬 수 있다. 참고로 미국의 경우에는 1000명의 다른 사람이(Impostor) 시험하여서 1명 이하의 사람을 잘못 승인(False Acceptance)하고, 본인이 100번 발성하여서 1번 이하의 잘못된 거절(False Rejection)을 화자인식 시스템의 최소 규격으로 삼고 있다.
최근에 발표되는 국제 학술지에서는 화자인식 기술의 수준이 위에서 언급한 성능을 이미 넘어서고 있다. 따라서 기존의 제품 성능이 많이 개선되어서 사용자에게 상당한 신뢰성을 보장하는 것이 나오게 될 것이나 국내에서는 아직 화자인식 기술을 이용한 제품이 개발되고 있지 않다. 다만 외국의 제품이 몇몇 업체를 통해서 소개되는 정도이다.
음성인식과 화자인식은 이웃 사촌간이라고 할 수 있다. 즉 음성인식에 사용되는 학습 알고리즘, 유사도 결정 규칙 등이 화자인식에도 비슷하게 적용이 되어진다. 또한 음성인식의 응용 분야 만큼이나 화자인식도 그 응용 분야가 다양하다. 건물의 보안 장치, 컴퓨터 보안 장치, 직원 출퇴근 관리, 비밀 취급 인가 장치, 홈뱅킹 서비스 등 많은 응용 분야가 있다.
음성인식과 관련이 있는 이야기는 바벨탑, 아라비안 나이트 등 먼 옛날로 거슬러 올라가지만 실제적인 음성인식의 역사를 대략적으로 살펴보면 다음과 같다. 1950년대에는 Bell Lab에서 고립 숫자음에 대한 단독 화자에 대한 인식기를 개발하였고, RCA Lab에서는 차별적인 음절을 인식하는 시스템을 개발하였다. 그리고 영국의 College 대학에서 4개의 모음과 9개의 자음을 인식하는 음소 인식기를 개발하였고, MIT Lincoln Lab에서는 화자독립 모음 인식기를 개발하였다. 1960년대에는 안정적인 음성 검출기의 개발, 소련 학자들에 의한 동적 프로그래밍(Dynamic programming) 즉 DTW(Dynamic Time Warping)의 개념 확립, CMU(Carnegie Mellon University)에서 음소의 동적인 탐색 기법을 이용하여 연속어 음성인식에 대한 가능성을 확인하여 주었다. 1970년대에는 고립단어 인식 기술이 실제로 사용 가능한 수준이 되었으며, IBM에서 대어휘 음성인식을 위한 시도가 이루어 졌다. 또한 AT&T Bell Lab에서 화자독립 음성인식 시스템을 위한 노력이 본격적으로 시작되었다.
1980년대의 중요한 사건은 DARPA(Defense Advanced Research Projects Agency)에서 수행한 대어휘 연속어 음성인식 프로젝트이다. 이 프로젝트는 많은 연구기관에서 수행되었다. 이 프로젝트의 수행 기관은 다음과 같다. 카네기 멜론 대학(Carnegie Mellon University), BBN, Lincoln Labs, SRI, MIT, AT&T Bell Labs등이다. HMM(hidden Markov Model)은 DTW(Dynamic Time Warping) 이후로 음성인식에 사용되는 가장 중요한 알고리즘이다. 그런데 1980년대 중반까지는 HMM(hidden Markov Model)에 대해서 특정 기관(IBM, Institute for Defense Analyses, Dragon Systems)을 제외하고는 아무런 관심을 끌지 못하였다. 1980년대 말에는 NN(Neural Networks)이 음성인식에 본격적으로 응용이 되었다. NN(Neural Networks)은 1950년대에 등장하였지만 여러 가지 구현상의 문제를 해결하지 못하여 주목을 받지 못하였으나 1980년대에 들어서서 기술의 많은 한계를 극복하고 주목을 받게 되었다. 현재 세계 대부분의 연속음성 인식 시스템은 HMM을 사용하고 있다. 1990년대에 음성인식 연구자들의 중요한 관심사는 대화체 음성 인식(Spontaneous Speech Recognition)을 어떻게 하느냐 이다. 음성인식의 역사가 40년 이상이 되었지만 아직까지도 자연스러운 발화 다시 말해서 친구사이의 대화에서 발성 되는 음성을 인식하는 것은 해결되지 않았으며, 명료하면서도 자연스러운 음성을 합성해 내기도 어려운 상태이다. 또한 무제한 영역에서 유능한 번역가의 세련된 번역문을 생성하기는 더욱 힘든 일로 남아 있다. 이러한 기술이 모두 개발되어야 외국어를 전혀 모르고도 외국인과 자연스럽게 대화를 나눌 수 있도록 하는 자동통역 시스템을 개발할 수 있다.
최근 들어 국내에 한일간 자동통역 시스템 시연 및 음성인식 전화기, 음성인식 컴퓨터, 음성인식 자동차 등의 제품이 등장하여 음성인식에 대한 일반인들의 관심이 높아지고 있으나 아직 음성인식 기술이 우리 생활의 깊숙한 곳까지 자리잡고 있지는 못하다. 다시 말해 음성인식을 이용한 제품이 우리 주변에는 별로 없으며 그 제품을 사용해도 별 이점이 없다는 것이다. 한편 외국의 경우에는 음성인식을 이용한 통신 서비스 및 제품이 벌써 많이 등장하였다. 외국의 음성인식에 대한 연구가 이미 40년 이상이라는 사실을 감안해 보면 이러한 응용 제품의 출현은 타 기술에 비해 늦었다고 할 수 있다. 그리고 공상과학 영화에서는 음성인식이 미래 사회의 필수적인 기술로 항상 등장한다. 이것은 음성인식 기술이 일상 생활에서 많은 편리함을 줄 수 있다는 가능성을 나타낸다고 볼 수 있다.
세계적인 음성인식 기술의 응용 추세는 이미 그 태동기를 벗어나고 있다. 이에 대한 근거로써 음성인식과 관련된 미국 특허의 수는 수만 건에 이르며 매년 그 증가율이 커지고 있다. 그러나 아직까지도 한국 기업에서는 방어용 특허를 출원하고 있다. 기존의 공개된 특허 정보의 기술 내용을 바탕으로 음성인식 기술 동향을 판단해 보면 음성인식 기술은 쇠퇴 경향이 아닌 개발 경향을 가지며, 완성기가 아닌 기초 기술 개발 단계이다. 그럼에도 불구하고 음성인식 기술에 대한 특허는 개량 기술, 주변 기술, 용도 개발로 퍼져 나가고 있다. 이러한 사실 즉 아직 기술의 완성 단계가 아님에도 불구하고 모든 분야로 확산되고 있다는 것은 음성인식 기술이 무한한 확장성을 지닌 기술이라는 확신을 갖게 한다.
음성인식 기술은 아직 완성 단계가 분명 아니다. 왜냐하면 음성인식 기술은 아직까지 많은 부분에서(어휘 수, 화자독립, 인식 방법, 환경 등) 일반 사용자의 요구를 충분히 감당하고 있지 못하고 있다. 그럼에도 불구하고 많은 기업에서는 사용 영역을 제한함으로써 음성인식 기술의 부족함을 피해 여러 응용 분야를 창출하고 있다. 음성 인식 기술을 이용한 본격적인 응용 제품의 출현은 세계적으로는 1980년대 후반에 시작되었으며, 우리나라의 경우 일반인의 흥미를 끌기 시작한 것은1990년대 초반 이후라고 볼 수 있다. 음성처리 분야에 많은 연구가 외국의 연구기관에 의해 이루어졌지만, 아직 확보되지 않은 기술도 많이 있으므로 우리도 연구에 진력하여 우리 소유의 지적소유권을 확보해야 할 것이다.
음성인식 기술이 응용되는 분야는 크게 다섯 가지로 나누어 볼 수 있다.
-
사무 분야 : 데이타 입력, 데이타베이스 처리, 키보드 대체
-
제조 분야 : eyes-free, hands-free, 공장 자동화
-
통신 분야 : 음성 다이얼링, 오퍼레이터 지원, 상품 주문, 700 서비스 증권 안내, 부서 안내
-
의료 분야 : 진료 카드 작성, 진료 청구, 진단서 작성
-
기타 : 장난감, 로보트, 자동차, 가전제품
이러한 분류는 지금까지 발표된 응용 분야를 기준으로 나누었기 때문에 음성인식 기술이 응용될 수 있는 모든 분야를 망라하지 못하였다고 할 수 있다.
음성인식 기술의 최대 장점은 손이나 시선을 자유롭게 할 수 있다는 것이다. 즉 불편하거나 바쁜 손이나 눈을 음성으로 대신 할 수 있다는 것이다. 이러한 관점에서 몇 가지 예를 들어 보면 다음과 같다. 데이타 입력 작업에서 키보드를 통해 손으로 입력시키기 보다는 음성으로 입력시키는 것이 더 편리할 때가 있다. TV의 조작을 음성으로 할 경우에 일반인에게는 큰 이점이 없으나 시력이 나쁜 노인들에게는 편리함을 줄 것이다. 손이나 눈이 바쁜 사람은 주변에서 많이 볼 수 있다. 예를 들면 주방의 요리사, 응급실의 의사, 전투기 조종사, 핸드폰을 사용하려는 운전자 등이 음성을 통해 데이타를 입력한다면 큰 이점이 될 것이다. 즉 음성인식 기술이 사람의 귀, 음성합성 기술은 사람의 입을 대신한다고 할 수 있다.
현재의 음성인식 기술은 어휘 수에 구애 받지 않고 음성의 변화(발성 패턴, 발음 변이 등)에 무관한 음성인식을 못하고 있다. 그래서 연구의 방향은 무제한 어휘, 자연스러운 발성(예를 들면 대화체 음성), 잡음 환경에서의 인식, 화자독립, 화자인식 등을 중심으로 이루어지고 있다. 많은 사람들은 위의 연구 주제를 완전하게 구현해야만 제품으로 개발 가능하다고 생각한다. 그런데 인간의 고립단어 인식 능력은 실험에 의하면 약 99%정도가 된다고 한다. 다시 말하면 이 정도의 인식 성능을 가진 음성인식기라면 일반 사용자가 별 불평 없이 사용할 수 있다는 것이다. 그리고 개인이 사용하는 어휘는 항상 일정한 범주를 넘어서지 못한다. 따라서 상용화에 있어서 현재의 음성인식 기술이 화자독립, 무제한 어휘, 발성 패턴 등을 완전하게 해결하지 않아도 된다. 즉 응용 분야에 따른 제약 조건을 적절히 이용한다면 제품의 개발이 가능하다.
실제 응용 제품이 되기 위해서는 몇 가지 조건이 만족되어야 한다. 첫째, 그 응용 제품은 사용자에게 생산의 증가, 사용의 편리, 기계와 인간 사이의 편리한 연결고리 등의 이익을 주어야 한다. 둘째, 사용함에 있어서 편리해야 한다. 만일 그 사용법을 익히는 것이 어렵다면 사용자는 현재의 조금 불편한 상태를 유지할 것이다. 또한 오인식의 경우에 적절한 수정이 가능해야 할 것이다. 셋째, 해당 응용 분야에 대해서 적정한 인식률을 가져야 한다. 6살 난 아이의 장난감과 공장 자동화에 사용되는 음성 인식기의 인식률에는 차이가 있을 것이다. 넷째, 실시간 동작을 하여야 한다. 발성이 끝난 후에 약 1/4초 이내에는 결과를 출력시켜야 한다. 상용화에 있어서 가장 중요한 점은 무엇보다도 사용자에게 실제적인 이득을 주어야 한다는 것이다. 단지 새로운 기술에 대한 사용자의 호기심 자극을 바탕으로 한 제품은 사용자의 호기심 충족과 더불어 제품의 수명이 끝이 난다. 이러한 일회성 제품을 개발하지 않기 위해서는 여러 곳에서 개발된 음성인식 알고리즘을 조사하고 그 성능을 비교 분석하여 자신이 개발하고자 하는 제품에 적용시켰을 때 과연 해당 음성인식 알고리즘이 사용자에게 실제적인 이득을 줄 수 있을 것인가를 잘 판단하여야 할 것이다.
음성인식기의 올바른 성능 평가를 위해서는 몇 가지 사항을 유의해야 한다. 첫째, 어떤 인식기의 인식률도 중요하지만 그 인식률 평가를 위해서 어떤 음성 데이타를 사용했는지를 알아보아야 한다. 즉 조용한 사무실 내에서 채집한 음성인가, 달리는 자동차 안에서 채집한 음성인가를 미리 알아 보아야 한다. 둘째, 한번에 탐색하는 단어의 수가 100단어인가, 1000단어인가도 중요하지만 그 단어들의 구성에 있어서 서로간에 얼마나 유사한가를 살펴보아야 한다. 왜냐하면 유사한 단어가 적을 경우에는 보다 많은 단어를 인식하면서도 성능 저하를 일으키지 않기 때문이다. 이러한 틈새를 감지한 미국의 어떤 사람은 좋은 인식 대상 단어의 선택을 위한 알고리즘을 개발하여 우리나라에서 이미 특허를 가지고 있다. 셋째, 해당 인식기가 여러 환경에 따른 적응력이 얼마나 되는가 이다. 실제로 대부분의 음성인식기는 훈련 상황과 동일할 경우에 가장 좋은 성능을 보인다. 그리고 보통의 화자독립 시스템은 미리 확보된 음성 데이타를 가지고 인식에 필요한 여러 파라메터를 추출하여 사용하기 때문에 환경 변화에 잘 적응하지 못할 우려가 있다.
여기에서는 현재 구입이 가능한 음성인식 칩을 소개한다. IWR은 Isolated Word Recognition(고립 단어 인식)의 약자이며, CSR은 Continuous Speech Recognition(연속어 음성인식)의 약자이다. SD와 SI는 Speaker Dependent(화자종속), Speaker Independent(화자독립)의 약자이다.
제작 회사 |
가격 |
SD/SI |
IWR/CSR |
DSP Communications |
$10 $36.7 |
SD SD |
30 IWR 128 IWR |
OKI SEMICONDUCTOR GROUP |
$20 |
SD |
25 IWR |
SENSORY CIRCUITS |
$3.75 |
SD/SI |
100 IWR |
RICOH CORPORATION |
$7-10 ? ? |
SD/SI SI SD |
10 IWR 60 IWR 120 IWR |
SANYO |
? |
? |
32 IWR |
NEC |
$30 |
SD |
24 IWR |
NTT |
? |
SD |
32 IWR |
ADVANCED PRODUCTS & TECHNOLOGY |
? ? |
SI SD |
128 IWR 6400 IWR |
ASULAB |
? |
SI |
15 IWR |
CITIZEN |
? |
SI |
27 IWR |
RICOH CORPORATION |
? ? |
SD SI |
60 IWR 30 IWR |
지금까지의 음성인식 소프트웨어는 대부분 음성으로 텍스트를 입력하거나 간단한 명령어를 처리하는 것들이 주류를 이루어 왔으나 점차적으로 보다 구체적인 분야에 응용되는 것이 나오는 추세이다. 또한 음성인식 기술만 사용되는 것이 아니라 화상인식, 문자인식, 음성합성 등 관련된 기술이 복합적으로 사용됨으로써 구현이 가능한 제품이 각광을 받을 것이다. 현재 시판되고 있는 음성인식 소프트웨어는 고립단어 형태로 발성해야 인식할 수 있다.
사실 고립단어 형태의 발성은 사용자에게 답답한 느낌을 준다. 이 답답함을 조금 없앨 수 있는 것이 연속어 음성인식이다. 연속어 음성인식은 고립단어 인식과는 달리 많은 계산량과 메모리 등이 필요하다. 연속어 음성인식 소프트웨어는 실험실 수준으로는 많은 것이 발표되었으나 상용 제품은 아직 없다. 대어휘를 인식할 수 있는 연속어 음성 인식기는 앞으로 1, 2년 정도는 기다려야 하지만 소규모 어휘에 대해서는 조만간 구입이 가능할 것이며, 늦어도 1997년 정도에는 별다른 하드웨어 없이도 펜티엄 프로(PentiumPro)급에서 돌아가는 것이 나올 것이라고 한다. 소규모 어휘에 대한 연속어 음성인식 소프트웨어는 하나의 예로 진단, 약 이름, 처방전 등에 응용될 수 있으며, 90% 이상의 인식률과 자연스러운 발성으로 인식이 가능한 진단용 음성인식기는 몇 달 안에 출시될 것이라고 한다. 얼마 전 미국의 포닉스 사는 분당 120단어를 화자독립으로 인식하는 시스템을 개발하였다고 발표하였다. 이것은 초당 2단어를 인식한다고 볼 수 있는데 이 정도의 속도라면 발성 속도에 거의 제약을 받지 않는다. 이 제품은 올 4-4 분기에 선보일 예정이라고 한다.
개인의 일정 관리 및 아이디어, 전화 번호 등을 메모할 수 있는 전자 수첩에 음성인식 기능이 첨가되어 기존의 전자 수첩이 주지 못하는 이점을 제공하는 제품은 이미 상용 제품으로 나와 있으나 그 성능 및 필요성의 부족으로 인기를 끌지 못하였다.
과거와는 달리 외국 여행이 매우 보편화되었다. 그러나 대다수 사람들은 외국어 사용에 많은 불편을 느끼고 있다. 실제로 관광 등의 단순한 여행의 경우에는 유창한 외국어 구사가 필요 없다. 즉 호텔 예약, 비행기 예약, 기념품 구매 등 몇 가지 분야에서 필요한 말만 구사할 수 있으면 된다. 이러한 사실을 미리 감지한 외국의 어느 기업에서는 간단한 휴대용 자동 통역기를 조만간 출시할 것이라고 한다.
또, 라디오, 온도 조절, 라이트, 운행 시스템 운용, 전화, 신호등을 연속어 음성으로 처리하는 자동차의 출현이 멀지 않은 장래에 있을 것이다. 자동차에서의 음성인식은 사무실 환경에 비해 매우 어렵다. 이는 자동차 내에서 발생되는 소음을 극복해야 하기 때문이다. 또한 운전자가 음성 입력을 자연스럽게 할 수 있어야 한다. 그렇게 되기 위해서는 운전자로부터 일정 거리 이상 마이크가 떨어져 있게 되고, 이는 신호대 잡음비(SNR)를 떨어뜨린다. 이러한 성능을 지닌 차를 미국의 Ford, GM등에서 연구 중이며 이미 고립단어 수준에서는 개발이 완료된 상태이다. 현재의 음성인식 칩은 대부분 고립단어를 인식한다. 고립단어 인식에서 아직 풀리지 않은 문제점은 인상 대상이 아닌 단어를 어떻게 처리 하느냐 이다. 만일 이 문제가 분명히 해결되지 않는다면 자동차 내에서 이 고립단어 인식기를 사용하기 어려울 것이다. 왜냐하면 옆에 지나가는 차가 경적을 울릴 경우 갑자기 창문이 열리거나 문이 열릴 수도 있기 때문이다.
일상 생활 용품과 관련된 몇 가지 예를 더 들어 보면 다음과 같다. Sony에서는 수천 단어의(장소, 거리 이름) 어휘를 화자독립으로 인식하는 능력을 가진 운행 시스템(Navigation System)을 상용화 하였다. Amerigon에서는 L&H의 기술을 이용해서 고립단어를 인식할 수 있는 운행 시스템(Navigation System)을 판매하고 있다. Chrysler에서는 이미 1980년대 초에 음성합성을 통해 자동차의 이상 유무를 알려 주는 모델을 개발한 바 있다.
통신 분야는 음성인식 기술이 사용되어서 가장 많은 돈을 벌 수 있는 분야임에 틀림 없다.요즘 각광을 받고 있는 PCS에 음성 처리기술을 응용하려는 기업들의 움직임이 돋보인다. 실제로 이 음성인식 기술을 단말기에 설치할 것인지 혹은 교환기에 설치할 것인지는 해당 서비스의 종류 및 최소한의 성능을 고려해야 할 것이며, 현재 구현 가능한 음성인식 기술 수준을 분명히 알아야 할 것이다.
통신 분야에서는 어떤 응용이 이루어 지고 있는지 알아보자. Network call routing 서비스는 음성인식이 통신 분야에서 사용되는 대표적인 예이다.
-
AT&T 800 SR 서비스는 기본적인 동작은 touch-tone으로 하고 10개의 숫자음 인식도 할 수 있다. 성능은 성공률이 99.5%이고 부적절한 거절 즉 인식 대상 어휘를 거절하는 경우의 에러율이 8.4%이다.
-
AT&T에서 개발된 시스템인 VIP(Voice Interactive Phone)은 음성 사서함, 재전송, 다이얼링 등의 서비스를 화자독립 및 핵심어 추출 기술을 사용하여 운용하고 있으며 그 성능은 약 97.4%이다.
-
그리고 한달 평균 5000만호를 처리하는 오퍼레이터 서비스는 핵심어 추출 기술 등을 사용하며 약 80% 이상의 연결 단어 인식률을 얻을 수 있다.
-
Bellcore의 부서 안내 시스템은 년간 600만호를 처리하며200개의 부서명에 대해서 82.5%의 인식률을 얻을 수 있다.
-
Nynex의 음성 다이얼링 시스템은 1993년 하반기부터 서비스가 시작되었으며 1만 5천명의 사용자가 이용하고 있다. 본 시스템은 화자종속이며 인식 알고리즘은 DTW를 사용하였고 첫 시도에서의 인식률이 80.7%이다.
-
그리고 INTREPID(Intelligent Telephone Recognition and Personal Identification)은 음성 다이얼링과 화자인식 기술이 결합된 것으로써 약 90%의 인식 성능을 보이고 있으며, 화자 인식률의 경우에는 잘못된 승인 즉 해당 화자가 아닌데 승인하는 경우의 에러율이 1%이고, 잘못된 거절 즉 해당 화자인데 거절하는 경우의 에러율이 3.9%이다.
-
BNR의 Bilingual Directory Assistance는 사용 언어 선택을 할 수 있고, 핵심어 인식 기술을 이용하며 1700개의 부서명을 인식한다. 언어 선택의 성공률은 89.1%이다.
-
NTT의 ANSER(Automatic Answer Network System for Electrical Request)는 Banking services에 이용되는 것으로 16단어를 인식하고 있으며 하루에 수십만 호가 처리되고 있다.
-
CNET에서는 IVR(Interactive Voice Response Services)를 개발하여 자동차 보험 회사, 영화 상영 안내 등에 응용하였다.
여기에서는 위에서 언급하지 못한 여러 제품을 소개하고자 한다.
-
Butler-In-A-Box이라는 제품은 음성으로 각종 주변 환경을 제어할 수 있는 제품으로 사용자는 자신의 음성으로 인식기를 학습시켜야 한다. 본 제품을 가지고 응용할 수 있는 분야는 전등, TV, 스테레오 등이다.
-
Home Automation Link (HAL-ES)이라는 제품은 워드 프로세싱, 컴퓨터 제어, 데이타 베이스 검색 등에 이용되며 병렬 처리가 가능하다.
-
PTVC-756 (Portable Transaction Voice Computer)는 손으로 들고 다닐 수 있는 음성합성 및 음성 인식기로 도매 업자, 데이타 수집가, 세무 상담업자, 군사용 데이타 수집 등 다양한 방면에 이용될 수 있다.
-
UC Berkeley에서는 레스토랑에서의 음식 주문에 음성인식 기술을 이용하였다. 이 시스템은 1274 개의 단어를 인식할 수 있으며, 대화체 음성에서 32%의 인식률을 보이고 있다.
-
TI의 MultiServe Platform은 통신망에서 다양한 음성 서비스를 제공할 수 있는 기술을 DSP 환경에서 제공하며 S/W 프로그램으로 구현이 가능하도록 되어 있다.
-
Hitachi에서는 음성 다이얼링 시스템을 개발하였는데 화자독립의 단어 수는 20, 화자종속의 단어 수는 100개이다. Philips에서는 음성인식 기술을 열차 시간표 안내에 응용하였다. 1800단어에 대해서 성공률이 75%가 된다.
-
INFOSPHERE에서는 PC에서 모뎀, 사운드 카드 등을 이용하여 화자인식, 핵심어 인식 기능을 가진 전자 비서 시스템을 개발하였다.
-
이외에도 MIT의 Victor Zue 연구그룹에서는 GALAXY라는 시스템을 Netscape와 연동하여 편리한 사용자 환경을 선보인 적이 있다.
여기에서는 국내에서 상용화된 제품의 소개와 현재 기업들의 연구 동향을 살펴 보기로 하자. 먼저 지금까지 우리나라에 소개된 제품을 살펴보면 다음과 같다.
-
국내에서 음성인식 기술이 처음으로 적용된 분야는 음성인식 전화기이다. 이 전화기는 일본에서 개발된 음성인식용 상용 칩을 사용하여 개발된 것이다.
-
그 다음으로 등장한 것은 음성인식 키폰(Keyphone)인데 국내에서 자체적으로 개발하였다.
-
1994년 중반에는 공성통신에서 미국의 VPTI사와 기술제휴를 맺고 아이디어 녹음 및 전화번호 검색을 위한 전자 수첩을 개발하였다. 이 기업에서는 지속적인 음성인식 제품 개발을 위해서 직원들을 VPTI사로 기술 습득을 위해서 파견을 보내고 음성인식 TV 리모콘 등을 곧 개발한다는 발표를 한 바 있다.
-
그 다음으로 등장한 것은 대부분의 독자들도 이제는 잘 아는 보이스 엑세스가 두인전자에서 개발이 되었고 이것은 곧 이어 삼성전자의 PC에 적용되었다.
-
보이스 엑세스가 등장한지 얼마되지 않아 사운드카드 전문 업체에서 마이크로소프트사의 윈도우 사운드 시스템이라는 소프트웨어를 탑재한 사운드카드를 출시 하였다.
이상이 지금까지 소개한 몇 안되는 제품들이 우리나라에서 상용화된 것의 전부이다. 그리고 국내의 순수한 기술로 개발된 것보다는 외국 기술의 도입을 통한 제품이 더 많다. 이러한 상황은 그만큼 한국의 음성인식 기술이 외국 기술에 비해서 뒤쳐져 있다는 사실을 입증한다고도 볼 수 있고, 혹은 국내에서 개발된 우수한 음성인식 알고리즘이 어떠한 이유로 소개되지 못하고 사장되었다고 볼 수도 있다.
다음은 현재 국내의 음성인식 연구 동향에 대해서 간략히 살펴 보기로 하자.
-
한국통신에서는 기존의 700 서비스 중의 하나인 증권 시세 안내를 시험 서비스 한적이 있다. 이 시스템은 듣고자 하는 739개의 상장회사 이름을 고립단어 형태로 발성하면 이를 인식하여 해당 회사의 주가를 알려 주는 것이다.
-
또 한국통신에서 내년부터 화자종속 음성 다이얼링 서비스를 제공한다고 발표한 바 있다.
-
올해 초 전자신문에서는 경찰의 신원조회 등에 사용할 수 있는 DB 검색용 중규모 단어인식기를 올 상반기 중에 출시한다는 기사가 있었다.
-
얼마 전 현대 자동차에서는 음성인식 자동차를 세계에서 세번째로 개발하였다고 발표한 적이 있다. 그리고 이 음성인식 자동차는 내년 말부터 고급 차량에 부착하여 출시한다고 하였는데 그 성능 및 유용성이 몹시 기대된다.
국내 기업에서는 고립단어 및 핵심어 인식쪽을 연구하고 있는데 수백 단어급의 윈도우 명령어 처리를 개발 대상으로 하고 있다.
본 글에서는 1995년 이후에 공개된 국제특허를 주제별로 정리하여 그 동향을 파악하고자 한다. 먼저 출원된 특허들을 주제별로 초점을 맞추어 정리하였다.
<음성인식의 성능 개선>
-
벡터 양자화(Vector Quantization)
-
음성의 인코딩(Encoding)
-
실시간 음성 처리를 위한 방법
-
하드웨어 및 계산 테이블에 의한 속도 향상
-
정확도와 속도 개선 방법(대어휘)
-
메모리 축소
-
대어휘 인식에서의 사전 규모 축소를 통한 속도 개선
-
음성인식기 새로운 훈련 방법
-
신경회로망을 이용한 음성인식기
-
효율적인 음성 모델링 방법
-
음소 분류 방법
-
발성 속도를 이용한 효율성 증대
-
오인식 방지를 위한 단어인식
-
오인식어의 처리
-
미등록어 처리 방법
-
데이타 분포 공간의 해석 방법
-
잡음 환경 적응 방법
-
잡음 환경에서의 음성 검출 방법
-
잡음 환경에서의 음성 특징의 정규화를 통한 인식기의 성능 개선
-
새로운 환경에 대한 빠른 적응 방법
-
유사 단어끼리의 그룹화 방법
-
입술 정보(Lip reading)를 이용한 음성인식기의 성능 개선
<음성인식기의 적용분야>
-
가정의 가전제품
-
장난감
-
전화
-
전화 교환수의 대체
-
무전기
-
자동 마취 기록 장치
-
위치 확인 장치
-
데이타 수집
-
Multi-media information selection and transmission system
-
음성인식기를 이용한 제어 장치
-
로보트 팔
-
교통 정보 제어 장치
-
정보 제공
-
자동차, 건물, 전화, 칩 등에 응용되는 보안 장치
-
청각 장애인을 위한 음성 훈련 장치
-
화상회의
-
음성 사인(vocal signature)
-
FAX
-
700서비스
-
사설 교환기
-
휴대용 데이타 처리 터미널
-
TV 프로그램 스케쥴러 (television program scheduler)
-
컴퓨터
<음성인식기의 구성 변경>
-
효율적인 메모리 관리에 의한 인식기 성능 증대
-
등록 단어의 효율적인 추가 방법
-
음성인식기의 입력장치(howling effect방지)
-
음성인식기의 입력장치(clean speech 유지)
-
Controller에서의 음성인식기 사용
-
등록 정보의 확장 방법
-
문자인식기와의 결합을 통한 다양성 및 정확성 추구
-
정보 제공에 있어서 통신상의 시간 지연 및 상호 간섭에 제거에 의한 효율화
-
신뢰도 정보를 이용한 불필요한 정보처리 제거
-
사용 환경 개선 및 성능 향상을 위한 사용자의 명령 방법
<타 기술과의 결합>
-
오디오와 비쥬얼
-
Video camera를 통한 Lip reading 과 음성인식 기술
-
문자인식과 음성인식
-
음성합성과 음성인식
-
통신망, 음성합성기, 음성인식기의 결합
주제별 특허 출원 건수를 바탕으로 하여 분석하여 보면 음성인식의 성능 개선 방법과 음성인식기의 적용에 대한 것이 대체적으로 많은 추세이다. 또한 음성인식기의 구성 및 타 기술과의 결합도 꾸준히 출원 되고 있다. 이것은 다음과 같은 사실을 나타낸다고 볼 수 있다.
첫째, 음성인식의 성능 개선 방법이 아직까지 주류를 이루고 있다는 사실은 음성인식 기술이 여전히 많은 개발 여지가 있다는 사실이다. 그리고 현재 가장 많은 상용화가 이루어진 고립단어 인식기술의 문제점인 미등록어 처리에 대한 방법이 많이 보인다. 즉 이 미등록어 혹은 미지어 처리에 대한 확실한 해법을 아직까지 그 누구도 확실한 해법을 갖고 있지 못하다는 것이다. 또한 음성인식 기술의 상용화에 있어서 가장 어려움을 주는 부분인 잡음 환경에서의 성능 개선 방법도 꾸준히 출원 되고 있다. 난공불락의 요새 같은 음성인식 기술을 정복하기 위해서 입술의 움직임 정보라는 구원병을 이용한 특허는 돋보인다. 이러한 구원병으로 문자인식 및 화상인식 그리고 화자인식 기술도 쓰일 수 있을 것이다.
둘째, 음성인식기의 적용 분야는 날로 다양해지고 있다는 사실이다. 특히 몸이 불편한 분들을 위한 제품 예를 들면 음성만을 유일하게 사용할 수 있는 분들을 위한 로보트 제어기 등에서는 이 기술에서 인간미를 느끼게 해 준다. 사실 음성인식 기술은 그 성능이 문제이지 적용 분야는 우리 생활의 모든 곳에 자리잡을 수 있다. 그러나 그 성능의 한계는 피할 수 없으므로 이것저것을 재고 살펴서 그 성능이 될 만한 곳에 특허를 출원한다고 볼 수 있다. 화상회의 시스템에 적용된 것이나 첨단 의료 장비에 적용된 것이나 무인 경비 시스템 등에 적용된 것은 관련 기술이 고도의 것 즉 첨단 기술인 경우에는 음성인식 기술이 마치 약방의 감초처럼 꼭 끼어 들어야만 한다는 사실을 의미한다고 볼 수 있다. 이러다 보면 우리들 미래의 상품광고에서는 아래 문구를 항상 보게 될지도 모른다는 생각이 든다. "본 제품은 이러저러한 성능을 가진 음성인식 엔진을 부착하였습니다." TV를 별로 즐겨 보지 않는 사람의 입장에서 보면 TV 프로그램 스케쥴러 같은 것이 뭐 필요할까 싶은데 그래도 누군가는 꼭 필요한 모양이다. 어떤 제품이든 글로 읽고 말로 듣기 보다는 실제로 만져 보고 사용할 때 그 제품의 진가를 잘 알 수 있다. 이러한 면에서 음성인식 기술이 응용된 특허의 효율성이 확 와 닿지 않는 것이 사실이지만 앞으로 이들 제품을 접해 볼 전시회나 제품을 기대해 본다.
셋째, 아무리 완벽한 제품도 구조 변경, 기능의 재배치 및 신기술과 결합 등을 통해서 그 성능 및 사용의 편리성이 증가될 수 있다. 그런데 아직도 개발의 여지가 많은 기술 분야에서 만들어진 제품이라면 더욱 그러할 것이다. 이러한 점에서 현재 개발된 음성인식기의 성능 개선을 위한 여러 가지 특허가 출원 되고 있다. 이것들의 예로 음성 입력 장치의 성능 개선을 통한 음성인식기의 성능 향상 방법, 인식 대상 단어의 효율적인 추가 방법, 효과적인 음성 서비스 구현을 위한 장치 개발,편리한 사용자 인터페이스 등에 관한 것들이 출원 되고 있다.
넷째, 하나에다 하나를 더하면 둘이 되는 것이 아니라 셋 이상이 되는 것은 주변에서 많이 찾아 볼 수 있다. 여러 기술의 결합은 종래에는 구현하지 못했던 서비스를 가능하게 한다. 과거에는 10년에 하나 나올까 하는 기술이 요즘은 1년에도 수십 개가 나온다고 한다. 현재까지는 서로 조금 유사한 문자인식, 화상인식(Lip reading), 화자인식, 음성합성 기술 등과의 결합이 주류를 이루고 있으나 앞으로는 서로 다른 기술끼리의 조합도 고려하여 봄직하다.
'Robotics > Articles' 카테고리의 다른 글
과학기술은 누구의 것? - 차세대 로봇 - (0) | 2007.11.16 |
---|---|
당신의 조직은 개발자를 올바르게 관리하고 있는가? (0) | 2007.11.05 |
S/W개발자 대상 인터뷰 질의서 (0) | 2007.08.27 |
ActiveX 강좌 (0) | 2007.08.21 |
[로봇혁명은 시작됐다.] 전자신문 게재내용 (0) | 2007.08.21 |