Skip to main content

본문내용

종목정보

종목토론카테고리

게시판버튼

게시글 제목

“우리~집”부터 ‘시리’까지…음성 인식 대중화 성공?

작성자 정보

평민

게시글 정보

조회 797 2012/07/06 19:14

게시글 내용

064480

 

“우리~집”부터 ‘시리’까지…음성 인식 대중화 성공?
2012. 07. 06

 

컴퓨터를 좀 오래 썼다는 사람들이 술자리에서 으레 꺼내놓는 옛날이야기 중 하나가 천공 카드다. PC는 물론 키보드도 흔치 않던 시절에는 수치 계산을 위해 천공카드에 구멍을 뚫어 명령어를 입력했다. 프로그램 하나에 수 백 장은 예사고 수 천 장이 되는 일도 많았다. 카드 배열이라도 흐트러뜨렸다가는 그야말로 ‘피눈물’이 날 일이다.

이후 PC와 함께 키보드가 보급되면서 ‘키보드’하면 컴퓨터가 떠오를 만큼 상징적인 의미를 갖게 됐다. 지금은 몇 천원에 살 수 있는 마우스도 PC에 흔해진 것은 윈도우 95가 등장한 1995년 이후였다. 이후 꽤 오랫동안 키보드와 마우스가 입력의 중심을 차지했고 PDA(Personal Digital Assistants)와 스마트폰의 터치스크린 역시 키보드와 마우스의 역할을 따라하는 데 초점이 맞춰져 왔다.

하지만 최근 스마트폰 시장은 또 다른 입력 방식으로 전환을 맞고 있다. 음성 인식, 음성 입력이다.

음성 인식, 어떻게 활용할 것인가

휴대폰 음성 인식에 대한 시도는 꽤 오래 전부터 있어 왔다. 90년대 후반 “본부” 혹은 “우리집”으로 기억되는 휴대폰의 음성 인식 기술은 목소리를 익혀야 하고 명령할 수 있는 것들이 한정적인 데다가 잘 알아듣지도 못했다. 결정적으로 당시에는 말로 전화를 건다는 것 자체가 창피한 일이었다. 그저 휴대폰 시장의 마케팅 포인트 중 하나로 전락하고 말았다. 물론 인식율을 높이기 위해서는 엄청난 컴퓨팅 파워가 지원되어야 했지만 ‘돈’이 안되는 서비스에 막대한 투자를 단행할 사업자는 없었다.

하지만 그 사이에도 음성 인식, 음성 입력 기술은 발전을 거듭해 왔다. 스마트폰 시장이 커지면서 애플은 아이폰에 기초적인 음성 인식 기술을 넣었고 안드로이드 역시 검색창 등에 음성 입력 기능을 더했다.

본격적으로 불을 지핀 사건은 지난해 아이폰과 함께 등장한 시리(Siri)였다. ‘전화걸기’ ‘날씨’ 등 주문을 외우는 것 같은 명령어 대신 ‘회사에 전화 걸어줘’ ‘여자친구에게 오늘 저녁 약속이 있냐고 문자 메시지를 보내줘’처럼 스마트폰과 대화할 수 있게 된 것이다.

시리가 천지개벽할 만한 놀라운 기술일까? 기술도 기술이지만 이를 어떻게 활용할 지에 대한 애플의 아이디어가 시리를 깜짝 놀랄 상품으로 만들어낸 것이다. 음성 입력을 어떻게 쓸 지는 스마트폰 제조사가 결정할 일이라는 얘기다. 예를 들어 애플과 블랙베리는 모두 뉘앙스의 음성 인식 기술을 기반으로 한다. 하지만 두 제품의 결과물은 천지차이다. 시리의 서비스는 굳이 설명할 필요가 없을 정도지만 블랙베리의 음성 입력은 전화번호부 검색 정도에 머물고 있다. 어떤 칼을 갖고 있느냐도 중요하지만 그 칼을 어떻게 쓸 지도 중요하다는 얘기다.

음성 인식, 클라우드와 위치정보로 활짝

최근의 음성 인식 기술은 클라우드와 지역 정보를 결합해 우리가 그 동안 꿈꾸던 서비스를 이뤄내고 있다. 단순히 말을 글자로 받아 적는 수준을 넘어 이 정보를 분석해 유용한 정보로 만들어준다.

내가 한 이야기를 서버로 보내 내용을 분석하고 그에 맞는 정보를 보여주거나 명령어를 처리한다. 시리는 하나의 좋은 예지만 삼성이 갤럭시 S3에 넣은 S-보이스나 구글의 음성 검색도 비슷한 케이스다. 시리가 욕이나 비속어, 새로 나온 은어도 알아듣는 이유는 목소리 정보를 분석하는 클라우드 서비스에 지속적으로 새로운 언어가 학습되기 때문이다.

당연히 데이터가 쌓이면 쌓일수록 더 매끄러운 답을 내놓고 말도 더 잘 알아듣는다. 구글이 언어 번역 서비스에서 독보적인 위치에 올라설 수 있었던 것과 비슷하다. 어떤 문장을 어떻게 번역해야 하는지에 대해 이용자들이 제안하는 내용들을 그대로 데이터베이스에 담기 때문에 기존 번역 소프트웨어들이 갖고 있는 번역 방법과 데이터에 비할 바가 아니다.

단어 한 두 개가 아니라 문장 전체를 분석하기 때문에 정확도가 높다. 하지만 그만큼 많은 데이터가 필요하다. 마치 아이들이 말을 배우듯 많은 사람들과 이야기한 내용이 쌓이다 보면 점점 더 능숙하게 대화할 수 있게 된다. iOS5.1에 처음 포함된 일본어 시리의 경우 처음에는 영어에 비해 매끄럽지 못했다. 애플은 일본어 이용자들에게 아직 말이 서툴기 때문에 말을 잘 가르쳐달라는 애교 있는 메시지로 넘어가기도 했다.

마찬가지로 iOS6의 베타 버전에 새로 포함된 한국어 시리는 지금 우리말을 배우고 있는 중이다. 독도가 어느 나라 땅인지, 가장 좋은 스마트폰은 무엇인지, ‘일’이라는 말을 one으로 알아들을지, work인지, day인지 알 수 있게 데이터가 쌓여야 한다.

시리는 흔히 삼성 갤럭시 S3의 S-보이스와 비교된다. 갤럭시 S3에는 블링고의 음성 인식 기술이 들어간다. S-보이스가 시리보다 대화를 다채롭게 이끌어가지 못하는 사례들이 나오는 이유는 음성 인식 기술 자체에 차이가 있다기보다 음성을 분석해 주는 데이터가 아직 충분히 쌓이지 않았기 때문이다. 스마트폰을 제어하는 것에 대해서는 삼성이 노력해야 하는 부분이지만 음성 데이터베이스를 쌓는 일은 실제 제품을 쓰는 이용자들의 도움도 더해져야 할 것이다.

구글나우 “시리 나와!”

시리 하나로 음성 인식 하면 애플이 먼저 떠오르게 됐지만 구글도 음성 관련 기술에서 상당한 기술력을 갖고 있다. 앞서 이야기한 번역 서비스와 마찬가지로 구글은 꽤 오랫동안 음성 검색 서비스를 해 왔다. 안드로이드에도 소리를 보내 분석하는 방식으로 그간 받아쓰기 정도의 음성 입력 서비스가 이뤄졌지만 최근 발표한 젤리빈으로 음성 입력 기술에 응용을 가하기 시작했다.

 

안드로이드 4.1 젤리빈에는 인터넷을 거치지 않고 음성 인식을 쓸 수 있는 ‘오프라인 보이스 타이핑’ 기술이 들어간다. 음성 입력에 대한 데이터베이스를 운영체제에 심은 것으로 보이는데 온라인을 거치지 않고도 비슷한 수준의 받아쓰기가 된다는 것은 발표만으로도 대단한 일이다. 지난 구글 I/O에서는 영어가 우선적으로 처리되고 이후 다른 언어들이 추가될 계획이라고 하는데 적지 않은 용량을 차지하는 음성 데이터베이스를 어떻게 추가할 지는 지켜봐야 할 것 같다.

구글이 준비하는 또 하나의 음성 관련 서비스는 구글나우다. 시리에 맞서는 구글의 새 위치기반 서비스로 날씨를 묻거나 목적지까지 남은 시간 등을 알려주고 갈아타는 지하철이 몇 분 뒤에 도착하는지 알려주는 등 구글이 쌓아온 지역 정보가 음성 입력과 합쳐져 어떤 효과를 낳을지는 젤리빈이 정식으로 등장하는 이달 중순께 알 수 있을 듯하다.

한편, 음성 인식 관련 업계의 한 전문가는 “정말 음성 인식 서비스가 일상 생활 속에 자리잡을 수 있을 지 좀더 지켜봐야 합니다”라고 전했다. 음성이라는 특수성으로 인해 차나 집 같은 한정된 공간에서 적용될 뿐 광범위하게 적용될 것이라고 예단하기는 아직은 이르다는 설명이다. 또 한차례의 유행인 지 아니면 클라우드가 뒷받침해주는 ‘킬러’ 서비스로 확실히 자리를 잡을 지 주목되는 부분이다.

 

 

 

 

"한국서 가장 높은 산은?" 하고 물으면 높이-사진까지 보여줘

 

하반기 스마트폰 시장의 핵심 화두로 음성 인식이 떠오르면서 포털업계도 모바일 음성 검색 시대로 빠르게 진화하고 나섰다.

5일 관련업계에 따르면 NHN, 다음커뮤니케이션, SK커뮤니케이션즈 등 주요 포털업체들을 중심으로 플랫폼 확장을 비롯해 소음처리, 문장형 인식, 정답형 검색 등 모바일 음성 검색 업그레이드가 한창이다.

국내 포털업체들은 이미 모바일 애플리케이션(앱)을 통해 음성 검색을 지원하고 있지만 기존에는 단순히 키워드를 인식하는 수준이어서 사용률이 높지 않았다. 하지만 최근 애플의 음성인식 기술인 `시리'에 이어 구글이 `젤리빈'에 음성 인식 기술을 추가하는 등 스마트폰의 핵심 기능으로 음성인식이 광범위하게 활용되면서 성능 개선 작업에 나선 것으로 풀이된다. 삼성전자, LG전자, 팬택 등 스마트폰 제조사들도 음성 인식 기능을 속속 도입하고 있다.

우선, 모바일 사업을 강화하고 있는 다음이 하반기 모바일 음성 검색의 대대적인 업그레이드를 준비중이다. 다음 관계자는 "현재 내부적으로 플랫폼 확장, 소음처리, 문장형 인식 등 인식률을 높이는 작업을 진행 중"이라고 말했다. 다음은 지난 2010년 6월 한국전자통신연구원(ETRI)과 모바일 음성 검색 모듈을 공동 개발하고, 국내 처음으로 한국어 모바일 음성 검색 서비스를 시작했다.

NHN은 정답형 음성 검색을 준비중이다. 이는 구글의 젤리빈이 제공하는 음성 검색과 같은 방식으로, 질문에 대한 답변과 함께 관련 정보를 제공한다. 예를 들어 "한국에서 가장 높은 산은?"이라고 물으면 "백두산, 2750M"라는 대답과 함께 백두산 사진을 보여주는 식이다. NHN 관계자는 "네이버 음성 검색은 지금도 글로벌 업체와 비교해 어깨를 견줄 수 있는 수준까지 인식률이 올라온 상황"이라며 "하지만 아직 대화형 질문 형태를 파악하고 인식하는 단계에는 이르지 못했으며, 현재 준비 단계에 있다"고 말했다.

SK컴즈는 스마트TV로 음성 인식을 확대했다. SK컴즈는 최근 삼성전자 스마트TV에 제공하는 싸이월드 사진첩 서비스에 음성 인식 기능을 적용했다. 이번에 추가된 기능은 2012년형 삼성 스마트TV 리모컨의 음성 인식 기능을 활용한 것으로, 사용자의 음성으로 싸이월드 사진첩을 조작할 수 있다.

한민옥기자 mohan@

 

 

아시아경제 심나영 기자]앞으로의 관건은 음성인식 자체가 아니라 '인식한 음성을 어떻게 활용할 것이냐'에 있다.

업계에선 IT업체나 소비자가 단순히 휴대폰에 탑재된 재미거리 기능이라는 인식에서 벗어나 비즈니스 측면에서 음성인식 기능을 활용하면 새로운 시장이 열릴 것이라 전망하고 있다.

단말 업계 관계자는 "애플 시리나 삼성 S보이스는 휴대폰 기기에서 음성인식 서비스가 완전히 처리 되는 게 아니라, 애플과 삼성이 제공하는 서버를 통해 음성이 전달된 뒤 사용자 의도를 파악하는 방식을 채택하고 있다"며 "이를 통해 고객 데이터를 확보하고 분석해 니즈를 파악, 사업 전략을 짤 수 있다"고 했다.
 
음성인식 어플리케이션은 향후 애플 시리(Siri) 인터페이스가 공개된다면 기존 앱 생태계와 접목돼 폭발적인 영향력을 미칠 것으로 보인다.

과거 아이폰이 성장동력을 확보한 시기도 아이폰이 최초 발매 될 때가 아니라 애플이 앱스토어를 공개한 이후였다. 시리 기능이 각종 앱에 적용되면 기기 매력도도 높아질 뿐더러 지지부진했던 시리의 활용도도 넓어질 것이 분명하다.

음성인식 기능이 다방면으로 활용되면 통신사도 새로운 음성 서비스를 고민할 수밖에 없다. 통신 업계 관계자는 "단말업체와 IT솔루션 업체들이 음성인식 부가서비스를 주도하기 시작되면 이통사들의 긴장감도 높아질 것"이라며 "음성 매출이 줄어가는 걸 막기 위해선 통신사도 새로운 음성 서비스를 내놓아야 한다"고 말했다.

일본 최대 이동통신사 도코모가 좋은 예로 도코모는 일어를 번역해 서로 다른 10여개 언어권 이용자들에게도 실시간 통화를 할 수 있는 '통역전화' 시험 서비스를 하고 있다.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 





 



 

게시글 찬성/반대

  • 4추천
  • 0반대
내 아이디와 비밀번호가 유출되었다? 자세히보기 →

운영배심원의견

운영배심원 의견?
운영배심원의견이란
운영배심원 의견이란?
게시판 활동 내용에 따라 매월 새롭게 선정되는
운영배심원(10인 이하)이 의견을 행사할 수 있습니다.

운영배심원 4인이 글 내리기에 의견을 행사하게 되면
해당 글의 추천수와 반대수를 비교하여 반대수가
추천수를 넘어서는 경우에는 해당 글이 블라인드 처리
됩니다.

댓글목록

댓글 작성하기

댓글쓰기 0 / 1000

게시판버튼

광고영역