VoiceXML

 

資工二乙 495512032 翁恩強 mac9james
資工二乙 495512537 繆朝安 NeoMiau
資工二乙 495512501 黃勝偉 prisonbreak
資工二乙 495512410 蔡耀偉 sebastian_tsai
資工二乙 495512460 李國維 fletcher

VoiceXML

 

1 前言

VoiceXML 是由 AT&T, IBM, Lucent and Motorola 率先領導及發起的語音標記語言規格。這些廠商將原本的

Telephony Markup Language(IBM 的 speechML, Motorolla 的 voxML, AT&T 的 TelePortal … .) 協調整理之後送交 World Wide Web Consortium(W 3C ) 審查,

在 2000 年 5 月 13 日 W 3C 接受了 voice extensible markup language 1.0 規格 (VoiceXML 1.0) ,之後這團隊繼續對 1.0 規格做擴充與改進,

目前 VoiceXML 2.0 已經在 Candidate Recommendation (等候推薦))的階段。

IVR (interactive voice-response services)可以和使用者透過電話,以電話按鍵互動,如語音訂票、語音查榜、語音投票等都是平常很常見的 IVR 應用程式。

VoiceXML 便是一種方便開發 IVR 系統的特殊的標記語言 (Markup Language) 。

VoiceXML 帶來的好處便是利用大部份人熟悉的 web-based model ,開發 IVR ,連存取資料庫的方式也和 web 做法相同。

這項優點讓 IVR 的開發人員不用單心處理電信方面的細節。

2 語音技術概觀

<語音技術應用現況>

語音應用程式往往需求很大的系統資源。

語音技術主要分成輸出及輸入二部份。在做語音輸出時,我們可以去找聲音好聽的人 預先錄製好音檔。

可是我們需要的輸出一旦改變,就要重錄,所以才有語音合成器 (Speech Synthesis, 或稱 Text to Speech,TTS) 的發展。

利用 TTS ,我們只要輸入文字,它自動幫我們轉成人的語音,如此一來,我們便能輕鬆改變 Prompt(提示) ,但目前合成的語音還是不像人類說話那麼自然。

所以錄音檔的語音應用程式,一般是擔任比較「不易改變」的 Prompt ,而如姓名、數量等每一次變動性很大的音檔,我們通常交由 TTS 來產生。

傳統 IVR 中,我們只會用電話按鍵來輸入。在較先進的 ASR(自動語音辨識技術) 系統中,我們可以使用語音辨識技術取代電話按鍵。

電話按鍵表達能力有限,所以使用語音辨識可以讓使用者更方便輸入文字。在語音系統中使用的語音辨識引擎必須是 Speaker-Independent 且辨識率要相當高,

才不會讓使用者感到不適。目前的語音辨識技術沒有辦法達到 100% 的辨識率,所以較重要的資訊輸入,我們仍使用電話按鍵來做,如身份証字號、密碼或金額等等。

3 普及計算 (Pervasive Computing)

普及計算的概念

最近十年來,業界的資訊業務應用已經從 Client-Server 架構漸漸轉成 Web 的分散式架構。隨著硬體技術的發展,許多小型的 device 也具有不輸電腦的運算能力,

於是我們希望透過各式各樣的 device ,從電腦、 NoteBook 、 PDA 到手機,只要我們走到不同的地方,都要能隨時存取資訊。這便是普及計算的動機。

IBM 的 CEO , Lou Gerstner ,曾經為普及計算下過一個定義,

他說 : 「 Persavive computing model is billion people interacting with million e-business with trillion devices interconnected. 」。

簡言之,所有人都能透過不用的裝置,隨時隨地存取所以要的資訊。而 VoiceXML 可以讓我們使用手機來得到 Internet 可以得到的資訊,

可以說是實踐普及計算的其中一種重要技術。

4 VoiceXML 架構

VoiceXML 可以讓我們使用手機來得到 Internet 可以很到的資訊,可以說是實踐普及計算的其中一種重要技術。

我們有三種不同特色的裝置 : 筆記型電腦 (HTML) 、手機 (WML)Wireless Markup Language 無線傳輸標記語言 (一種程式語言, 應用範圍包括行動電話和個人數位助理)

及市內電話 (VoiceXML) 。

由於這三種不同的裝置先天的限制,他們的網時的使用者界面分別使用了三種不同的技術 (HTML 、 WML 及 VoiceXML) 。

但後端接的是同一個 Application Server 。這代表在普及計算模型之下,儘管 UI 不同,商業邏輯只需開發一次。

5 VoiceXML 語法與文件結構

VoiceXML 重要觀念與定義

介紹一下 VoiceXML 應用程式的主要組成部份及其 scope(領域) 關係。最上層的是 session ,它代表的就是一通電話,只要使用者未掛斷電話,都算是一個 session 。

透過 call transfer 或其它機制,使用者可以在同一個 session 下使用其它 application 。一個 application 會包含很多 VoiceXML 文件 (document) ,

其實就是一個 .vxml 檔案。在一個 document 中,會定義系統和使用者可進行的一連串對話 (dialog) 。

session 這個名詞與一般 Web Programming 的 session 意義不同,指的是單一 Browser 連上 Server 時,

Browser 未關掉前都算是同一個 session 。在 Web 環境中,一個 Brwoser 開啟時通常只為一個使用者服務。但在 VoiceXML 的環境中,

一個 Voice Browser 會替許多使用者服務。另外,在傳統 Web Programming 中, application scope 大於 session ,而 VoiceXML 中, session 則大於 application 。

在二者同時運用時,很容易造成開發人員的混亂。 Web Programming 通常會面對 multithreaded 的問題,所以 session 觀念的釐清也特別重要。

作者建議將 VoiceXML 中的 session 以其它名詞取代 ( 如 Telephony-Session) ,才可以減少這種誤解。

6 VoiceXML 與多模式瀏覽 (Multimodal Browsing)

xHTML+ Voice porfile 由成熟的 xHTML v1.1 的延伸模組 (extended module) 加上 VoiceXML 2.0 子集合組成。主要提供一般瀏覽器多模式 (Mutimodal) 的功能。

原本我們用 Browser 上網時,只能利用滑鼠、鍵盤輸入,利用螢幕輸出。利用這項技術,我們使用 Browser 上網時可以同時使用多種模式輸入,使用語音、滑鼠或鍵盤輸入

,使用語音及螢幕輸出。目前 IBM 的 Alphaworks 網站上已提供部份的 xHTML+Voice 實作。

語音界面的加入,可以補足很多傳統 keyboard 及 mouse 不足部份。最明顯的好處就是使用語音輸入時,可以將雙手空出來,使用語音輸出時,眼睛也可以空出來,

這種特色使用人類在使用電腦時的工作效率更高,也是多模式使用者界面 (Multimodal User Interface) 最大的好處。

7 結論與未來發展

VoiceXML 結合了語音界面容易使用及 Web 界面容易開發的特色,可說是 XML 技術一種很成功的應用。 VoiceXML 目前已有 150 家以上的通信及軟體廠商加入。

由於 VoiceXML 是 W 3C 的標準,可以架構在既有 Web 技術的基礎上,所以未來語音應用程式採用 VoiceXML 將成為一種趨勢,

特別是對於 CTI(Computer – Telephony Interface) 與 Web 系統開發人員而言,使用 VoiceXML 將節省許多的發展時間與成本,更有效結合 Web 與 CTI 技術。

8 參考書目

作者 廖峻鋒

[1]Bob Edgar(2001),“The VoiceXML Handbook” ,NY:CMP Books.

[2]Dave Raggett(2001),”Getting started with VoiceXML 2.0” ,W 3C .

[3]Sun Microsystems(1998),”Java Speech Grammar Format Specification v 1.0” ,Sun Microsystems.

[4]Chetan Sharma and Jeff Kunins(2002),”VoiceXML:Strategies and Techniques for Effective Voice Application Development with VoiceXML 2.0” ,Wiley.

[5]Brian Eberman,Jerry Carter,Darren Meyer,David Goddeau(2002),”Building VoiceXML Browsers with OpenVXI”, NY:ACM Press.

[6]Microsoft (2002),“Speech Technology Overview ” , http://www.microsoft.com/speech/evaluation/techover/

[7] VoiceGenie Technologies Inc.(2001),”White Paper:Speaking Freely About The VoiceGenie VoiceXML Gateway and the VoiceXML Interpreter”,
VoiceGenie Technologies Inc.

[8]W 3C (2002),”VoiceXML Specification v 2.0” ,W 3C .

[9]James A.Landay (2000),“Pervasive Interaction: Tools for Designing Anywhere, Anytime, Anydevice Interfaces”,

http://www.cs.berkeley.edu/~landay/research/talks/intel-pervasive/