人臉識別開題報告三篇

時間：2018-06-10 工作計劃點擊：

報告使用范圍很廣。按照上級部署或工作計劃，每完成一項任務，一般都要向上級寫報告，反映工作中的基本情況、工作中取得的經驗教訓、存在的問題以及今后工作設想等，以取得上級領導部門的指導。報告，在已發布的黨、人大、政府、司法、軍隊機關的公文處理規范中，以下是為大家整理的關于人臉識別開題報告3篇 , 供大家參考選擇。

人臉識別開題報告3篇

第1篇: 人臉識別開題報告

人臉識別

一、人臉識別的定義

人臉識別是基于計算機圖像處理技術和生物特征識別技術，提取圖像或視頻中的人像特征信息，并將其與已知人臉進行比對，從而識別每個人的身份。它集成了人工智能、機器學習、模型理論、視頻圖像處理等多樣專業技術。

廣義的人臉識別實際包括構建人臉識別系統的一系列相關技術，包括人臉圖像采集、人臉定位、人臉識別預處理、身份確認以及身份查找等；而狹義的人臉識別特指通過人臉進行身份確認或者身份查找的技術或系統。

隨著智能手機的快速普及，可以通過手機鏡頭在手機上做基于人臉識別的身份注冊、認證、登錄等，使身份認證進程更安全、方便。由于人臉比指紋等視覺辨識度更高，所以刷臉的應用前景更廣闊。

二、人臉圖像的應用

1. 企業、住宅安全和管理。如人臉識別門禁考勤系統，人臉識別防盜門等。

2. 電子護照及身份證。這或許是未來規模最大的應用。人臉識別技術是首推識別模式，該規定已經成為國際標準。美國已經要求和它有出入免簽證協議的國家必須使用結合了人臉指紋等生物特征的電子護照系統。美國運輸安全署計劃在全美推廣一項基于生物特征的國內通旅行證件。歐洲很多國家也在計劃或者正在實施類似的計劃，用包含生物特征的證件對旅客進行識別和管理。中國的電子護照計劃公安部一所正在加緊規劃和實施。

3. 公安、司法和刑偵。如利用人臉識別系統和網絡，在全國范圍內搜捕逃犯。

4. 自助服務。如銀行的自動提款機，如果同時應用人臉識別就會避免被他人盜取現金現象的發生。

5. 信息安全。如計算機登錄、電子政務、電子商務及銀行交易。在電子商務中交易全部在網上完成，電子政務中的很多審批流程也都搬到了網上。而當前，交易或者審批的授權都是靠密碼來實現。如果密碼被盜，就無法保證安全。如果使用生物特征，就可以做到當事人在網上的數字身份和真實身份統一。從而大大增加電子商務和電子政務系統的可靠性。

三、人臉圖像的預處理

預處理是人臉識別過程中的一個重要環節。輸入圖像由于采集環境的不同，可能收到光照，遮擋的影響得到的樣圖是有缺陷的。

需要處理的步驟：

1、灰度化

將彩色圖像轉化為灰度圖像的過程是圖像的灰度化處理。彩色圖像中的每個像素的顏色由R，G，B三個分量決定，而每個分量中可取值0-255，像素點的顏色變化范圍太大。而灰度圖像是R，G，B三個分量相同的一種特殊的彩色圖像，會大大減少后續的計算量。

灰度化的三種方法：

a) 最大值法: 將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。這種方法轉化的灰度圖亮度較高。F(i,j) = max(R(i,j), G(i,j), B(i,j))

b) 平均值法: 將彩色圖像中的三分量亮度求平均得到一個灰度值。這種方法得到的灰度圖比較柔和。 F(i,j) = (R(i,j), G(i,j), B(i,j))/3

c) 加權平均法: 將彩色圖像中的三分量亮度按權值計算得到一個灰度值。這種方法得到的灰度圖效果最好。F(i,j) = (WRR(i,j), WGG(i,j), WBB(i,j))/3

灰度變換方法：

g（x，y）= T [ f（x，y）]

f（x，y）是輸入圖像，g（x，y）是處理后的圖像，T是在點（x，y）鄰域上定義的關于f 的一種算子。

左圖是一張進行灰度變換的灰度圖，從圖像的左上角開始，以水平掃描的方式逐像素地處理，將原圖灰度翻轉。

其中，matlab當中常用的灰度變換函數是：

imadjust(I,[low_in; high_in],[low_out; high_out],gamma)

2、幾何變化

定義：圖像空間變化，將一幅圖的坐標位置映射到另一幅圖像中的新坐標上。

目的：通過適當的幾何變換，消除幾何因素（視角，方位等）造成的圖像外觀變化。

主要分為圖像平移，圖像轉置，圖像旋轉，圖像縮放。

3、圖像增強

算法原理：圖像增強算法常見于對圖像的亮度、對比度、飽和度、色調等進行調節，增加其清晰度，減少噪點等。圖像增強往往經過多個算法的組合，完成上述功能，比如圖像去燥等同于低通濾波器，增加清晰度則為高通濾波器，當然增強一副圖像是為最后獲取圖像有用信息服務為主。一般的算法流程可為：圖像去燥、增加清晰度（對比度）、灰度化或者獲取圖像邊緣特征或者對圖像進行卷積、二值化等。

a) 直方圖均衡化：將原始圖像的灰度圖從比較集中的某個灰度區間均勻分布在整個灰度空間中，實現對圖像的非線性拉伸，重新分配圖像像素值。

算法應用場景：

1、算法的本質是重新分布圖像的像素值，增加了許多局部的對比度，整體的對比度沒有進行太大改變，所以應用圖像為圖像有用數據的對比度相近是，例如：X光圖像，可以將曝光過度或曝光不足照片進行更好的顯示，或者是背景及前景太亮或太暗的圖像非常有用。

2、算法當然也有缺點，具體表現為：變換后的圖像灰度級減少，某些細節減少；某些圖像有高峰值，則處理后對比度不自然的過分增強。

算法實現特點：

1、均衡化過程：直方圖均衡化保證在圖像像素映射過程中原來的大小關系保持不變，即較亮的區域依舊較亮，較暗的依舊較暗，只是對比度增加，不能明暗顛倒；保證像素映射函數的值域在0和255之間。累積分布函數是單增長函數，并且值域是0到1。

2、累積分布函數實現過程：

比較概率分布函數和累積分布函數，前者的二維圖像是參差不齊的，后者是單調遞增的。

b) 拉普拉斯算子：利用拉普拉斯算子進行圖像增強本質是利用圖像的二次微分對圖像進行蛻化，在圖像領域中微分是銳化，積分是模糊，利用二次微分對圖像進行蛻化即利用鄰域像素提高對比度。

c) Log變換：對數變換可以將圖像的低灰度值部分擴展，顯示出低灰度部分更多的細節，將其高灰度值部分壓縮，減少高灰度值部分的細節，從而達到強調圖像低灰度部分的目的。

d) 伽馬變換：伽馬變換主要用于圖像的校正，將灰度過高或者灰度過低的圖片進行修正，增強對比度。變換公式就是對原圖像上每一個像素值做乘積運算，伽馬變換對圖像的修正作用其實就是通過增強低灰度或高灰度的細節實現的。γ值以1為分界，值越小，對圖像低灰度部分的擴展作用就越強，值越大，對圖像高灰度部分的擴展作用就越強，通過不同的γ值，就可以達到增強低灰度或高灰度部分細節的作用。

伽馬變換對于圖像對比度偏低，并且整體亮度值偏高（對于于相機過曝）情況下的圖像增強效果明顯。

4、歸一化

什么是歸一化？所謂圖像歸一化, 就是通過一系列變換, 將待處理的原始圖像轉換成相應的唯一標準形式(該標準形式圖像對平移、旋轉、縮放等仿射變換具有不變特性)。

為什么歸一化？使不同成像條件（光照強度，方向，距離，姿勢等）下拍攝的同一個人的照片具有一致性。圖像可以抵抗幾何變換的攻擊，也就是轉換成唯一的標準形式以抵抗仿射變換。

歸一化的方法有哪些？

? 線性歸一化

也稱min-max標準化；是對原始數據的線性變換，使得結果值映射到[0,1]之間。

缺點：如果max和min不穩定的時候，很容易使得歸一化的結果不穩定，影響后續使用效果。

? 標準差歸一化

? 非線性歸一化

四、人臉圖像的特征檢測

獲得好的特征是識別成功的關鍵

? 尺度不變特征提取（SIFT）

? 方向梯度直方圖（ HOG ）

? 神經網絡特征提取

? Haar-like特征

? CNN特征提取

五、人臉圖像的匹配與識別

提取的人臉圖像的特征數據與數據庫中存儲的特征模板進行搜索匹配，通過設定一個閾值，當相似度超過這一閾值，則把匹配得到的結果輸出。根據相似程度對人臉的身份信息進行判斷。這一過程又分為兩類：一類是確認（1：1）另一類是辨認（1：N）。

主流的人臉識別技術基本上可以歸結為三類：

1．基于幾何特征的方法: 基于幾何特征的方法是最早、最傳統的方法，通常需要和其他算法結合才能有比較好的效果；

2．基于模板的方法

? 特征臉方法

特征臉技術的基本思想是：從統計的觀點，尋找人臉圖像分布的基本元素，即人臉圖像樣本集協方差矩陣的特征向量，以此近似地表征人臉圖像。這些特征向量稱為特征臉(Eigenface)。

實際上，特征臉反映了隱含在人臉樣本集合內部的信息和人臉的結構關系。將眼睛、面頰、下頜的樣本集協方差矩陣的特征向量稱為特征眼、特征頜和特征唇，統稱特征子臉。特征子臉在相應的圖像空間中生成子空間，稱為子臉空間。計算出測試圖像窗口在子臉空間的投影距離，若窗口圖像滿足閾值比較條件，則判斷其為人臉。

基于特征分析的方法，也就是將人臉基準點的相對比率和其它描述人臉臉部特征的形狀參數或類別參數等一起構成識別特征向量，這種基于整體臉的識別不僅保留了人臉部件之間的拓撲關系，而且也保留了各部件本身的信息，而基于部件的識別則是通過提取出局部輪廓信息及灰度信息來設計具體識別算法。現在Eigenface(PCA)算法已經與經典的模板匹配算法一起成為測試人臉識別系統性能的基準算法；

? 線性判別分析方法

? 奇異值分解方法

? 神經網絡算法

人工神經網絡是一種非線性動力學系統，具有良好的自組織、自適應能力。目前神經網絡方法在人臉識別中的研究方興未艾。

神經網絡方法在人臉識別上的應用比起前述幾類方法來有一定的優勢，因為對人臉識別的許多規律或規則進行顯性的描述是相當困難的，而神經網絡方法則可以通過學習的過程獲得對這些規律和規則的隱性表達，它的適應性更強，一般也比較容易實現。因此人工神經網絡識別速度快，但識別率低。而神經網絡方法通常需要將人臉作為一個一維向量輸入，因此輸入節點龐大，其識別重要的一個目標就是降維處理。PCA的算法描述：利用主元分析法進行識別是由 Anderson和 Kohonen提出的。由于 PCA在將高維向量向低維向量轉化時，使低維向量各分量的方差最大，且各分量互不相關，因此可以達到最優的特征抽取。

? 動態連接匹配

3．基于模型的方法

? 隱馬爾柯夫模型

? 主動形狀模型

? 主動外觀模型

第2篇: 人臉識別開題報告

人臉識別技術的應用背景及研究現狀

1．人臉識別技術的應用

隨著社會的不斷進步以及各方面對于快速有效的自動身份驗證的迫切要求，生物特征識別技術在近幾十年中得到了飛速的發展。作為人的一種內在屬性，并且具有很強的自身穩定性及個體差異性，生物特征成為了自動身份驗證的最理想依據。當前的生物特征識別技術主要包括有：指紋識別，視網膜識別，虹膜識別，步態識別，靜脈識別，人臉識別等。與其他識別方法相比，人臉識別由于具有直接，友好，方便的特點，使用者無任何心理障礙，易于為用戶所接受，從而得到了廣泛的研究與應用。除此之外，我們還能夠對人臉識別的結果作進一步的分析，得到有關人的性別，表情，年齡等諸多額外的豐富信息，擴展了人臉識別的應用前景。當前的人臉識別技術主要被應用到了以下幾個方面：

（1）刑偵破案公安部門在檔案系統里存儲有嫌疑犯的照片，當作案現場或通過其他途徑獲得某一嫌疑犯的照片或其面部特征的描述之后，可以從數據庫中迅速查找確認，大大提高了刑偵破案的準確性和效率。

（2）證件驗證在許多場合（如海口，機場，機密部門等）證件驗證是檢驗某人身份的一種常用手段，而身份證，駕駛證等很多其他證件上都有照片，使用人臉識別技術，就可以由機器完成驗證識別工作，從而實現自動化智能管理。

（3）視頻監控在許多銀行，公司，公共場所等處都設有24小時的視頻監控。當有異常情況或有陌生人闖入時，需要實時跟蹤，監控，識別和報警等。這需要對采集到的圖像進行具體分析，且要用到人臉的檢測，跟蹤和識別技術。

（4）入口控制入口控制的范圍很廣，既包括了在樓宇，住宅等入口處的安全檢查，也包括了在進入計算機系統或情報系統前的身份驗證。

（5）表情分析根據人臉圖像中的面部變化特征，識別和分析人的情感狀態，如高興，生氣等。此外，人臉識別技術還在醫學，檔案管理，人臉動畫，人臉建模，視頻會議等方面也有著巨大的應用前景。

2．人臉識別技術在國外的研究現狀

當前很多國家展開了有關人臉識別的研究，主要有美國，歐洲國家，日本等，著名的研究機構有美國MIT的Media lab,AI lab,CMU的Human-Computer Interface Institute，Microsoft Research,英國的Department of Engineering in University of Cambridge等。

（1）模板匹配

主要有兩種方法，固定模板和變形模板。固定模板的方法是首先設計一個或幾個參考模板，然后計算測試樣本與參考模板之間的某種度量，以是否大于閾值來判斷測試樣本是否人臉。這種方法比較簡單，在早期的系統中采用得比較多。但是由于人臉特征的變化很大，很難得到有效的模板來表示人臉的共性。變形模板在原理上與固定模板相同，但其中包含一些非固定的元素，一種方法是手工構造參數化的曲線和曲面以表征人臉中的某些非固定特征，如眼睛，鼻子和嘴唇等。另一種方法是系統自動生成自適應的曲線或曲面，以構成變形人臉模板。檢測方法是：將模板與測試圖像進行彈性匹配，并加入懲罰機制，利用某種能量函數表示匹配程度。

（2）示例學習

示例學習的基本思想是從某一概念的已給正例和反例的集合中歸納產生出接受所有正例同時排斥所有反例的該概念的一般規則。將人臉樣本和非人臉樣本送入學習機中，產生出判別規則，從而用于作為判斷輸入的測試圖像是否屬于人臉的主要判別依據。為了獲得較高的精度，學習過程需要大量的樣本，另外樣本數據本身是高維矢量，因此，研究通用而有效的學習算法的關鍵是精確的區分性和數據維數的降低。

將多個表示人臉模式的線性空間進行組合，是示例學習的另一條途徑。采用了Kohonen自組織映射網絡對人臉樣本和非人臉樣本進行聚類，對每一類樣本進行Fisher線性判別，得到每一類的判別平面，從而構成圖像子空間，并運用高斯模型描述每個子空間，估計出類條件概率密度。這樣，對于測試圖像，計算其屬于各個子空間的概率，分類決策為概率最大的類是它所屬的類，從而判斷測試圖像是否為人臉。

（3）神經網絡

從本質上講，神經網絡也是一種基于樣本的學習方法。將神經網絡用于人臉檢測取得了很大的進展。MIT的學者首先對人臉樣本集和非人臉樣本集聚類，以測試樣本與人臉樣本集和非人臉樣本集的子類之間的距離作為分類的度量，利用多層感知器（MLP）網絡作為分類器。CMU的研究人員直接以圖像作為神經網絡的輸入，設計了一個具有獨特結構的適用于人臉特征的神經網絡分類器，并通過前饋神經網絡對檢測結果優化。Raphael Feraud等利用多個神經網絡：多層感知器（MLP）和約束產生式模型（CGM，Constrained Generative Model），實現了一個可應用于WEB中人臉圖像檢索的快速而準確的人臉檢測方法。Shang-Hung Lin等訓練了三個基于概率決策的神經網絡（PDBNN，Probabilistic Decision Based Neural Network）,用于人臉檢測，眼睛定位和人臉識別，實現了一個完整的人臉識別系統。

（4）基于隱馬爾可夫模型的方法

馬爾可夫模型是一個離散時序有限狀態自動機，隱馬爾可夫模型（HMM）是指這一馬爾可夫模型的內部狀態外界不可見，外界只能看到各個時刻的輸出值。對于人臉模式來說，我們可以把它分成前額，眼睛，鼻子，嘴巴和下巴這樣一個序列。人臉模式就可以通過對這些區域的有序的識別來檢測，這正好是隱馬爾可夫模型容易做到的。Samaria等人提出了使用HMM模型進行人臉檢測的算法，他們使用人臉區域的結構信息作為隱馬爾可夫模型的狀態遷移條件。除此以外，基于AdaBoost的人臉識別算法，基于彩色信息的方法，基于形狀

分析的方法，以及多模態信息融合的方法，國外都進行了大量的研究與實驗。

3．當前人臉識別技術所存在的主要問題

盡管人臉識別技術有著廣闊的應用前景，但是無論是在識別率，還是在防偽性上，都與指紋，視網膜等有著較大的差距，歸根結底，影響人臉識別效果的原因主要有以下的幾個方面：

1）人臉圖像的獲取過程中的不確定性（如光的方向，以及光的強度等）。

2）人臉模式的多樣性（如胡須，眼鏡，發型等）。

3）人臉塑性變形的不確定性（如表情等）。

4）所涉及的領域知識的綜合性（如心理學，醫學，模式識別，圖像處理，數學等）。

正因為在人臉識別的過程中存在上述的各種各樣的問題，因此在實際的檢測和識別過程中，當這些因素疊加到一起的時候，情況就變得更加復雜。基于幾何特征的識別方法，其存在的主要問題在于，沒有形成一個統一的，優秀的特征提取標準。在描述人臉的時候，受到表情，光照，姿態的影響比較大，無法準確地描述人臉特征。盡管如此，基于幾何特征的方法在處理人臉表情分析時，仍然是一個最有效的依據。同時，目前已經提出了很多改進的特征提取的算法，使得人臉幾何特征的提取越來越趨于合理，這里面最具代表性的方法就是結合3D人臉信息的特征點提取技術。基于代數特征的識別方法是目前在實際應用中使用得最多的一類方法，其主要原因是由于代數特征矢量（即人臉圖像在特征空間的投影結果）對角度，表情等因素都具有一定的穩定性。但對于光照而言，似乎效果并不太明顯。這種代數的特征識別方法，無法應用于人臉的表情識別。

從某種意義上來說，人臉識別的各種方法，實際上就是在尋找一種人臉的描述方式，但是要找到一種能夠不受各種因素影響的描述方式非常地困難，無論是最早使用的幾何描述方式以及后來比較常用的代數描述方式，都不可避免地存在各種干擾。我們只能是在以后的研究中，逐漸去完善人臉的描述方式，使之更加有效，更加準確。

第3篇: 人臉識別開題報告

青島大學

畢業論文(設計)開題報告

題目：孤立詞語音識別的并行編程實現

學院：自動化工程學院電子工程系

專業：通信工程

姓名：李洪超

指導教師：莊曉東

2010年 3月22日

一、文獻綜述

語音識別是解決機器“聽懂”人類語言的一項技術。作為智能計算機研究的主導方向和人機語音通信的關鍵技術，語音識別技術一直受到各國科學界的廣泛關注。如今，隨著語音識別技術研究的突破，其對計算機發展和社會生活的重要性日益凸現出來。以語音識別技術開發出的產品應用領域非常廣泛，如聲控電話交換、信息網絡查詢、家庭服務、賓館服務、醫療服務、銀行服務、工業控制、語音通信系統等，幾乎深入到社會的每個行業和每個方面。
　　廣泛意義上的語音識別按照任務的不同可以分為4個方向：說話人識別、關鍵詞檢出、語言辨識和語音識別[1]。說話人識別技術是以話音對說話人進行區別，從而進行身份鑒別和認證的技術。關鍵詞檢出技術應用于一些具有特定要求的場合，只關注那些包含特定詞的句子。語言辨識技術是通過分析處理一個語音片斷以判別其所屬語言種類的技術，本質上也是語音識別技術的一個方面。語音識別就是通常人們所說的以說話的內容作為識別對象的技術，它是4個方面中最重要和研究最廣泛的一個方向，也是本文討論的主要內容。

1.1 語音識別技術現狀

1.1.1 語音識別獲得應用

伴隨著語音識別技術的不斷發展，誕生了全球首套多語種交談式語音識別系統E-talk。這是全球惟一擁有中英混合語言的識別系統，能聽能講普通話、廣東話和英語，還可以高度適應不同的口音，因而可以廣泛適用于不同文化背景的使用者，尤其是中國地區語言差別較大的廣大用戶。由于E-talk可以大大提高工作效率，降低運營成本，并為用戶提供更便捷的增值服務，我們相信它必將成為電信、證券、金融、旅游等重視客戶服務的行業爭相引用的電子商務應用系統，并成為電子商務發展的新趨勢，為整個信息產業帶來無限商機。

目前，飛利浦推出的語音識別自然會話平臺SpeechPearl和SpeechMania已成功地應用于國內呼叫中心，SpeechPearl中的每個識別引擎可提供高達20萬字的超大容量詞庫，尤其在具有大詞匯量、識別準確性和靈活性等要求的各種電信增值服務中有著廣泛的應用。

1.1.2 語音合成信息服務被用戶接受

語音合成技術把可視的文本信息轉化為可聽的聲音信息，其應用的經濟效益和社會效益前景良好。尤其對漢語語音合成技術的應用而言，全球有十幾億人使用中文，其市場需求、應用前景和經濟效益等可見一斑。

語音技術已逐漸在電信聲訊信息服務領域智能電話查詢系統中展開應用，并迅速推廣。在電話高度普及的今天，如果打電話就能查詢到所需信息，無疑將給人們的日常生活帶來極大方便。漢語語音合成技術應用到聲訊服務領域內，對現有的電話查詢系統將產生革命性的影響。

語音技術與互聯網已成功地結合。電話Internet網關是一種用于實現電話網和Internet網之間信息互訪的系統。簡而言之，就是讓電話用戶能夠輕松地通過電話網訪問Internet網。利用語音合成技術的信息服務得到了用戶的廣泛接納，給用戶生活提供了極大的方便。

1.1.3 面向對象的語音編碼

長期以來，在通信網的發展中，解決信息傳輸效率是一個關鍵問題，極其重要。目前科研人員已通過兩個途徑研究這一課題，其一是研究新的調制方法與技術，來提高信道傳輸信息的比特率，指標是每赫茲帶寬所傳送的比特數；其二是壓縮信源編碼的比特率，例如標準PCB編碼，對3.4KHz頻帶信號需用64KHz編碼比特率傳送，而壓縮這一比特率，顯然可以提高信道傳送的話路數。這對任何頻率資源有限的傳輸環境來說，無疑是極為重要的，尤其是在無線通信技術決定今后通信發展命運的今天更顯得重要。實際上，壓縮語音編碼比特率與話音存儲、語音識別及語音合成等技術都直接相關。

語音編碼技術的進展對通信新業務的發展有極為明顯的影響，例如IP電話業務、實時長途翻譯業務、交換機的人工智能接口等。因此，國際電報電話咨詢委員會（CCITT）第15組提出了許多急需制訂的話音編碼標準建議，以推動通信網的發展。由于VLDSI的發展，實現這一技術的代價已從在昂貴的信道中采用，發展到一般信道中都可接受的水平，因此，編碼技術日益受到重視。當前，數字移動通信和個人通信（PCN）是深受人們重視的通信手段，其重要問題之一是壓縮語音編碼速率，形成面向對象的語音編碼技術。

數字語音編碼技術從1938年提出PCM開始，其編碼方法已有了很大的發展，如1968年提出的線性預測編碼技術（LPC）、20世紀70年代末出現的隱馬爾科夫技術（HMM）以及矢量量化（VQ）等。

1.1.4 口語機器翻譯受到重視

口語翻譯的一個重要目的就是幫助聾啞人與正常人交流，近來越來越受到人們的重視。首先，聾啞人要戴上一副特制的手套，計算機根據他打出的手語進行識別，然后，通過語音合成系統就可以把圖像信息翻譯成語言信息。同時，系統還能夠完成將正常人的語言翻譯成

聾啞人的手語，只要將正常人說的話鍵入計算機，經程序分析處理之后，翻譯成有表情、有動作的三維圖像，從而最終達到聾啞人與正常人之間通過翻譯機進行交流的目的。口語翻譯的研究在其他很多方面都有重要價值，如用手勢控制計算機，甚至用手勢導航等。

1.2 語音識別技術的發展

1.2.1 神經網絡用于訓練韻律模型

由于人工神經網絡具備良好的自學習和自適應能力，將其應用于語音合成系統中的韻律模型研究具有很重要的意義。將神經網絡模型與已有的文語轉換系統有機結合，可以改變傳統的文語轉換系統的韻律模型，具有更強的適應性和可訓練性，使合成語音的自然度得到顯著提高，增加了系統的靈活性和風格的多樣性。

1.2.2 數據挖掘用于發現語音知識

數據挖掘作為一種在大量數據庫中發現隱藏新知識的計算技術方法，通過語音定性模型的建立，將數據分析和挖掘結果轉化為邏輯規則或用可視化的形式進行表達。因此，將數據挖掘和人機交互接口緊密地聯系在一起，將對計算機語音信號處理的研究工作產生巨大的推動力，為語音信號處理提供了一條嶄新的研究途徑。

1.2.3 文本-可視語音轉換系統研制成功

文本-可視語音轉換技術的出現是多媒體技術迅速發展的產物也迎合了社會發展的需求。它給人們的生活增添了新的色彩，使計算機更加人性化，人們與計算機的交流變得更為簡單。相信在不久的將來，它會在眾多的技術、商業和娛樂領域得到廣泛的應用，并逐步進入我們每個人的生活。

1.3 語音識別技術的研究方向

1.3.1 連續自然語音的識別與理解

自然語音識別與理解研究的是計算機如何理解人類的語言其目的就是讓計算機能夠理解人說的話，當我們使用計算機時，要告訴它應該做什么，它就能按照所理解的去執行。雖然現在自然語音識別與理解的理論研究得到了進一步完善，同時，計算機的功能、容量和速度都有了很大的提高，但研究仍局限在對孤立音節的識別與理解上。人類流暢的自然發音不是孤立音節發音的簡單組合，它是在一定時間范圍內輸出的一種連續語流，因此，需要對連續語音進行處理。連續語音識別與理解技術中需要解決的難點很多，對它的研究是語音技術今后的目標之一。

1.3.2 高自然度、具有表現力的合成語音

提高合成語音的自然度仍然是高性能文語轉換的當務之急。就漢語語音合成來說，目前在單字和詞組級上，合成語音的可懂度和自然度已基本解決，但是對于句子乃至篇章級，其自然度問題就比較大。未來的文語轉換系統的發展趨勢是采用基于語境相關的合成思想進行設計，能夠將發音人的原始發音特征最大限度地保留下來，輔助以先進的層次化語言韻律模型，通過分散統計的模型方法來涵蓋語義語音之間的內在聯系，使系統能夠輸出具有高自然度和表現力的合成語音。但是，在目前的合成系統中，普遍存在合成輸出語音的機器味比較濃、語境的知識層次模型研究不完善等問題。因此獲得高自然度、具有表現力的合成語音，也是今后語音技術的研究目標之一。

1.3.3 語音技術與多媒體技術的結合

伴隨著現代語音技術的不斷發展，人類對語音信號的需要已經不僅僅停留在可懂性和正確性上，語音合成技術的研究方向已是合成語音的美感并同時輸出輔助的視頻特征，實現虛擬主持人的效果，通過將視覺效果包括人的頭部建模、唇形同步技術和表情因素等視頻信息的加入，可以更好地體現語音合成系統的表現力和感染力。因此，我們完全有理由相信，語音技術和多媒體技術的有機結合將使合成系統展現出廣闊的應用前景。

1.3.4 語音技術與網絡技術的結合

目前，語音技術已逐漸應用于電信的聲訊信息服務領域和互聯網消息收發方面。隨著電話網與互聯網的融合、網絡信息項目的增多和時效性要求逐步提高，建立適合于股票交易、航班動態查詢、電話自動報稅等業務的語音系統成為可能，電話用戶可以通過傳統的語音、傳真獲取互聯網上無窮無盡的信息。這些業務將徹底解決傳統數字錄音回放技術所無法解決的海量信息庫和動態變化信息的實時生成與存儲的難題。因此，將語音技術與網絡進行完美的結合具有強大的生命力。

1.3.5 多語種

語言是人們交流的工具，不同民族有自己不同的語言，不同語言之間的交流在今天開放的信息社會和網絡時代顯得十分重要，因此，多語種的文語合成有著獨特的應用價值。例如，在自動電話翻譯、有聲電子郵件等應用中都提出了多語種語音合成的需求，即使是對漢語合成也有多方言文語轉換問題。理想的多語種合成系統最好是各種語言共用一種合成算法或語音合成器，但現有的語音合成系統大多是針對某一種語言或若干種語言開發出來的，所采用的算法及規則都是與某種語言密切相關的，因此很難推廣到其他語種。如漢語和西方語言之間存在著很大的差異，而目前國內的系統都是做漢語英語轉換的，其韻律控制規則完全不適合于英語，而且它們主要是合成漢語普通話的，即使推廣到廣東話和上海話都有相當的難度。

可見要真正解決多語種的文語合成，從文本處理到語音合成都必須有新的思路，因此，研制多語種語音合成轉換系統具有重要的理論和現實意義。

二主要研究內容和方法

語音識別技術是利用計算機對語音進行特征提取，獲取最能表征語音特征的有用信息，根據這些信息來對語音所代表的內容或說話人身份判斷的技術。因此需要對語音波形的幅值、頻率等特點進行研究，我們把語音識別的研究內容大致可以分為語音提取,特征提取,語音識別,內容分析,內容匹配。

在特征提取之前，一個重要的問題是消除噪音、空白音及音長不同的影響。根據語音識別技術的發展歷史，語音識別方法大致可分為基于說話人的語音識別方法、基于說話內容的語音識別方法、基于統計的語音識別方法和基于網絡的語音識別方法。

三基本設計要求及設計思路3.1 語音識別系統原理

使用C語言編程，實現基于馬爾科夫模型的數據特征提取，在此基礎上編程實現特定語音實例的語音識別；將語音識別功能編寫成可供其他模塊調用的函數，為進一步實現語音識別系統提供基礎；并且從中培養、提高查閱文獻和綜合運用知識的編程開發能力。

語音識別本質上是一種模式識別的過程，未知語音的模式與已知語音的參考模式逐一進行比較，最佳匹配的參考模式被作為識別結果。圖1是基于模式匹配原理的自動語音識別系統原理框圖。

圖1 語音識別系統原理框圖

(1)預處理模塊：對輸入的原始語音信號進行處理，濾除掉其中的不重要的信息以及背景噪聲，并進行語音信號的端點檢測、語音分幀以及預加重等處理。
?　　(2)特征提取模塊：負責計算語音的聲學參數，并進行特征的計算，以便提取出反映信號特征的關鍵特征參數用于后續處理。現在較常用的特征參數有線性預測（LPC)參數、線譜對（LSP)參數、LPCC、MFCC、ASCC、感覺加權的線性預測（PLP)參數、動態差分參數和高階信號譜類特征等[1]。其中，Mel頻率倒譜系數（MFCC)參數因其良好的抗噪性和魯棒性而應用廣泛。
　　(3)訓練階段：用戶輸入若干次訓練語音，經過預處理和特征提取后得到特征矢量參數，建立或修改訓練語音的參考模式庫。
　　(4)識別階段：將輸入的語音提取特征矢量參數后與參考模式庫中的模式進行相似性度量比較，并結合一定的判別規則和專家知識（如構詞規則，語法規則等)得出最終的識別結果。

3.2 語音識別的幾種基本方法

　　當今語音識別技術的主流算法，主要有基于動態時間規整(DTW)算法、基于非參數模型的矢量量化(VQ)方法、基于參數模型的隱馬爾可夫模型(HMM)的方法、基于人工神經網絡(ANN)和支持向量機等語音。
按照該過程，首先實現用MATLAB編程的過程,然后將具體MATLAB的程序用C語言改寫，以便于在系統間進行移植等。

四預期的課題進度計劃

第1周---第2周：查閱、學習相關文獻資料，完成文獻綜述。

第3周---第6周：了解基于馬爾科夫模型語音數據特征提取及語音數據特征識別的基本原理；學習所需的C語言編程技術；進行初步的實驗編程。

第7周---第9周：在初步的原理實驗通過后，根據具體的應用要求，編寫、調試功能較為全面的語音識別程序；實現基本的特征提取、識別功能。

第10周---第12周：進一步優化程序，實現具有實用功能的應用程序，完成外文文獻譯稿。

第13周---第14周:系統及程序測試，進行系統的輸入，處理，輸出全面測試。進行實驗報告總結，撰寫論文，完成畢業設計初稿。

第15周：整理完成程序設計說明書，完善所有設計圖紙及程序，準備答辯。

五參考文獻

[1]胡光銳，語音處理與識別，上海科學技術文獻出版社，1994.

[2]趙立，語音信號處理，機械工業出版社，2003.

[3]程佩青，數字信號處理教程（第三版），清華大學出版，2007.

[4] 拉賓納 L，Rabiner Lawrence，阮平望, Juang Biing-Hwang, 語音識別基本原理, 清華大學出版社, 1999.