JPH04182000A - Continuous speech recognizing device - Google Patents
Continuous speech recognizing deviceInfo
- Publication number
- JPH04182000A JPH04182000A JP2311974A JP31197490A JPH04182000A JP H04182000 A JPH04182000 A JP H04182000A JP 2311974 A JP2311974 A JP 2311974A JP 31197490 A JP31197490 A JP 31197490A JP H04182000 A JPH04182000 A JP H04182000A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- context
- hmm
- predicted
- parser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001419 dependent effect Effects 0.000 claims abstract description 15
- 230000009471 action Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
【発明の詳細な説明】
[産業上の利用分野]
この発明は連続音声認識装置に関し、特に、LR子テー
ブル入力音声データの予測に用い、この予測をHMM音
素認識装置の音素照合機能で検証することによって、音
声認識と言語処理を統一的に行なうような連続音声認識
装置に関する。[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a continuous speech recognition device, and in particular, it is used to predict LR child table input speech data, and this prediction is verified by the phoneme matching function of the HMM phoneme recognition device. The present invention relates to a continuous speech recognition device that performs speech recognition and language processing in a unified manner.
[従来の技術]
従来より、音声認識と言語処理とを統一的かつ効率的に
行なう連続音声認識手法として、HMM−LR法がある
。この手法では、それまで別々に行われていた音声認識
と言語処理とが統一的に扱われることにより、文節ラテ
ィスなどの中間的なデータを介することなく、信頼性の
高い効率的な処理が行なわれる。[Prior Art] Conventionally, there is an HMM-LR method as a continuous speech recognition method that performs speech recognition and language processing in a unified and efficient manner. With this method, speech recognition and language processing, which had previously been performed separately, are handled in a unified manner, allowing highly reliable and efficient processing to be performed without the need for intermediate data such as bunsetsu lattices. It can be done.
HMM−LR法では、LR法(LRパーザ)と呼ばれる
言語処理法によって予測された音素の存在確率がHMM
(Hidden MarkovModel)法と呼ば
れる音声認識法により計算される。以下、HMM−LR
法の説明の前に、LR法とHMM法について説明する。In the HMM-LR method, the existence probability of a phoneme predicted by a language processing method called the LR method (LR parser) is
It is calculated using a speech recognition method called the (Hidden Markov Model) method. Below, HMM-LR
Before explaining the method, the LR method and HMM method will be explained.
計算幾何学、特にプログラミング言語の処理系の分野で
は、構文解析の技術に関し十分な研究かなされ、そのう
ちの1つの方式にLRパーザと呼ばれるものがある。L
Rパーザはいわゆる5HIFT−REDUCE型のパー
ザの一種であり、入力記号を左から右に読みながら解析
を進めるものである。LRパーザは内部に「状態コと呼
ばれるものを保持しており、現在の状態と入力記号とを
用いて、次にとるべき動作を決定する。LRパーザの動
作には、
(1) ACCEPT
(2) ERROR
(3) SHI FT
(4) REDUCE
の4つが許されている。ACCEPTはLRパーサへの
入力記号列が受理されたことを示す。ERRORはLR
パーサへの入力記号列が受理されなかったことを示す。In the field of computational geometry, particularly in the field of programming language processing systems, sufficient research has been conducted on syntactic analysis techniques, one of which is a method called the LR parser. L
The R parser is a type of so-called 5HIFT-REDUCE parser, and analyzes input symbols while reading them from left to right. The LR parser internally maintains something called a state, and uses the current state and input symbols to determine the next action to take.The operations of the LR parser include (1) ACCEPT (2 ) ERROR (3) SHI FT (4) REDUCE are allowed. ACCEPT indicates that the input string to the LR parser has been accepted. ERROR indicates that the input symbol string to the LR parser has been accepted.
Indicates that the input string to the parser was not accepted.
SHI FTは現在LRパーサが見ている入力記号およ
び現在の状態をスタックに積む。REDUCE型
クの最上段にある記号をより大きな単位に換言する。R
EDUCEの際には、使われた文法規則の右辺にある文
法規則の数だけスタックから状態記号および入力記号を
取除く。SHI FT pushes the input symbols currently seen by the LR parser and the current state onto the stack. Translate the symbol at the top of the REDUCE model into a larger unit. R
At EDUCE, state symbols and input symbols are removed from the stack by the number of grammar rules on the right side of the grammar rule used.
現在の状態と入力記号とから、LRパーサの動作を決定
するためにはLR子テーブル呼ばれる表を参照する。L
R子テーブルLRパーザでの解析に先立ち、予め用意し
ておく必要がある。LR子テーブル、文法規則から機械
的に構成することかできる。To determine the behavior of the LR parser based on the current state and input symbols, a table called the LR child table is referred to. L
The R child table must be prepared in advance before being analyzed by the LR parser. It can be constructed mechanically from the LR child table and grammar rules.
第4図は文法規則の一例を示す図であり、第5図は第4
図に示した文法規則をLR子テーブル変換した例を示す
図である。Figure 4 is a diagram showing an example of grammar rules, and Figure 5 is a diagram showing an example of grammar rules.
It is a figure which shows the example which converted the LR child table of the grammar rule shown in the figure.
LR子テーブル第5図に示すように、ACTIONテー
ブルとGOToテーブルと呼ばれる2つの表からなって
いる。ACTIONテーブルは縦軸方向にLRパーサの
状態を記述し、横軸方向に入力記号を配置したテーブル
であり、テーブルの一区画にはLRパーサの取るべき動
作が記述されている。第5図において、aceと記述さ
れた動作はACCEPTのことであり、テーブル中の空
間はERRORを示す。Sで始まる記号は5HIFTを
表しており、Sの後に記述された数字は5HIFT動作
を行なった後に、LR子テーブル取るべき状態である。As shown in FIG. 5, the LR child table consists of two tables called the ACTION table and the GOTo table. The ACTION table is a table in which the state of the LR parser is described in the vertical axis direction and input symbols are arranged in the horizontal axis direction, and one section of the table describes the action that the LR parser should take. In FIG. 5, the operation described as ace means ACCEPT, and the space in the table represents ERROR. The symbol starting with S represents 5HIFT, and the number written after S is the state that the LR child table should be in after performing the 5HIFT operation.
rで始まる記号はREDUCEを表しており、rの後に
記された数字nはn番目の文法規則を用いた還元動作を
行なうことを示している。The symbol starting with r represents REDUCE, and the number n written after r indicates that a reduction operation using the nth grammar rule is performed.
LRパーザはREDUCE動作を行なった後に、GOT
Oテーブルを参照する。GOTOテーブルは、縦軸方向
にLRパーザの状態を記述し、横軸方向に非終端記号を
記述したテーブルである。LRパーザはREDUCE動
作の結果作られた非終端記号と現在の状態とから、GO
TOテーブルにより新しい状態を決定する。解析が開始
した時点でのLRパーザの状態は0であり、LRパーザ
がACCEPT動作を行ない入力記号列を受理するか、
ERROR動作を行ない入力記号列を受理しないかで解
析は終了する。After the LR parser performs the REDUCE operation, the GOT
Refer to O table. The GOTO table is a table that describes the state of the LR parser along the vertical axis and describes non-terminal symbols along the horizontal axis. The LR parser uses the nonterminal symbol created as a result of the REDUCE operation and the current state to
The new state is determined by the TO table. The state of the LR parser at the time parsing starts is 0, and the LR parser performs an ACCEPT operation and accepts the input symbol string, or
The analysis ends when the ERROR operation is performed and the input symbol string is not accepted.
一方、音声認識の分野では、発話を確率的な状態遷移と
見なして認識処理する手法があり、HMM方式と呼ばれ
ている。On the other hand, in the field of speech recognition, there is a method of recognizing utterances by regarding them as probabilistic state transitions, which is called the HMM method.
第6図はHMM方式で用いる典型的な音素モデルの図で
ある。以下に、第6図を参照して、HMMによる音素認
識の方法について説明する。HMMの各弦には状態間の
遷移の確率と、記号の出力確率の値が与えられており、
これらの値に基づいて確率的に記号列を出力する。HM
M方式を用いて音素認識を行なうためには、予め音素の
種類だけHMMを用意し、それぞれ学習用音素データの
記号列を最も高い確率で出力するように、音素HMMの
確率を学習しておき、次に未知音声データ記号列に対し
て、全てのHMMからその記号列が出力される確率を計
算して、最も高い確率が得られるHMMに対応する音素
を認識結果とする。FIG. 6 is a diagram of a typical phoneme model used in the HMM method. The method of phoneme recognition using HMM will be described below with reference to FIG. Each string of the HMM is given the probability of transition between states and the output probability of the symbol.
A symbol string is output stochastically based on these values. H.M.
In order to perform phoneme recognition using the M method, HMMs for each type of phoneme are prepared in advance, and the probabilities of the phoneme HMMs are learned so that each symbol string of learning phoneme data is output with the highest probability. , Next, for the unknown speech data symbol string, the probability that the symbol string is output from all HMMs is calculated, and the phoneme corresponding to the HMM with the highest probability is taken as the recognition result.
この未知音声データに対する確率を計算する操作を音素
照合と称する。この操作は、たとえば第6図のHMMに
対しては、次のような手順て実現される。The operation of calculating the probability for this unknown speech data is called phoneme matching. This operation is realized, for example, for the HMM shown in FIG. 6 by the following procedure.
(定義の記号)
N:未知音声データに対する記号列の長さ01 未知音
声データ記号列の1番目の記号M:照合される音素HM
Mの状態の数
a (i、D :照合される音素HMMにおいて状態
iと状態jを結ぶ弧の遷移確率
b (i、 j、 k) :照合される音素HM
Mにおいて状態】と状態jを結ぶ弧が記号kを出力する
確率
(初期化)
P (0,0) =1. 0
P (0,j)=1.Oe−−(j=1−−・M)P
(i、0)=1.Oe−” (i=1・−N)(漸化
計算(1=1・・・N、j=1・・・M))P (i、
j) =P (i−1,j) xa (j、 j
)xb(j、j、Oi)+P (i−1,j−1)Xa
(j−1,j) xb (j−1,j、Oi)Q (
i)=P (i、M) (j=1・・・N)音素
照合の結果は、確率テーブルQ(1)・・・Q(N)の
中に求められる。(Definition symbols) N: Length of symbol string for unknown speech data 01 First symbol of unknown speech data symbol string M: Phoneme HM to be matched
Number of states of M a (i, D: Transition probability of the arc connecting state i and state j in the phoneme HMM to be matched b (i, j, k): Phoneme HM to be matched
Probability that the arc connecting state ] and state j in M outputs the symbol k (initialization) P (0,0) = 1. 0 P (0,j)=1. Oe--(j=1--・M)P
(i, 0)=1. Oe-” (i=1・-N) (recurrence calculation (1=1...N, j=1...M))P (i,
j) = P (i-1, j) xa (j, j
)xb(j,j,Oi)+P(i-1,j-1)Xa
(j-1, j) xb (j-1, j, Oi) Q (
i)=P (i, M) (j=1...N) The results of phoneme matching are found in probability tables Q(1)...Q(N).
以上のようなLR法とHMM法を統一的に扱って解析す
るのがHMM−LR法である。HMM−LR法は、LR
子テーブルら、発話された音声データ中の音素を予測し
、予測された音素に対し、HMM音素照合を駆動するこ
とにより、予測された音素の存在確率を計算する。これ
により、音声認識と言語処理を同時進行させる。このた
め、音声認識と言語処理との橋渡し的な中間的データを
介することなく、信頼性の高い効率的な処理を行なうこ
とができる。以下、HMM−LR法のことを単にパーザ
と呼ぶ。The HMM-LR method handles and analyzes the LR method and HMM method as described above in a unified manner. The HMM-LR method uses LR
The child table predicts phonemes in uttered audio data, and calculates the existence probability of the predicted phonemes by driving HMM phoneme matching for the predicted phonemes. This allows speech recognition and language processing to proceed simultaneously. Therefore, highly reliable and efficient processing can be performed without intervening intermediate data that bridges speech recognition and language processing. Hereinafter, the HMM-LR method will be simply referred to as a parser.
パーザはいくつかの可能性のある構文解析木を同時に成
長させる。構文解析木とは文を一次元の単語列として表
現し、これらの関係を木のように表したものである。構
文解析木は、その構文解析木が受容される確率値か付与
されており、この確率値が予め決められている閾値以下
になると、その構文解析木は成長させる価値かないと見
なし、却下される。パーサは現在成長させている構文解
析木に関する情報を記憶しておくための場所をいくつか
持っている。この場所を以下ではセルと称する。1つの
セルには、1つの構文解析木が対応している。現在まで
に受理されている構文解析木に対応するセルをアクティ
ブなセルと称する。セルに記憶される情報には以下のも
のがある。The parser grows several possible parse trees simultaneously. A parse tree represents a sentence as a one-dimensional word string, and represents the relationships between these words like a tree. A parse tree is assigned a probability value that the parse tree will be accepted, and if this probability value falls below a predetermined threshold, the parse tree is considered not worth growing and is rejected. . The parser has several locations to remember information about the parse tree it is currently growing. This location will be referred to as a cell below. One parse tree corresponds to one cell. A cell corresponding to a parse tree that has been accepted up to now is called an active cell. The information stored in the cell includes the following:
(1) LRパーザの状態スタック
(2) 前回の音素照合で計算された確率テーブルQ(
1)・・・Q (N)の値
ただし、Nは入力音声データに対する記号列の長さであ
る。(1) LR parser state stack (2) Probability table Q calculated in the previous phoneme matching (
1) Value of Q (N) where N is the length of the symbol string for the input audio data.
解析が開始した時点でセルCはただ1つだけ存在し、そ
のただ1つのセルCのLRパーザの状態スタックの最上
段には、状態0がブツシュされる。There is only one cell C when parsing starts, and state 0 is bushed at the top of the state stack of the LR parser for that only cell C.
また、このセルCの確率テーブルQには、以下の値が初
期値として入れられる。In addition, the following values are entered into the probability table Q of this cell C as initial values.
Q (0) =1. 0
Q (i)=1.Oe−−(i=1・N)次に、パーザ
はアクティブなセルを1つ選び出し、そのセルのLR状
態スタックの最上段の状態Sを読み、LR子テーブル状
態Sに対応する動作表を調べる。選ばれた動作が5HI
FTであれば、5HIFTされるべき入力記号AがHM
M音素照合され、セル中の確率テーブルの値が以下のよ
うにして更新される。Q (0) = 1. 0 Q (i)=1. Oe--(i=1・N) Next, the parser selects one active cell, reads the state S at the top of the LR state stack of that cell, and examines the operation table corresponding to the LR child table state S. . The selected action is 5HI
If it is FT, the input symbol A to be 5HIFT is HM
M phonemes are matched, and the value of the probability table in the cell is updated as follows.
(漸次計算)
P (0,D =1. Oe−’″ (j=1−M−
)P (i、0)=Q (i) (i=1・・
・N)P (i、 D =P (i−1,j) xa
(j、 j)Xb (j、 j、 Oj) +
P (j−1,j −1) xa (j 1.D X
b (j−1,j、01)(i=1・・・N、j=1・
・・M−)Q (i) =P (i、 M−)
(j=1・・・N)ただし、M′は記号AのHMMで
の状態数上述の計算で更新された確率テーブルQ(1)
0.。(Gradual calculation) P (0, D = 1. Oe-''' (j=1-M-
)P (i, 0)=Q (i) (i=1...
・N) P (i, D = P (i-1, j) xa
(j, j)Xb (j, j, Oj) +
P (j-1, j-1) xa (j 1.D
b (j-1, j, 01) (i=1...N, j=1・
・・M−)Q (i) =P (i, M−)
(j=1...N) However, M' is the number of states in the HMM of symbol A, and the probability table Q(1) updated by the above calculation.
0. .
Q (N)の中で最も高い確率値を持つQ (i)が、
閾値よりも小さければこのセルは捨てられ、閾値よりも
小さくなれば、LR状態スタックに新しい状態が積まれ
る。Q (i) with the highest probability value among Q (N) is
If it is less than the threshold, this cell is discarded, and if it is less than the threshold, a new state is placed on the LR state stack.
一方、選ばれた動作がREDUCEであれば、文法規則
による還元動作が実行される。これは、通常のLRパー
ザと全く同じ動作である。また、選ばれた動作がACC
EPTであり、入力音声データか全て処理されていれば
解析は終了する。On the other hand, if the selected action is REDUCE, the reduction action according to the grammar rules is executed. This is exactly the same operation as a normal LR parser. Also, the selected action is ACC
If it is EPT and all input audio data has been processed, the analysis ends.
さて、音声認識で用いる音素モデルを、音素周辺の環境
情報によって統一的に記述する手法として、音素環境ク
ラスタリング(PhonemeEnvironment
Clustering:PEC)がある。これは、
音素パターン空間と音素環境空間との写像における総歪
み量の最小化を図ることで環境依存音素のクラスタを抽
出する手法である。音素環境要因としては、音素文脈、
ピッチ、パワー、話者9発話速度、言語などが挙げられ
る。このうち、音素環境として特に重要な情報を担って
いると考えられるのが音素文脈の情報である。特に、H
MM LR法のように音素文脈が既知の場合には、P
ECにより得られた音素分離度の高い音素モデルを用い
て精度の高い認識が期待できる。Now, as a method to uniformly describe the phoneme model used in speech recognition using environmental information around the phoneme, phoneme environment clustering (phoneme environment clustering) is proposed.
Clustering (PEC). this is,
This is a method for extracting environment-dependent phoneme clusters by minimizing the total amount of distortion in the mapping between the phoneme pattern space and the phoneme environment space. Phonemic environmental factors include phonemic context,
Examples include pitch, power, speech rate, and language. Among these, phoneme context information is considered to carry particularly important information regarding the phoneme environment. In particular, H
When the phoneme context is known as in the MM LR method, P
Highly accurate recognition can be expected using the phoneme model with a high degree of phoneme separation obtained by EC.
[発明が解決しようとする課題]
ところで、音素環境として音素文脈要因を取上げた場合
、音素環境クラスタリングによって決定された音素モデ
ルは、音素文脈に依存したモデルとなる。この音素モデ
ルを駆動して連続音声認識を行うためには、パーサが音
素文脈に依存する動作をしなければならない。しかし、
従来のHMM−LR法におけるLRパーサでは、音素文
脈に応じた動作をすることができず、上述の音素文脈依
存型音素モデルを駆動できなかった。[Problems to be Solved by the Invention] By the way, when phoneme context factors are taken up as the phoneme environment, the phoneme model determined by phoneme environment clustering becomes a model that depends on the phoneme context. In order to drive this phoneme model to perform continuous speech recognition, the parser must operate depending on the phoneme context. but,
The LR parser in the conventional HMM-LR method cannot operate according to the phoneme context, and cannot drive the above-mentioned phoneme context-dependent phoneme model.
それゆえに、この発明の主たる目的は、音素文脈依存型
音素モデルを駆動するための連続音声認識装置を提供す
ることである。Therefore, the main objective of the present invention is to provide a continuous speech recognizer for driving a phoneme context-dependent phoneme model.
[課題を解決するための手段]
この発明は連続音声認識装置であって、入力された音声
の各音声に対する確率を計算するHMM音素照合部と、
LR子テーブルアクション指定項目を音素予測に用いる
予測LRパーサ部と、予測された音素周辺の音素文脈を
LR子テーブルアクション指定項目を用いて予測する音
素文脈予測部とを備え、予測LRパーサ部によって予測
された音素の音素文脈を音素文脈予測部で予測し、当該
音素文脈の環境と適合する音素文脈依存型音素モデルを
駆動して、上述の音素文脈予測部によって予測された音
素の存在確率をHMM音素照合部を駆動することにより
求めるように構成される。[Means for Solving the Problems] The present invention is a continuous speech recognition device, which includes an HMM phoneme matching unit that calculates a probability for each voice of input speech;
The prediction LR parser section includes a predictive LR parser section that uses LR child table action specification items for phoneme prediction, and a phoneme context prediction section that predicts the phoneme context around the predicted phoneme using the LR child table action specification items. The phoneme context prediction unit predicts the phoneme context of the predicted phoneme, drives a phoneme context-dependent phoneme model that matches the environment of the phoneme context, and calculates the existence probability of the phoneme predicted by the phoneme context prediction unit. The information is determined by driving the HMM phoneme matching section.
[作用]
この発明に係る連続音声認識装置は、LR子テーブル用
いて入力音声データ中の音素の予測を行ない、予測され
た音素について当該音素周辺の音素文脈の予測をLR子
テーブル用いて音素文脈予測部で行ない、これらの予測
をHMM音素認識部の音素照合機能で検証することによ
り、LRパーザ音素文脈に応じた音素文脈依存型HMM
音素モデルを駆動するようにしたものである。[Operation] The continuous speech recognition device according to the present invention predicts a phoneme in input speech data using an LR child table, and predicts a phoneme context around the phoneme for the predicted phoneme using a phoneme context using an LR child table. By making these predictions in the prediction unit and verifying these predictions with the phoneme matching function of the HMM phoneme recognition unit, we can create a phoneme context-dependent HMM according to the LR parser phoneme context.
It is designed to drive a phoneme model.
[発明の実施例コ
第1図はこの発明の一実施例の構成を示す概略ブロック
図である。まず、第1図を参照して、この発明の一実施
例の構成について説明する。入力端子100を介し音声
信号がHMM音素照合部101に与えられる。HMM音
素照合部101は音素文脈依存型HMM音素モデル10
2を用いて、音素を照合する。音素依存型LRパーザ部
109は、音素文脈予測部107と予測LRパーザ部1
08とを含む。予測LRパーサ部108は、LRテーブ
ル106から次の音素を予測するものであり、予測され
た音素は音素文脈予測部107に与えられる。音素文脈
予測部107は、当該予測音素を中心音素として、LR
子テーブルセルに記述された音素文脈の履歴情報を参照
して、当該予測音素における音素文脈を予測する。[Embodiment of the Invention] FIG. 1 is a schematic block diagram showing the configuration of an embodiment of the invention. First, the configuration of an embodiment of the present invention will be described with reference to FIG. An audio signal is applied to an HMM phoneme matching section 101 via an input terminal 100 . The HMM phoneme matching unit 101 uses a phoneme context-dependent HMM phoneme model 10.
2 to match the phonemes. The phoneme-dependent LR parser section 109 includes a phoneme context prediction section 107 and a predictive LR parser section 1.
08. The predictive LR parser unit 108 predicts the next phoneme from the LR table 106, and the predicted phoneme is provided to the phoneme context prediction unit 107. The phoneme context prediction unit 107 sets the predicted phoneme as the central phoneme and calculates the LR
The phoneme context of the predicted phoneme is predicted by referring to the history information of the phoneme context written in the child table cell.
さらに、上述の予測された音素文脈に適合する音素環境
クラスタを決定した後、予測された音素か音声信号中に
実際に存在するか否かを調べるために、制御信号がHM
M音素照合部101に与えられてこのHMM音素照合部
101が起動される。Furthermore, after determining the phoneme environment cluster that matches the predicted phoneme context described above, the control signal is
The HMM phoneme matching unit 101 is activated by the HMM phoneme matching unit 101 .
HMM音素照合部101は、当該音素環境クラスタに相
当する音素文脈依存型HMM音素モデルを駆動し、当該
予測音素に対する音素照合を行なう。The HMM phoneme matching unit 101 drives a phoneme context-dependent HMM phoneme model corresponding to the phoneme environment cluster, and performs phoneme matching for the predicted phoneme.
HMM音素照合部101による予測音素に対する照合結
果104は予測LRパーザ部108に返される。予測L
Rパーザ部108はACCEPT動作をLR子テーブル
06中に見付けるまで同様の操作を繰返す。そして、予
測LRパーザ部108から認識結果109が出力される
。The matching result 104 for the predicted phoneme by the HMM phoneme matching unit 101 is returned to the predictive LR parser unit 108. Prediction L
The R parser unit 108 repeats similar operations until it finds the ACCEPT operation in the LR child table 06. Then, a recognition result 109 is output from the predictive LR parser section 108.
第2図はこの発明の一実施例の具体的な動作を説明する
ためのフロー図であり、第3図は音素文脈の予測の動作
を説明するための図である。FIG. 2 is a flowchart for explaining the specific operation of an embodiment of the present invention, and FIG. 3 is a diagram for explaining the operation of phoneme context prediction.
次に、第2図および第3図を参照して、この発明の一実
施例の具体的な動作について説明する。Next, with reference to FIGS. 2 and 3, the specific operation of one embodiment of the present invention will be described.
まず、セルに記憶される情報には、第3図に示すように
以下のものかある。First, the information stored in the cell includes the following as shown in FIG.
(1)’ LRパーザの状態スタック(2) 音素環
境クラスタのスタック
(3) 前回の音素照合で計算された確率テーブルQ(
1)・・・Q (N)の値。たたし、Nは入力音声デー
タに対する記号列の長さである。(1)' LR parser state stack (2) Phoneme environment cluster stack (3) Probability table Q calculated in the previous phoneme matching (
1)...Value of Q (N). Here, N is the length of the symbol string for the input audio data.
第2図に示すように、解析が開始した時点のステップ(
図示ではSPと略称する)SPIにおいて、セルCはた
だ1つ存在し、そのただ1つのセルCのLRパーザの状
態スタックの最上段には、状態Oがブツシュされる。ま
た、このセルCの確率テーブルQには以下の値が初期値
として入れられる。 Q (0) =1. 0
Q (i)=1.Oe−” (i=1−N)ステップ
SP2において、予測LRパーザ108はアクティブな
セルがあるか否かを判別し、なければ解析を終了し、あ
ればステップSP3においてアクティブなセルを1つ選
び出し、そのセルのLR状態スタックの最上段の状態S
を読み、LR子テーブル06の状態Sに対応する動作欄
を調べる。そして、予測LRパーザ部108は動作欄に
ある動作の数だけセルのコピーを作る。作られたセルの
コピーは、1つの動作を実行するのに用いられ、以下の
操作は、このコピーされたセルに対して行なわれる。As shown in Figure 2, the steps (
In the SPI (abbreviated as SP in the figure), there is only one cell C, and the state O is bushed at the top of the state stack of the LR parser of the only cell C. In addition, the following values are entered into the probability table Q of this cell C as initial values. Q (0) = 1. 0 Q (i)=1. Oe-” (i=1-N) In step SP2, the predictive LR parser 108 determines whether there is an active cell, and if not, ends the analysis, and if so, selects one active cell in step SP3. , the top state S of the LR state stack of that cell
, and check the action column corresponding to state S in LR child table 06. Then, the predictive LR parser unit 108 makes copies of the cell as many times as there are actions in the action column. The copy of the cell that is created is used to perform an operation, and the following operations are performed on this copied cell.
ステップSP4において、コピーにより作られたセルが
あるか否かが判別され、なければステップSP2に戻り
、あればステップSP5に進む。In step SP4, it is determined whether or not there is a cell created by copying. If not, the process returns to step SP2, and if so, the process proceeds to step SP5.
ステップSP5において、各セルに対応する動作が調べ
られ、選ばれた動作が5HIFTであれば、ステップS
P6に進む。以上のステップSPIからステップSP5
までは、通常のHMM−LR法と全く同じ処理である。In step SP5, the operation corresponding to each cell is checked, and if the selected operation is 5HIFT, step S
Proceed to P6. Above steps SPI to step SP5
Up to this point, the processing is exactly the same as the normal HMM-LR method.
ステップSP6において、当該セル中の環境クラスタス
タック最上段を参照し、5HIFTされるべき入力記号
Aが上述の参照された環境クラスタについて音素文脈的
に後続が許されるか否かが判定される。後続が許されな
い場合は、ステ・ツブSP7においてセルは捨てられ、
後続が許されるならばステップSP8へ進む。ステップ
SP8において、予測音素文脈の仮説を以下のようにし
て立てる。ここでは、予測音素文脈は先行音素、中心音
素、後続音素の通常3要因からなるものとして説明する
。In step SP6, it is determined whether or not the input symbol A to be subjected to 5HIFT is allowed to be followed in terms of phoneme context in the referenced environmental cluster by referring to the top level of the environmental cluster stack in the cell. If a successor is not allowed, the cell is discarded in Ste-Tsubu SP7,
If the successor is permitted, the process advances to step SP8. In step SP8, a hypothesis of the predicted phoneme context is established as follows. Here, the predicted phoneme context will be explained as being usually made up of three factors: a preceding phoneme, a central phoneme, and a subsequent phoneme.
まず、現在の状態Sから5HIFTすべき次の状態S′
における動作を参照し、5HIFT動作である項目の入
力記号Bを当該入力記号への予測後続音素とする。ここ
でSHI FTすべき次の状態S′において5HIFT
以外の動作のある場合はスキップする。次に、当該セル
中の入力記号のスタックの最上段にある入力記号Cを先
行音素とし、当該先行音素Cと、上述の予測後続音素B
と、上述の入力記号Aとの音素3つ組による予測音素文
脈を生成する。当該音素文脈により、音素環境クラスタ
を決定する。First, the next state S′ to be 5HIFT from the current state S
With reference to the operation in , the input symbol B of the item that is the 5HIFT operation is set as the predicted subsequent phoneme to the input symbol. 5HIFT in the next state S' to be SHIFT here
Skip if there is any other action. Next, the input symbol C at the top of the stack of input symbols in the cell is set as the preceding phoneme, and the preceding phoneme C and the predicted succeeding phoneme B described above are
A predicted phoneme context is generated using a phoneme triplet of the input symbol A and the above-mentioned input symbol A. A phoneme environment cluster is determined based on the phoneme context.
ステップSP9において、上述の決定された音素環境ク
ラスタに相当する音素文脈依存型8MM音素モデルを用
いて、5HIFTされるべき入力記号がHMM音素照合
部101で音素照合される。In step SP9, the input symbol to be subjected to 5HIFT is phoneme-matched by the HMM phoneme matching unit 101 using the phoneme context-dependent 8MM phoneme model corresponding to the determined phoneme environment cluster described above.
このとき、セル中の確率テーブルの値の更新計算は、前
述した通常のHMM−LR法の更新計算と全く同じであ
る。当該計算で更新された確率テーブルQ(1)・・・
Q (N)の中で最も高い確率値を持つQ (i)か閾
値よりも小さいか否かがステップ5PIOにおいて判別
される。At this time, the update calculation of the value of the probability table in the cell is exactly the same as the update calculation of the normal HMM-LR method described above. Probability table Q(1) updated by this calculation...
In step 5 PIO, it is determined whether Q (i) having the highest probability value among Q (N) is smaller than a threshold value.
もし、最も高い確率値を持つQ(i)か閾値よりも小さ
ければ、ステップSPI 1においてこのセルが捨てら
れ、アクティブでなくなる。しかし閾値よりも小さくな
れば、ステップ5P12においてLR状態スタックに新
しい状態が積まれ、環境クラスタのスタックに上述の決
定された音素環境クラスタが積まれる。この場合セルは
アクティブのままである。次に、ステップ5P13へ進
み、LR子テーブル06で参照している次の状態S−に
おけるSHI FT動作が存在するか否かを判定し、存
在すればステップSP6へ戻り、存在しなければステッ
プSP2に戻る。If Q(i) with the highest probability value is less than a threshold, this cell is discarded in step SPI 1 and becomes inactive. However, if it is smaller than the threshold, a new state is stacked on the LR state stack in step 5P12, and the determined phoneme environment cluster described above is stacked on the stack of environment clusters. In this case the cell remains active. Next, the process proceeds to step 5P13, and it is determined whether or not there is a SHI FT operation in the next state S- referred to in the LR child table 06. If it exists, the process returns to step SP6, and if it does not exist, the process returns to step SP2. Return to
一方、前述のステップSP5において、選ばれた動作が
REDUCEであれば、ステップ5PI4に進み、文法
規則による還元動作が実行される。On the other hand, in step SP5 described above, if the selected action is REDUCE, the process proceeds to step 5PI4, where a reduction action according to the grammar rules is executed.
これは、通常のLRパーサと全く同じ動作である。This is exactly the same operation as a normal LR parser.
このとき、セルはアクティブなままである。また、ステ
ップSP5において、選ばれた動作がACCEPTであ
ることが判別されてしかもステップ5P15において入
力音声データが全て処理されているか否かが判別され、
全て処理されていれば、解析は成功したものとして終了
する。そうでなければ、このセルはステップ5P16に
おいて捨てられ、ステップSP2に戻る。At this time, the cell remains active. Further, in step SP5, it is determined that the selected action is ACCEPT, and in step 5P15, it is determined whether all the input audio data has been processed,
If everything has been processed, the analysis is deemed successful and ends. Otherwise, this cell is discarded in step 5P16 and the process returns to step SP2.
[発明の効果]
以上のように、この発明によれば、HMM−LR法によ
る連続音声認識において、音素文脈に応じた動作を行な
うLRパーサを実現でき、当該音素文脈依存型LRパー
サを用いて音素文脈依存型の音素モデルを駆動すること
ができる。[Effects of the Invention] As described above, according to the present invention, it is possible to realize an LR parser that operates according to phoneme context in continuous speech recognition using the HMM-LR method, and to use the phoneme context-dependent LR parser. It is possible to drive phoneme context-dependent phoneme models.
第1図はこの発明の一実施例の概略ブロック図である。
第2図はこの発明の一実施例の動作を説明するためのフ
ロー図である。第3図は音素文脈の予測の動作を説明す
るための図である。第4図は文法規則の例を示した図で
ある。第5図は文法規則をLR子テーブル変換した例を
示す図である。
第6図はHMMの一例を示した図である。
図において100は入力端子、101はf(MM音素照
合部、102は音素文脈依存型)(MM音素モデル、1
06はLR子テーブル107は音素文脈予測部、108
は予測LRパーサ部、109は音素文脈依存型LRパー
サ部を示す。
特許出願人 株式会社エイ・ティ・アール自動翻訳電話
研究所
第3図
LRテーブル動作表
第4図
一−−−−−−−−−−−−−−−−−−−―−−−−
−(1) 5TART −NP VP(2)
5TART −VP
(3) NP −N
(4) NP −N P
(5) VP→o k u r e(6)
VP−k u r e(7)N −4k
ane
(8) P −0
一一一−苧−−−−−−−−−−−伊−−−―−−−−
−−第6図
bulk b12k b23に第5図
ACT I ONテーブル
状態 *itrgoenuS
Os2 ss
l r3 s72
slOs9
3「2
4 sl I s
56
ac
c7「8
8 r4
10
sl 5II
5912 rl
+3
51614
sl7Is
s18+6
51917 r6
18 r7
20 rs
GOTOテーブルFIG. 1 is a schematic block diagram of an embodiment of the present invention. FIG. 2 is a flow diagram for explaining the operation of one embodiment of the present invention. FIG. 3 is a diagram for explaining the operation of predicting phoneme context. FIG. 4 is a diagram showing an example of grammar rules. FIG. 5 is a diagram showing an example of converting a grammar rule into an LR child table. FIG. 6 is a diagram showing an example of the HMM. In the figure, 100 is an input terminal, 101 is f (MM phoneme matching unit, 102 is phoneme context dependent type) (MM phoneme model, 1
06 is the LR child table 107 is the phoneme context prediction unit, 108
109 indicates a predictive LR parser section, and 109 indicates a phoneme context-dependent LR parser section. Patent Applicant A.T.R. Automatic Translation Telephone Laboratory Co., Ltd. Figure 3 LR Table Operation Table Figure 4 1
-(1) 5TART -NP VP(2)
5TART -VP (3) NP -N (4) NP -NP (5) VP→okur e(6)
VP-ku r e(7)N -4k
ane (8) P -0 111-苧--------Ita---------
--Figure 6 bulk b12k b23 Figure 5 ACT I ON table status *itrgoenuS Os2 ss l r3 s72
slOs9 3 "2 4 sl I s
56
ac
c7 "8 8 r4 10
sl 5II
5912 rl +3
51614
sl7Is
s18+6
51917 r6 18 r7 20 rs GOTO table
Claims (1)
(HiddenMarkovModel)音素照合部と
、 LR(LefttoRight)テーブル のアクション指定項目を音素予測に用いる予測LRパー
ザ部と、 前記予測LRパーザ部によって予測された音素周辺の音
素文脈をLR(LefttoRight)テーブルのア
クション指定項目を用いて予測する音素文脈予測部とを
備え、 前記音素文脈予測部によって予測された音素文脈に適合
する音素文脈依存HMM音素モデルを用いて音素を照合
するHMM音素照合部を駆動することにより、前記予測
LRパーザ部によって予測された音素の存在確率を求め
ることを特徴とする、連続音声認識装置。[Claims] HMM that calculates the probability for each phoneme of input speech
(HiddenMarkovModel) A phoneme matching unit, a predictive LR parser unit that uses action specification items in the LR (Left to Right) table for phoneme prediction, and a phoneme context around the phoneme predicted by the predictive LR parser unit to perform actions in the LR (Left to Right) table. a phoneme context prediction unit that makes predictions using specified items; and driving an HMM phoneme matching unit that matches phonemes using a phoneme context dependent HMM phoneme model that matches the phoneme context predicted by the phoneme context prediction unit. A continuous speech recognition apparatus, characterized in that the existence probability of the phoneme predicted by the predictive LR parser section is determined by:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2311974A JPH04182000A (en) | 1990-11-16 | 1990-11-16 | Continuous speech recognizing device |
US08/086,569 US6058365A (en) | 1990-11-16 | 1993-07-06 | Speech processing using an expanded left to right parser |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2311974A JPH04182000A (en) | 1990-11-16 | 1990-11-16 | Continuous speech recognizing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04182000A true JPH04182000A (en) | 1992-06-29 |
JPH0581920B2 JPH0581920B2 (en) | 1993-11-16 |
Family
ID=18023680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2311974A Granted JPH04182000A (en) | 1990-11-16 | 1990-11-16 | Continuous speech recognizing device |
Country Status (2)
Country | Link |
---|---|
US (1) | US6058365A (en) |
JP (1) | JPH04182000A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440194A (en) * | 2022-09-01 | 2022-12-06 | 成都知道创宇信息技术有限公司 | Violation audio detection method and device, electronic equipment and computer-readable storage medium |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3969908B2 (en) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | Voice input terminal, voice recognition device, voice communication system, and voice communication method |
US6704728B1 (en) * | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US6714905B1 (en) * | 2000-05-02 | 2004-03-30 | Iphrase.Com, Inc. | Parsing ambiguous grammar |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US7308400B2 (en) * | 2000-12-14 | 2007-12-11 | International Business Machines Corporation | Adaptation of statistical parsers based on mathematical transform |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
US7024360B2 (en) * | 2003-03-17 | 2006-04-04 | Rensselaer Polytechnic Institute | System for reconstruction of symbols in a sequence |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US20080213047A1 (en) * | 2006-08-21 | 2008-09-04 | Bryant Corwin J | Systems and methods for liner tensioning in pipeline rehabilitation |
KR101217524B1 (en) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | Utterance verification method and device for isolated word nbest recognition result |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
GB2580655A (en) * | 2019-01-21 | 2020-07-29 | Sonova Ag | Reducing a noise level of an audio signal of a hearing system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5105353A (en) * | 1987-10-30 | 1992-04-14 | International Business Machines Corporation | Compressed LR parsing table and method of compressing LR parsing tables |
US4931928A (en) * | 1988-11-09 | 1990-06-05 | Greenfeld Norton R | Apparatus for analyzing source code |
JP2841404B2 (en) * | 1989-01-12 | 1998-12-24 | 日本電気株式会社 | Continuous speech recognition device |
US4984178A (en) * | 1989-02-21 | 1991-01-08 | Texas Instruments Incorporated | Chart parser for stochastic unification grammar |
US5054074A (en) * | 1989-03-02 | 1991-10-01 | International Business Machines Corporation | Optimized speech recognition system and method |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
-
1990
- 1990-11-16 JP JP2311974A patent/JPH04182000A/en active Granted
-
1993
- 1993-07-06 US US08/086,569 patent/US6058365A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440194A (en) * | 2022-09-01 | 2022-12-06 | 成都知道创宇信息技术有限公司 | Violation audio detection method and device, electronic equipment and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JPH0581920B2 (en) | 1993-11-16 |
US6058365A (en) | 2000-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH04182000A (en) | Continuous speech recognizing device | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
JP4709663B2 (en) | User adaptive speech recognition method and speech recognition apparatus | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
US7711561B2 (en) | Speech recognition system and technique | |
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
US20040186714A1 (en) | Speech recognition improvement through post-processsing | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
JP3459712B2 (en) | Speech recognition method and device and computer control device | |
JP2000075895A (en) | N best retrieval method for continuous speech recognition | |
JPH08278794A (en) | Speech recognition device and its method and phonetic translation device | |
JP2008009153A (en) | Voice interactive system | |
JP3364631B2 (en) | Statistical language model generation apparatus and speech recognition apparatus | |
JP2871557B2 (en) | Voice recognition device | |
JP2006031278A (en) | Voice retrieval system, method, and program | |
JPH02113297A (en) | Continuous voice recognition device | |
JPH0962290A (en) | Speech recognition device | |
JPH1185184A (en) | Speech recognition device | |
JPH10187185A (en) | Device and method for language processing | |
JP3544740B2 (en) | Continuous speech recognition method | |
JP2975540B2 (en) | Free speech recognition device | |
JPH09212190A (en) | Speech recognition device and sentence recognition device | |
Kai et al. | Comparison of continuous speech recognition systems with unknown‐word processing for speech disfluencies | |
JP2006184670A (en) | Speech recognition device, method, and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |