JP2012247834A - Document division scoring device, method, and program - Google Patents
Document division scoring device, method, and program Download PDFInfo
- Publication number
- JP2012247834A JP2012247834A JP2011116880A JP2011116880A JP2012247834A JP 2012247834 A JP2012247834 A JP 2012247834A JP 2011116880 A JP2011116880 A JP 2011116880A JP 2011116880 A JP2011116880 A JP 2011116880A JP 2012247834 A JP2012247834 A JP 2012247834A
- Authority
- JP
- Japan
- Prior art keywords
- document
- link
- documents
- score
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012545 processing Methods 0.000 claims description 28
- 238000013077 scoring method Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 230000000644 propagated effect Effects 0.000 description 6
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書分割スコアリング装置、方法、及びプログラムに係り、特に、文書検索において、検索結果の文書群をランキングするための文書のスコアを求める文書分割スコアリング装置、方法、及びプログラムに関する。 The present invention relates to a document division scoring apparatus, method, and program, and more particularly, to a document division scoring apparatus, method, and program for obtaining a document score for ranking a document group as a search result in document search.
他の文書へのリンクを持ちうる文書の集合を対象とした文書検索において、検索結果の文書群をランキングするための文書のスコアを算出する方法として、ページランクが提案されている(例えば、非特許文献1参照)。 In a document search for a set of documents that can have links to other documents, a page rank has been proposed as a method for calculating a document score for ranking a document group as a search result (for example, non-ranking). Patent Document 1).
従来のページランクでは、文書集合を{pi|1≦i≦N}としたとき、各文書piに初期スコアPR(pi)を、下記(1)式を満足するように与える。 In the conventional page rank, when the document set is {p i | 1 ≦ i ≦ N}, each document p i is given an initial score PR (p i ) so as to satisfy the following expression (1).
そして、各文書piのスコアPR(pi)を下記(2)式の右辺の値に更新する。これを一ターンとする。 Then, to update the score PR (p i) of each document p i to the value of the right side of the following equation (2). This is one turn.
(2)式で、M(pi)は、文書piへのリンクを持つ文書の集合であり、L(pj)は文書pjが持つリンクの数である。dは、0≦d≦1を満たす定数である。 In equation (2), M (p i ) is a set of documents having links to the document p i , and L (p j ) is the number of links that the document p j has. d is a constant that satisfies 0 ≦ d ≦ 1.
この更新処理を繰り返し、収束した各文書piのスコアPR(pi)を、文書piの最終的なスコアとする。 Repeat this update processing, the score PR of each document p i converged the (p i), and final score of the document p i.
一般に、一つの文書には複数のトピック区間が存在しうる。例えば、図6の文書Aは、政治のトピック区間、経済のトピック区間、並びに政治及び経済の内容が混在した時事問題のトピック区間から構成される。政治に関する文書Bから文書AへのリンクX、経済に関する文書Cから文書AへのリンクY、文書A中の政治のトピック区間から政治に関する文書DへのリンクU、文書A中の時事問題のトピック区間から時事問題に関する文書EへのリンクV、文書A中の経済のトピック区間から経済に関する文書FへのリンクWがあるとする。 In general, a single document can have a plurality of topic sections. For example, the document A in FIG. 6 includes a political topic section, an economic topic section, and a topic section for current affairs in which politics and economic contents are mixed. Link X from document B to document A about politics, link Y from document C to document A about economy, link U from topic section of politics in document A to document D about politics, topic of current affairs in document A Assume that there is a link V from a section to a document E on current affairs, and a link W from an economic topic section in document A to a document F on economy.
あるターンで、文書Aをpiとして、PR(pi)を(2)式の右辺(説明を簡易にするため、ここではd=1とする。)で更新する場合、文書BをpjとしたときのPR(pj)/L(pj)にあたるリンクXのスコア:0.2と、文書CをpjとしたときのPR(pj)/L(pj)にあたるリンクYのスコア:0.1とから、更新後のPR(pi)は0.3となる。 In a certain turn, when document A is set to p i and PR (p i ) is updated with the right side of equation (2) (d = 1 for simplicity of explanation), document B is set to p j The link X score corresponding to PR (p j ) / L (p j ): 0.2 and the link Y corresponding to PR (p j ) / L (p j ) when document C is p j Since the score is 0.1, the updated PR ( pi ) is 0.3.
次のターンで、文書D、E、Fのそれぞれをpiとして、各PR(pi)を(2)式の右辺で更新する場合、文書AをpjとしたときのPR(pj)/L(pj)にあたるリンクU、V、Wのスコアは、それぞれ0.1となる。 In the next turn, when each of the documents D, E, and F is set to p i and each PR (p i ) is updated on the right side of the equation (2), PR (p j ) when the document A is set to p j The scores of links U, V, and W corresponding to / L (p j ) are each 0.1.
ここで、政治に関する文書Bから文書AへのリンクXは、文書A中の政治のトピック区間及び時事問題のトピック区間を評価するリンクであり、一方、経済に関する文書Cから文書AへのリンクYは、文書A中の経済のトピック区間及び時事問題のトピック区間を評価するリンクである。従って、文書A中の政治のトピック区間は、文書A中の経済のトピック区間よりも、前者を評価するリンクXが後者を評価するリンクYよりスコアが高いため、より高いスコアを本来持つはずである。ゆえに、文書A中の政治のトピック区間が持つリンクUは、文書A中の経済のトピック区間が持つリンクWより、より高いスコアを本来持つはずである。そして、リンクUのリンク先文書Dの方に、リンクWのリンク先文書Fよりも高いスコアが伝播されるべきである。 Here, the link X from the document B regarding the politics to the document A is a link for evaluating the topic section of the politics and the topic section of the current affairs in the document A, while the link Y from the document C regarding the economy to the document A Is a link that evaluates the economic topic section and current topic section in document A. Thus, the political topic section in document A should naturally have a higher score than the economic topic section in document A because link X, which evaluates the former, has a higher score than link Y, which evaluates the latter. is there. Therefore, the link U of the political topic section in document A should naturally have a higher score than the link W of the economic topic section in document A. Then, a higher score than the link destination document F of the link W should be propagated to the link destination document D of the link U.
しかしながら、従来のページランク方式では、個々のリンク(例:X、Y)がリンク先文書(例:A)のどのトピック区間を評価しているかを考慮せず、リンク先文書全体を評価するため、リンク先文書の異なるトピック区間が持つリンク(例:U、W)のスコアがいずれも同一のスコアづけをされてしまう。これにより、リンク先文書(例:A)が持つリンクの先の文書(例:D、F)へ、本来伝播されるべきスコアと異なるスコアが伝播されてしまう。そのため、各文書の最終的なスコアが適切なものでなくなってしまう、という問題がある。 However, in the conventional page rank method, the entire link destination document is evaluated without considering which topic section of the link destination document (eg, A) is evaluated by each link (eg, X, Y). The scores of links (for example, U and W) held by different topic sections of the linked document are all scored the same. As a result, a score different from the score that should be originally propagated is propagated to the linked document (eg, D, F) of the linked document (eg, A). Therefore, there is a problem that the final score of each document is not appropriate.
本発明は、上記の課題を解決するためになされたもので、各文書の最終的なスコアを、より適切なものとすることができる文書分割スコアリング装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and provides a document division scoring apparatus, method, and program capable of making the final score of each document more appropriate. Objective.
上記目的を達成するために、本発明の文書分割スコアリング装置は、他の文書へのリンクを持ちうる文書の集合中の一部または全部の文書に対し、該文書を同一トピックの区間であるトピック区間に分割する文書分割手段と、前記文書分割手段の処理を行った各文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A’へのリンクとし、文書Aを文書A’の集合に置き換える文書置換手段と、前記文書置換手段の処理後の文書集合とリンク集合とから、該文書集合中の各文書のスコアを算出する文書スコアリング手段と、を含んで構成されている。 In order to achieve the above object, the document segmentation scoring apparatus of the present invention is a section of the same topic for a part or all of documents in a set of documents that can have links to other documents. An anchor text of a link L in a document having a link L with respect to a document dividing unit that divides into topic sections and each document A processed by the document dividing unit and each link L to the document A, or A difference in the set of topic sections of document A whose similarity with the topic section including link L is equal to or higher than a predetermined threshold or within a higher predetermined rank is generated as a new document A ′, and document A ′ is associated with link L , Only a link associated with the document A ′ is used as a link to the document A ′, a document replacement unit that replaces the document A with a set of the document A ′, and a document set and a link set after processing by the document replacement unit. It includes a document scoring means for calculating a score of each document of the document set in the are configured.
また、前記文書スコアリング手段は、前記文書置換手段の処理後の文書集合中の各文書に、各文書のスコアの和が1となるように初期スコアを与えた上で、文書Pのスコアを、文書Pへのリンクを持つ文書Qのスコアを文書Qが持つリンクの数で割った値の和に、0以上1以下の定数dを乗じた値と、1−dを文書集合中の文書数で割った値とを加算した値に更新する処理を繰り返し、収束した各文書のスコアを最終的な該文書のスコアとすることができる。 Further, the document scoring means gives an initial score to each document in the document set after the processing by the document replacement means so that the sum of the scores of each document becomes 1, and then calculates the score of the document P. , The sum of the value obtained by dividing the score of document Q having a link to document P by the number of links of document Q multiplied by a constant d of 0 or more and 1 or less, and 1-d is a document in the document set The process of updating to a value obtained by adding the value divided by the number is repeated, and the score of each converged document can be used as the final score of the document.
また、本発明の文書分割スコアリング方法は、文書分割手段と、文書置換手段と、文書スコアリング手段とを含む文書分割スコアリング装置における文書分割スコアリング方法であって、前記文書分割手段は、他の文書へのリンクを持ちうる文書の集合中の一部または全部の文書に対し、該文書を同一トピックの区間であるトピック区間に分割し、前記文書置換手段は、前記文書分割手段の処理を行った各文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A’へのリンクとし、文書Aを文書A’の集合に置き換え、前記文書スコアリング手段は、前記文書置換手段の処理後の文書集合とリンク集合とから、該文書集合中の各文書のスコアを算出する方法である。 Further, the document division scoring method of the present invention is a document division scoring method in a document division scoring apparatus including a document division unit, a document replacement unit, and a document scoring unit, wherein the document division unit includes: For some or all of the documents in a set of documents that can have links to other documents, the document is divided into topic sections that are sections of the same topic, and the document replacing means is a process of the document dividing means. The degree of similarity between the document A and the link L to the document A with the anchor text of the link L or the topic section including the link L in the document having the link L is equal to or greater than a predetermined threshold. Alternatively, a difference in the set of topic sections of the document A within the upper predetermined order is generated as a new document A ′, the document A ′ is associated with the link L, and the link of the link associated with the document A ′ is generated. Is a link to the document A ′, the document A is replaced with a set of documents A ′, and the document scoring means uses each document set in the document set from the document set and the link set after processing by the document replacement means. This is a method for calculating the score.
また、本発明の文書分割スコアリング方法において、前記文書スコアリング手段は、前記文書置換手段の処理後の文書集合中の各文書に、各文書のスコアの和が1となるように初期スコアを与えた上で、文書Pのスコアを、文書Pへのリンクを持つ文書Qのスコアを文書Qが持つリンクの数で割った値の和に、0以上1以下の定数dを乗じた値と、1−dを文書集合中の文書数で割った値とを加算した値に更新する処理を繰り返し、収束した各文書のスコアを最終的な該文書のスコアとすることができる。 In the document division scoring method of the present invention, the document scoring means assigns an initial score to each document in the document set after processing by the document replacement means so that the sum of the scores of each document becomes 1. Then, a value obtained by multiplying a sum of values obtained by dividing the score of the document P by the score of the document Q having a link to the document P by the number of links of the document Q by a constant d of 0 or more and 1 or less , 1-d is updated to a value obtained by adding the value obtained by dividing the number of documents in the document set, and the score of each converged document can be used as the final score of the document.
また、本発明の文書分割スコアリングプログラムは、コンピュータを、上記の文書分割スコアリング装置を構成する各手段として機能させるためのプログラムである。 The document division scoring program of the present invention is a program for causing a computer to function as each means constituting the document division scoring apparatus.
以上説明したように、本発明の文書分割スコアリング装置、方法、及びプログラムによれば、各文書をトピック区間に分割した上で、リンクLを持つ文書中のアンカーテキストまたはトピック区間との類似度が高い文書Aのトピック区間の集合を、リンクLが評価する文書Aのトピック区間群である新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを、文書A’を評価するリンクとするため、文書A’のスコアが適切なものとなり、さらに、文書A’の持つリンクのスコアも適切なものとなるため、文書A’の持つリンクが評価する文書のスコアも適切なものとなり、各文書の最終的なスコアが、より適切なものとなる、という効果が得られる。 As described above, according to the document division scoring apparatus, method, and program of the present invention, each document is divided into topic sections, and the similarity to the anchor text or topic section in the document having the link L A set of topic sections of a document A having a high value is generated as a new document A ′ that is a topic section group of the document A evaluated by the link L, the document A ′ is associated with the link L, and the document A ′ is associated. Since only the link is a link that evaluates the document A ′, the score of the document A ′ is appropriate, and the score of the link that the document A ′ has is also appropriate. The score of the document evaluated by the link is also appropriate, and an effect is obtained that the final score of each document becomes more appropriate.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本実施の形態に係る文書分割スコアリング装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書分割スコアリング処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、文書分割手段11と、文書置換手段12と、文書スコアリング手段13とを含んだ構成で表すことができる。
A document
文書分割手段11は、他の文書へのリンクを持ちうる文書の集合中の一部または全部の文書に対し、該文書を同一トピックの区間であるトピック区間に分割する。 The document dividing unit 11 divides the document into topic sections that are sections of the same topic, for a part or all of the documents in a set of documents that can have links to other documents.
文書分割手段11の処理を行う文書をAとしたとき、文書Aを、例えば、特許文献1(特許第3925418号公報)に記載された手法のように、単語の概念表現である単語概念ベクトルを格納した単語概念ベース14を用いてトピック毎に分割し、得られたトピック区間をS1,S2,・・・,Sjとする。文書A内のトピック区間の中には、同一のトピックのものも存在しうる。例えば、特許文献2(特許第4333318号公報)に記載された手法のように、単語概念ベース14を用いて、文書A内のトピック区間を、各トピック区間の意味内容に基づきクラスタリングし、同一のトピックのトピック区間を一クラスタにまとめる。特許文献2に記載された手法では、全トピック区間が一クラスタになるまでクラスタリングを続けているが、本実施の形態では、例えば、クラスタ間の距離が、所定の閾値以上となったときに、クラスタリングを停止する。得られた一クラスタに含まれるトピック区間を結合したものを最終的なトピック区間とし、最終的なトピック区間の列をT1,T2,・・・,Tkとする。
Assuming that the document to be processed by the document dividing unit 11 is A, the document A is a word concept vector which is a concept expression of the word as in the technique described in Patent Document 1 (Japanese Patent No. 3925418). The stored
図2は、文書分割手段11の処理結果の一例である。文書Aをトピック毎に分割することにより、トピック区間列S1,S2,・・・,S6が得られる。トピック区間列S1,S2,・・・,S6をクラスタリングすることにより、S1がそれのみでクラスタとなり、S1をT1とする。S2及びS4が同一クラスタとなり、S2及びS4を結合したものをT2とする。S3及びS6が同一クラスタとなり、S3及びS6を結合したものをT3とする。S5がそれのみでクラスタとなり、S5をT4とする。 FIG. 2 is an example of a processing result of the document dividing unit 11. By dividing the document A into topics, topic section sequences S 1 , S 2 ,..., S 6 are obtained. By clustering the topic section sequences S 1 , S 2 ,..., S 6 , S 1 becomes a cluster by itself, and S 1 is T 1 . S 2 and S 4 are the same cluster, and S 2 and S 4 are combined to be T 2 . S 3 and S 6 are the same cluster, and S 3 and S 6 are combined as T 3 . S 5 alone becomes a cluster, and S 5 is T 4 .
例えば、図6に示した文書Aに対し、文書分割手段11の処理を行うことにより、最終的なトピック区間として、政治のトピック区間、時事問題のトピック区間、及び経済のトピック区間が得られる。 For example, by performing the processing of the document dividing unit 11 on the document A shown in FIG. 6, a political topic section, a current topic section, and an economic topic section are obtained as final topic sections.
なお、文書分割手段11の処理は、文書集合中の全文書に対し行ってもよいし、文書分割手段11の処理時間を短縮するために、文書集合中の一部の文書に対し行うようにしてもよい。 The processing of the document dividing unit 11 may be performed on all the documents in the document set, or may be performed on some documents in the document set in order to shorten the processing time of the document dividing unit 11. May be.
文書置換手段12は、文書分割手段11の処理を行った各文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A'へのリンクとし、文書Aを文書A'の集合に置き換える。
The
文書分割手段11の処理を行った図6の文書Aを例に説明する。 A description will be given by taking the document A of FIG. 6 processed by the document dividing unit 11 as an example.
文書A中の各トピック区間Tiに対し、トピック区間Ti中の単語の概念ベクトルを単語概念ベース14から取得し、取得した単語概念ベクトルの重心(または重心を長さ1に正規化したベクトル)を、トピック区間Tiの概念ベクトルv(Ti)として算出する。
For each topic section T i in the document A, the concept vector of the word in the topic section T i is acquired from the
また、文書AへのリンクXに対し、リンクXを持つ文書B中の、リンクLのアンカーテキスト、または、リンクXを含むトピック区間をとる。文書Bに対して文書分割手段11の処理を行っていない場合は、該トピック区間は文書Bと同一となる。該アンカーテキストまたは該トピック区間をRとし、単語概念ベース14を参照することにより、上記と同様に、Rの概念ベクトルv(R)を算出する。
For the link X to the document A, the anchor section of the link L or the topic section including the link X in the document B having the link X is taken. When the processing of the document dividing unit 11 is not performed on the document B, the topic section is the same as the document B. By using the anchor text or the topic section as R and referring to the
そして、ベクトル間の類似度をベクトル間のコサインとし、v(R)との類似度が、所定の閾値以上であるv(Ti)を持つトピック区間Tiの集合M(例:政治のトピック区間及び時事問題のトピック区間からなる集合)をとる。または、トピック区間Tiを、v(Ti)とv(R)との類似度の大きい順にソートし、類似度が上位から所定順位までのトピック区間Tiの集合Mをとる。 Then, the similarity M between vectors is a cosine between vectors, and a set M of topic sections T i having a similarity of v (T i ) equal to or greater than a predetermined threshold (for example, a political topic) A set of sections and topic sections of current affairs). Alternatively, the topic sections T i are sorted in descending order of similarity between v (T i ) and v (R), and a set M of topic sections T i with the similarity from the top to a predetermined rank is taken.
別のリンクX’に対して得られるトピック区間Tiの集合がMとなった場合でも、集合Mの個数は1つとする。 Even when the set of topic intervals T i obtained for another link X ′ is M, the number of sets M is one.
例えば、図3に示すように、集合Mを新たな文書A’とする。 For example, as shown in FIG. 3, the set M is a new document A ′.
リンクX(や、リンクX’)に文書A’を対応付ける。このように文書A’が対応付けられたリンクのみを文書A’へのリンクとする。文書A’の持つリンクU、Vは、図6の場合と同様に、それぞれ文書D、Eへのリンクである。 The document A ′ is associated with the link X (or the link X ′). Only the link associated with the document A ′ in this way is set as a link to the document A ′. The links U and V of the document A ′ are links to the documents D and E, respectively, as in the case of FIG.
文書AへのリンクYに対し、同様の処理を行うことにより、時事問題のトピック区間及び経済のトピック区間からなる文書A’’が得られる。 By performing the same processing on the link Y to the document A, a document A ″ including the topic section of the current affairs and the topic section of the economy is obtained.
このようにして、文書Aを、文書A’、A’’で置き換える。 In this way, the document A is replaced with the documents A ′ and A ″.
文書スコアリング手段13は、文書置換手段12の処理後の文書集合中の各文書に、各文書のスコアの和が1となるように初期スコアを与えた上で、文書Pのスコアを、文書Pへのリンクを持つ文書Qのスコアを文書Qが持つリンクの数で割った値の和に、0以上1以下の定数dを乗じた値と、1−dを文書集合中の文書数で割った値とを加算した値に更新する処理を繰り返し、収束した各文書のスコアを最終的な該文書のスコアとする。 The document scoring means 13 gives an initial score to each document in the document set processed by the document replacement means 12 so that the sum of the scores of each document becomes 1, and then assigns the score of the document P to the document The sum of the value obtained by dividing the score of the document Q having a link to P by the number of links of the document Q multiplied by a constant d of 0 or more and 1 or less, and 1-d is the number of documents in the document set. The process of updating to the value obtained by adding the divided value is repeated, and the score of each converged document is set as the final score of the document.
図4は、文書スコアリング手段13の処理のフローチャートの一例である。 FIG. 4 is an example of a flowchart of processing of the document scoring means 13.
ステップ131)
文書置換手段12の処理後の文書の集合を{pi|1≦i≦N}とする。
Step 131)
Assume that a set of documents after processing by the document replacement means 12 is {p i | 1 ≦ i ≦ N}.
他の文書へのリンクを持たない任意の文書piに対し、文書piから、自身も含めた全ての文書へのリンクがあるとする。 Assume that there is a link from the document p i to all documents including itself for an arbitrary document p i that does not have a link to another document.
各文書piに初期スコアPR(pi)を、(1)式を満足するように与える。 Each document p i is given an initial score PR (p i ) so as to satisfy the expression (1).
ステップ132)
各文書piのスコアPR(pi)を、背景技術の説明で述べた下記(2)式の右辺の値に更新する。これを一ターンとする。
Step 132)
The score PR (p i) of each document p i, and updates the value of the right side of equation (2) described in the explanation of the background art. This is one turn.
(2)式で、M(pi)は、文書piへのリンクを持つ文書の集合であり、L(pj)は文書pjが持つリンクの数である。dは、0≦d≦1を満たす定数である。 In equation (2), M (p i ) is a set of documents having links to the document p i , and L (p j ) is the number of links that the document p j has. d is a constant that satisfies 0 ≦ d ≦ 1.
ステップ133)
各文書のスコアが収束したか否かを判定する。収束していないと判定すればステップ132へ移る。収束したと判定すれば、ステップ132及び133の繰り返し処理を終了する。
Step 133)
It is determined whether the score of each document has converged. If it is determined that it has not converged, the routine proceeds to step 132. If it determines with having converged, the repeating process of
収束したか否かの一つの判定方法は、一文書の現在のスコアと一つ前のスコアとの差の絶対値の最大値が、所定の閾値より大きければ収束していないと判定し、所定の閾値以下であれば、収束したと判定する。別の判定方法は、ステップ132及び133の繰り返し処理が所定の回数に満たない場合は収束していないと判定し、繰り返し処理が所定の回数に達した時点で収束したと判定する。この2つの方法を組み合わせ、一文書の現在のスコアと一つ前のスコアとの差の絶対値の最大値が、所定の閾値以下となった時点、または、ステップ132及び133の繰り返し処理が、所定の回数に達した時点で収束したと判定してもよい。
One determination method of whether or not the convergence has occurred is that the absolute value of the difference between the current score of one document and the previous score is greater than a predetermined threshold value, and is determined not to have converged. If it is less than the threshold value, it is determined that it has converged. Another determination method determines that the process has not converged when the repetition process of
収束したと判定した時点での各文書piのスコアPR(pi)を、文書piの最終的なスコアとする。 Score PR and (p i) of each document p i at the time it is determined converged and, as the final score of the document p i.
以下、ステップ132及び133の処理について、例を挙げて説明する。
Hereinafter, the processing of
あるターンで、図3の文書A’をpiとして、PR(pi)を(2)式の右辺(説明を簡易にするため、ここではd=1とする。)で更新する場合、文書BをpjとしたときのPR(pj)/L(pj)にあたるリンクXのスコア:0.2から、文書A’の更新後のスコアは0.2となる。同様に、文書A’’をpiとして、PR(pi)を(2)式の右辺で更新する場合、文書CをpjとしたときのPR(pj)/L(pj)にあたるリンクYのスコア:0.1から、文書A’’の更新後のスコアは0.1となる。 In a certain turn, when document A ′ in FIG. 3 is set to p i and PR (p i ) is updated with the right side of equation (2) (d = 1 for simplicity here), the document From the score X of link X corresponding to PR (p j ) / L (p j ) where B is p j : 0.2, the score after updating document A ′ is 0.2. Similarly, when the document A ″ is p i and PR (p i ) is updated on the right side of the equation (2), it corresponds to PR (p j ) / L (p j ) when the document C is p j. From the score of link Y: 0.1, the updated score of document A ″ is 0.1.
このように、本実施の形態の手法では、元文書(例:A)中の、リンク(例:X、Y)が評価する範囲(例:A’、A’’)にのみ該リンクのスコアを伝播させるため、より高いスコアを持つリンクXが評価する文書A’の方が、より低いスコアを持つリンクYが評価する文書A’’より高いスコアを持つ。 As described above, according to the method of the present embodiment, the score of the link is only included in the range (eg, A ′, A ″) evaluated by the link (eg, X, Y) in the original document (eg, A). Therefore, the document A ′ evaluated by the link X having a higher score has a higher score than the document A ″ evaluated by the link Y having a lower score.
また、次のターンで、文書D及びEをそれぞれpiとして、各PR(pi)を(2)式の右辺で更新する場合、文書A’をpjとしたときのPR(pj)/L(pj)にあたるリンクU及びVのスコアは、それぞれ0.1となる。文書E及びFをそれぞれpiとして、各PR(pi)を(2)式の右辺で更新する場合、文書A’’をpjとしたときのPR(pj)/L(pj)にあたるリンクV及びWのスコアは、それぞれ0.05となる。このようにして、文書A’及びA’’から文書D、E、Fには、スコア0.1、0.15、0.05がそれぞれ伝播する。 In the next turn, when the documents D and E are respectively set to p i and each PR (p i ) is updated with the right side of the expression (2), PR (p j ) when the document A ′ is set to p j The scores of links U and V corresponding to / L (p j ) are each 0.1. When each of the documents E and F is p i and each PR (p i ) is updated with the right side of the equation (2), PR (p j ) / L (p j ) when the document A ″ is p j The scores of the links V and W corresponding to 0.05 are each 0.05. In this way, scores 0.1, 0.15, and 0.05 are propagated from documents A ′ and A ″ to documents D, E, and F, respectively.
従来のページランク手法では、文書D及びFとも同一のスコア0.1が伝播されていた。これに対し、本実施の形態の手法では、より高いスコアを持つ文書A’の持つリンクUの方が、より低いスコアを持つ文書A’’の持つリンクWより高いスコアを持つ。そのため、より高いスコアを持つリンクUのリンク先文書Dの方が、より低いスコアを持つリンクWのリンク先文書Fより高いスコアが伝播される。 In the conventional page rank method, the same score 0.1 is propagated to the documents D and F. On the other hand, in the method of the present embodiment, the link U of the document A ′ having a higher score has a higher score than the link W of the document A ″ having a lower score. For this reason, the link destination document D of the link U having a higher score propagates a higher score than the link destination document F of the link W having a lower score.
このように、本実施の形態の手法では、元文書(例:A)の特定の範囲(例:A’、A’’)ごとにスコアを算出し、そのスコアを該範囲内のリンク(例:U、V、W)を通して伝播させるので、より適切なスコアがリンク先文書(例:D、E、F)に伝播される。この結果、各文書の最終的なスコアが、より適切なものとなる。 As described above, in the method of the present embodiment, a score is calculated for each specific range (eg, A ′, A ″) of the original document (eg, A), and the score is linked to the link (eg, the example). : U, V, W), the more appropriate score is propagated to the linked document (eg, D, E, F). As a result, the final score of each document becomes more appropriate.
ステップ134)
文書スコアリング手段13の処理は、ステップ133で収束したと判定した時点で終了としてもよいが、ステップ134にて、文書置換手段12の処理を行った文書(例:A)に対し、置換後の文書群(例:A’、A’’)の各文書のスコアの和を、該元文書(例:A)のスコアとするというようにしてもよい。文書置換手段12の処理により、文書集合とリンク集合とからなるネットワークが変化するため、文書スコアリング手段13におけるスコア更新の繰り返し処理の結果において、従来のページランク手法による文書Aのスコアと、本実施の形態の手法による文書Aの置換後の各文書のスコアの和とは、一般に異なる値となる。図3の例で、文書A’、A’’の最終的なスコアがそれぞれ0.3、0.2となっていた場合、元文書Aのスコアは0.5となる。
Step 134)
The process of the
次に、図5を参照して、本実施の形態の文書分割スコアリング装置10において実行される文書分割スコアリング処理ルーチンについて説明する。
Next, a document division scoring processing routine executed in the document
ステップ110で、スコアリングの対象となる元文書の集合を取得し、元文書の集合中の一部または全部の各文書を、トピック区間に分割する。 In step 110, a set of original documents to be scored is acquired, and some or all of the documents in the set of original documents are divided into topic sections.
次に、ステップ120で、上記ステップ110の処理を行った文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A’へのリンクとし、文書Aを文書A’の集合に置き換える。
Next, in
次に、ステップ130で、上記で説明した文書スコアリング手段13の処理(ステップ131〜134)を実行して、処理を終了する。
Next, in
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。 The present invention can also be realized by installing a program on a known computer via a medium or a communication line.
また、上述の文書分割スコアリング装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 In addition, the document division scoring apparatus described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. Shall be.
また、上記実施の形態では、プログラムが予めインストールされている場合について説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Further, although cases have been described with the above embodiment where a program is installed in advance, the program can also be provided by being stored in a computer-readable recording medium.
また、本発明の文書分割スコアリング装置を、文書検索において、検索結果の文書群をランキングするための文書のスコアを求める技術に適用可能である。 In addition, the document division scoring device of the present invention can be applied to a technique for obtaining a document score for ranking a document group as a search result in document search.
10 文書分割スコアリング装置
11 文書分割手段
12 文書置換手段
13 文書スコアリング手段
14 単語概念ベース
DESCRIPTION OF
Claims (5)
前記文書分割手段の処理を行った各文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A’へのリンクとし、文書Aを文書A’の集合に置き換える文書置換手段と、
前記文書置換手段の処理後の文書集合とリンク集合とから、該文書集合中の各文書のスコアを算出する文書スコアリング手段と、
を含む文書分割スコアリング装置。 Document dividing means for dividing a part or all of documents in a set of documents that may have links to other documents into topic sections that are sections of the same topic;
For each document A processed by the document dividing means and each link L to document A, the similarity between the anchor text of link L or the topic section including link L in the document having link L Generates a new set of topic sections of document A that is equal to or higher than a predetermined threshold value or within a higher predetermined order as a new document A ′, associates document A ′ with link L, and links that associate document A ′ A document replacement means for replacing only document A with a set of documents A ′
Document scoring means for calculating a score of each document in the document set from the document set and link set after processing by the document replacement means;
Document scoring device including:
前記文書分割手段は、他の文書へのリンクを持ちうる文書の集合中の一部または全部の文書に対し、該文書を同一トピックの区間であるトピック区間に分割し、
前記文書置換手段は、前記文書分割手段の処理を行った各文書Aと文書Aへの各リンクLとに対し、リンクLを持つ文書中の、リンクLのアンカーテキスト、または、リンクLを含むトピック区間との類似度が、所定の閾値以上または上位所定順位以内の文書Aのトピック区間の集合の異なりを新たな文書A’として生成し、リンクLに文書A’を対応付け、文書A’が対応付けられたリンクのみを文書A’へのリンクとし、文書Aを文書A’の集合に置き換え、
前記文書スコアリング手段は、前記文書置換手段の処理後の文書集合とリンク集合とから、該文書集合中の各文書のスコアを算出する
文書分割スコアリング方法。 A document division scoring method in a document division scoring apparatus including a document division unit, a document replacement unit, and a document scoring unit,
The document dividing means divides the document into topic sections, which are sections of the same topic, for a part or all of the documents in a set of documents that can have links to other documents,
The document replacement means includes, for each document A processed by the document dividing means and each link L to the document A, the anchor text of the link L or the link L in the document having the link L. A difference in the set of topic sections of document A whose similarity to the topic section is equal to or higher than a predetermined threshold value or within a predetermined upper rank is generated as a new document A ′, the document A ′ is associated with the link L, and the document A ′ Only the link associated with is used as a link to document A ′, and document A is replaced with a set of documents A ′.
The document scoring unit calculates a score of each document in the document set from the document set and the link set after processing by the document replacement unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011116880A JP5483740B2 (en) | 2011-05-25 | 2011-05-25 | Document division scoring apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011116880A JP5483740B2 (en) | 2011-05-25 | 2011-05-25 | Document division scoring apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012247834A true JP2012247834A (en) | 2012-12-13 |
JP5483740B2 JP5483740B2 (en) | 2014-05-07 |
Family
ID=47468261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011116880A Active JP5483740B2 (en) | 2011-05-25 | 2011-05-25 | Document division scoring apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5483740B2 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
JP2004054631A (en) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | Information retrieval system, information retrieval method, structural analysis method of html document, and program |
JP3925418B2 (en) * | 2003-01-31 | 2007-06-06 | 日本電信電話株式会社 | Topic boundary determination apparatus and program |
JP2007188352A (en) * | 2006-01-13 | 2007-07-26 | National Institute Of Information & Communication Technology | Page reranking device, page reranking program |
JP4333318B2 (en) * | 2003-10-17 | 2009-09-16 | 日本電信電話株式会社 | Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program |
JP2009211429A (en) * | 2008-03-04 | 2009-09-17 | Fujitsu Ltd | Information provision method, information provision apparatus, information provision program and recording medium having the program recorded in computer |
JP2009230296A (en) * | 2008-03-21 | 2009-10-08 | Hitachi Ltd | Document retrieval system |
-
2011
- 2011-05-25 JP JP2011116880A patent/JP5483740B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
JP2004054631A (en) * | 2002-07-19 | 2004-02-19 | Internatl Business Mach Corp <Ibm> | Information retrieval system, information retrieval method, structural analysis method of html document, and program |
JP3925418B2 (en) * | 2003-01-31 | 2007-06-06 | 日本電信電話株式会社 | Topic boundary determination apparatus and program |
JP4333318B2 (en) * | 2003-10-17 | 2009-09-16 | 日本電信電話株式会社 | Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program |
JP2007188352A (en) * | 2006-01-13 | 2007-07-26 | National Institute Of Information & Communication Technology | Page reranking device, page reranking program |
JP2009211429A (en) * | 2008-03-04 | 2009-09-17 | Fujitsu Ltd | Information provision method, information provision apparatus, information provision program and recording medium having the program recorded in computer |
JP2009230296A (en) * | 2008-03-21 | 2009-10-08 | Hitachi Ltd | Document retrieval system |
Non-Patent Citations (6)
Title |
---|
CSNG200100159002; 高野 元 他: 'サイテーション・エンジン:リンク解析を用いたWWW検索ランキングシステム' 情報処理学会研究報告 Vol.2000,No.10(2000-DBS-120-2), 20000124, pp.9-16., 社団法人情報処理学会 * |
CSNG200900400002; 向 亨 他: '利用履歴に基づくPageRankアルゴリズムの改良' 第13回データ工学ワークショップ(DEWS2002)論文集 No.A1-2, 20020515, pp.1-8., 電子情報通信学会データ工学研究専門委員会 * |
CSNG201000538111; 近藤 直樹: 'Wikipediaのセクションを考慮したリンク解析による関連項目検索' 第2回データ工学と情報マネジメントに関するフォーラム-DEI No.A5-2, 20100525, pp.1-8., 電子情報通信学会データ工学研究専門委員会 * |
JPN6014005626; 近藤 直樹: 'Wikipediaのセクションを考慮したリンク解析による関連項目検索' 第2回データ工学と情報マネジメントに関するフォーラム-DEI No.A5-2, 20100525, pp.1-8., 電子情報通信学会データ工学研究専門委員会 * |
JPN6014005628; 高野 元 他: 'サイテーション・エンジン:リンク解析を用いたWWW検索ランキングシステム' 情報処理学会研究報告 Vol.2000,No.10(2000-DBS-120-2), 20000124, pp.9-16., 社団法人情報処理学会 * |
JPN6014005629; 向 亨 他: '利用履歴に基づくPageRankアルゴリズムの改良' 第13回データ工学ワークショップ(DEWS2002)論文集 No.A1-2, 20020515, pp.1-8., 電子情報通信学会データ工学研究専門委員会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5483740B2 (en) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6110389B2 (en) | Method, tangible computer readable medium and system for automatically summarizing the contents of an electronic document | |
US20170147682A1 (en) | Automated text-evaluation of user generated text | |
JP2017084368A (en) | Refinement of topic expression | |
CN110457672A (en) | Keyword determines method, apparatus, electronic equipment and storage medium | |
JP6312467B2 (en) | Information processing apparatus, information processing method, and program | |
US20230244452A1 (en) | Computer code generation from task descriptions using neural networks | |
JP2019148933A (en) | Summary evaluation device, method, program, and storage medium | |
JP2016177359A (en) | Search device and program | |
JP6699031B2 (en) | Model learning method, description evaluation method, and device | |
CN112287102A (en) | Data mining method and device | |
JP5224453B2 (en) | Geographic feature information extraction method and system | |
US10467530B2 (en) | Searching text via function learning | |
JP5483740B2 (en) | Document division scoring apparatus, method, and program | |
WO2018163241A1 (en) | Ontology creation assistance device | |
CN116049414B (en) | Topic description-based text clustering method, electronic equipment and storage medium | |
JP6698061B2 (en) | Word vector conversion device, method, and program | |
US20210248193A1 (en) | Bipartite Graph Construction | |
JP5604465B2 (en) | Text summarization apparatus, method, and program | |
JP5523929B2 (en) | Text summarization apparatus, text summarization method, and text summarization program | |
JP2009223560A (en) | Document processor, electronic medical chart device and document processing program | |
CN114861034A (en) | Semi-crowdsourcing loop expert method for diagnosis and repair knowledge extraction and editing | |
JP2009282913A (en) | Personal-adaptive web information search device, method, and program | |
JP5277090B2 (en) | Link creation support device, link creation support method, and program | |
JP6177448B2 (en) | Data processing method and data processing system | |
JP2005266866A (en) | Document classifying device and classification system generating device and method for document classifying device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5483740 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |