Parserの種類とその仕組み

一般に、履歴書/職経歴書のParsing(構文解析)には3種類のアプローチがあります。

  • キーワードに基づいた Parser
  • 文法に基づいた Parser
  • 統計 Parser

キーワードに基づいた Parser

定義:キーワードに基づいた履歴書 Parserは、履歴書/職経歴書の文章内の単語、フレーズ、単純なパターンを識別し、これらの単語付近にある文章に単純な発見的アルゴリズム(ヒューリスティック)を適用します。 これは最も単純で精度の最も低い履歴書Parserです。

特徴:これらのツールは、郵便番号のように見えるものを探し出し、周囲の言葉を住所として解析しようとするか、日付範囲のようなパターンの単語を探して、周囲の文章が雇用期間であると仮定することができます。

精度率:精度 70%を超えるのは難しいです。 この種類の履歴書 Parserは、設定したキーワードが1つもない付近の文章からは情報を抽出することができないので精度が最も低い Parserです。またキーワードが曖昧である場合(たとえば、スキルの一つとして「ディレクター」)、その解釈について間違った推測を頻繁に行ってしまいます 。

文法に基づいた Parser

 

定義:文法に基づいた Parserには、履歴書/職経歴書のすべての単語の文脈を理解しようとするために膨大な数の文法ルールが備わっています。 これらの同じ文法は、履歴書内のすべての文の意味をとらえる複雑な構造を作るために単語とフレーズも一緒に組み合わせます。

 

特徴:これらの Parserは、キーワードに基づいた Parserよりもはるかに複雑なものにも対応でき、一般的にもっと多くの詳細をとらえることができます。また異なる文脈の中で1つの単語またはフレーズが含む可能性のある異なる意味も区別することもできます。

精度率: 90%をはるかに上回る精度を実現することが可能です(人間の精度は96%を超えることはめったにありません)。 欠点は、このタイプの履歴書 Parserでは、熟練した言語エンジニアによる手作業によるエンコーディングが多く必要になってくることと、ある領域の改善が別の領域のパフォーマンスを低下させないようにするための多くのテストが必要であることです。

統計 Parser

定義:この種類の Parserは、履歴書/職経歴書の構造を識別するためのテキストの数値モデルを適用しようとします。文法に基づいた Parserと同様に、同じ単語またはフレーズの異なる文脈を区別することができ、住所、時系列などのさまざまな構造を取得することもできます。

特徴:最も正確であるためには、抽出する必要のあるすべての情報を手動でコードを付加した膨大な数の履歴書/職経歴書の入力が必要になります。

精度率:この種の Parserは、ほとんどの場合、キーワードに基づいた Parserよりも優れていますが、 Parserが訓練されていないデータには文法に基づいた Parserほど精度はありません。 したがって、統計 Parserが正確であるためには、処理されることが予想されるデータに対して事前に訓練しておかなければなりません。

では、優れた履歴書 Parserを判断する重要な比較基準は何でしょうか?