CV/レジュメ パーシングとは何か?

レジュメ パーシング、あるいはCVパーシング、レジュメ抽出、CV抽出と呼ばれるものは非定型書式の履歴文書を構造化された情報、もしくはXMLフォーマットに変換するものです。情報の保存、レポーティングや処理をコンピュータが行うのに適しています。

人材紹介会社ではCV/レジュメパーシング
ツールを使って候補者の履歴情報の保存や分析を自動化いたします。これによって彼らが受け取る求人票や履歴書を手入力する工数が削減されます。

最も一般的なCV/レジュメのフォーマットはMS
Word書式です。人間が読んで理解するには適していますが、コンピュータが理解をするには難解な書式です。 前後にある言葉を考慮に入れることで全体を把握し、文脈を理解したり広げたりする私たちの脳とは異なり、コンピュータにとってはレジュメはただ長い文字、数字、句読点の羅列です。CVパーサーは、文書を分析し、そこから記入者が実際に言いたいことの要素を抽出するプログラムです。 CVの場合、情報とはスキル、仕事の経験、教育、連絡先の詳細、業績に関するものです。

情報を理解しながら抽出する、という作業は
コンピュータにとっては実に難解なものです。 その理由とは・・・

  • 言葉は無限のバラエティがあります。例えば日付ひとつにしても何百もの書き方が
    ありますし、あなたが前職で何をしたかの表現方法は無限にあります。CVパーシングツールは複雑なルールと統計学アルゴリズムを駆使して様々な異なる書き方がされた一つの事実を把握します。
  • 言葉はあいまいです。同じ単語やフレーズでも違う文脈では異なった
    意味を持ちます。

例えば

  • 「MD」という単語は複数の意味があります。
    あなたが英国に住んでいれば、即座にこれは「Managing Director(会社代表)」を意味すると考えるでしょうが、もしも米国の中西部に詳しい人であれば、これは「Maryland(メリーランド州)」のことだと考えるかもしれません。
  • 4桁の数字は電話番号の一部かもしれないし
    自宅住所の番地かもしれないし、社会保障番号の一部かもしれないし、スイスの郵便番号かもしれないし、西暦のことかもしれないし、ソフトウエアのバージョン番号かもしれない。
  • 「プロジェクト・マネジャー」は求職者本人が
    やりたい仕事かもしれませんが、しかし「私は以前プロジェクトマネジャーに報告をしていました」という書き方であれば、その意味は大きく異なってきます。

このあいまいさをCVパーシングのツールが解決
する唯一の方法はどのような意図でその言葉が使われたかを文脈から分析し、理解することです。良いCVパーサーの条件は複雑なルールと統計的アルゴリズムによって知能をもっていることです。