履歴書/職経歴書のParsing(構文解析)とは?

履歴書のParsing(構文解析)とは、職経歴書のParsing(構文解析)、履歴書抽出または職経歴書抽出とも呼ばれ、あらゆる形式の履歴書/職経歴書の文書を構造化データまたはXML形式に変換することです。コンピュータによるデータの保存、レポート作成、ユーザ独自の管理に適しています

人材紹介会社は、履歴書/職経歴書データの保存と分析を自動化するために履歴書/職経歴書のParsing(構文解析)ツールを活用しています。このサービスにより、人材コンサルタントは、毎回受け取った候補者の履歴書や職務経歴書の情報を1件1件手入力にかかる時間を節約することができます。

最も一般的な履歴書/職経歴書の形式はWord形式です。 人間には読みやすく理解しやすい形式ではありますが、コンピュータが解析するには非常に困難です。前後の言葉を考慮しながら状況を理解することによって文脈を汲み取ったり発信したりする私たちの脳とは違い、コンピュータにとっては履歴書は、単調な長い文字、数字、句読点でしかありません。履歴書 Parserは、文書を分析し、作者が本当に言いたかったことの要素を抽出することができるプログラムです。

履歴書の場合、情報はすべてスキル、職務経験、学歴、連絡先の詳細、業績に関するものです。

コンピュータにとっては、データを抽出して意味を解析するという作業は、以下の理由によって驚くほど難易度が高い作業になってきます。:

  • 言語の変化は無限大。 例えば、日付を書き留めるだけでも何百通りの方法がある上、あなたの前の仕事で何をしたかの書き方も無数の方法があります。履歴書のParsing(構文解析)ツールは、複雑なルールや統計アルゴリズムを活用し、同じことを意味する様々な表現方法をすべて取り組むことです。
  • しかも言語には曖昧さがあります。 同じ言葉やフレーズであっても、文脈によって全く異なる意味になったりすることもあります。

例えば:

  • 「MD」の略語は、複数の意味があります。「医師」であったり、または英国では、すぐに「マネージング・ディレクター」が思い浮かんだりします。米国の東部の大西洋岸に精通している人にとっては、 「メリーランド州」と思うかもれません。
  • 4桁の数字の場合は、電話番号、自宅住所、社会保障番号の一部、スイスの郵便番号、西暦またはソフトウェアパッケージのバージョンの一部と考えることもできます。
  • 「プロジェクトマネージャー」という用語は、作者が実際にプロジェクトマネージャーだったことを示しているかもしれませんが、「プロジェクトマネージャーに報告していました」のように、文脈が異なる場合はかなり意味合いが異なってきます。

履歴書のParsing(構文解析)ソフトウェアがこれらの曖昧さを理解するための唯一の方法は、それらで使用されている文脈を理解し解析することです。 優れた履歴書 Parserは、複雑なルールと統計アルゴリズムを活用し「インテリジェント」に成り得るのです。