氏名抽出ライブラリ(Java)

任意のテキストから個人氏名(日本語、英語)を抽出する Java ライブラリ(フリーウェア)です。日本語では次のデータベースを内蔵しています。

  • 著名人 : 約18万9千
  • 姓 : 約4万5千
  • 名(男性): 約5万4千
  • 名(女性): 約3万5千

https://github.com/extreme-co-jp/person-name-finder

日本語例 : PersonNameFind_JA.java

ソース

結果

英語例 : PersonNameFind_EN.java

ソース

結果

Apache OpenNLPKuromoji を用いて容易に利用できるように構成しています。

Apache OpenNLP

Apache OpenNLP は、フリーかつオープンソースの機械学習に基づく自然言語処理 (NLP) のためのツールキットです。

Kuromoji

Kuromojiは、Javaで開発されたオープンソースの日本語形態素解析エンジンです。日本語のテキストを形態素と呼ばれる単語に分割したり、単語の品詞を特定したり、動詞や形容詞の基本形を抽出したり、漢字の読み方を抽出したりする機能があります。検索アプリケーションに適した「検索モード」も搭載しており、複合語でも一致するように形態素を細かく分割することができます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です