弊社の「Beegleデータ」は、65万社の企業データを収録した、次世代型企業データベースです。インターネット上に公開されている企業公式サイトから情報を収集し、名寄せをした上でデータベース化していますが、正確且つ最新の状態を保つため、定期的にアップデートをしています。更新頻度は2ヵ月に一度。その2か月のうち、はじめの1ヵ月で企業情報を収集、その後、残りの1ヵ月をかけて、全企業データのクレンジングをしています。
データクレンジングでは、重複や表記ゆれの解消、誤表記の修正、正規化、不足情報の補足等を行います。そうすることで、最新で不足情報もなく、表記やフォーマットが揃った非常に扱いやすいデータベースとなるのです。
このクリーニングがとても大変!「企業の公式サイトから収集した情報だから正確で、機械的にサクサクっと終わるだろう」と思いますか?いえ、クリーニングを進める上でつまずくポイントが、実はいくつも存在します。皆さんが意外と知らないであろう企業データクリーニングの苦労話、お伝えします!
実はこんなに!企業データクリーニングに潜む苦労ポイント
-
1.よくある誤表記
ぱっと見では間違っている事には気付けない誤表記。皆さんの手元でも良く起きていませんか?
■社名- カタカナの「ニ」と 漢数字の「二」
- カタカナの「ー」(長音記号)と 記号の「-」(ハイフン)
- カタカナの「タ」と 漢字の「夕」
- 漢字の「社」(シャ)と「杜」(モリ)
- カタカナの「エ」と漢字の「工」
- カタカナの「ャ」と「ヤ」
(例:キヤノン・三和シヤッター 等) - カタカナの「ジ」と「ヂ」
(例:ラヂエーター・ブリヂストン 等) - カタカナの「ビッグ」と「ビック」
(例:ビックカメラ・ビッグモーター等)
■住所- 漢数字の千で「千葉県」と“干す”の漢字で「干葉県」
-
2.困ってしまう記号・ハイフン
ぱっと見では間違っている事には気付けない誤表記。皆さんの手元でも良く起きていませんか?
- –(二分ダッシュ:unicode 0x2013)
- ―(ホリゾンタルバー:unicode 0x2015)
- ー(全角長音:unicode 0x30FC)
- ー(半角長音:unicode 0xFF70)
- ─(罫線:unicode 0x2500)
- ━(罫線:unicode 0x2501)
- 一(いち:unicode 0x4E00)
- -(全角ハイフンマイナス:unicode 0xFF0D
- –(半角ハイフンマイナス:unicode 0x002D)
- ‐(全角ハイフン:unicode 0x2010)
- −(全角マイナス:unicode 0x2212)
- ‒(フィギュアダッシュ:unicode 0x2012)
- —(全角ダッシュ:unicode 0x2014)
-
3.145文字ある社名
経営理念を浸透させるために、そのまま社名にした企業があります。こんなに長い社名、ご存じでしたか?
株式会社あなたの幸せが私の幸せ世の為人の為人類幸福繋がり創造即ち我らの使命なり今まさに変革の時ここに熱き魂と愛と情鉄の勇気と利他の精神を持つ者が結集せり日々感謝喜び笑顔繋がりを確かな一歩とし地球の永続を約束する公益の志溢れる我らの足跡に歴史の花が咲くいざゆかん浪漫輝く航海へホールディングス -
4.記号や数字が混じった社名
英字?数字?それとも記号?半角なのか全角なのか?複数パターンでの表記が可能な社名も存在します。
- xxx株式会社(エイジィ株式会社/スリーエックス株式会社で登記)
- 株式会社0(16の登記あり)
- 株式会社△□○(株式会社ミヨマルで登記)
-
5.よくある誤表記
記述をした人にとっては当然の感覚だとしても、データベースの情報としては扱いに困る場合があり得るのです。
■観光PR用の県名- 「香川県」と「うどん県」
■都道府県や市区町村なく「区名」から始まる-
北区→全国に北区は16自治体ある
北海道札幌市、埼玉県さいたま市、東京都北区、神奈川県横浜市、新潟県新潟市、
静岡県浜松市、静岡県浜松市(浜北区)、愛知県名古屋市、京都府京都市、大阪府大阪市、
大阪府堺市、兵庫県神戸市、岡山県岡山市、広島県広島市(安佐北区)、
福岡県北九州市(小倉北区)、熊本県熊本市 -
中央区→全国に中央区は10自治体ある
北海道札幌市、埼玉県さいたま市、千葉県千葉市、東京都、神奈川県相模原市、
新潟県新潟市、大阪府大阪市、兵庫県神戸市、福岡県福岡市、熊本県熊本市
何故こんなに誤表記があるの?
上記でご紹介した誤表記、あなたの会社の企業公式サイトや、あなた自身の手元でも起こっているかもしれません。原因の一つと考えられるのは「OCR入力」。画像データを読み込み、含まれるテキスト部分を認識して文字データに変換するデジタル技術です。操作が簡単で便利な反面、読み取り精度が100%とは言えず、誤読の可能性があるため、先にご紹介したような誤表記が起きてしまうのです。
人の目で見てもなかなか気付けないような誤表記ですが、公式サイトの社名や住所といった重要なポイントでは十分に確認したいですね。
徹底したデータクリーニング!だから役立つ「Beegleデータ」
「Beegleデータ」を高精度の状態に保つため、弊社では、これらのつまずきポイントも徹底的にエンジニア集団がクリーニング処理をしています。100%とは言えず、誤読の可能性があるため、先にご紹介したような誤表記が起きてしまうのです。
企業情報の重複や、誤表記が存在したり、不足情報があったりといったデータベースでは、お使いいただくことで、逆にミスやトラブル、無駄な工数の原因になってしまうかもしれません。ここまで徹底したクリーニングが行われた状態でこそ、皆さまの企業活動のお役に立てるデータベースになれるのです。
営業活動やマーケティング施策、顧客情報や取引業者の情報管理等、皆さまの日々の業務に、最新・高精度の次世代型企業データベース「Beegleデータ」を是非ご活用ください。