ITをめぐる法律問題について考える

弁護士水町雅子のIT情報法ブログ

【個人情報Q&A】氏名を削除すれば匿名化?クラウド上に個人情報を保管できる?

個人情報から氏名を削除すれば、匿名化になりますか。個人情報でなくなるので、個人情報保護法は関係ありませんよね?

持っている個人情報をクラウド上に保管・保存しておきたいのですが、プライベートクラウドならまあ大丈夫かなとも思うのですが、パブリッククラウドに個人情報を置いておいてもいいのでしょうか。完全に匿名化しないといけないのですか? 何か法規制はあるのでしょうか? 

 

 

1.氏名を削除しただけでは匿名化にならない

氏名を削除しただけでは匿名化になりません。匿名化というのは、一般に個人情報でないように加工することをいうと考えられます*1

 

個人情報というのは、個人情報保護法でも個人情報保護条例でも独立行政法人個人情報保護法でも行政機関個人情報保護法でも、平たくいうと「誰の情報かわかる情報」のことをいうので、氏名だけ消しても誰の情報かがわかってしまえば個人情報のままです。

例えば、次の図のデータは、これは個人情報だと誰もが思うでしょう。

f:id:cyberlawissues:20200827171619p:plain

この状態のデータから、氏名だけを削除しても、住所がそのまま残っていれば誰の情報かわかる可能性があります。生年月日と何らかの属性だけでも誰の情報かわかる可能性があります。

そこで、氏名を削除し、生年月日の日は削除し、住所は丁目までとするなどの加工をする民間事業者や自治体が多いですが、それだけでは匿名化になりません。パッと見は、誰の情報かわからない状態ではありますが、完全に誰の情報かわからないとまでは言えないからです。

 

次の図を見てください。ここまで加工すれば、個人情報ではなく加工できている、匿名化データだと思ってしまう方もいるのではないでしょうか。

f:id:cyberlawissues:20200827171659p:plain


しかし一番下のデータを見てみてください。千代田区神保町2の住所のデータです。この男性は、97年生まれなので23才ですが5000万-5500万の世帯収入があり独身で子供がいます。このような特徴を有する人は、氏名がなくても、住所が丁目までにとどまっていても、生年月日の日がなくても、誰かわかる可能性があります。

あと例としては、「総理大臣を経験した政治家で過去に難病にかかって退陣したが、第二次政権で長期政権となった政治家」などといえば、氏名や住所や生年月日などがなくても誰の情報かが分かってしまいます。

したがって、こういったデータが残っていると、こういったデータは匿名化できていなくて、個人情報のままであると考えられます。氏名の削除、住所の番地以下の削除、生年月日の日の削除とかは、機械的に一律削除できるのですが、こういったデータは機械的な一律処理になじまず、加工に苦労するかもしれません。

 

この点注意しなければならないのは、例えば10件ぐらいのデータなら、一件一件こういうデータが残っていないか目でチェックすることができますが、1000件以上ぐらいのデータになってくると、人の目でチェックすることは現実的には難しいと言えます。しかし、機械でチェックするというのも、こういう特異なデータについては、どういう条件で機械チェックすればいいかも定かではなく、機械検出も難しいと考えられます。そうなると、1000件ぐらい以上のデータになってくると、たとえ99%は匿名化ができていたとしても、1%のデータについてこういう匿名化できていないデータが残ってしまうと、全部が個人情報ではないと言い切れないという問題があります。そして個人情報ではないデータを特定して切り分けることができればいいのですが、そのためには人の目で全件チェックしていくか、機械検出するための方法を何とか編み出さなくてはいけないという問題が生じてしまいます*2

 

2.特異な情報の加工が難しい

こういったデータをなんというかというと、「特異な情報」というと考えられます(個人情報保護法施行規則19条4号参照)。平たくいうと、珍しい情報で、誰かわかってしまうような情報のことです。

特異な情報は、一項目だけで判断される(例えば、「年収が200億」等だと一項目だけで特異)わけではなく、複数項目の組み合わせ(千代田区神保町2の男性は、97年生まれなので23才ですが、5000万-5500万の世帯収入があり独身で子供がいるなど)でも特異な情報になりうるので、注意が必要です。一項目だけで判断するのであれば、その項目の値の分布を取って、下5%と上5%はカットするなり丸め処理するなりすればいいと思うのですが、複数項目の組み合わせで特異かどうか判断すると、加工処理もかなり大変そうです。とりあえず私がExcelなどで簡単に加工できるレベルではありません。

 

3.特異な情報以外も加工が必要で難しい

なお、上記では特異な情報を例に挙げて説明しましたが、これ以外にも、個人情報保護法施行規則19条1号から5号すべての措置も施す必要があると考えられます*3。管理IDを削除したり置き換えたりすることも必要です(3号)。


そして、特異な情報以外にも、加工が難しいところがあるのです。それは、個人情報保護法施行規則19条5号です。

(匿名加工情報の作成の方法に関する基準)
第十九条 法第三十六条第一項の個人情報保護委員会規則で定める基準は、次のとおりとする。
一 個人情報に含まれる特定の個人を識別することができる記述等の全部又は一部を削除すること(当該全部又は一部の記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
二 個人情報に含まれる個人識別符号の全部を削除すること(当該個人識別符号を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
三 個人情報と当該個人情報に措置を講じて得られる情報とを連結する符号(現に個人情報取扱事業者において取り扱う情報を相互に連結する符号に限る。)を削除すること(当該符号を復元することのできる規則性を有しない方法により当該個人情報と当該個人情報に措置を講じて得られる情報を連結することができない符号に置き換えることを含む。)。
四 特異な記述等を削除すること(当該特異な記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。
 前各号に掲げる措置のほか、個人情報に含まれる記述等と当該個人情報を含む個人情報データベース等を構成する他の個人情報に含まれる記述等との差異その他の当該個人情報データベース等の性質を勘案し、その結果を踏まえて適切な措置を講ずること。

個人情報保護法施行規則19条5号では、「性質を勘案し、その結果を踏まえて適切な措置を講ずること」が求められるのですが、そんな漠然としたことを言われてもなかなか何をすればいいのかがわからない、しかも機械処理で加工すると5号対応は極めて困難ではと思われるのです。

この「性質を勘案し、その結果を踏まえて適切な措置を講ずること」の例としては、個人情報保護法ガイドラインで次のような解説があります。

事例 1)移動履歴を含む個人情報データベース等を加工の対象とする場合において、自宅や職場などの所在が推定できる位置情報(経度・緯度情報)が含まれており、特定の個人の識別又は元の個人情報の復元につながるおそれがある場合に、推定につながり得る所定範囲の位置情報を削除する。(項目削除/レコード削除/セル削除)


事例 2)ある小売店の購買履歴を含む個人情報データベース等を加工の対象とする場合において、当該小売店での購入者が極めて限定されている商品の購買履歴が含まれており、特定の個人の識別又は元の個人情報の復元につながるおそれがある場合に、具体的な商品情報(品番・色)を一般的な商品カテゴリーに置き換える。(一般化)


事例 3)小学校の身体検査の情報を含む個人情報データベース等を加工の対象とする場合において、ある児童の身長が 170 ㎝という他の児童と比べて差異が大きい情報があり、特定の個人の識別又は元の個人情報の復元につながるおそれがある場合に、身長が 150cm 以上の情報について「150 ㎝以上」という情報に置き換える。
(トップコーディング)

事例1は位置情報なので慎重な対応が必要だから、これは削除・加工することに事業者さんとしても気づきやすいような気もします。

しかし事例2は、何をもって当該小売店での購入者が極めて限定されている商品なのかがわからないし、そういうデータや商品の存在に気づかない可能性もあるので、なかなか厳しそうです。めったに売れない商品というのは気づいたとしても、「×店舗ではそこそこ売れるが、▲店舗ではめったに売れない」とか「▲店舗でもそこそこ売れるが、20代男性でそれを購入する人はめったにいない」とか組み合わせで考え出すとかなり難しそうです。

そして事例3は「特異な情報」とは違うのですかね。あまり差異がわかりません*4

 

そしてこの3つの事例ならガイドライン通りにやればいいかもしれませんが、それ以外にどういう加工をしなければならないかがよくわからず不明瞭で、この19条5号の加工をしたということを保証することが極めて困難ではないかと思います。

 

4.抽象化情報

なお、上記のように、匿名加工はとても難しいのですが、もうここは割り切りで、統計情報に限りなく近いデータにすれば、施行規則19条各号を全て満たすことも可能かもしれません。

あと統計情報ではなくて、個々のデータであっても、データによりますよね。各データの近似性が近いというか、個人特定できないようなデータであれば、施行規則19条各号を全て満たすことも簡単かもしれませんし、何とも言えないところです。

そして、ぱっと見は誰の情報かわからないけれども完全に匿名化はできていないという状態のデータをなんというかというと、特に法令上決まりはありませんが、私は総務省の実証事業である方が「抽象化」と呼んだのを受けて、それ以来ずっと「抽象化」と呼んでいます。

 

なお、「抽象化」と「仮名加工」は似ているけど異なる概念です。仮名加工の場合、他の情報と照合しなければ匿名化できているものをいいます。一方、抽象化の場合は、そのデータ単体で個人情報になる可能性があるものになります。

説明のためにあえて概略化した例でいうと*5、仮名加工情報では、例えば「2020年10月4日に×地点で救急車が要請された事案」から、氏名・詳細住所等を削除するなど、匿名加工情報の作成基準に概ね沿った加工をすれば、誰の情報かは、そのデータ単体からはわからないと考えられます。例えば、「2020年10月4日に×地点で救急車が要請された。要請者は会社員。自動車と接触し、救急車要請にいたったもの」といったデータです。

しかし、「2020年10月4日 ×地点 救急車」などでネット検索をしたりすれば詳細データが掲載されており、それと照合すれば誰についての事案かが分かる場合もなくはないかもしれません。

でもこの場合、照合しなければ誰の情報かわからないので仮名加工情報といいうるのではないか。そしてこのデータ単体も、それだけでは誰の情報かわからないので、抽象化データではなく、その加工データ単体しか世の中に仮に存在していないとすれば匿名化データともいいうるのではないかという話です。

これに対し抽象化とは、「2020年10月4日に×地点で救急車が要請された事案」から氏名・詳細住所等を削除したとしても、まれな事案などでその情報だけ見ても、誰の情報かわかってしまう状態のことなどを言います。例えば「2020年10月4日に×地点で救急車が要請された。要請者はプロスポーツ選手。×球場で試合中に頭部にボールをぶつけられ、意識を消失。救急車要請にいたったもの」といった内容であれば、いくら詳細住所がなくても氏名がなくても、これだけで他の情報と照合すらしなくても*6誰の情報かわかる可能性が高いです。これは匿名化情報でもなければ匿名加工情報でもなければ仮名加工情報でもなく、個人情報のままと考えられます。

 

5.パブリッククラウドと法令規制

(1)はじめに

以上、匿名化について書いてきました。

次に、パブリッククラウド問題について記述していきたいと思います。

パブリッククラウドにデータを置く際には個人情報ではなく加工しなければならない」という考え方を持つ方がいて、「これは法律上、条例上そうなっているんだ。法律改正しなければ絶対に不可能だ」などといわれることもありますが、こういった考え方は法律や条例に基づくものでは一般にありません*7

厳に、顧客名簿や従業員名簿その他個人情報が含まれているデータをパブリッククラウドに保管している企業はいるわけですし、行政情報や医療情報だってHER-SYSハーシス(コロナで保健所や病院等が使うシステム)や医療保険者の中間サーバーはパブリッククラウドを使っているような気がします。

 

(2)個人情報保護法の規制 

個人情報保護法上、個人情報の置き場所について特に規制があるわけではありません。「個人情報はインターネットとつながっている環境に置いてはいけません」「パブリッククラウドで保持してはいけません」といった禁止条項はありません。

ただ、個人データは安全に管理する義務があります。これは法律を離れて、常識的に考えてもそうでしょう。いきなり、玄関前の道端に個人情報を段ボールで置いている会社がいたとしたら、「大丈夫だろうか、この会社」と思うと思います。電子データでいえば、企業ウェブサイト上でいきなり顧客名簿が誰でも見られる状態に置いてあったとしたら「大丈夫だろうか」と思うと思います。

個人データを持っている以上、安全に管理する義務があり、これを安全管理措置義務といいます(個人情報保護法20条)。

(安全管理措置)
第二十条 個人情報取扱事業者は、その取り扱う個人データの漏えい、滅失又はき損の防止その他の個人データの安全管理のために必要かつ適切な措置を講じなければならない

安全管理措置義務を履行しなければならないわけで、パブリッククラウド上に個人データを格納することが、この安全管理措置義務違反にならないかを検討することになります。これはパブリッククラウドだけの問題ではなく、プライベートクラウドでもオンプレミスでも紙の保管でも同様です。

ただ、難しいのは、この安全管理措置義務、上に転記した条文の通り、非常にあいまいなわけです。「個人データの安全管理のために必要かつ適切な措置」って言われても、じゃあ何をするんですか?と普通はわかりません。そこで、個人情報保護委員会ガイドラインを出していますが、とはいえ、プライベートクラウドの場合はこういう措置を取らなければなりませんとか、パブリッククラウドの場合はこういう措置が必要とか、紙はこう管理しましょうといったことは、ほとんど書かれていません。個別事例まで含めてガイドラインで説明するというのは難しいですからね。

ということで、結局、何をもって安全管理措置義務を果たしているかを判断するのは大変難しいという現状にぶち当たってしまいます。どうすればいいかは難問ですが、医療情報ガイドライン(「医療情報システムの安全管理に関するガイドライン」、医療情報を受託管理する情報処理事業者における安全管理ガイドライン」、次世代医療基盤法のガイドライン)を参照するとか、ISMSPMSの運用に則るとか、業界内の他事例を参照する等の方法が考えられるとは思います。結局はセキュリティの基本かもしれませんが、情報資産のランクによって、必要な対策レベルを考えるということになるかもしれません。個人情報といっても、機密性は異なり得るものですので。またパブリッククラウドと一言で言っても、かなりの幅があります。かなり厳格なセキュリティ対策が講じられているパブリッククラウドと、無料の簡易的なものまで、幅が広いと思いますので、パブリッククラウドだからどうのと一言でまとめていうのは、そもそも難しいかもしれません。とはいえパブリッククラウド独自の問題もあり、例えばデータ消去などは、自分のブツではないので、媒体の物理削除とかはできないわけで、論理削除にとどまるのかなとか、そもそもサーバがどこかも不明とか(リージョン指定はできる場合があるし、一定の場所を公開している場合もありますが)、オンプレとは違った検討が必要な部分も当然あります。

 

ということで、ぱっきりした回答ができないのですが、法律論でいえば、「個人データの安全管理のために必要かつ適切な措置」が取れていれば、匿名化していない個人データのままでも、パブリッククラウド上で保持することは可能であると考えられます。

とはいえ、匿名化や抽象化ができるのであれば、生情報をそのままクラウド上に保持するよりも良いことは当然そうでしょう。逆に言えば、加工をするということが、安全管理措置の一種であるということでしょうか。

 

(3)個人情報保護条例の規制 

次に、自治体に適用される個人情報保護条例について考えていきます。

条例上も個人情報保護法と同様、一般的な条例であれば、パブリッククラウド禁止などの規制はありません。

ただ、条例の場合は個人情報保護法と異なり、「オンライン結合規制」などがあります。しかし、それもパブリッククラウドに特化した規制ではなく、条例にもよりますが、ベースは、自治体の計算機と他の計算機を結合する場合などは、法令に基づく場合や審議会諮問を経た場合じゃないとだめなどとする規制です。専用線で結合しようが、インターネットで結合しようが、オンライン結合規制に該当するという場合が一般的でしょう。そしてオンライン結合が全面禁止されているわけではなく、法令に基づく場合や審議会諮問を経た場合等、一定の場合は可能になっています。そして実務を考えると、現実的には、オンライン結合はいっぱい行われているようにも見えます。

 

条例でも個人情報保護法と同様に安全管理措置義務が課せられている場合が通例だと思います。仮に安全管理措置義務が規定されていない場合でも、条理上そのような義務が観念でき、国賠請求されたら安全管理できていなければ敗訴するようにも思います。

パブリッククラウドであってもプライベートクラウドであってもオンプレであっても、個人情報保護条例上は特に規制に差異があるわけではなく、安全管理措置義務などが条例上あれば、それに沿っていれば良い、極論すれば安全に管理・廃棄できるのか等の問題をクリアすれば、生の業務情報・個人情報のそのままの状態でもパブリッククラウドにアップ自体はできますが、それをやる自治体はほとんどいなく、みなさんだいたい、抽象化程度に加工してアップしたりしているようです。もっとも、HER-SYSハーシスは抽象化加工もしていないと思いますが、それだけで条例違反ということはないでしょう。

 

以上、ざっと書きましたので、もしかすると不正確な点があるかもしれません。が、エッセンスとしては上記の通りです。

*1:匿名加工情報ではなく匿名化という概念については、個人情報保護法制上の定義がないので、あくまで一般論の話

*2:ただ、「個人情報該当性」のほか「個人データ該当性」という論点が別個あることはあります。また個人情報保護条例が適用になる場合は「個人データ該当性」はおおむね論点とならず「保有個人情報該当性」が論点となる場合が多いですし、匿名加工情報ではなく非識別加工情報になりますが、多くの団体で条例下されていないので…という論点も別途あります。

*3:匿名加工情報ではない匿名化情報という概念が措定できるとすれば、匿名加工情報の基準を全部満たさなくても良いはずではあるが…。例えば統計処理をする場合に、匿名加工情報の基準を全部満たさなくても、最終結果が逆に匿名加工情報よりも非個人情報度合いが強いということはあり得なくはなさそうでもある。

*4:対象データが小学生だから170センチで置換が必要という話ですかね。でもそれも「特異」に入るとは思うのですが

*5:正確性は目をつぶってあえて概略化した例ですので、ご注意ください

*6:この場合、「記憶」によって、2020/10/4に頭部にボールをぶつけられて意識を消失した選手が誰かわかるわけですが、その「記憶」を「他の情報」と観点すれば、これも(容易)照合の問題にはなりますが。

*7:もっとも、すべての条例をチェックしたわけではないので、例外的な条例でそういう規制が置いてある可能性も排除できません。但し一般的な条例であれば、そのような規制はないと考えます。