
Big Data = Big Failure II – وبلاگ
ناشناس ماندن با یک نقطه داده ممکن است. با این حال ، به محض جمع آوری یک سری داده ها ، ناشناس ماندن غیرممکن می شود. بیایید قدم به قدم این کار را انجام دهیم.
هفته گذشته در مورد چگونگی پیش بینی آرا political سیاسی ، عقاید ، مذهب و منافع سیاسی که امروز جمع آوری شده است ، نوشتیم. در این هفته ما به عنوان مثال نشان خواهیم داد که چگونه یک نقطه داده واحد در یک مجموعه باعث می شود که ناشناخته نمانید.
One Data Point
به عنوان مثال ، بیایید یک نقطه داده واحد را که شامل زمان ، مکان و دما:
زمان | مکان | دما |
---|---|---|
2021-05-31 12:00 | گوتنبرگ |
15 درجه سانتیگراد |
روش معمول "ناشناس ماندن" داده ها حذف یکی از عناصر است ، در این مورد ، مکان:
زمان | دما |
---|---|
2021-05-31 12 : 00 |
15 درجه سانتیگراد |
اکنون تعیین مکان نقطه داده کار دشواری است. حتی اگر همه داده های دمای موجود در جهان را داشته باشیم ، به احتمال زیاد با جستجوی بسیاری از مکان ها مطابقت دارد با این نقطه داده خاص. اگر زمان را نیز بیشتر حذف کنیم ، تلاش برای تعیین دقیق موارد بی معنی است.
مجموعه ای از نقاط داده
با یک سری نقاط داده ، سناریو به طور قابل توجهی تغییر می کند.
زمان | مکان | دما | ||
---|---|---|---|---|
2021-05-31 12:00 |
گوتنبرگ |
15 درجه سانتیگراد | ||
2021-06-01 12:00 | گوتنبرگ | 14 درجه سانتیگراد | ||
2021-06-02 12:00 | گوتنبرگ | 12 درجه سانتیگراد [196590259] 2021-06-03 13:00 | گوتنبرگ | 15 درجه سانتیگراد |
اگر مکان را حذف کنیم ، هنوز 4 مقادیر دما و زمان به ترتیب داریم که می توانیم آنها را با اندازه گیری در سراسر جهان مطابقت دهیم.
زمان | دما |
---|---|
2021-05-31 12:00 | 15 درجه سانتیگراد |
2021-06-01 12:00 | 14 درجه سانتیگراد |
2021-06-02 12:00 | 12 درجه سانتیگراد |
2021-06-03 13:00 |
15 درجه سانتیگراد |
این تعداد مکانهای سری داده را می تواند از حدود 1 یا 2 مکان محدود کند. از نظر داده های موقعیت مکانی ، 4 نقطه داده تعداد معمول نمونه های داده ای است که برای شناسایی فرد مورد نیاز است.
اگر بخواهیم نقاط داده زمان را حذف کنیم ، برای تعیین مکان به عنوان "گوتنبرگ". این امر تا زمانی امکان پذیر است که توالی از نقاط داده به ترتیب زمانی داشته باشیم.
به عنوان مثال ، اگر 365 نقطه داده داشته باشیم ، تشخیص اینکه این قرائت های دما از چرخه آب و هوای اسکاندیناوی پیروی می کنند بسیار آسان خواهد بود. می توانیم تعیین کنیم که داده ها مربوط به چه سالی است و آنها را تا گوتنبرگ محدود می کنیم. با وجود تعداد داده های مرجع موجود و امکانات هوش مصنوعی ، انجام این کار آسان خواهد بود.
هرچه تعداد مجموعه های داده جمع آوری شده رشد می کند و تعداد سری داده های قابل شناسایی برای مقایسه نیز به طور پیوسته افزایش می یابد ، ماندن در این زمینه غیر ممکن می شود.
اطلاعات بیشتر در مورد ناشناس ماندن مجموعه داده ها
آیا قسمت اول این مجموعه را از دست نداده اید؟
برای حق جهانی حریم خصوصی ،
Mullvad VPN
.