首页 游戏 资讯 关注 科技 财经 汽车 房产 图片 视频

数据

旗下栏目: 业内 数据 数码 手机

大数据与个人隐私,相知莫如仅相识

来源:网络整理 作者:安庆新闻网 人气: 发布时间:2018-05-17
摘要:美国西部时间周二到周三,Facebook创始人兼CEO马克·扎克伯格在在美国众议院能源和商务委员会面前,面对 44 位议员的质询,接受连续两天长达 10 小时的轮番盘问

推荐相关文章:

企业大数据工作的任务、工具及随着互联网、移动互联网和物联网的广泛而深入地应用,人类活动的踪迹加快在网络空间的映射,网络浏览、行车轨迹、物等等均留下数据记录。

大数据带火统计学丨统计学你了统计?对统计学不了解的人,看到这个专业后,就会有这样的疑问:统计不就是问几个问题,发几张调查问卷,记录几个数,算个总数、平均数啥的吗?还要开一个专业?

  美国西部时间周二到周三,Facebook创始人兼CEO马克·扎克伯格在在美国众议院能源和商务委员会面前,面对 44 位议员的质询,,接受连续两天长达 10 小时的轮番盘问。

  质询事件的导火索是Facebook与剑桥分析(Cambridge Analytica)的隐私泄露风波,但矛头非常明确,直指Facebook利用其行业垄断地位滥用用户数据,导致用户隐私信息泄露问题。

  话题并不新鲜,关于谷歌、亚马逊、Facebook、BAT等互联网巨头未经授权,私自将用户数据用于商业用途的问题一早被人诟病,但无论在法律还是行业规范层面,都未能很好地解决这个问题,那为什么今天会再次吸引全球的目光,不仅因为Facebook自带话题性,更可能的原因是,一种颠覆性的技术已经出现,它非常有可能解决这一痛点问题,那就是区块链。

  区块链由于其分布式存储、加密算法、不可篡改、公开透明等特点,理论上能有效对数据使用的授权、使用记录进行控制,使数据生产者能自己主宰数据,包括对数据的使用授权、数据价值收益权的掌握,因而被寄予厚望。

  然而目前的情况是,理想很丰满,现实很骨感。一方面,大家对用区块链来解决“数据隐私”核心问题的认识还不够深,对于数据隐私问题本质上是解决什么问题还回答不上,另一方面,由于理论和技术上的瓶颈,短期内恐怕无法看到具体应用的落地。

  但这并不是我们放弃思考的借口,或许在这场区块链飓风中,我们更需要保持清醒的头脑,才能认清事情的本质,下面和大家分享对此问题的一些思考,当我们在高呼保护数据安全,防止信息滥用时,我们呼吁的到底是什么。

  自大数据技术兴起之始,关于数据隐私的争论就从未平息。

  Facebook 泄露5000万用户数据的事情余波未消,李彦宏一句“中国人愿意用隐私换便利”再掀波澜,近日,支付宝因三项违规被罚18万其中一条也是“个人金融信息使用不当”。

  为何数据泄露事件屡发不止?大数据技术与个人隐私之间的矛盾真的就不可调和吗?大数据时代我们真的都是透明人吗?

  其实不然。

  人对风险有天生的厌恶,只要涉及到自身利益,往往就会将自己拥有的给放大,同时会怀疑相关利益方各种“不怀好意”,在数据隐私问题上,这可能导致两个问题,也是可能陷入的误区:一个是我们的数据绝对不能公开,公开就意味着被侵权的可能,另一个是互联网巨头就是我们价值的攫取者,所以我们之间的关系是对立的。

  先来说第一种,用户在数据公开和隐私保护之间的平衡问题。大家都知道,我们每浏览一个网页,每点击一个页面,应用商都在获取我们的行为数据,在数字经济中,我们的数据不可避免地被应用提供商获取,所以问题的重点变成了它们如何使用我们的数据,是完全公开,还是授权给另外的第三方。

  Facebook的“剑桥分析”风波就是因为未经用户允许将用户数据授权给了第三方,这种未得到用户允许就擅自支配数据使用权限的行为就被称为数据的滥用。对于用户来说,自然是不乐意的,有谁愿意将自己的私人信息赤裸裸地展露在大众面前,所以他们会抵制互联网巨头,因为它们的个人信息被谁使用,如何使用,他们是完全不知道的。

  那如果现在互联网巨头给你一个权利:你可以选择公开你的数据,也可以选择不公开,那你会怎么做呢?我想应该没有人会选择完全公开或完全不公开这种极端的答案,最明智的答案是什么,是我选择向一部分人公开我的数据,但并非所有数据,数据的开放也不是免费的,需要收取部分利益作为我对你开放数据的补偿。

  所以开放数据只是浅层表现,最根本的问题是:用户要牢牢掌握对自己数据使用规则的制定权,这才是最重要的。用户可以决定,他的数据谁能用,谁不能用,用到什么程度,用的话要付出什么代价,代价大小怎么定,所有的这一切,都是用户自己说了算。

  而我们经常会陷入“数据就不应该被公开”的误区,而忽略了数据公开规则制定权才是最重要的。

  第二种误区是将互联网巨头当成我们的对立方。因为它们攫取了我们数据商业价值的果实,它们获得巨额利润和逐渐形成垄断的同时,我们却一无所得。但是别忘记了,如果没有大数据和智能算法,我们今时今日也无法获得很多高效便捷的服务。

  李彦宏在中国发展高层论坛上表示中国用户更加开放,对隐私问题没那么敏感,在很多情况下愿意用隐私交换便捷性和效率。这一点李彦宏其实是说了大白话,只是被媒体断章取义放大了,商业效率和用户数据使用之间本身就存在矛盾,只是看如何平衡,这又回到了第一点,靠规则的制定来解决。

  01 隐私换便利没有错,前提是知情与允许

  李彦宏一句“中国人愿意用隐私换便利”在媒体的推波助澜下被万众谴责,然而大家只知其一,不知其二。李彦宏这句话的下一句是:“当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们才会去使用它。而这个原则带入到用户的角度,那就是要在用户知情、允许的前提下,变向地用隐私换取服务。”

  当局部变得完整,细细品味,其实此言不无道理。

  因为我们每个人,都曾用“隐私换便利”。比如,为了吃到外卖,必须把自己的联系方式与家庭住址让渡出去;为了打车,必须把你所在的实时位置让渡出去;为了看病,必须把自己的病历信息让渡出去;为了看自己喜欢的资讯,必须把自己的浏览记录让渡出去……

  这些行为之所以不违法,是因为用户知情,并且允许。而Facebook利用“性格测试”的幌子,让27万用户在不知情的前提下提交了自己身份信息和社交信息,并通过这27万用户获取了他们超过5000万的社交好友资料,最后转交给剑桥分析。在这个过程中,所有用户都不知情,更谈不上允许,并且还存在诱导欺诈行为。如果Facebook从最开始就明确告知用户收集信息的目的,并经用户同意后再行处理,那么扎克伯格就不用亲赴国会面对众人质询了。

  知情与允许是企业获取用户数据的前提,但让用户知情并心甘情愿允许却并非易事。所谓上有政策,下有对策,各大企业为了获取这宝贵的“允许”可谓花样百出,各显神通。虽然此次支付宝个人金融信息使用不当的具体细节未披露,但去年年底支付宝账单默认勾选“同意芝麻服务协议”的“愚蠢行为”想必大家还记忆犹新,更别提普天之下有多少APP实行“强制允许”——不允许无法使用。

  难道要想获得便利、高效的互联网服务,我们真的必须穿上“皇帝的新装”,做个没有隐私的“透明人”吗?

  其实不然,江湖混战,还需遵“道”。此“道”为法。目前,我国关于数据隐私的立法,已经初步启动。

  02 多层立法模式确保剑柄握在用户自己手里

  大数据立法的前提在于厘清隐私保护的边界以及个人数据的归属权。

  从网络实践来看,网络隐私包括用户的身份信息和网络行为数据。网络身份信息涵盖用户实名身份信息、注册信息和虚拟地址信息等足以精准到个人信息的数据,在法律性质上属于传统隐私权涵盖范围。至于网络行为产生的数据信息,因直接或间接都无法精确到自然人,所以其法律性质更像是知识产权。

  2017年6月1日起正式实施的《网络安全法》第76条明确规定了法律保护的个人信息范围,即“单独或者与其他信息结合识别自然人个人身份的各种信息”。除此之外的数据信息即行为数据,属于大数据性质,不在隐私权保护体系范围之内。

  根据这一法律逻辑,我国初步建立起了对隐私保护的三层立法模式,

  第一层,自然人的姓名、身份证件号码、电话号码等敏感的身份信息是法律保护最高等级,任何人触犯都将受到刑事法律最严格的处罚。这一点要求大数据企业未经用户允许不得采集、使用和处分具有可识别性的身份信息。

  第二层,对于除个人身份信息之外的不可识别的数据信息,按照商业规则和惯例,以“合法性、正当性和必要性”的基本原则进行处理。这一点确保大数据企业即便在征求用户同意之后,也不得违反法律规定过度化使用不可识别的数据信息。支付宝此次被罚其中一条就是“个人金融信息收集不符合最少、必需原则”。

  第三层是明确个人数据控制权。《网络安全法》明确规定数据控制权是人格权的重要基础性权利。Fackbook数据泄露事件正好强化了公众的数据保护意识,大数据企业应该从技术和制度两方面,保证用户充分享有对自己数据的知情权、退出权和控制权,确保剑柄握在用户手中。在此方面,欧盟曾推出“被遗忘权”,允许用户从搜索引擎结果页面中删除自己的名字或者相关历史事件。

  03 大数据企业让数据懂你但不认识你

  除了国家立法层面,大数据企业也应该遵守一定的规范,积极主动地保护用户隐私。

  首先,大数据公司只能收集为我们提供特定服务所必需的特定数据。打车或外卖软件只能要求用户提供实时位置和电话号码,而不能收集用户的身份证号码等其他不相关信息,修图软件可以收集用户的图片信息而不能要求用户提供文章信息。

  对于经用户允许收集来的信息,大数据企业也必须保证不能错用、滥用。除此之外,大数据企业也有责任保护用户隐私数据不为第三方窃取或滥用。比如我们的就诊信息被医药公司窃取,那么医院必须承担相应的责任。此次Facebook引起公愤,正是因为其数据被剑桥分析窃用,没有尽到保护的职责。

  除了统一的使用规范,大数据公司还可通过数据脱敏的技术手段来保护个人隐私。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的保护。即将用户的个人信息在企业内部以匿名化方式存储,比如淘宝可以在储存你的浏览记录时匿去个人身份信息,这样它就能在不侵犯你隐私的情况下给你推荐喜欢的商品,懂你,但不认识你。

  “懂你,但不认识你。”这便是大数据发展与个人隐私之间的一个平衡点,是数据生命周期中的最好状态。

  掌握着大量数据的企业,首先应该做的便是利用技术把握好这个平衡点,而非一心利用数据追求商业价值。只有突破了数据隐私保护的瓶颈,大数据企业才能迎来真正的春天。

责编:zhangxuefeng

企业大数据工作的任务、工具及挑战

  随着互联网、移动互联网和物联网的广泛而深入地应用,人类活动的踪迹加快在网络空间的映射,网络浏览、行车轨迹、物等等均留下数据记录。目前,全球数据呈现爆发式增长态势,人类社会迈入大数据时代;全球每18个月新增数据量是人类有史以来全部数据量的总和。大数据的核心是数据,与大小无关,数据已经成为战略资产。数据是人类活动在网络空间的映射,蕴含人类生产、生活的规律,挖掘数据潜在价值,对国家治理、社会管理、企业决策和个人生活影响深远。世界经济论坛的报告认为大数据为新财富,价值堪比石油;商业版图由此被重新划定,通晓如何利用这些数据的企业将成为最强者。

\


  0. 澄清基本概念

  为了不在后面讨论中因概念不清产生误解,我们首先给出几个定义:

  大型IT企业:指对外提供IT相关的软硬件产品及服务的公司,员工至少在万人以上。

  数据平台:指大型IT企业用来为自身服务为主,担负数据存储、处理、分析业务和软硬件综合。主要针对内部服务,不对外开发。

  数据分析:此处的数据分析师广义的,包括一切基于数据得出的insights的行为,包括统计分析、机器学习建模和预测等。

  1. 大型IT企业开展对内数据业务的驱动力

  就目前而言,IT企业针对自身的数据分析业务可以分为广告和非广告两类。对大多数企业而言,除了广告之外的数据业务,并不能直接带来可以量化的收入。但是,无论当前数据分析的结果为企业的现金流做了多少贡献。数据为王的思想已然占据了众多前沿企业间的头脑。数据是矿山,insights是金子,有了矿山才能有金子,有了矿山,终究会有金子。

  因此,开发数据业务最主要的驱动力,实际是对数据业务未来前景的积极预估。

  主要应用有(除广告之外):

  用户画像——越来越多的企业开始观众用户画像,毕竟知己知彼百战不殆,卖东西先得了解买主。

  客户保持——预测哪些现有客户可能弃用产品或服务,即使采取措施挽留之。

  产品使用分析——DAU,MAU,PV,UV,CTR等等,这些看起来都是些简单的统计数字,但却是反应产品被使用情况的重要指标。

  产品推荐、销量预测

  销售指标……等等

\


  具体到某一种应用,看似并不复杂,有些有成熟的方法可以用来训练模型,还有些根本就是统计指标。似乎并不需要什么高深的算法背景。但一旦涉及实际,就不像看起来那么简单了。即使是统计指标,也不像想象得那样,随便run几个sql query就能得出来。

  对于大型分布式系统,不同模块的访问log都有可能分布在不同的cluster上,单纯收集每日全局log就是一个复杂工作,更别说之后的合并、去重、聚合等工作

  因此,大型企业的数据分析不是做个excel表,安装一个免费mysql能够解决的,而是需要专门的大型数据分析平台。

  2. 数据分析平台通用架构

  常见的数据分析平台,至少包括数据存储、处理和分析三个部分。

\


  2.1 数据存储

  数据存储不必解释,是一定必要的。但是如何备份是一个很重要的问题。 假设:某公司一年产生上千PB的数据。按照单纯数据的存储费用1美元/GB年计算,存1TB一年就是1000美元,一PB就是100万,1000PB就是10亿。如果就是简单的使用hadoop的默认配置,每份数据都存3份,那么,这个实际产生数据x 3的体量将有多大?有将有多大的cost?

  这是存储层的挑战。为了解决这个问题,一方面从硬件层面力图降低存储介质的价格,比如近年来冷存储的提出,就是针对运维费用。另一方面就是寻找备份算法。例如,yahoo专门研发了一种图片存储算法,逻辑上是11个备份,但是size只有原size的1.x倍。

\


  2.2 数据处理

  数据处理传统上叫ETL、EDW,主要指数据的清洗、迁移和格式化。大数据平台,由于应用范畴不同,自然多种多样,源数据包括结构化数据和非结构化数据。但是如果数据真的是“大数据”(符合4V特征)的话,即使本身收集上来的数据是结构化的,也往往需要二次处理,转换format或schema。

  数据处理层所需技术相对简单,然而挑战在于对于数据的理解。如果不知道这个收集上来的log文件里面要提取出多少字段,每个字段对应数据源中的哪个部分,则数据提取完全不能进行。这就要求进行数据处理的人必须同时具备对业务的了解。

\


  2.3 数据分析

  数据分析是数据中寻找价值的关键步骤。数据分析工作本身还处于初级阶段。除了一些简单的统计计算,大多数数据还是只能交给分析人员,进行没有特别针对性的探索,效果难以得到保证。

  对于这些挑战,开展数据业务早的公司,相应的平台和技术是在针对自身业务的过程中慢慢发展起来,部分公司选择是将平台外包或者自己开发针对自身业务的定制功能。相对于前两者,数据分析师一个业务针对性更强的步骤,因此更难采用通用方法或手段解决,更加依赖企业自身的积累。

\


  3. 数据分析平台开源框架

  3.1 开源框架


  目前,就国内而言,谈到数据分析相关的开源框架,总不能忽略下面三个:

  hadoop:batch,mapReduce

\


  storm:streaming

\


  spark:batch + streaming

\


  这些开源框架的共同特点是把重点放在并行计算框架上,关注的是job latency, load balance和fault recovery,对于资源分配、用户管理和权限控制几乎不考虑。它们基于的假设是:所有用户都一样,平权,所有用户都能用所有的机器以最快的可能完成所有工作。

  3.2 开源框架的局限

  而在大型企业内部,不同部门,同一部门的不同job,绝对不是平权的。不同部门之间,也有很多私密的数据,不让别人访问。不同用户的权限也是不一样的。对于计算资源的需求,因为不同job的优先级不同,,也要求予以区别。在这种需求之下,催生了一些第三方,专门提供hadoop等开源框架的资源、权限管理产品或者服务。hadoop在升级到2以后,也考虑一些数据隔离的问题。但其力度,恐怕难以满足大多数大型企业的要求。这也是使用开源框架的无奈。使用开源产品的商业发行版,也是一种办法。不过始终是不如企业原生系统在这方面的支持。

\


  3.3 企业原生框架

  确实也有些企业独立开发了全自主(不基于开源产品)的仅限于内部使用的分布式数据处理平台。在用户管理,数据访问权限,存储、运算资源管理等方面很下功夫。

  例如:要求每个用户在提交job前必须先申请token,有多少token,就有多少计算量。不同数据存储路径之间的权限完全单独管理,使用者也要实现申请权限。

  但是开发这样的系统意味着企业必须具备非常强大的研发能力,并能承担得起巨大的人力等资源的消耗。而且相对于开源系统已经实现的功能,难免有重复造轮子之嫌,即使是大型企业,也很少选取这种方案。

  4. 大型IT企业数据业务的挑战

  4.1 通用挑战:意识、技术和人才

  4.1.1 意识


  意识主要是指决策层的思想意识——数据对于企业发展是否真的必要?这一点在很多管理者脑子里还是存疑的,他们目前所处状态很多是:听说数据这东西有用,人家都在搞,所以我们也要搞,至于是不是真有用,搞出来看看再说。如果只是采用游戏或者试探态度,必然影响发展进程。但这也是没办法的事情,所有新事物都必须经历这一过程。

\


  4.1.2 技术


  技术指目前数据分析的技术,基本是采用新框架逆流支持旧接口的策略。曾经有一篇文章,名叫《NoSQL?NO,SQL》,说的就是这个。包括spark回头支持SQL,也是如此。明明我们分析的是非结构化数据,但是因为高阶算法的问题,却连mapReduce都放弃了,索性回到SQL时代。为了让更多人用的舒服,不去开发针对非结构化数据的新方法,而是反过来,向下兼容结构化。个人认为这是一种逆流。这样做则永远无法避免巨大的数据处理工作。

  4.1.3 人才

  “数据科学家”这个词大家肯定都知道。可是,这个职位其实很模糊,不同公司,甚至同一公司的不同部门之间对这一职位的定义相差甚远。有些数据科学家是学数学的博士,有些是以前做BI的,有些是PM转行的,水平参差不齐。所以,恐怕在相当长的时期里,这会是一个门槛低,要求高的职位。很难短时间内批量涌现出优秀者。

  4.2 特有挑战:产品align

  产品align是说每个产品的数据分析结果可以互相对比,也就是要求其定义和实现都一致。对于一个产品众多的大企业而言,要求不同产品、流水线的分析报告具有可比性,这是一个很常见的需求。但是由于现在大多数企业中数据分析不是由一个部门统一管理,各个产品部门各自为战,结果导致在align的过程中互相牵制,进而拉低了所有产品的分析水平。这样的挑战有赖于企业总体数据策略的制定和执行。而整体策略的制定和执行又有赖于前面所说的三点通用挑战,环环相扣,显然不能一蹴而就。

  5. 大企业数据工作的发展趋势

  早期的数据分析工作,在实践层面基本采用批处理模式。随着业务的发展,对于其实时或者准实时(NRT)的需求越来越多。提供latency极短的增量分析和流式服务是众多企业数据分析工作的当务之急。

  从长远考虑,真正拥有数据的是大企业,未来,大企业在数据的分析利用上,也必将全面胜出小企业。不过,处于不同成熟阶段的大公司突破点各不同。有些技术先行,在分析方法和工具上成为领军。另一些则倾向数据管理和治理,在管理层面上,在策略、条例的制定上为整个社会提供先进经验。

责编:zhangxuefeng


责任编辑:安庆新闻网
首页 | 游戏 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频

Power by pk10 安庆新闻网 www.yyjyw.net 安徽省安庆第一新闻门户网站---安庆新闻网 pk10开奖直播 版权所有

电脑版 | 移动版