首页 游戏 资讯 关注 科技 财经 汽车 房产 图片 视频

数据

旗下栏目: 业内 数据 数码 手机

基于Hadoop的大数据平台实施

来源:网络整理 作者:安庆新闻网 人气: 发布时间:2018-05-17
摘要:大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所

推荐相关文章:

中国网络空间安全协会的副理事2018年5月5日下午,由中国新一代IT产业推进联盟指导,CIO时代学院主办、《金融电子化》杂志社支持的“第十二期金融CIO论坛”于北京成功举行,中国网络空间安全协

企业大数据工作的任务、工具及随着互联网、移动互联网和物联网的广泛而深入地应用,人类活动的踪迹加快在网络空间的映射,网络浏览、行车轨迹、物等等均留下数据记录。

  大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗?

  做为一家第三方支付公司,数据的确是公司最最重要的核心资产。由于公司成立不久,随着业务的迅速发展,交易数据呈几何级增加,随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句,紧接着系统开始罢工,内存溢出,宕机........简直就是噩梦。OMG!please release me!!!

  其实数据部门的压力可以说是常人难以想象的,为了把所有离散的数据汇总成有价值的报告,可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说,工欲善其事,必先利其器。我们也该鸟枪换炮了......。

  网上有一大堆文章描述着大数据的种种好处,也有一大群人不厌其烦的说着自己对大数据的种种体验,不过我想问一句,到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题,好像没看到有多少评论会涉及,可能是大数据太新了(其实底层的概念并非新事物,老酒装新瓶罢了),以至于人们还沉浸在各种美妙的YY中。

  做为一名严谨的技术人员,在经过短暂盲目的崇拜之后,应该快速的进入落地应用的研究中,这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话,当做发泄也好,,博眼球也好,总之,我想表达的其实很简单:不要被新事物所迷惑,也不要盲目的崇拜任何一样新事物,更不要人云亦云,这是我们做研究的人绝对要不得。

  说了很多也是时候进入正题了。公司高层决定,正式在集团范围内实施大数据平台(还特地邀请了一些社区的高手,很期待.......),做为第三方支付公司实施大数据平台也无可厚非,因此也积极的参与到这个项目中来。正好之前关于OSGi的企业级框架的研究也告一段落,所以想利用CSDN这个平台将这次大数据平台实施过程记录下来。我想一定能为其它有类似想法的个人或公司提供很好的参考资料!

  第一记,大数据平台的整体架构设计

  1. 软件架构设计


\


  大数据平台架构设计沿袭了分层设计的思想,将平台所需提供的服务按照功能划分成不同的模块层次,每一模块层次只与上层或下层的模块层次进行交互(通过层次边界的接口),避免跨层的交互,这种设计的好处是:各功能模块的内部是高内聚的,而模块与模块之间是松耦合的。这种架构有利于实现平台的高可靠性,高扩展性以及易维护性。比如,当我们需要扩容Hadoop集群时,只需要在基础设施层添加一台新的Hadoop节点服务器即可,而对其他模块层无需做任何的变动,且对用户也是完全透明的。

  整个大数据平台按其职能划分为五个模块层次,从下到上依次为:

  运行环境层:

  运行环境层为基础设施层提供运行时环境,它由2部分构成,即操作系统和运行时环境。

  (1)操作系统我们推荐安装REHL5.0以上版本(64位)。此外为了提高磁盘的IO吞吐量,避免安装RAID驱动,而是将分布式文件系统的数据目录分布在不同的磁盘分区上,以此提高磁盘的IO性能。

  (2)运行时环境的具体要求如下表:

  名称版本说明

  JDK1.6或以上版本Hadoop需要Java运行时环境,必须安装JDK。

  gcc/g++3.x或以上版本当使用Hadoop Pipes运行MapReduce任务时,需要gcc编译器,可选。

  python2.x或以上版本当使用Hadoop Streaming运行MapReduce任务时,需要python运行时,可选。

  基础设施层:

  基础设施层由2部分组成:Zookeeper集群和Hadoop集群。它为基础平台层提供基础设施服务,比如命名服务、分布式文件系统、MapReduce等。

  (1)ZooKeeper集群用于命名映射,做为Hadoop集群的命名服务器,基础平台层的任务调度控制台可以通过命名服务器访问Hadoop集群中的NameNode,同时具备failover的功能。

  (2)Hadoop集群是大数据平台的核心,是基础平台层的基础设施。它提供了HDFS、MapReduce、JobTracker和TaskTracker等服务。目前我们采用双主节点模式,以此避免Hadoop集群的单点故障问题。

  基础平台层:

  基础平台层由3个部分组成:任务调度控制台、HBase和Hive。它为用户网关层提供基础服务调用接口。

  (1)任务调度控制台是MapReduce任务的调度中心,分配各种任务执行的顺序和优先级。用户通过调度控制台提交作业任务,并通过用户网关层的Hadoop客户端返回其任务执行的结果。其具体执行步骤如下:

  任务调度控制台接收到用户提交的作业后,匹配其调度算法;

  请求ZooKeeper返回可用的Hadoop集群的JobTracker节点地址;

  提交MapReduce作业任务;

  轮询作业任务是否完成;

  如果作业完成发送消息并调用回调函数;

  继续执行下一个作业任务。

  作为一个完善的Hadoop集群实现,任务调度控制台尽量自己开发实现,这样灵活性和控制力会更加的强。

  (2)HBase是基于Hadoop的列数据库,为用户提供基于表的数据访问服务。

  (3)Hive是在Hadoop上的一个查询服务,用户通过用户网关层的Hive客户端提交类SQL的查询请求,并通过客户端的UI查看返回的查询结果,该接口可提供数据部门准即时的数据查询统计服务。

  用户网关层:

  用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证,是用户唯一可见的大数据平台操作入口。终端用户只有通过用户网关层提供的接口才可以与大数据平台进行交互。目前网关层提供了3个个性化调用接口:

  (1)Hadoop客户端是用户提交MapReduce作业的入口,并可从其UI界面查看返回的处理结果。

  (2)Hive客户端是用户提交HQL查询服务的入口,并可从其UI界面查看查询结果。

  (3)Sqoop是关系型数据库与HBase或Hive交互数据的接口。可以将关系型数据库中的数据按照要求导入到HBase或Hive中,以提供用户可通过HQL进行查询。同时HBase或Hive或HDFS也可以将数据导回到关系型数据库中,以便其他的分析系统进行进一步的数据分析。

  用户网关层可以根据实际的需求无限的扩展,以满足不同用户的需求。

  客户应用层:

  客户应用层是各种不同的终端应用程序,可以包括:各种关系型数据库,报表,交易行为分析,对账单,清结算等。

  目前我能想到的可以落地到大数据平台的应用有:

  行为分析:将交易数据从关系型数据库导入到Hadoop集群中,然后根据数据挖掘算法编写MapReduce作业任务并提交到JobTracker中进行分布式计算,然后将其计算结果放入Hive中。终端用户通过Hive客户端提交HQL查询统计分析的结果。

  对账单:将交易数据从关系型数据库导入到Hadoop集群,然后根据业务规则编写MapReduce作业任务并提交到JobTracker中进行分布式计算,终端用户通过Hadoop客户端提取对账单结果文件(Hadoop本身也是一个分布式文件系统,具备通常的文件存取能力)。

  清结算:将银联文件导入HDFS中,然后将之前从关系型数据库中导入的POSP交易数据进行MapReduce计算(即对账操作),然后将计算结果连接到另外一个MapReduce作业中进行费率及分润的计算(即结算操作),最后将计算结果导回到关系型数据库中由用户触发商户划款(即划款操作)。

  部署架构设计

\


  关键点说明:

  目前整个Hadoop集群均放置在银联机房中。

  Hadoop集群中有2个Master节点和5个Slave节点,2个Master节点互为备份通过ZooKeeper可实现failover功能。每个Master节点共享所有的Slave节点,保证分布式文件系统的备份存在于所有的DataNode节点之中。Hadoop集群中的所有主机必须使用同一网段并放置在同一机架上,以此保证集群的IO性能。

  ZooKeeper集群至少配置2台主机,以避免命名服务的单节点故障。通过ZooKeeper我们可以不再需要F5做负载均衡,直接由任务调度控制台通过ZK实现Hadoop名称节点的负载均衡访问。

  所有服务器之间必须配置为无密钥SSH访问。

  外部或内部用户均需要通过网关才能访问Hadoop集群,网关在经过一些身份认证之后才能提供服务,以此保证Hadoop集群的访问安全。

责编:zhangxuefeng

中国网络空间安全协会的副理事长杜跃进:大数据时代下的数据安全

\



  2018年5月5日下午,由中国新一代IT产业推进联盟指导,CIO时代学院主办、《金融电子化》杂志社支持的“第十二期金融CIO论坛”于北京成功举行,中国网络空间安全协会的副理事长、贵州大数据安全工程研究中心主任杜跃进发表了题为《大数据时代下的数据安全》的主题演讲。

 

  以下为演讲实录:

 

  我主要和大家分享四部分内容。第一部分跟大家分析一下我们到底应该做什么,数据安全是什么;第二部分和大家快速地分析一下,在今天数据安全这么混乱的情况下,各个方面存在的最主要的误区。第三部分就是方案在哪里,从乱到解在什么地方。

 

  引言--数据安全空前热闹和混乱

 

  引言部分我用一个字概括--“乱”。“乱”首先是乱在概念上。云计算一出来云计算就“乱”了;物联网一出来物联网就“乱”了;区块链一出来区块链就“乱”了。如今安全这么热,尤其是数据安全,但是这个概念也非常“乱”。

 

  一、概念--数据安全

 

#p#分页标题#e#

  人们对数据安全的恐慌其实非常厉害,甚至愈演愈烈。大家一听到精准营销、用户画像,甚至采集信息时,就觉得难以接受。然而,未来所有行业无一例外会走向精准营销,未来发展更会走到基于大数据、基于消费者最终需求的定制化服务上,定制化服务就需要用到个人信息分析,但是定制化服务一定意味着隐私被侵犯吗?其实并不是这样子。在现今误解非常厉害的情况下,很多人都谈数据色变。如果这个观念不能被纠正过来的话,金融的创新也不能发生。甚至大家对数字经济都越来越缺乏信心。

 

  这些“热”体现在各个方面:立法热点、标准热点、产业热点、学术热点等。

 

  (1)立法热点

 

  在立法层面,2012年开始出现一些关于数据安全的法律,2016年发生的“徐玉玉事件”让全社会对数据安全高度重视,并推动政府层面、学术层面、产业界以及老百姓的高度重视。2016年欧盟发布的通用数据保护条例,其中非常重要的部分之一就是数据安全。不知道在座的对于JDPR有多了解,我简短地跟大家解释一下,JDPR对全社会全世界都有着巨大影响,假设欧盟出了一个东西,他规定不管你这家公司在全世界是什么样的公司,但是只要你的客户里包含欧盟公民的用户,欧盟公民用户所提的要求你不能满足的话,不管你公司在哪里,你都将面临罚款,罚款的数额可能是两千万欧元,也可能是你公司过去全球全年总盈收4%,这两个数哪个高取哪个作为罚款。

 

#p#分页标题#e#

  我们国家在做个人信息和重要数据出境安全评估,累计50万条个人信息的话就要评审,评审数据所去地方的法律环境、数据接收方的能力以及最后的合同条款等,我们在探索这样实施的可行性以及正确的实施方法。我们国家想推出个人信息保护法,调研跟踪60多个国家,其中大部分国家都在调整自己国家数据安全的政策,但是仍没有一个国家清楚到底该怎么做,中国亦如此。美国和欧盟也没有一家清楚到底该怎么做。

\

 

  (2)标准热点

 

  标准也是如此,这指全国信息安全标准化技术委员会。去年的数据我们已经看到非常多,以前,每年只有很少几项会列成国家的标准;而现在,每年会议非常之多,且这些都和安全相关,基本是与数据安全相关。所以这个圈子的概念在发生混乱,你发现它把什么东西都装进去。这就是专业的标准化组织。

 

  (3)产业热点

 

#p#分页标题#e#

  产业界也是如此。现在产业界有很多产品转移到数据安全方面。我们保守估计中国大陆一年应该有1000亿左右的数据安全的产值,大家对安全可能不那么了解,从1996到2017年,按照保守且乐观的方式去估值,中国传统网络安全的产值大概是500亿人民币;从1996年到2018年,在数据安全领域,中国大陆一年有一千亿产值。

 

  (4)学术热点

 

  学术界亦如此。2015年Science杂志上有一期题为《The end of privacy》的文章很有意思。美国政府在官方层面、在全球政府层面多边合作会议上他们是不承认privacy这个概念的,因为他们很难定义privacy的概念。学术界在用这个时得到的结论是没有办法保护隐私。2015年1月30日的这一期内容是讲在过去很多情况下,我们很多产业界的公司把自己的数据进行脱敏处理之后去和学术界合作来挖掘东西,这是非常普通的做法。但是在今天都可以被别人把隐私透露出来。

 

  技术颠覆传统隐私

 

#p#分页标题#e#

  健康医疗行业有大量的病历数据,例如:CT数据、X射线数据、核磁共振数据等,如果这些数据让学术机构研究,是造福人类的东西,可是从隐私保护的角度上讲,通过病例数据可以推测这是什么人。除此之外,现在的人脸识别技术、语音识别技术、声纹识别(声纹识别就好象你的指纹一样)技术以及政府无处不在的无人机和公共摄象头,在很远的地方就能直接高清拍下你的面部,我们的面部也代表个人身份。我们现在的住宅不好换、电话号不好换,虽有难度但依旧可以换,但是脸、声音、虹膜这些却没法换。总而言之,就是隐私没法保护。

 

  威胁

 

  1.防滥用。今天,隐私数据到处都是,但是隐私泄露会产生什么样的后果还未可知。这一切还是很“乱”。在“乱”的情况下,到底概念是什么,很多人会搞错。换言之,在“大数据安全”这几个字出来的时候,我们到底应该说什么。第一,很多人在说大数据安全时,会将它与防窃取混为一谈。比如Facebook事件,Facebook数据不是被人偷走的,Facebook数据是属于滥用。滥用是什么?针对某些数据正常的权限给到你的员工或者你所拥有的数据跟别人披露共享等,这时候你错误使用。

 

#p#分页标题#e#

  2.防误用。大数据是需要加工的,在做大数据加工的过程中,比如说我刚刚说的精准营销,正确的做法是至少一万个人一圈,这里面把敏感数据去掉,里面全部变成唯一的代号,整个过程中,最后到用户手里,但是整个全过程没有任何定位到个人的东西出现,这叫防误用。如果没有防误用技术的话,刚刚讲到的未来精准营销、定制化服务那真的就会泄露隐私、侵犯隐私。所以我们面对的威胁来自外部的攻击者,来自数据的控制者即你的数据放到某家公司,还包括公权力部门,你的数据放在这里,公权力部门是不是合法的在使用,因为公权力部门也有可能滥用,那么这些是我们担心的威胁。

 

  3.防窃取。保护的东西里面包括企业自己的秘密、企业手里的个人信息以及涉及到国家安全、公共安全的信息,保护这三类数据,防止被内外部窃取、防止被泄露、防止被滥用,这才是正确的概念。

 

  大数据时代下的数据安全

 

  过去的数据安全是最左边,打上机密、秘密,每个上面有个二维码,全部有签收、登记,那是纯纸质化时代。到后来开始进入到封闭网络的隔离化的网络,现在国家保密局主要是这样的思路,我们有“三合一”,所有的计算机上面的,两个机器分开,内网机器加上USB口出来,防止你的违规外连、防止你乱插USB口。这是运行在一个封闭网络的。但是在今天这些做法都不行,因为我们今天讲的数据安全是指融合在业务流程里的数据安全。你的数据是融在业务流程里,你的业务流程是开放在互联网上。如果不开放在互联网上,就没有定制化服务。在这样的环境下做,所以同样叫数据安全但完全不是过去的概念。真正的概念是大数据时代下的数据安全。徐玉玉的数据不是从大数据被偷走的,是潍坊教育局的一个小网站偷走的。越小的网站数据越精准,越容易直接用来危害别人。搞了半天徐玉玉案件,结果说这不是大数据安全,所以我们不管。那我们在干什么呢。所以不是所谓的大数据安全不是传统的数据安全,也不是云计算安全。云计算是承载大数据的一个基础设施,它和大数据安全有关系,但是它并不等同于大数据安全。我刚刚讲了,云计算安全做的再好,能做到防滥用、防误用吗?做不到。也不是用大数据做安全,我们所有的行业都在用大数据,安全也不例外,但是用大数据做安全不是说大数据本身安全,也不是只和大企业相关。我们今天要解决的是中国将近五千万企业他们手里的各位有关的个人数据、企业有关的企业数据、国家安全有关的国家数据的安全,刚才我讲到了,并不是说你数据很大才有价值,越小的公司其实它的数据更加精准。而且对于黑客来说人家是可以随便串起来,并不存在说我今天这里拿一个数据我就只有这么一个数据,正好相反,真正大型的云平台黑客拿数据还不那么容易,从那些小的平台反而更容易拿。

 

#p#分页标题#e#

  所以不仅仅是防范外部的攻击窃取,也不仅仅是个人信息保护。因为我们企业自己也有信息、有数据要保护,不能套用过去的标准或者经验,也不能照搬国外的做法。为什么不能照搬国外的做法呢?我刚才讲到,现在的大数据时代,数据安全是和业务模式密切相关的。全世界最丰富的业务模式是在中国。我们互联网创新走在了世界最前列。我们遇到的大量的场景,别的国家见都没见过,所以你也别指望他们出什么东西能够解决我们今天的问题。我们今天已经不可能也不能够再照抄国外的标准,翻一下就变成中国标准,,一定不好使。反过来我们今天是有机会把我们的东西,真正搞出一个东西,告诉全世界应该是这样做的。所以这是大数据时代下的数据安全。

 

  二、似是而非--误区&悖论

 

#p#分页标题#e#

  1.限制信息采集等同于隐私保护。我们在做大数据加工时,很多时候并不是事先列好公式,要得到这个结论然后拿哪几个数据,拿这几个数据一算就知道了,这不是大数据。我们大数据各种各样成功的案例都是不知道怎么出来的,所以严格地说这样做其实并不太符合大数据发展。

 

#p#分页标题#e#

  2.零信任。学术界有很多类似差分隐私这样的方法,简单说,你不给服务方任何的准确需求,他给你做准确需求。例如你打车,你不告诉滴滴车主你在什么位置,你给一堆模糊的东西,但是车主还必须找到你,这种就是建立在零信任上。这条路走到后面一定会看到问题,所以零信任并不等于更安全。这就出现了一个问题:我们要信任某个人,但是如何知道这个人是值得信任呢?隐私保护和数据安全,很多人把它们当成两件事,而我认为是一件事。从消费者角度出发,隐私保护即我的隐私保护。但是从服务提供商来讲是一样的,你保护好自己手里的个人信息,让它不被窃取、滥用和误用,其实就相当于保护了客户隐私。从用户的角度来讲这是不同性质的,但是从企业的角度来讲性质是一样,没有必要分开。

 

  3.所有权和控制权。无论欧洲还是中国都在将未来数据选择权交给用户,我们不能替用户做决定,而且用户本身对隐私或者各种需求也不一样。现在我们认为数据是成本、是灾难,但是未来它是财富,即谁有这个数据,他就可以根据自己的情况来处理这个数据,而不是别人替他决定,

 

#p#分页标题#e#

  4.安全的目的。安全是为了保证可持续性发展,现在很多的东西都以安全的名义把发展扼杀掉了,甚至扼杀了安全。例如实名制信息,现在一个包裹需要明文要求实名制。如果我们包裹上的信息被别人盗取拍照,在黑市上可以卖10元。在中国据说90%以上这些东西全都被偷走。

 

  三、何以解“忧”——数据安全

 

  1.以组织为单位。法律上是以组织来承担法律责任,我们看数据安全的时候就应该以这个组织为单位,不管这个数据在这个组织内部经过了多少个产品、多少个业务环境、或者过了多少不同职责员工的处理,全都是看成一个整体,当你衡量它的时候应该与这个组织或单位绑定一起。现在的数据是在一个开放生态下加工,所以只做一个组织的数据安全是没有用的。

 

  2.技术:以数据为中心。数据在一个组织内部,它的全生命周期:数据产生、传输、存储、使用,最后销毁。不管它经过哪些系统、经过多少产品等都无所谓,最后要的是全生命周期给出一个以数据为中心的安全结果。这个现在还在摸索,但是一定要走到这个方向上。即你不要再告诉我你这边的某个产品怎么样,你就告诉我数据在里面怎么样。

 

  3.机制:以能力成熟度为抓手,即你行你上。现在我们有一个很大的误区就是有和没有的判断。未来能力成熟度是一个标准的衡量方法。

 

#p#分页标题#e#

  4.目标:让数据安全成为竞争力。过去,大家都在逃避数据安全,认为安全不仅需要付费还需要承担责任。现在我们的目标反过来,安全做得好就可以处理更多大量的敏感数据,意味着安全越高竞争能力越大,获得的机会越多,就会想办法提升自己的安全能力,而不是像过去那样,利用数据安全能力成熟度来决定经营范围,限制发展。


责任编辑:安庆新闻网
首页 | 游戏 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频

Power by pk10 安庆新闻网 www.yyjyw.net 安徽省安庆第一新闻门户网站---安庆新闻网 pk10开奖直播 版权所有

电脑版 | 移动版