您的位置: 网界网 > 网络学院-存储 > 正文

八大行业Hadoop大数据应用回顾和展望

2015年01月28日 14:47:57 | 作者:佚名 | 来源:企业网D1Net | 查看本文手机版

摘要:任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程。大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用。

标签
应用
大数据
Hadoop

任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程。大数据[注]技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用。但从媒体和公众视野中,大数据技术总是带有神秘的色彩,似乎有着挖掘财富和预测未来的神奇力量。广泛流传的大数据应用案例包括Target超市根据女孩的购物历史判断是否怀孕,信用卡公司根据用户在不同时空的购物行为预测客户的下一个购买行为,等等。大数据技术也为我们描绘了一个个如“智慧城市”,“智慧交通”和“智慧医疗”等等的美好梦想。这些描述让大家对大数据技术充满了憧憬和美好预期。

我从2014年的大数据应用中总结了两个重要的现象或者说应用趋势。第一个现象是大数据技术优先应用在采用SQL进行结构化数据处理上,来解决数据量增大带来的处理能力的挑战;这与很多人宣传的大数据技术最适合处理非结构化数据(而不适合结构化数据处理)相反。我们发现企业面临两方面的挑战,一方面是累积的数据量越来越大,从GB增长到了TB(拥有PB级的企业客户也有,但是少数),另一方面,随着应用的增多和复杂化,计算能力越来越不能满足要求。大多数企业多年来根据业务需求在传统的关系数据库如DB2或者Oracle上开发自己的应用,数据量和应用的数量都在快速增加,传统数据库运行这些应用花的时间越来越长,即使只有1TB的数据,由于业务逻辑的复杂性,在传统关系数据库上运行统计业务,也从以前的日报(每日统计)降低到只能做现在的周报了。这样的时效性已经大大限制了企业的生产力。在IT系统日益成为企业业务本身的大趋势下,IT系统效率的低下严重影响了企业的竞争力。这些待处理的数据都是企业的结构化业务数据,现有的应用也都是基于SQL的。这是分布式的SQL on Hadoop技术发展的客观原因,也是星环科技致力于提升SQL运行性能和SQL支持完整程度的一个现实需求。

第二个现象或者需求是对实时时序数据的处理需求日益强烈,特别是随着传感器和监控设备等电子仪器的普及,企业有越来越多的实时数据。传统处理方法是将电子仪器产生的数据存入数据库后再统一分析。随着设备的增多和数据的增长,传统方案的延时越来越高。利用流处理技术在数据产生的时候就进行实时处理可以极大地提高企业的反应速度和工作效率。2014年星环科技部署了较多的流处理集群,来处理从用户产生的实时数据到传感器产生的数据。

这两个应用趋势我认为在2015年会变得更加强烈。下文简单总结了过去一年中在运营商、金融、物流、工商、交通、能源、广电和电商等多个领域中的大数据应用。

电信运营商

移动互联网时代的运营商面临着许多新挑战。微信等手机通讯APP的出现侵蚀了运营商的语音和短信收入,流量业务显得更加重要。另一方面,无线网络服务是运营商的核心竞争力。近年来,运营商正在投入大量资金建设网络来大力发展4G。4G网络的覆盖率不高或者质量不高导致的4G回落到3G或者2G会大大降低客户满意度。

经过最近一两年的探索,运营商在大数据平台建设方面总结了两个方向,一是利用大数据技术来提升运营效率,同时探索新的商业模式和数据运营方式。在过去的一年中,大数据在运营效率提升方面得到验证,而新的商业模式仍然在探索中。我们在广东移动的经营数据分析中应用星环的内存计算技术成功地将800多个指标的计算从原先Oracle的30小时减少到了4小时,在上海移动成功地将流量经营系统从DB2完整地迁移到了星环的TDH上,运行效率比原先的集群有5倍左右的提升。我们对SQL的完整支持使得应用系统迁移成为可能,而之前合作伙伴曾经尝试过将应用系统迁移到某知名Hadoop发行版上但没有成功。我们正在参与某省电信和某直辖市移动的4G网络优化项目,在这些项目中,我们的合作伙伴在用更高性能的星环TDH代替传统MPP数据库进行网络优化模型的建立和高速的模型运算,一方面发现网络中存在的问题,例如信号回落的问题,帮助运营商快速找出有问题的区域。另一方面通过TDH提供的完整SQL结合统计和机器学习算法,找到最佳的优化模型和参数,对网络进行细粒度的精确调整,以提高网络的覆盖度以及信号的质量。

金融

在2013年到2014年间,国有银行以及部分股份制银行或多或少地进行了大数据技术应用方面的探索,但是早期的应用局限在简单的历史交易查询以及非结构化数据的存储和检索上,并没有对银行的关键业务产生影响。而大数据技术在银行的应用前景被广泛传播,通过综合处理银行自有结构化交易数据以及外部互联网/政府数据,可以提升精细化客户管理水平以及进行大数据征信降低风险等。这些远景在2014年没有成为现实,2015年预计将是应用探索的一年。但我们在2014年在银行中实践了一些务实的应用。在这些应用中,TDH作为数据仓库的补充,用于提升数据分析的效率。同样受益于我们对SQL的完整支持,某股份制银行开始把一些复杂的贷款风险控制逻辑迁移到TDH Hadoop平台上进行运算。这些风控模型客户此前在多个MPP数据库和Hadoop发行版上进行过尝试,性能或者功能都没能满足他们的要求。从技术角度来看,这些分析涉及的数据量只有几个TB,但是分析业务极其复杂,涉及到近百张事实表和维度表,有些表的宽度甚至超过了几万字节。这个案例说明传统关系型数据库或者MPP数据库对于大数据场景下的复杂计算变得越来越捉襟见肘,银行需要一个更高效的数据处理工具。

快递

快递行业IT系统产生的数据量和承载的压力过去一直没有得到大家的关注。近年来,快递行业的规模随着电子商务的高速发展出现了快速的扩张。巨大的市场需求给快递公司带来了前所未有的挑战,每年的“双十一”会给快递公司的处理能力施加远高于平时的压力。因此,怎样缓解“双十一”的爆仓、避免快件变“慢件”是每个快递公司的难题。

如何通过大数据的分析对快递流程进行改善和优化成为一个值得研究的问题,也是快递业提高竞争力的一个重要手段。快递的每一个生产环节都会产生的大量数据,监控这些数据进而对全国各处理中心的收寄和运载能力、出班投递计划做实时优化调整,公司就能降低成本。分析这些数据来对业务发展的趋势做出预测,公司就能做好准备应对暴涨的需求。然而,快递生产环节中的数据具有数据量大、并发性高、类型复杂的特点,上层应用对实时性要求很高,传统数据库在这样的情况下捉襟见肘。

我们和华胜天成合作一起为中国邮政EMS速递部门部署了大数据平台,对它在全国的揽投部、处理中心和集散中心的数据(包括已接收、留存件、已下段、未下段、已投递、未投递、揽收员、地址、已封发、已发运、未发运等等)进行处理。大数据平台将ESB(企业生产总线)流来的数据实时动态加载进流处理集群以及实时数据库,进行实时统计和指标监测,并且实现实时数据查询。这次部署给了客户简单易用的工具来对业务的每个环节实时监控,使得他们在海量的快递业务中都可以快速精准地发现问题,如快件的积压、遗失、破损等,从而提高服务质量。这个大数据平台平稳支撑了2014年“双十一”的数据处理压力。未来该平台也可根据最新的生产数据帮助快递公司调整和优化投递计划,为公司降低成本。

12

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]