您的位置: 网界网 > 网络学院-云计算 > 正文

招聘信息泄密 Amazon研发大数据AWS服务

2014年08月27日 16:49:43 | 作者:佚名 | 来源:比特网 | 查看本文手机版

摘要:  Amazon Web Services将要推出一项给传统IT厂商带来“破坏性”影响的大数据服务。根据我们从Amazon网站上的招聘信息,这个尚未命名的产品将运行在AWS Data Services(一个内部的云产品团队,也负责 AWS Data Pipeline、AWS R...

标签
泄密
AWS
大数据
Amazon

Amazon Web Services将要推出一项给传统IT厂商带来“破坏性”影响的大数据[注]服务。根据我们从Amazon网站上的招聘信息,这个尚未命名的产品将运行在AWS Data Services(一个内部的云产品团队,也负责 AWS Data Pipeline、AWS RDS和AWS RedShift等产品)之上。

“如果你很希望搭建一个能够应对EB级数据的分布式系统,那么这将是一份理想的工作。”

“成功的支持工程师将在搭建、操作和扩展一个大规模近实时的分布式系统方面起到相当重要的作用。”

根据Amazon对产品名缩写的爱好,我们暂且把这个产品称之为Mystery-Amazon-Data-Service,或者MADS。

它的功能将包括“以接近实时的方式对于数据进行高度可用、高度可靠的处理”。从职位的描述中我们还得到其他信息,比如初期它可以每秒钟接收200万到500万条记录,最终这个量将增加100多倍。

招聘的这个职位要求具有在分布式系统、分布式锁定、复制和负载均衡方面的工作经验。

这说明MADS将是某种近实时的分析数据库。分布式锁定和复制,这暗示着MADS将能够广泛复制数据,而避免了分布式锁定系统的延迟问题。

因为信息里明确写了“记录”,所以我们可以猜测它是接收来自关系型数据库的数据。

这暗示着是在具有相当于Google分布式数据库、或者AWS合作伙伴TransLattice地域性可复制数据库技术类似功能的系统。

MADS也许是Amazon应对ParAccel某些缺点的办法,因为ParAccel很难以低成本处理少量的写入。MADS能够创建一个缓冲数据库,让客户容易地复制OLTP数据库直接到Redshift,而不用批量加载。

这也是和EB级数据接收规范是符合的。

另外,Amazon可能会尝试使用MAD运行一个全局数据库即服务技术,用于大规模分布式低延迟的数据存储和处理,有一系列从在线支付到游戏的各种应用。

不管怎样,看上去离MADS面世还有一段时间,因为招聘信息里面写道这个还处于早期。这个“系统工程师”在最初的12个月内可以做以下一些事情:定义系统的结构,写入基础架构管理工具,“参与到大型分布式系统开发的所有阶段”,管理数据中心设备,执行各种日常管理员工作。

换句话说(+本站微信networkworldweixin),Amazon内部有很多人才具有某种架构技能,现在他们需要引入更多的架构师、工程师和开发者来将MADS系统变成现实。

AWS还有可以帮助管理员规划和在各种服务之间迁移数据的AWS Data Pipeline、用于数据仓库的AWS Redshift、采用NoSQL SSD的DynamoDB以及Relational Database Service (RDS),MADS属于哪一个?

我们认为,MADS使得Amazon能够搭建将上面所有组件连接到一起、帮助自动传递数据的服务。它还有可能变成一款独立的产品,类似于TransLattice和Google Spanner。

这符合Amazon的总体业务策略:更自己云产品之间的联系更加紧密,尝试部署由竞争对手或者合作伙伴所领先的技术系统,然后推出相关产品,要么免费(例如OpsWorks),要么以很低的价格,Amazon非常擅长打价格战。

相信传统IT厂商将热烈欢迎Amazon在这个领域的野心……

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]