您的位置: 网界网 > 网络学院-软件 > 正文

PPTV:大数据优化观看体验

2014年03月04日 09:34:37 | 作者:佚名 | 来源:畅想网 | 查看本文手机版

摘要:在全球拥有超3亿活跃用户群体的网络电视技术平台提供商PPTV聚力,正在使用Hadoop、HBase、Hive、Storm等大数据技术打造个性化视频推荐体验,优化视频播放体验,实现在线广告的精准投放。

标签
大数据
PPTV

PPTV聚力:看得见的大数据[注]

在全球拥有超3亿活跃用户群体的网络电视技术平台提供商PPTV聚力,正在使用Hadoop、HBase、Hive、Storm等大数据技术打造个性化视频推荐体验,优化视频播放体验,实现在线广告的精准投放。

2012年,根据有关统计显示,在线视频已经超越社区交友和搜索服务跃升为互联网第一大应用。PPTV聚力目前全平台月度活跃用户达3.4亿,每天的活跃用户超5000万。这一在线视频平台目前每天会产生数10TB包含用户行为数据、访问体验数据等在内的业务数据,针对在线视频业务运营的实际需要,这些大数据每天会被采集、汇总到一个分布式的技术平台上,再被应用到不同的业务领域之中。

目前,PPTV聚力已经建成的数百台服务器规模的Hadoop集群是其大数据技术平台的核心。在其上运行着Hive开源数据仓库,基于Storm的分布式实时数据处理框架也已经开始部署。“我们每天会从PPTV聚力数亿个客户端和分散在各地几百个机房的服务器端采集日志数据,汇总到大数据平台开展数据分析。”PPTV聚力技术部总经理金昀说。

金昀所领导的技术部中目前有一个20余人的团队,专门负责开放式大数据平台的开发和运维,而PPTV聚力全公司的数百名技术人员、产品人员、运营人员、数据分析师都可以从不同的业务角度利用这个开放平台,做业务数据分析,以及各种数据密集性的计算任务。毕业于清华大学的金昀曾经参与永新视博(数字电视领域创业企业)的创立,留美后在美国微软公司服务7年,回国后曾服务于阿里云,2011年加入PPTV聚力。

大数据优化观看体验

对PPTV聚力来说,大数据的来源主要包括用户行为数据、工程技术数据,以及后端的业务运营数据。用户行为数据主要来自从客户端和服务器端采集的日志数据。例如哪个访问者看了哪个视频、拖动次数等;工程技术数据指的是不同地域用户观看视频的启动时间、卡顿次数、卡顿等待时长等;后端业务运营数据则包含广告投放的相关数据信息等。

“这些数据组成了PPTV聚力丰富的大数据来源,而大数据的分析结果能直接应用于商业运营的调优。比如,我们购买了一部影视剧后,可以精确、实时地了解它在不同地区和时间段被观看的次数,以此优化后端的运营策略。另外,通过从不同的客户端所获取的访问连接数据,我们可以根据不同地区、不同时段的网络连接状况,用最低的成本向用户交付流畅的观看体验。”金昀说。像美国同行Netflix一样,PPTV聚力也在深入研究个性化的视频推荐算法。PPTV聚力视频页面中的“猜你喜欢”栏目就是后台大数据分析的成果。“视频网站的用户通常不会提供详细准确的注册信息,而且用户登录率低,我们无法由此直接获取用户特征。因此,我们完全要从用户的历史访问行为进行分析和判断,对其习惯、喜好进行分类和标记,最终实现个性化的视频推荐。”金昀说。

除了页面内的相关视频推荐,PPTV聚力还计划基于大数据技术开发全界面的用户访问个性化定制系统。金昀强调,视频与电商、社交等网络服务不同,其客户行为的分析与预测具有独特的复杂性。“用户观看行为的头部效应明显,长尾效应不足,视频总数对比用户数较低,品类多样性也低(+本站微信networkworldweixin),而消费成本却很高,这些都对视频自动推荐的效果产生了很大的挑战。"金昀说。同时他认为,移动端视频和OTT的高速发展,将会是个性化视频推荐的一个重大发展机遇,只有吃透大数据的企业才能真正跟上移动视频发展的浪潮。

满足广告主的“奇怪”需求

一段广告,要求让某一地域的动作片用户至少观看三次,但又不能超过5次,否则就不付钱。还有的广告有三个版本,用户在观看的时候不能重复,要递进推送。这样严苛的要求在传统的电视广告平台上是不可能实现的。”金昀说。不过,对于广告主而言,这些无疑是一种精准营销的合理设计,大数据分析为PPTV聚力所带来的另一面商业价值也体现于此。由于无法直接获取准确用户的特征信息,PPTV聚力的技术团队通过对用户历史访问行为的分析,自动为其添加特征标签,并对具体广告的承接能力进行预测,以满足不同广告主的个性化需求。金昀表示,基于大数据技术平台,PPTV聚力已经在广告的定向投放、频次控制等方面建立了相对成熟的策略和流程,并且注重在广告精准投放的同时,确保用户的观看体验。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]