当前位置:主页>明星娱乐>访谈>正文

云和数据CEO专访:让影视剧数据去伪存真

2017-04-08 来源:星尚网 责任编辑:xingshangpindao.com 点击:

分享到:

【科技讯】4月7日消息,2017年4月6日下午,云合数据“拨云见日、改变视界”战略发布会在京举行,云合数据CEO刘浩主持召开,会上与大家分享了影视剧大数据时代背景下新的行业标杆,和一系列服务于影视剧行业的工具。

会后,云合数据CEO刘浩和CTO李雪琳接受媒体采访,谈到了当前火热的影视剧行业所存在的虚假、注水问题,以及基于人工智能、机器学习、数据挖掘和云计算四个核心技术应运而生的真实数据分析技术。

云和数据CEO专访:让影视剧数据去伪存真

记者:  发布会上您二位说到关于现在电视剧网播量的造假,前台数据和真实数据的差异,我想知道云合数据这边是以第三方的数据监测平台,您是用什么方法,用什么机器,系统之类的监测到这几个视频网站的真实数据呢?

刘浩:您问的问题是说我们怎么算出来那个有效播放,目前我们大概分成三步,第一步,我们把播放量中的花序、预告片、剪辑等等都去掉,为什么去掉?视频平台为了做量,花序、预告都算在里面,正片其实30分钟,花序可能是一两分钟,第一步就是把这个去掉。

第二步,刚才我讲的PPT里面有一些实时的曲线,有微信的,播放也是一样的,正常的,如果是一个正常的播放曲线,24小时跟人的生活规律非常相似,晚上三四点没有人看,早上会有一个高峰,中午会有一个小高峰,到晚上八九点会有另一个高峰,整体应该是非常平滑的。但是如果是造假的话,刷量,通过淘宝去买的话,可能你的曲线很有可能不是这样的,可能会在半夜,或者是中午突然很大一个峰值,很不正常。第二步,我们把这种异常量,机器自动通过异常识别技术,把异常量去掉。

第三步,为什么做第三步?是因为如果去淘宝买量,花很多钱,你是可以做到,我就按照人的生活规律去刷,我就晚上刷,花很多钱,看着曲线挺像真实的,怎么办呢?通过机器学习,我们把所有,每一部剧的评论、点赞、弹幕以及在社媒平台,微信、微博阅读发给机器,同时把前台播放发给机器,然后机器能做什么呢?机器能尝试自己去建立这二者之间的关系,有这么一个假设,虽然刷量很严重,但是其实我们针对全网一万部剧,今天真正刷量的不会超过100个,其实很多剧是不刷的,真正刷的是在播的或者是特别火的,机器通过这两者之间的关系,就能够把这种不正常的筛出来,他可以识别你的点赞、你的评论、弹幕以及微信、微博的阅读,跟最终的播放有什么样的关系,它能自己建立这种关系。这样的话,来一个新的剧,我还是把刚才的点赞、弹幕、评论、微信、微博打给它,它能够预估,如果比我预估的值高出太多,可能是有问题的,大概就是这三步。

云和数据CEO专访:让影视剧数据去伪存真

记者:刚才二位分享的都是比较红的剧,像《三生三世十里桃花》,过去监测的过程当中,有没有发现哪一部剧,网播量高的很异常,但是实际上没有任何的热度,具体这方面的案例。我举一个例子,之前优酷有一个网剧叫《欢喜密探》,每天凌晨四点的时候才会出现播放量最高峰。

刘浩:我刚才举的例子,我说有的剧每天排第一,突然有一天下去了,在别的网都是每天第一,突然有一天下去了,可能就是这种,他一直在刷,突然不刷了。

记者:他们自己是有一个周期的,播完以后到一定时间就不再刷了。

李雪琳:他们觉得量够了,再刷就过分了,我们一开始就结合你的热度,结合粉丝的评论点赞等等一些真实的数据,所以整体的趋势是很平滑,很稳定的。但是如果看前台,这个剧可能今天是排第一,可能是排第十,都有可能,就是看他刷不刷,花多少钱。

微信搜索并关注科技讯公众账号:kejixun 更多精彩,早知道!