(12)发明专利申请
(10)申请公布号(10)申请公布号 CN 104035994 A(43)申请公布日 2014.09.10
(21)申请号 201410255632.2(22)申请日 2014.06.11
(71)申请人华东师范大学
地址200241 上海市闵行区东川路500号(72)发明人胡琴敏 徐晓枫 陈国梁 杜泽宇
罗念 钟哲凡(74)专利代理机构上海蓝迪专利事务所 31215
代理人徐筱梅 张翔(51)Int.Cl.
G06F 17/30(2006.01)
权利要求书1页 说明书4页 附图1页权利要求书1页 说明书4页 附图1页
()发明名称
一种基于网络数据的电视剧点播量预测方法(57)摘要
本发明公开了一种基于网络数据的电视剧点播量预测方法,其特点是将抓取的微博数量和搜索次数以及与电视剧相关数据运用相关性分析和单变量线性回归计算得到初始特征集,然后对初始特征集采用逐步回归法得到X和Xb特征集,将X和Xb特征集采用多元线性回归法分别得到电视剧首播前、后的两个预测模型,然后按预测值的大小进行电视剧的排名预测。本发明与现有技术相比具有提前预测点播系统中电视剧未来一段时间内的集均点播量,预测结果有效的反映出电视剧的热门程度,方法简便,准确性好,能为视频运营商在电视剧播出版权购买决策上提供依据,对在线点播系统的吸引用户和增加广告点击量提供强有力的支持。CN 104035994 ACN 104035994 A
权 利 要 求 书
1/1页
1.一种基于网络数据的电视剧点播量预测方法,其特征在于以网络爬虫抓取电视剧首播前后与电视剧名相关的微博数量和搜索次数以及与电视剧相关数据,将抓取的数据运用相关性分析和单变量线性回归计算后建立初始特征集,然后对初始特征集采用逐步回归法得到X特征集和Xb特征集,将X特征集和Xb特征集采用多元线性回归法得到预测集均点播量,然后按预测值的大小进行电视剧的排名预测,具体预测按下述步骤进行:
(一)、数据的抓取a、通过网络爬虫抓取已经结束热播的若干部电视剧以及与电视剧对应的基本数据;b、获取微博排行榜中娱乐领域排名前100的用户,然后根据关注关系,扩展用户数,并补全电视剧演员和各大卫视的官方微博,并抓取这批用户的微博数据;
(二)、统计样本a、分析娱乐领域用户的数据,统计可能与电视剧相关因素为A微博数据样本;b、统计若干部电视剧首播前一个月内每周的电视剧名相关总微博数和首播后15天中每天的微博数为B微博数据样本;
c、统计百度指数中电视剧首播前一个月内每周电视剧名被搜索的次数和首播后15天中每天搜索次数为搜索数据样本;
(三)、初始特征集的建立a、使用SPSS分析工具对统计样本中a步骤的相关因素与电视剧集均点播量分别进行皮尔逊相关系数和斯皮尔曼相关系数的计算,在置信度为5%条件下,只要满足其中一个相关性即为显著相关因素;
b、使用SPSS分析工具分别对电视剧首播前一个月内每周的微博数量和首播后15天中每天的微博数量与电视剧首播前一个月内每周被搜索的次数与首播后15天中每天被搜索的次数进行单变量线性回归计算,得到每个变量对电视剧集均点播量的R2值,将每个时间点微博与搜索数据中较大的R2值作为特征因素,其中因变量为电视剧集均点播量,自变量为每个时间点的单变量;
c、将上述a步骤中的显著相关因素与b步骤中较大的R2值组成初始特征集;(四)、X和Xb特征集的建立
运用SPSS分析工具对初始特征集进行逐步回归计算得到X特征集,从X特征集中抽取电视剧首播前就能获取的特征得到Xb特征集;
(五)、电视剧的排名预测
运用SPSS分析工具对X特征集和Xb特征集进行多元回归计算得到两个预测模型,并对预测模型加入了偏执项和是否建立特定微博帐号,如果有建立特定微博帐号,则在SPSS分析工具计算的结果上加上有无特定微博帐号电视剧集均的差值;由 Xb特征集经加入偏执项的多元回归计算得到能在电视剧首播前预测集均点播量的预测模型 ;由X特征集经加入偏执项的多元回归计算得到能在电视剧首播后预测集均点播量的预测模型,然后根据预测值的大小进行电视剧的排名预测;所述预测模型为电视剧首播后进行逐步修正的预测结果。
2
CN 104035994 A
说 明 书
一种基于网络数据的电视剧点播量预测方法
1/4页
技术领域
本发明涉互联息搜索技术领域,具体地说是一种基于新浪微博及百度搜索网
络数据的电视剧点播量预测方法。
[0001]
背景技术
视频点播量预测在网络数据挖掘领域中有着重要的应用,点播量高的电视剧能够
提高广告的播放量,提前预测出电视剧的点播量已在广告业务扩展方面有着广泛的应用。利用新浪微博和百度搜索指数对点播系统中电视剧上线后未来一段时间内的点播量进行预测,以及电视剧与社交网络的联系成为研究的热点。尤其通过网络数据对在线点播系统中电视剧点播量的预测,对视频运营商购买电视剧播出版权已起到一定的决策作用,降低版权购买的盲目投入。此外,通过新浪微博和百度搜索指数数据能够较为全面的反应出用户对电视剧喜好程度。[0003] 目前,对视频类资源点播量的预测一般都采用基于历史点播数据预测方法和网络数据的预测方法。基于历史点播数据的预测需要在电视剧播出一定时间段之后才能进行预测。而基于网络数据的预测方法中,传统的方法则主要是对电影的票房进行了预测,与电影票房预测相比,电视剧点播量受影响的因素更多,没有考虑社交网络和搜索数据在不同时间点对电视剧点播量反映程度的差异。
[0004] 现有技术不能在电视剧上线之前对点播量进行预测,而且没有通过社交网络和搜索引擎数据同时进行预测,不能准确的预测点播量,无法帮助视频运营商在购买电视剧播出版权的决策。
[0002]
发明内容
[0005] 本发明的目的是针对现有技术的不足而设计的一种基于网络数据的电视剧点播量预测方法,采用SPSS计算工具对抓取的电视剧首播前后与电视剧名相关的微博数量和搜索次数以及与电视剧相关数据建立初始特征集,然后对初始特征集采用逐步回归和多元线性回归得到集均点播量的预测以及排名预测,方法简便,准确性好,预测结果有效的反映出电视剧的热门程度,能为视频运营商在电视剧播出版权购买决策上提供依据,对在线点播系统的吸引用户和增加广告点击量提供强有力的支持。[0006] 本发明的目的是这样实现的:一种基于网络数据的电视剧点播量预测方法,其特点是以网络爬虫抓取电视剧首播前后与电视剧名相关的微博数量和搜索次数以及与电视剧相关数据,将抓取的数据运用相关性分析和单变量线性回归计算后建立初始特征集,然后对初始特征集采用逐步回归法得到X特征集和Xb特征集,将X特征集和Xb特征集采用多元线性回归法得到预测集均点播量,然后按预测值的大小进行电视剧的排名预测,具体预测按下述步骤进行:
(一)、数据的抓取a、通过网络爬虫抓取已经结束热播的若干部电视剧以及与电视剧对应的基本数据;
3
CN 104035994 A
说 明 书
2/4页
b、获取微博排行榜中娱乐领域排名前100的用户,然后根据关注关系,扩展用户数,并补全电视剧演员和各大卫视的官方微博,并抓取这批用户的微博数据;
(二)、统计样本a、分析娱乐领域用户的数据,统计可能与电视剧相关因素为A微博数据样本;b、统计若干部电视剧首播前一个月内每周的电视剧名相关总微博数和首播后15天中每天的微博数为B微博数据样本;
c、统计百度指数中电视剧首播前一个月内每周电视剧名被搜索的次数和首播后15天中每天搜索次数为搜索数据样本;
(三)、初始特征集的建立a、使用SPSS分析工具对统计样本中a步骤的相关因素与电视剧集均点播量分别进行皮尔逊相关系数和斯皮尔曼相关系数的计算,在置信度为5%条件下,只要满足其中一个相关性即为显著相关因素;
b、使用SPSS分析工具分别对电视剧首播前一个月内每周的微博数量和首播后15天中每天的微博数量与电视剧首播前一个月内每周被搜索的次数与首播后15天中每天被搜索的次数进行单变量线性回归计算,得到每个变量对电视剧集均点播量的R2值,将每个时间点微博与搜索数据中较大的R2值作为特征因素,其中因变量为电视剧集均点播量,自变量为每个时间点的单变量;
c、将上述a步骤中的显著相关因素与b步骤中较大的R2值组成初始特征集;(四)、X和Xb特征集的建立
运用SPSS分析工具对初始特征集进行逐步回归计算得到X特征集,从X特征集中抽取电视剧首播前就能获取的特征得到Xb特征集;
(五)、电视剧的排名预测
运用SPSS分析工具对X特征集和Xb特征集进行多元回归计算得到两个预测模型,并对预测模型加入了偏执项和是否建立特定微博帐号,如果有建立特定微博帐号,则在SPSS分析工具计算的结果上加上有无特定微博帐号电视剧集均的差值;由 Xb特征集经加入偏执项的多元回归计算得到能在电视剧首播前预测集均点播量的预测模型 ;由X特征集经加入偏执项的多元回归计算得到能在电视剧首播后预测集均点播量的预测模型,然后根据预测值的大小进行电视剧的排名预测;所述预测模型为电视剧首播后进行逐步修正的预测结果。
本发明与现有技术相比具有提前预测出点播系统中电视剧未来一段时间内的集均点播量,预测结果有效的反映出电视剧的热门程度,方法简便,准确性好,为视频运营商在电视剧播出版权购买的决策上提供依据,对在线点播系统的吸引用户和增加广告点击量提供强有力的支持。
[0007]
附图说明
[0008]
图1为本发明的流程示意图。
具体实施方式
4
CN 104035994 A[0009]
说 明 书
3/4页
参阅附图1,本发明利用新浪微博和百度搜索指数抓取电视剧首播前后与电视剧
名相关的微博数量和搜索次数以及与电视剧相关数据,将抓取的数据运用相关性分析和单变量线性回归计算后建立初始特征集,然后对初始特征集采用逐步回归法得到X特征集和Xb特征集,将X特征集和Xb特征集采用多元线性回归法得到预测集均点播量,然后按预测值的大小进行电视剧的排名预测,具体预测按下述步骤进行:
(一)、数据的抓取a、通过网络爬虫抓取已经结束热播的电视剧,并在豆瓣中抓取电视剧对应的演员和集数等基本信息,获取n部电视剧的基本数据。[0010] b、使用新浪微博提供的API,获取微博排行榜中娱乐领域排名前100的用户,然后根据关注关系,扩展用户数,并补全电视剧演员和各大卫视的官方微博,并抓取这批用户的微博数据。[0011] (二)、统计样本
a、分析娱乐领域用户的数据,统计可能与电视剧相关的因素形成A微博数据样本。[0012] b、统计若干部电视剧首播前一个月内每周的电视剧名相关总微博数和首播后15天中每天的微博数为B微博数据样本。[0013] c、统计百度指数中电视剧首播前一个月内每周电视剧名被搜索的次数和首播后15天中每天搜索次数为搜索数据样本。[0014] (三)、初始特征集的建立
a、使用SPSS分析工具对统计样本中a步骤的相关因素与电视剧集均点播量分别进行皮尔逊相关系数和斯皮尔曼相关系数的计算,在置信度为5%条件下,只要满足其中一个相关性即为显著相关因素,然后将该显著相关因素加入到初始特征集中。[0015] b、将电视剧首播前一个月内每周的微博数量和首播后15天中每天的微博数量与电视剧首播前一个月内每周被搜索的次数与首播后15天中每天被搜索的次数分别作为单变量,使用SPSS分析工具中的线性回归进行计算,其中因变量为抓取的电视剧集均点播量,自变量为每个时间点的单变量,获得每个变量对抓取电视剧集均点播量的解释程度R2值,对比每个时间点微博和搜索数据的预测差异,由于每个时间点会计算出2个R2值,选出两者之中R2值较大者加入到初始特征集。[0016] (四)、X和Xb特征集的建立
运用SPSS分析工具中的逐步回归方法对初始特征集进一步选择得到X特征集,其中使用F的概率为进入0.05,删除0.1,然后在X特征集中抽取电视剧首播前就能获取的特征作为Xb特征集。[0017] (五)、电视剧的排名预测
运用SPSS分析工具对X特征集和Xb特征集进行多元回归计算得到两个预测模型,并对预测模型加入了偏执项和是否建立特定微博帐号,如果有建立特定微博帐号,则在SPSS分析工具计算的结果上加上有无特定微博帐号电视剧集均的差值。[0018] 在加入偏执项的多元回归计算中,由 Xb特征集计算得到能在电视剧首播前预测集均点播量的预测模型
;由X特征集计算得到能在电视剧首播后预测集均点播量的预测模
型,预测模型可以在电视剧首播后进行逐步的修正。预测模型和预测模型得到的预
5
CN 104035994 A
说 明 书
4/4页
测集均点播量,然后根据预测集均点播量的大小进行电视剧的排名预测。实验显示:在测试数据集中最好的结果能达到R2=0.65,运用SPSS分析工具对电视剧点播量的真实排名与预测排名进行斯皮尔曼相关系数的计算,斯皮尔曼系数的大小及显著性能说明预测的准确性,系数在0~1之间,值越大预测的越准确。[0019] 以上只是对本发明作进一步的说明,并非用以本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
6
CN 104035994 A
说 明 书 附 图
1/1页
图1
7
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务