…逼… 堡…皂…一堕 UJiAN COMPUTER 数据挖掘在竞技体育中的应用综述 秦鹏 (六盘水师范学院贵州六盘水553004) 【摘要】随着信息技术的发展,网络出现了数据风暴,如何在大量数据中寻找有用信息,成为当今时代科学研究的 主要话题。本文针对竞技体育的特点,介绍数据挖掘的概念和常见算法,综述数据挖掘在竞技体育中的核心技术和具体 应用,为数据挖掘在体育领域的进一步研究提供基础。 【关键词】数据挖掘;竞技体育;应用 0引言 随着网络技术的快速发展,人们已经步入了高速的信息社 会。云计算、大数据作为一个全新的时代的技术产物,必将推动 社会的发展。在大量数据爆炸的今天,如何从中发掘有用价值, 成为人工智能领域研究的主要话题。 竞技体育以其独特的特点,获得很多人的喜爱,对运动员 的技术统计和挖掘成为比赛成功的关键。比赛不再是全靠实力 的比赛,还是一种智慧的比拼。美国的NBA教练组使用一种 IBM提供的Advanced Scoutl数据挖掘软件,辅助决定替换球 员。澳大利亚运用自主开发的DVCoach系统辅助训练和对比赛 技战术进行统计。AC米兰队通过分析不同渠道的生理、整形外 科以及心理数据来防止球员受伤。运用数据挖掘技术辅助运动 员训练、提高比赛水平、辅助教练员决策已经成为竞技体育的 研究目标。 我国改革开发以来,充分重视体育的重要性,倡导全民健 身,并且以体育作为推广外交的手段之一。国内各种联赛的开 展,国际各种比赛的参与,充分展示了我国综合国力提升。研究 竞技体育的核心问题,成为振兴我国与体育事业的关键。 1数据挖掘 1.1数据挖掘的概念 所谓数据挖掘,就是从大量的数据中,提取隐含在其中的、 具有潜在信息和知识的过程,它是为了解决社会中数据爆炸和 知识贫乏而发展起来的fl1。数据挖掘起源于1989年IJCAI会议, 会议提出了数据挖掘的概念。1995—1998年,每年都会召开 KDD国际会议,推动了数据挖掘的发展。今天,每年都会有更多 的国际会议,讨论数据挖掘的相关技术和发展趋势。 数据挖掘的技术主要包括关联分析、系列模式、分类、聚集 和异常检测典型的数据挖掘系统应该包括数据抽取、数据预处 理、知识发现以及知识表示四个部分[21。其中,数据抽取又可以 分为数据准备与数据选择;知识发现就包括模型的建立与算法 的设计应用,其过程模型图如图1所示。 数据抽取 知识发现 \、 ./ 数据预处理 \ / 知识表示 \ / \、~/ 图1数据挖掘过程模型图 1.2常见的数据挖掘算法 1.2.1 C4.5算法 C4.5算法是一种分类决策树算法,其核心思想是ID3算 法,并对ID3做了如下改进[31: 1)通过使用信息增益率来选择属性,克服了偏向选择取值 多的不足; 2)剪枝发生在够造树的过程中; 3)实现对连续属性的离散化处理; 1.2.2K—Means算法 K—Means算法是一种聚类算法,它把N个对象分为K个 簇,以使簇内具有较高的相似度,而且簇问的相似度较低。相似 度的计算根据一个簇中对象的平均值来进行。该算法基于对象 属性源于空间向量,并且群组内部的均方误差总和最小的假 设。 此算法首先从N个数据对象任意选择K个对象作为初始 聚类中心,对所剩下其它对象,根据它们与这些聚类中心的相 似度,将它们分配给与其最相似的聚类,然后再计算每个新聚 类的聚类中心,不断重复直到标准测度函数开始收敛为止[41。 1.2.3支持向量机 支持向量机(Support Vector Machine,SVM)是Cortes和 Vapnik在1995年提出的,是一种新型的通用知识发现方法。它 具有扎实的理论基础,训练的本质是解决一个二次规划问题, 得到全局最优解。同时使用核函数将原始的样本空间向高维空 间进行变换,以解决非线性文本的分类问题。 支持向量机是一个线性的学习系统,建立在统计学习理论 和结构风险最小的原理上。它根据有限的样本信息在模型复杂 度和学习能力之间寻求最佳折中,以期达到最好的推广能力。 1.2.4 K近邻学习算法KNN K最近邻fK—Nearest Neighbor,KNN)分类算法,是一个比较 成熟的数据挖掘方法,也是最简单的机器学习算法之一。不同 于其他分类算法,KNN算法不需要事先从训练集中学习得到模 型,学习过程仅发生在样例分类时,因此称为惰性学习算法 。 它的实现过程是:假设D为训练数据集,在分类前,不需要 对训练样本做任何操作。当需要对测试样例d进行分类时,将d 与训练集D中的训练样例进行比较,计算它们之间的距离或是 相似度,从D中选出前k个与d最相似的样本。这些样例称为 d的k近邻,d的类别由k近邻中出现最多的类别决定。假设 n1,n2分别为集合中属于类C1,C2的个数,则 "1 ",) P( l )= 1 P( l )=竿 (1),c- 通过比较两个概率值的大小,判断样例d的分类情况。如 果P(cIN)>P(c21 ̄N将d划分为C1类,否则为C2类。 2015年第7期l福建电脑 ・61・ :一逼…堡…一皇…墅 JlAN eOMPUT嚣R 2竞技体育的特点 就必须充分考虑这一点,扬长避短。 对于每一场比赛的成功和失败,虽然存在一定的偶然性, 竞技体育是一种制度化、体系化的竞争性体育活动,具有 如下特点 : 1)竞争性 但是大量数据统计下还是可以分析各种阵型的特点,然后从所 有阵型里选出一种最优解,根据对方的参赛队员情况,安排合 理的搭配,以便在比赛中提升比赛的成功率。 4.2时间调整 竞争是竞技运动区别于其他体育运动的本质的特点之一。 运动员总是力求最大限度地发挥自己的潜能去战胜对手。竞争 性是竞技体育不断发展的杠杆,它既增加了比赛胜负的不确定 性,也增加了体育运动的观赏性。 2)规范性 利用数据挖掘,分析出运动员的运动能力和上场时间的关 系。不同的运动员,体能情况不一样,有的运动员爆发力很强, 但是持续时间短,因此该类运动员应该合理安排上场时间,使 得其能力在有效时间内得到发挥。然而有的运动员虽然爆发力 不是很强,但是耐力很好,这类球员适合打满全场,消耗对手体 竞技体育的规范性体现在参赛制度、各项技术统计、训练 规范、项目竞赛规则、竞赛规程等制约机制的规范性和竞技体 育管理的规范性等方面。竞技体育的规范性是公平性的充分保 证。~ 3)集群性 竞技体育不同于一般的体育锻炼,它是由若干运动员组成 的群体行为,只有数量达到一定程度,才可能组织竞赛活动。 4)公开性 竞技体育通常情况下都是公开的,无论是观众和运动员都 可以观看。在运动训练方面,新的运动技术和训练方法可以为 运动员所共享。当然运动员的天赋特点也被公开,可被对手利 用,成为比赛的弱点。 5)不可预见性 竞技体育最吸引人的特点就是具有一定的不确定性,比赛 结束之前,很难判定比赛的结果。因此体育给人们带来观赏的 同时,也是一种期待。对比赛的阅读和理解,有助于提高自身的 文化素养,扩展对外文化的认知。 6)依赖性 在科学技术高度发达的今天,体育竞技已不单单是运动员 体能与技术的比拼,更延伸到了体育科技的较量。尤其是在国 际性赛事上,国家的科技、经济力量早已成为赛事背后的一场 暗战。 从游泳池中的“鲨鱼皮”、跳高场上的碳纤维杆,到短跑赛 场上的黄金跑鞋,高科技帮助运动员不断创造纪录,但高科技 装备的使用也备受争议 。 3数据挖掘在竞技体育研究的核心技术 1)信息的采集。比赛信息的采集是进行数据分析的基础, 信息采集的粒度与实时性是后续数据分析有效性和准确性的 保证。 2)图像处理和视频分析。竞技体育的技术动作是在瞬间内 完成的,肉眼难以准确地判断出运动员动作的规范程度。技术 工作者可以图像处理和视频分析技术,采集相关技战术数据, 实现比赛视频绑定、视频检索与视频编辑。 3)战术分析。运用数据挖掘方法对篮球比赛技战术进行分 析,挖掘运动员的特点和各种团体运动的搭配组合,实现最优 效果,辅助教练员指导训练和决策。 4数据挖掘在竞技体育中的具体应用 4.1布阵安排 针对具体的比赛对手,分析对方在场球员的特点,利用关 联度分析,合理安排场上人员和人员之间的对位。每一位运动 员每一场比赛的相关技术统计都会有相关人员进行统计,在人 员对位上彼此的得分比也会有人计算,因此如果一个运动员在 每一场比赛中都能够其对手的某一位得分点,那么布阵上 ・62・ 福建电脑I 2015年第7期 力。 4-3营养安排 研究发现,营养的合理搭配有利于运动员的运动发挥。分 析运动员的运动和营养物质之间的关系,可以有利于食物的搭 配,在场上发挥应有的水平。营养过剩和营养不良都是需要避 免的问题。 4.4训练时间 不同国家和地区的运动员,对运动量的承受能力是不一样 的。通过相关度数据分析,得出不同地区运动员的体能特征,针 对这些特征,可以有效的制定体能训练计划,充分发挥运动潜 质。而不至于造成训练过度,肌肉拉伤等不良训练结果的发生。 4.5运动员特点分析 分析出运动员最擅长的运动特征,比如是防守还是进攻, 这些通过数据分析是可以实现的,比如得分差分析,如果在防 守对手时,能够充分对手,使得其得分很少,可以通过盖 帽,抢断,但自己进攻端得分却很少,这种球员就属于防守型球 员,因此在安排上主要以防守对方进攻点为主。 比如篮球运动,篮球运动员在不同的位置,其得分能力是 有所不同的,因此在其特别擅长的区域,必须加强对其进行限 制,而对其不是很擅长的区域,可以适当的放开,这样可以节约 更多精力其防守其余队员。 5小结 本文针对竞技体育的特点,分析国内外研究竞技体育的进 展,介绍了几种常见的数据挖掘算法,综述数据挖掘在竞技体 育中的应用。论文作为竞技体育的研究基础,也可以为高校体 育研究提供参考,综合测量考核学生的综合体能素质,研究不 同区域的体能情况和不同的营养物质对学生的体质影响。 参考文献: [1]范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社.2005. [2]于文爽.数据挖掘技术在篮球技战术分析中的应用研究[D].北方工 业大学,2010. [3]方元康.数据挖掘综述[I].数据库及信息管理.2007. [4 3-I']、久喜,张静静,阿英嘎.决策树技术在体育教学质量评价中的应用 研究[I].南京体育学院学报(自然科学版),2009,8(4):78—80 l 5 JZhou Y,Li Y,Xia S.An improved KNN text classiifcation ̄gofithm based on clustering[J J.Journal ofComputers,2009,4(3):230—237. [6]胡胡斐.数据挖掘在体育领域中的应用研究综述[J],科技创新导报, 2010,(27):211—212 [7]马佳,胡珉琦数据分析竞技体育的高科技战场[M].科学时报,2013.