http://www.ilogpe.com

                                 【3分排列3】关联规则挖掘-常见问题

                                 关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。

                                 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料[集合中找出所有的高频项目组(Frequent I]temsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。(推荐学习:PHP视频教程)

                                 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。

                                 高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。

                                 一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-items,et),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。

                                 关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Co(nfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

                                 例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

                                 基于规则中处理的变量的类别

                                 关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

                                 基于规则中数据的抽象层次

                                 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

                                 )基于规则中涉及到的数据的维数

                                 郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

                                 上一篇:50亿美元创纪录罚款!Facebook与美监管机构和解隐私调查 - Facebook
                                 下一篇:没有了