以后地位:第一欧博娱乐站论文盘算机盘算机实际 → 论文
文章注释

Web数据发掘中频仍拜访页组风趣性的研讨

文章分类:盘算机 - 盘算机实际 宣布工夫:2016-8-27 10:52:28 作者:孙 霞

盘算机实际:Web数据发掘中频仍拜访页组风趣性的研讨是由第一欧博娱乐站(www.fanwenz.com)为您经心搜集,盼望这篇Web数据发掘中频仍拜访页组风趣性的研讨论文可以给您带来协助,假如以为好,请把这篇文章复制到您的博客或通知您的冤家,以下是Web数据发掘中频仍拜访页组风趣性的研讨的注释:

摘  要  联系关系规矩发掘是Web运用发掘的一个紧张研讨课题,而此中紧张的一个题目便是发掘出的规矩的兴味度评价。在实践的使用中,普通的联系关系规矩算法每每很容易从Web数据源中发掘出少量的规矩,而这些规矩中,大局部关于用户来说是不感兴味的。本文联合网络站点拓扑构造,提出了风趣联系关系规矩的算法(MIR)。应用页面之间的联系关系概率对所发生的频仍拜访页组的风趣度停止评价,失掉风趣度高的频仍拜访页组。实行表现,MIR算法进步了规矩的应用率,无效的改进网站拓扑构造。     要害词  风趣联系关系规矩;页面联系关系概率;频仍拜访页组  

1  弁言

    随着互联网技能的疾速开展,怎样在WWW数据中找到有效的信息,曾经成为当今盘算机技能研讨的一个热门课题。Web发掘是数据发掘技能在互联网上的紧张使用。它次要包括两大范围:Web内容发掘和Web运用发掘。     联系关系规矩发掘是Web运用发掘的一个紧张研讨课题。它的目标是找到网站资源拜访记载中隐含的互相干系,可以发明隐蔽的用户拜访形式。本文偏重讨论了风趣联系关系规矩的发掘。经过剖析日记文件,我们可以寻觅到那些常常被用户拜访的页面及他们之间的联系关系规矩(即频仍拜访页组)。但是,这些发掘的后果应该思索到规矩的风趣度。兴味度低的规矩关于网站的构造调解和全体设计无严重意义。在本文中我们以为一个兴味度高的用户频仍拜访页组满意三点:     (1)页组内页面自身之间链接水平低。     (2)页组内尽能够包括多的页面。     (3)常常被用户在一次阅读进程中拜访。

2  联系关系规矩

    联系关系规矩的题目描绘如下:     设R = { I1,I2,⋯,Im} 是一组物品集,W 是一组事件集。W 中的每个事件T 是一组物品,T < R。假定有一个物品集A,一个事件T,假如A < T,则称事件T 支持物品集A 。联系关系规矩便是如下方式的一种包含:A →B,此中A,B是两组物品,A < I,B < I,且A ∩B 为空。则可用两个参数可信度和支持度来描绘联系关系规矩的属性,其界说如下:     (1) 可信度(confidence) 。设W 中支持物品集A 的事件中,有c %的事件同时也支持物品集B,则称c %为联系关系规矩A →B 的可信度。     (2) 支持度( support) 。设W 中有s %的事件同时支持物品集A 和B,则称s %为联系关系规矩A →B 的支持度。显然可信度是对联系关系规矩精确度的权衡,支持度则是对联系关系规矩紧张性的权衡。联系关系规矩的发掘题目便是在事件数据库D 中找出具有效户给定的最小支持度minsup 和最小可信度    minconf的联系关系规矩。他可以剖析为两个子题目:     (1) 找出存在于事件数据库中的一切大物品集。物品集X 的支持度support ( X) 不小于用户给定的最小支持度minsup,则称X 为大物品集。     (2) 应用大项集天生联系关系规矩。关于每个大项集A,若B < A,B 不为空,且confidence ( B →( A - B ) ) ≥minconf,则组成联系关系规矩B →( A - B) 。     网站资源可以是网页、数据、图片、声响和文档。设x1、x2、……xm;Y1、Y2、……Ym均为网站资源,X=>Y(sup,conf)表现资源集的联系关系规矩,此中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,这条规矩的寄义是假如资源集X被拜访,那么资源集Y也会被拜访。规矩的支持度为sup,相信度为conf,联系关系规矩发掘算法的目标便是要推导出一切到达肯定支持度和相信度的规矩。     但是,只运用支持度和相信度来描绘联系关系规矩是分明缺乏的,规矩过多,用户不感兴味,规矩很难为用户效劳和应用。如许的联系关系规矩意义就不是很大。以是,联合网站的拓扑构造提出了MIR算法来添加发掘规矩的风趣性。

3  风趣联系关系规矩MIR算法

3.1  页面之间的联系关系概率

    在这里,假定超文本零碎仅仅包括有一些根本的页面。除别的我们还假定:① 指向一个页面的衔接是将这个页面作为一个全体来看待的,而不是指向页面内容的一局部;② 在超文本零碎中不存在环路;③ 在任何源节点和目的节点间最多只要一条链路。基于以上的假定,我们可以为超文本零碎树立一个有向网络拓扑图,如图1 所示: 图1 网络拓扑图     在这里,有向图G=(N,E),此中N 是节点的聚集,E 是边的聚集。一个节点A(A∈N)和一个页面绝对应,一条边是一个元组(A,B)∈E,和页面间的一个衔接绝对应;关于给定的衔接(A,B)称A是源节点,B是目标节点。在这里并不假定图是衔接的。假如两个页面在网络拓扑中相距较远,则标明它们之间的联系关系性较低,假如我们从日记信息中发掘出它们之间有较高的拜访可信度的规矩,则如许的规矩是用户感兴味的。如图1的页面C和E在拓扑构造中,表现联系关系度较低。假如,在Web日记中发明了C=>E如许的联系关系规矩,则兴味度是较高的。经过如许兴味度高的联系关系规矩,有利于网站构造的调解。在引见算法前,我们起首引入几种资源链接状况的联系关系概率。     (1)假如在资源A、B之间不存在任何有向边或许链接序列,则P(A|B)=0。     (2)假如资源之间存在有向边链接,假定B中存在Li个链接(Li>=1),则用户能够从B拜访A的概率为P(A|B)=1/(li+1)(包罗前进的状况)。如图1中P(C|B)=1/3。     (3)假如A,B之间存在有向序列(A,K1,K2,…B),则P(A|B)=P(K1|B)P(K2|K1)…P(A|Kn)。

3.2  规矩的风趣度确定

    Web联系关系规矩发掘可以应用网络拓扑的特点停止改进。网络拓扑是一个由链连续接起来的资源集。在网络拓扑中间接或直接相连的资源集在用户拜访时同时呈现的能够性较高,显然他们的联系关系规矩关于网络拓扑设计者是不大感兴味的。而在拓扑中不相连或相距较远的资源集在用户拜访时同时呈现的能够性较低,他们的联系关系规矩恰恰是网络设计者所希冀获得的。在这里,我们界说风趣度公式如下:     interest(A|B)=1-P(A|B)   (1)     在拓扑构造中,联系关系度越高则兴味度越低。假如页面间没有任何链接,则其interest为1。 固然,我们可以思索页面内容及拜访该页面工夫是非和拜访频率等多种要素来思索兴味度,但是如许完成的时分CPU破费的工夫比拟多,在这里我们思索了比拟复杂适用的办法确定的规矩风趣度。

 

3.3  风趣联系关系规矩算法(MIR)

    发掘频仍拜访页组的算法相似于联系关系规矩算法中发明最大项目集,我们事后设定支持度的阀值T,在频仍拜访页组中都是支持度大于T的页面,在传统的页面聚类算法中,支持度指包括页组中一切页面的用户会话的个数。在MIR算法中,我们除了设定支持度,同时依据网站的拓扑构造盘算每个规矩的风趣度interest(A|B)。发掘出来的页组的风趣度还需求满意用户指定的最小兴味度min

[1] [2]  下一页

关于本站  |  网站协助  |  告白合作  |  免责声明  |  友谊链接  |  网站舆图
第一欧博娱乐站 CopyRight © 2011-2020 www.fanwenz.com All Rights reserved. 备 案 号:鄂ICP备12012049号 未经受权制止复制或树立镜像 违责必究