基于Google 搜索路径的课程信息垂直搜索引擎(第4页)(7493字)

当前所在位置: 首页 > 论文范文 > 正文

基于Google 搜索路径的课程信息垂直搜索引擎(第4页)

本文共计7493个字，预计阅读时长25分钟。【字体：大中小】

毕业论文网专业团队提供毕业设计、论文写作指导及相关咨询服务

论文指导毕业设计答辩咨询

微信号已复制到剪贴板

　　1. 调用 setInfor()函数，设置了每1门课程的公共信息，本例为学校和学院

　　2. 初始化 HTMLParser 的分析器 parser，并设置编码方式

　　3. 分析 WEB 页面结构来选择合适的 filter，课程编号均含有 12-，因此选用

　　StringFilter courseFilter = new StringFilter("12-");

　　4. NodeList nodelist =过滤得到的所有课程编号节点;

　　5. foreach(课程编号节点)

　　提取元数据课程名称=课程编号节点+“ ”+课程名节点;

　　提取元数据教师 first name=课程编号节点之后的 nextSlibing 节点，即教师 first name 节点;

　　教师名=根据 first name 在 teacherList 中查找得到的教师全名;

　　教师主页=根据 first name 在 teacherList 中查找得到的教师主页;

　　提取元数据课程链接 = prefix+课程编号(不带“-”)+suffix;

　　提取元数据课程简介=getDescription(课程链接);

　　调用基类中的函数将抓取到的课程信息插入 Lucene 的索引

　　图 4 getCourses()函数伪代码

　　Fig4 pseudocode of function getCourses()

　　3.算法性能

　　以卡耐基-梅隆大学的3个学院为例，来分析本系统算法的查全率

　　P(Precision)，F 度量(F-measure)。

　　F 度量让用户在查全率和查准率上求得平衡。我们认为垂直搜索应该给用户提供准确的

　　信息，因此查准率的重要性大于查全率。据此，选择查准率和查全率的重要程度值 =0.5，代表 P

[1]

阅读全文

论文客服微信扫一扫