基于Google 搜索路径的课程信息垂直搜索引擎(第4页)
本文共计7493个字,预计阅读时长25分钟。【 字体:大 中 小 】
1. 调用 setInfor()函数,设置了每1门课程的公共信息,本例为学校和学院
2. 初始化 HTMLParser 的分析器 parser,并设置编码方式
3. 分析 WEB 页面结构来选择合适的 filter,课程编号均含有 12-,因此选用
StringFilter courseFilter = new StringFilter("12-");
4. NodeList nodelist =过滤得到的所有课程编号节点;
5. foreach(课程编号节点)
提取元数据课程名称=课程编号节点+“ ”+课程名节点;
提取元数据教师 first name=课程编号节点之后的 nextSlibing 节点,即教师 first name 节点;
教师名=根据 first name 在 teacherList 中查找得到的教师全名;
教师主页=根据 first name 在 teacherList 中查找得到的教师主页;
提取元数据课程链接 = prefix+课程编号(不带“-”)+suffix;
提取元数据课程简介=getDescription(课程链接);
调用基类中的函数将抓取到的课程信息插入 Lucene 的索引
图 4 getCourses()函数伪代码
Fig4 pseudocode of function getCourses()
3.算法性能
以卡耐基-梅隆大学的3个学院为例,来分析本系统算法的查全率
P(Precision),F 度量(F-measure)。
F 度量让用户在查全率和查准率上求得平衡。我们认为垂直搜索应该给用户提供准确的
信息,因此查准率的重要性大于查全率。据此,选择查准率和查全率的重要程度值 =0.5, 代表 P
[1]

