当前所在位置: 首页 > 论文范文 > 正文

基于Google 搜索路径的课程信息垂直搜索引擎(第4页)

本文共计7493个字,预计阅读时长25分钟。【 字体:

论文指导服务

毕业论文网专业团队提供毕业设计、论文写作指导及相关咨询服务

论文指导 毕业设计 答辩咨询
微信号已复制到剪贴板

  1. 调用 setInfor()函数,设置了每1门课程的公共信息,本例为学校和学院

  2. 初始化 HTMLParser 的分析器 parser,并设置编码方式

  3. 分析 WEB 页面结构来选择合适的 filter,课程编号均含有 12-,因此选用

  StringFilter courseFilter = new StringFilter("12-");

  4. NodeList nodelist =过滤得到的所有课程编号节点;

  5. foreach(课程编号节点)

  提取元数据课程名称=课程编号节点+“ ”+课程名节点;

  提取元数据教师 first name=课程编号节点之后的 nextSlibing 节点,即教师 first name 节点;

  教师名=根据 first name 在 teacherList 中查找得到的教师全名;

  教师主页=根据 first name 在 teacherList 中查找得到的教师主页;

  提取元数据课程链接 = prefix+课程编号(不带“-”)+suffix;

  提取元数据课程简介=getDescription(课程链接);

  调用基类中的函数将抓取到的课程信息插入 Lucene 的索引

  图 4 getCourses()函数伪代码

  Fig4 pseudocode of function getCourses()

  3.算法性能

  以卡耐基-梅隆大学的3个学院为例,来分析本系统算法的查全率

  P(Precision),F 度量(F-measure)。

  F 度量让用户在查全率和查准率上求得平衡。我们认为垂直搜索应该给用户提供准确的

  信息,因此查准率的重要性大于查全率。据此,选择查准率和查全率的重要程度值 =0.5, 代表 P

[1]

阅读全文