Hawk 搜索引擎平台 Change Logs
20090320 - Hawk-0.6.22 test version released
- 修正了0.6.9版本以来发现的若干bug。
- 增加了resources/appLocalStrings的资源文件,可以对主页等页面定制自己的文字说明,包括包含外部的welcome页面等,修改了部分theme的颜色和样式等。
- 对抓取的流程进行了改进,可以快速的索引磁盘上的文件,删除了部分不需要的中间数据。
- 可以设定磁盘上文件路径和web路径的映射关系,方便索引网站内部的网页。
20080719 - Hawk-0.6.9 test version released
- 设计实现网页模板机制,用户可以自定义对外发布网页模板,如定义xml输出接口或者适合自己网站风格的网页。
- 设计实现了theme机制,用户可以自定义自己喜欢的theme风格,并改进了缺省的theme,可以选择不同语言以及颜色主题等。
- 修正了若干缺陷,如任务执行中的效率和进度等,在WINDOWS上执行的编码问题等,执行脚本的改进等。
- 对索引数据库结构做了较大改进,可以自动将较大segment目录分解成较小的目录,实现1000万级文档的索引。
- 加入对各种文档如html, doc, excel, ppt, pdf, swf, mp3等常用文档的分析和索引,还可以索引dict字典数据,每一行当作一个文档来索引。
- 加入了suggestion库和word库,可以提供检索词自动提示功能,以及繁简转换功能。
- 改进了配置文件,可以将不同类别的配置参数归类,同时可以在web界面下修改和查看各个参数的值。
20080318 - Hawk-0.4.50 preview version released
- 加入phrase分析功能和phrasedb字典以及分词模块。用于从抓取网页内容分析新词,并生成字典用于分词。
- 改进网页outlink分析模块,以及link的过滤和规格化模块的改进。
- 改进网页正文分析模块,持续进行中。
- 对查询结果的相关性进行优化,持续进行中。
- 加入网页cache和相关性分析servlet等功能。
20080220 - Hawk-0.4.35 technical preview version released
- 完成第一个开发版本,可以执行抓取网页,索引以及检索的功能。
- 完成Hadoop中MapReduce和JobTracker,TaskTracker的改造,以实现可以在Windows/Linux跨平台执行job,并将Map和Reduce分离以实现可以独立执行Map或者Reduce的任务,减少重复的数据处理。Map和Reduce分别代之Processor和Combiner两个独立的Task。
- 完成Nutch的改造,改造索引和segment存储格式及内容,简化部分处理流程,并把改造后的Hadoop系统与之整合。
- 以上改造为实现将来更轻量级的分布式计算做准备,而无需像Hadoop一样需建立庞大的cluster集群来进行分布式存储和计算。
- Nutch的改造为支持单机千万级的索引量重新设计,同时为实现将来软件模块化做准备,如OSGI或更轻量级架构。
- 完成管理界面的设计和实现,以全新的面貌并与Windows相似的操作界面呈现,并支持国际化语言,目前支持英文和中文界面。
- 完成自然语言语法分析模块的架构,用于将来实现语法分析和语义识别模块。
- 完成按自然语言语法进行Query语句分析模块的设计。
- 给HawkBean查询模块加入Cache缓存机制。
- 改进bin下的启动脚本以及conf下部分配置文件。