要求:登陆时做验证,之后,使用每一项功能前都要进行验证。
模块二:搜索核心模块
要求1:可以连续运行一周以上,记录扫描到的网络连接。为下载资源做准备。
数据库操作中添加时间戳,实现扫描网页的终止和继续(断点续传)。
要求2:根据子系统1得到的连接,获取连接内的资源。
模块三:数据分析模块
要求1:读取搜索得到的原始数据,进行切词分析,切出搜索需要的关键词
要求2:保存关键词,及其来源(url),以便进行热点追踪
模块四:热点发现模块
要求1:词汇出现在不同连接中的次数,日期总结出当天热点,生成饼状图。(方便查看)
要求2:总结一周内该热词出现的频率,并生成该词汇出现频率的曲线图。
模块五:热词追踪
要求:能够显示该热词出现的网页。(一个热词可能出现在多个网页中)
模块六:报表导出导入
要求:导出导入用户的excel表单(用户名,密码,角色,能够通过表单初始化用户)
模块七:热词排行
要求: 总结当天热词,显示出排名前十或前二十的热词,用户可以直接点击排行榜上的热词,查看该热词的来源网页(多个)。
以下为管理员模块
模块八:添加词库
词库关系着切词的准确,由于经常出现网络新词,而且频率很高,词库需要及时更新。
而且当前词库可能不包含一些专业词汇,支持专业词汇扩展
要求:用户可以直接输入词汇加入词库,也可以上传词库文件(必须以UTF-8编码编写,必须以一行一个词的方式编写,格式不限)。也可以下载搜狗输入法的细胞词库,通过我们提供的转换工具,转换成词库文件再上传
模块九:用户管理
要求:对用户进行管理,用户列表,用户的增删改查下载本文