1、本科生毕业论文(设计)开题报告本科生毕业论文(设计)开题报告 姓名 学号 专业 计算机科学与技术 班级 指导教师 职称 副教授 毕业论文(设计)题目 在线图书信息提取系统的设计与实现 本选题的意义及国内外研究现状(可加附页) 一、本选题的意义一、本选题的意义 从本商家的角度来说,在线获取图书的信息,可以了解图书销售的相关情况,还可以通过获 取的信息进行分析,发现存在的问题,对客户进行分类,挖掘潜在的客户,提供个性化的服务, 从而给企业带来更多的利润。 从竞争对手的角度来看,在线获取图书的信息,可以比较图书价格、评价等信息,寻找不同 点,发现不足以及优势 。 二、国内外研究现状二、国内外研究现状
2、 近年来, 随着科技的进步和网络技术的不断发展, 互联网逐渐成为人们了解商品信息的渠道。 从国内发展来看,网上销售商品作为电子商务的一方面,更是让企业对开发 Web 信息获取系统很 重视。就目前来说,Web 信息获取,由传统的获取对象逐渐过渡到 Web 页面的特殊对象,现在大 多数网页都是以超文本语言编写的,可以通过浏览器查看,故可以从对 HTML 页面的分析开始,直 接获取商品的信息,通过统计信息,把信息利用数据库来保存。但是 HTML 页面结构大多数属于半 结构化或者非结构化的结构,对 HTML 的写法没有很严格的限制,页面内部还加入了 JavaScript 脚本语言、CSS 样式、Jsp
3、 代码等,这样会加重 Web 信息获取的难度。因此,对 Web 信息获取系统 的开发,也需要针对不同的网站,采用不同的解决方法。 从国外发展看来,在电子商务发展这一方面,商品信息获取系统的发展是很迅速的。从最初 的只是应用于军事情报信息的获取,到后来逐渐形成了一些统一的评测规则,系统模版越来越复 杂,突破了语言的限制,逐渐运用到了电子商务上面来。随着信息获取的范围有所增加,应用多 种语言的处理技术、通过深层挖掘理解技术、Web 页面信息获取技术等,信息获取系统发展应用 越来越成熟了。 本选题拟解决的主要问题 1、图书相关信息的自动采集 2、图书相关信息的分类存储 3、图书相关信息的检索 毕业论
4、文(设计)的主要观点及创新点 一、主要观点一、主要观点 在电子商务网站上,海量的图书信息是零散而又没有标准的,这让商家不能及时准确的获取 有效的信息,成为一个难题。通过在线图书信息提取系统对图书信息的自动采集,合理分类,便 捷检索,可以让商家挖掘有效的数据,为商家的决策提供建设性的参考。 二、创新点二、创新点 本系统拟采用 HttpRequest、HttpContext 和正则表达式技术实现对在线图书信息的有效提 取,通过设计合理的数据库,对海量图书信息进行分类存储,给商家更全面有效的信息,有如下 几点: 1、对使用 AJAX 技术实现的网页隐藏信息的获取。 2、高效保存从 Web 页中抽取出来的数据,以备用户进行查询和分析使用。 3、对网页内容进行解析。 4、对获取的网页信息中包含的大量标记和空格等进行数据清洗 毕业论文(设计)进度计划 11 月 20 日起到次年 5 月 26 日止 1. 开题阶段 11 月 20 日11 月 30 日 (包括需求分析,概要设计) 2. 初期阶段 12 月 15 日3 月 1 日 (包括详细设计,代码实现) 3. 修改定稿