文本信息抽取研究的论文

发布时间：2024-07-05 01:14:40

文本信息抽取研究的论文

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。

主要有自动摘录,基于理解的自动文摘,信息抽取和基于结构的自动文摘4种. 其中,自动摘录(Automatic Extraction)将文本视为句子的线性序列,将句子视为词的线性序列.然后通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出. 基于理解的自动文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法.这种方法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断,推理,得到文摘的意义表示,最后从意义表示中生成摘要. 基于理解的文摘方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模真实文本而言是很难实现的.与之相比,信息抽取(Information Extraction)只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高. 篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系.篇章结构分析清楚了,文章的核心部分自然能够找到.但是语言学对于篇章结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还没有一套成熟的方法,不同学者用来识别篇章结构的手段也有很大差别. 基于以上的介绍,我们决定使用自动摘录的文摘方法,因为其实现简单,效率较高,适用于"网际新闻快车"系统待文摘文章数目巨大,准确率要求不苛刻的应用环境. 系统流程 Hawk单文档自动文摘系统的系统流程如图1所示,包括预处理,加权,排序,文摘选取,句子重排以及后处理输出等. 图1. Hawk单文档自动文摘系统的系统流程图预处理预处理的主要是进行分词以及划分章节,段落句子等原文本处理工作.将输入的原文本按照其所属章节,段落和句子等信息进行标记. 其中在分词阶段,进行未登陆词的识别对于文摘的抽取,特别是关键词的标引有非常重要的作用.在此,我们主要采取识别散串的方法进行未登陆词的识别. 散串的定义为文本经过分词之后,在文本中连续出现的若干个单字或单字词构成散串,散串中不应包含"的"等高频单字虚词. 高频未登录词识别算法: 1. 将文本中的全部散串收集到一起划分章节,段落,句子,分词等预处理段落加权词汇加权句子加权句子根据权重降序排列根据用户需求选出权重最高的若干句子候选句根据在原文中的出现顺序排序润色输出删除序数词回避指代问题 2. 将每个散串分裂为其全部二字以上子串的集合,例如:"孙志刚"-〉"孙志","志刚","孙志刚" 3. 对全部散串的子串进行排序 4. 统计每个子串出现的频度,例如:"孙志":2次;"志刚":4次;"孙志刚":2次 5. 对每个子串进行加权计算,加权公式:Lc,L是子串的汉字个数,C是子串的频度,如上例:"孙志"的权重:4;"志刚":16;"孙志刚":9 6. 根据权重对子串降序排列 7. 高于某个阈值的子串进入临时词典分词结果是词序列,例如:"孙志刚被杀害""孙志刚被杀害". 加权方法我们主要考虑了三个部分的加权方法,分别为段落加权,词汇加权和句子加权: 段落加权的方法是: 1, 处于篇首或篇末的段落权重高 2, 包含关键词种类多的段落权重高如果仅包含一个关键词,但该关键词在该段落中出现很多次,说明这个段落只是针对文章中的每一个分论点进行阐述,价值不大.重要的段落一定要包括多个不同的关键词,在阐述它们之间的关系. 3, 字数少的段落权重高词汇加权的方法是: 1, 在标题里出现的词权重高 2, 在文章中多次出现的词权重高 3, 在其它文章中很少出现的词权重高 4, 跨越了多个段落的词权重高可能一个词在一个段落里出现了很多次,但在其它段落里几乎不出现,说明这个词和该段落的相关性非常大,但是不能概括全文的中心思想句子加权的方法是: 1, 所在段落权重高的句子其权重也高 2, 出现在段落首句或末句位置的句子权重高 3, 包含很多高权重关键词的句子权重高 4, 出现线索词,例如"总而言之","综上所述"等词汇的句子权重高文章各部分信息加权流程如图2所示. 图2. 文章各部分信息加权流程图其中使用的数据结构分别如表1,2和3所示表1. 段落信息表 ID 在篇章中的位置段落总字数线索词段落权重 1 2 …… 段落加权段落信息表词汇加权词汇信息表句子加权句子信息表表2. 句子信息表 ID 段落号句子号在段落中的位置是否为标题词信息向量存储为词的ID的向量词权重之和是否含有线索词句子权重 1 2 …… 表3. 词信息表 ID 词词频 tf*idf 或相对词频是否在标题中出现跨越段落数词权重 1 2 …… 通过加权步骤,我们可以获得每个词汇的权重信息和句子的权重信息,通过这些权重信息,就可以得到关键词(权重较大的词汇)以及关键句(权重较大的句子). 因此排序,文摘选取,句子重排等步骤只是一个简单的排序工作,这里就不详细赘述了. 后处理后处理步骤的主要工作是进行指代词的消解和句首关系连词的删除,以使得文摘的结果更通顺流畅. 所谓指示代词包括人称代词(你我他),一般代词(前者,后者)等等.我们采用的方法是如果一个被抽取的文摘句中前面n个词中含有这些代词,则将改句的前一个句子也作为文摘句,依此类推.通常,n取7. 句首关系连词包括"换言之","因此"等等连词,如果其出现在文摘句句首,则显得非常突兀,句子表达也不连贯,需要删除之. 经过以上后处理步骤,基本达到了文摘润色的目的. 系统演示为了便于调试和演示,我们开发了Hawk单文档自动文摘系统的演示界面,如图3所示. 图3. Hawk单文档自动文摘系统的演示界面首先我们选择一个待处理的文件夹,如图4所示图4. 选择一个待处理的文件夹然后选择该文件夹下的一篇文章,如图5所示. 此时,用户可以设定自动标引的关键词个数图5. 选择该文件夹下的一篇文章以及文摘的长度,文摘长度可以有3种选择方式,分别为根据百分比提取文摘,设定文摘结果的词数和自动配置,所谓自动配置即是系统根据文章的长度,自动给出一个比较合适的文摘长度.如图6所示. 图6. 选择设置文摘长度单击执行按钮,系统一次性给出标引的关键词以及文摘的结果.并且在原文中标识出文摘在原文中的出处和该句的权重.如图7所示. 图7. 文摘结果

我给你找了一篇，摘要如下：随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面：网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样，包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播;“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率;再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户;触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之!2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询;二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得;其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检;第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词……………………………………太长发不全希望对你有用实在不行联系我（给我留言）我发给你邮箱。

正则表达式可以有多行匹配模式的，具体要看你用什么语言？或者可以先执行文本替换，替换掉换行符，然后再执行正则表达式。关于html网页源码的字符编码（charset）格式（gb2312，gbk，utf-8，iso8859-1等）的解释另外，关于网站抓取方面的，这里面，基本上有你想要的所有的内容：如何用python，c#等语言去实现抓取静态网页模拟登陆网站

信息获取的途径研究论文

（一）从人群中获取信息每一个人都是一个信息源，人们在日常生活中吸引着信息，也在传播着信息。尤其是与你选择项目有关的消费者，同行业从业人员，及相关企业的营销人员，往往能够提供大量的、直接的宝贵信息。你的熟人、亲戚、朋友、老同学、老部下、老战友、老同事、童年的伙伴，现在的邻居、从前的客户、一个俱乐部的成员等等都是你的信息源。（二）从现代传媒获取信息计算机网络等媒体，携带的信息量大、面广、信息新。现代传媒和信息工具十分发达，让人应接不暇，广播、电视、报纸、杂志、统计报表，很多有价值的信息，可能是在你不在意的时候发现的，做个有心人，你会从现代传媒和信息工具中发现许多有价值的信息。真所谓“踏破铁鞋无觅处，得来全不费功夫”。武汉市卫生局一职工，在浏览卫生与健康小报时，无意中读到一则消息：湖北荆门一老中医，潜心研究数十年，终于研制成一种中草药配方，对一直没有特效药的幽门杆菌有奇效。他读到这一消息后，立即联想到，患胃病的人那么多，为什么不将这种药生产出来投放市场呢？他拉了三个志同道合的人立即奔赴开门，将老中医的药方买下，又凑了几千元钱，辞职南下到珠海办厂。几年后他们的产品“丽珠得乐”家喻户晓，畅销全国。“世上无难事，只怕有心人”，只要你做个有心人，就会从现有传媒中获取大量有价值的信息。现代计算机网络化发展。使你不仅可以从计算机网络上了解到全世界的信息，还可以在网上谈判，签合同，交易。重视使用网络技术，学会从计算机网络中获取信息，是对现代商人提出的更高要求。如果可能的话，你可以订几份与你开展的业务有关的报刊、杂志，建立几条固定的信息渠道。比如搞营销的，可以订《市场报》、《经济信息报》；搞外贸的可以定《国际商报》、《外经贸信息》等；搞裁剪的可以订《服装与裁剪》杂志；搞股票的要订有关证券报刊杂志，搞装修的不妨订《家俱与生活》、《现代装修》等杂志，搞食品的可以订《食品卫生》杂志，等等，有针对性地获取传媒信息，不仅能为你提供商务信息，而且会为你不断提供各类专业知识，行业发展动态，使你开阔眼界。（三）从官方或官方服务机构获取信息地方政府或政府服务机构是信息的重要来源。如工商、税务、统计、物价、经济计划部门、消费者协会、新闻机构等部门，这些部门处于社会经济生活的关键地位，信息来源更具权威性。获得这些政府机关的信息一般有三种方式：一是从它定期或不定期的公告或公开发布的消息获得;二是从它的信息服务中心能及有关定期或不定期编印的信息资源查询获得;三门是有针对性地走访和咨询获得。政府的一项政策出台或一些政府行为的实施将会对你的业务产生很大影响。政府支持或鼓励要办的事情，你仔细研究评估后，应尽快去办。比如，在北方有一个城市，市民普遍反映吃早饭难，市政府号召国家、集体、个人一起办，解决市民吃早点难的问题，动作快的生意人立即行动，有一个体饭店老板马上添置了几辆食品车，办起了流动早点车，方便了市民，又取得了良好的经济效益，并被新闻媒体宣传报道。他借势发挥，为一些单位职工早午用餐和外来旅游人员提供快餐，一年下来，流动快餐车的收入，远远高于他办饭店的收入。现在，每天都可以看到他印有特色标志的快餐车，穿梭于大街小巷。同时，还要特别注意政府的一些管理政策和措施的出台，以使你早有准备，规范经营行为。如物价大检查、食品卫生大检查、文化音像市场大检查，技术监督和工商部门的打假行为等，虽然这些都是一些政府经常性的行为，但每次采取行动前，政府都会通过不同渠道发布信息，如某个领导人讲话，某次会议报道，某次新闻专访等，如果你不注意这方面的信息，没有准备，面对突如其来的检查很被动，或者会有不应有的损失。不能只埋头做生意，也应关心国家大事，至少是关心你所在城市与社区的政府行为，重视这方面的信息来源，将使你的生意平安顺利。（四）从图书馆、书店、专利情报所、档案馆、邮电局获取信息从图书馆和书店你可以借到和买到有关信息资料，如行业法规、政策、专业知识和经营策略、企业名录、行业分类、概况、发展趋势、前景预测及各类统计资料。从专利局、情报所、档案馆可以查到你所需求的技术资料、企业资料、国内外各类机构、科研单位资料、最新科技成果等有用信息。从邮电局你可以买到完整的电话号码簿。几万甚至几十万个电话号码的用户都是你的潜在顾客。如果你有办法，你还可以获得手机号码资料，这些手机持有者是你从事高档消费业务，和发展消费会员的潜在顾客。（五）从各类商会、行业协会、技术专业委员会等民间商业和群众团体获得信息无论你是否参加各类商会、协会和群众团体，这些机构都会有偿或无偿地为你提供商业信息，比如香港贸发局及其驻各地办事处，公告欢迎客户查询它的信息，这些信息包括香港企业名录和世界各国企业名录，世界各地举办的各类展览会，交易会的资料。各类商会也会向你提供所属行业名录和一些活动资料。当然，你最好加入一些商会或协会，或某种有用的信息网络，你将获得稳定的、固定的信息来源。（六）从各类交易会、展览会、商场及批发零售交易市场、集贸市场直接获得信息。每一个地区和城市，或者行业都会定期不定期地举办各种商品展览会、交易会、洽谈会。会议期间，参展单位众多，商贾云集，置身其中你会发现无数商机。很多特约经销、专营、代购、代销业务都是在交易会期间，接触并达成共识的。因为参展单位参展时间有限，会期过后，要长期开拓市场，必须与当地经营企业合作，利用当地企业优势和渠道拓展其商品市场，必须与当地经营企业合作，利用当地企业优势和渠道拓展其商品市场。通过交易会，你会获得大量有用的产品信息、技术信息、价格信息和客户资料。这是非常难得的获取信息的渠道和机会。你还可以到各类商场，批发零售市场和集贸市场观察了解、询问，直接获得有关商品种类、质量、开关、产地、价格等情况，了解到哪些商品热销，哪些商品滞销，顾客的购买动机和购买行为。比如有一精明的生意人，他在逛商场时发现外地的某种热水器和浴缸畅销，便立即打出了某种热水器和浴缸的专业维修服务招牌，并主动与生产厂家联系，以其良好的服务和诚意，赢得生产厂家的信任，不仅同意特约维修，而且也同意其经销厂家的产品和配件。你也可以以一个打工者或顾客身份经常光顾你的竞争对手的店铺，了解他经销或服务的特色、商品价格质量。从而获得一手信息。

如果现在需要撰写一篇与本专业相关的学术研究论肯定我知道更多的结果

采集信息的方法:1通过检索媒体采集信息；2通过与他人交流采集信息；3通过亲自探究事物本身获取信息。（答案:信息技术必修的信息技术基础）

一、信息获取的途径主要有以下几种：

1、通过亲身探究实物本身。

2、通过与他人交流采集信息。

3、通过检索媒体采集信息。

二、信息获取的步骤：

1、制定信息获取的目标要求，即要搜集什么样的信息，做什么用。

2、确定信息获取的范围方向，即从什么地方才能获得这些信息。

3、采取一定的技术手段、方式和方法获取信息。由于需要不同，信息获取的技术手段、方式、方法也不相同，如破案工作要采取侦察、技术鉴定等方法，而科研工作必须利用情报检索工具和手段等。

4、在信息获取过程中，上述三个环节缺一不可。

扩展资料：

一、信息获取的限制

在信息获取上，企业可能受到获取信息工具、信息渠道、外界的信息封锁、信息量太大而无法容纳的限制、客观事物反映在信息上的模糊性而无法清晰描述的限制、信息模型的局限或者获取信息的成本太高而产生对外部世界的不准确描述等限制。

所以，企业的信息系统的建立首先要考虑在源头上如何布点，采用什么方式、工具，以及如何形成互相验证，如何以较低的成本获取尽量全面的信息。

二、信息的来源

1、人类感觉器官

2、书报、杂志、文章、电子出版物

3、电报、电话、广播

4、各种计算机网络

参考资料来源：百度百科－信息获取

参考资料来源：

植被信息提取方法研究论文

在我们的校园网站上图书馆上有，自己找就行。。。。谢谢。

植被的反射光谱曲线起伏变化明显，具有多峰与多谷的特征。植被在～μm波段是强吸收带，平均反射率一般不超过10%;在～μm波段具有波峰的形态和中等反射率(在8%～28%之间)，其中μm处是叶绿素的绿色强反射区;在～μm段具有波谷的形态，反射率很低;到～μm段，反射率急剧上升，光谱曲线具有陡而接近于直线形态;在～μm段，因植被的吸收率很低而保持高反射率。

植被指数是以植被对红光和近红外光的生理生态效益为基础的。科学试验证明:植物叶绿素需要强烈吸收红光和蓝紫光，用于光合作用，其中以μm波长附近的吸收最为强烈，吸收率可达90%。吸收强度的大小，同叶绿素的多少和叶绿素的活力的高低有关。叶绿素的数量越多，活力越高，吸收强度越大，而在波长～μm的近红外光谱段内，植被叶片形成强反射，吸收率几乎等于零，而透射和反射几乎各占50%。在～μm波段中绿色植物的红光吸收峰和近红外光反射峰及其组合，是其他生物和非生物所没有的，所以它们成为识别植被的专属性标志，而它们的组合，也就成为提取植被信息的特异性指标。

系统用于植被信息提取的数据源有Landsat-ETM、CBERS、SPOT、QUICKBIRD和MODIS，它们的IR和R波段的通道编号和波长范围见表5－2所示。

表5－2 植被指数的数据源表

常用的植被指数有:

(1)环境植被指数(EVI):即近红外波段与可见光红波段的亮度差值，又称差值植被指数，表达式为

EVI对土壤背景有一定的敏感性;当植被盖度为15%～25%时，差值随盖度的增加而迅速增大，当盖度大于80%时，灵敏度明显下降。

(2)双差植被指数(DDVI):即近红外波段与可见光红波段的亮度差值减去可见光红波段与绿波段(TM2)之差，表达为

DDVI的特点是引用了对健康茂盛的植物绿反射敏感的绿色波段，增强了植被的信息，并能在一定程度上补偿大气层的不利影响。由于绿波段对土壤敏感，按“绿峰”反射评价植被生活力，所以有利于植被分类，区分林型和树种。

(3)比值植被指数(RVI):即近红外波段与可见光红波段之比，表达为

RVI对土壤背景比较敏感，在植被盖度大于50%时，对植被盖度的差异敏感度较高，但不能很好区分小于30%的植被盖度差异。

(4)归一化植被指数(NDVI):即近红外波段与可见光红波段之差与这两个波段之和的比值，表达为

NDVI综合利用了四则运算，提高了对土壤背景变化的鉴别能力，消除了地形和群落结构的阴影的影响，削弱了大气层的干扰，因而大大扩展了对植被盖度的监测灵敏度。它是植被生长状况和植被空间分布密度的最佳指示因子，与植物分布密度呈线性相关，有较好的时相和空间适应性，因此又可称之为生物量指数或标准化植被指数。

大量研究上述各类植被指数的处理结果并进行了比较，发现各类方法提取效果无较大差异。但在干旱地区采用NDVI方法是最成熟和常用的方法，因为它综合了EVI、DVI和DDVI的算法，对植被检测灵敏度较高，对植被盖度的检测范围较宽，能消除阴影和辐射干扰。

植被覆盖度信息自动提取模块以上述原理为基础，将图像定标、NDVI植被指数计算，密度分割等功能有机地集成封装到一起(图5－6)。用户只需要通过简单的几步操作就完成从原始影像数据到植被覆盖度分类结果的转变。植被覆盖度信息提取的核心是密度分割的阈值划分问题，根据多次试验和野外调查分析，在系统内部设定了适合工作区植被盖度级别划分的阈值，随着工作程度的深入和资料积累，将不断完善阈值设定。

图5－6 植被覆盖度信息提取流程图

目前植被覆盖度信息提取流程主要如下:

(1)反射率反演:反射率反演为定量遥感的基础。在不考虑大气多次散射和交叉辐射的情况下，有:

式中: DNi为图像的灰度值; ρ 为地物的反射外大气层反射; GAINSi为辐射定标的增益系数，包括了大气透过率、传感器的波长响应等乘性因素的影响; BLASESi为辐射定标的偏移值，包括了大气层辐射、传感器暗电流等加性因素的影响。对于不同的波段以及同一波段不同的航带，辐射定标的增益值和偏移值是不同的。而通过辐射定标的增益值和偏移值即可以进行反射率 ρ 的反演。

( 2) 植被指数变换: 将经过反射率反演的图像进行NDVI ( 植被指数) 变换，得到植被指数图像。各类样本在 NDVI 图像上呈离散度矩阵，植被与非植被类型在NDVI 图像上差异很大，利用 NDVI 图像可将植被与非植被区分开来。

( 3) 密度分割: 由于植被指数是植被覆盖度的重要指标，并且对于遥感数据而言，每个像元内的反射率是林冠的反射率，而不是树冠和叶面的反射率，并且能很好地区分植被和非植被，所以植被指数数据较适用于植被覆盖度。对干流区 1∶ 10 万植被指数图像NDVI 值和重点区 1∶ 1 万植被指数图像 NDVI 值均按照植被盖度低盖度、中盖度和高盖度三个级别进行密度分割，并将分类结果与植被盖度历史专题数据以及沿干流布设的生态监测站的植被盖度数据进行反演，如精度较差，修改其密度分割参数重新分割，以达到较好的结果。

将经过密度分割的植被指数图像进行非监督分类，得到分类结果图像，并将栅格图像数据转换为带有分类属性的专题图形数据，与高分辨率的融合图像套合进行人机交互解译，修正提取不准确的地物边界，最终输出达到精度要求的专题矢量图形文件。

信息素养研究论文在哪获取

高职教师信息素养提升策略论文

摘要：创新创业教育背景下的教学改革需要大量信息化教学资源支撑，需要教师具备较高的信息素养。但是目前高职院校教师信息素养低，诸如教师对新技术的敏感度不高、对教改项目重视不够、自主学习能力不足、信息素养水平差异大等。从构建有效的模型评价体系、完善激励机制、营造环境、科研成果转化为信息化教学资源等方面提出了有效对策。

关键词：创业创新教育；高职教师；信息素养；困境与对策

为适应国家实施创新驱动发展战略，2015年《国务院办公厅关于深化高等学校创新创业教育改革的实施意见》（以下简称《意见》）出台，明确了全体教师创新创业教育的责任。高职院校创新创业教育必须与专业教育深度融合，这是实现高职学生在专业领域内的创新或者创业的有效途径。《意见》提出各高校要加快优质课程信息化教学资源建设，为学生自主学习提供更加丰富多样的教育资源，设立课堂教学改革项目，充分发挥优质资源的辐射作用，有计划地大力开展教师培训、教学技能竞赛等活动，多形式鼓励广大教师积极参与课堂教学创新。创新创业教育环境下，高职院校教师需要担当知识和信息的组织者与创造者，但相当多教师自身信息素养不足，相应的意识和能力欠缺、教学方式方法单一，难以胜任创新创业教育教学需要。

一、高职院校创新创业教育对教师信息素养的需求分析

（一）一线教师需要具备一定的信息化教学资源制作能力

现阶段教学资源的建设，主要是依托高职院校与教学资源开发企业，需要校方总体协调、专业技术人员参与，所需经费庞大，且耗时较长，极大地影响了教学资源的产出量和时效性。为普及信息化教学常态应用，需要提升一线教师的信息素养，激发一线教师参与教学资源建设的积极性，使其成为教学资源建设的骨干力量。教师在教学过程中熟练掌握和应用信息化手段，可以使教学资源和教学信息内容形式新颖、寓意丰富引人思考，教学过程也更清晰，教学效果更好，从而使高职院校教师满足创新创业教育教学改革的需要。“信息素养”由美国信息产业协会主席保罗泽考斯基在给联邦图书馆与信息科学委员会的报告中首次提出。杨红孺认为高校教师信息素养就是指其在教学活动中运用信息技术对信息进行检索、分析、利用、传播、评价乃至创新的素质与修养；大部分教师虽能对信息与网络保持敏感，却不能积极主动地将其转化为多媒体课件应用于教学中。高海燕认为长期从事一线教学工作的教师往往更能够敏锐地捕捉到信息技术与教研的结合点，针对性的培训可以提升教师信息化教学能力，极大地推动教学活动的创新。陆亚丽提出教师只有应用现代信息化手段，扩大和丰富教学资源内容，并应用教学多媒体精心设计及制作精美的视频教学内容和多样化的教学软件，使教学活动更加生动、深刻、清晰及高效，进而促进教学生态系统的良性发展。

（二）创新创业教育背景下的教学改革模式

需要教学资源支撑各高职院校要想在更大的范围内开展启发式、讨论式、参与式及小班化教学，促使教师自如地根据本学科的最新发展趋势把自己的实践经验融入课堂教学，就必须针对不同类型和水平的学生开展差异化分级教学，激发学生的主观能动性，提供丰富多样的教育资源。教学活动是一个获取、加工、处理和利用教学信息的过程，信息技术可以改变以往表达抽象、理性逻辑知识的常用的单纯文本形式，代之以更加直观、感性的图形、动画、视频等，通过图解的方式探索客观事物发展过程，也可以实现大容量教学信息的快速传播。

二、高职院校教师信息素养提升的现实困境

（一）教师对新信息和技术的敏感度总体不高，阻碍了创新人才的培养

随着基于创新创业教育的应用型高校教育改革的深入，高职院校教师必须不断接受新技术、拓展知识领域，直接成为终身学习的践行者，这需要高职院校教师强化自主学习的意识，通过不同途径，主动接受培训。目前，信息技术已经成为教师专业培训最重要的工具和手段，教育技术部门已经制作了大量在线视频教程供教师随时点击观看；甚至淘宝等平台也有商家提供教师的在线辅导，遇到问题可以随时咨询。同时，利用网络平台和环境，教师之间可以更方便自如地交流和共同发展。然而目前多数高职教师信息素养有限，难以自如地利用这些平台，对自主学习视频教程和操作说明不适应和缺乏耐心，因而难以促进自身的专业能力发展。不少教师还不适应信息化教学的新形势，对新信息和技术的敏感度过低，甚至有一些教师对此有抵触情绪，创新创业教育环境下的教学设计和以学生为中心的教学理念还处在基本的认知阶段，导致教学质量提升十分有限，阻碍了创新人才的培养。

（二）新引进高层次人才无力在科研和教学改革间寻找平衡

教学和科研是高校承担的两大职能，目前虽然大多数高职院校领导和教师都认识到教学科研互动的重要意义，但实践中仍然存在教学科研两张皮的`问题。各高职院校都引进了不少具备博士学位的高层次人才，他们非常注重科研，但对高职院校的教学改革不适应，产生了职业倦怠感。此外，新进青年博士教师所上的课程，很多与自己的研究方向不一致，导致他们在工作中不能做到教研相长，常常游离于高职院校信息化教育改革的热潮之外，参与教学改革项目的积极性不高。

（三）高职院校各职能部门对教师信息素养的监督和考核是个空白点

教育部要求在“十三五”期间全面深入推进教育信息化工作，但高职院校在教师教学信息化技术手段的培训与应用考核方面还有相当多的工作要做，人事、教务、信息中心、教师培训等多个职能部门都与此有关，但都没完全落到实处，教师信息素养相关工作在很多方面还是个空白。

（四）教师信息素养水平差异大，需要区别处理

高职院校教师因个性特点不同，有些人对信息技术很感兴趣也很容易掌握，有些人即使是理工科专业的中青年教师也对信息化手段的应用相当抵触，故教师的信息素养水平差异很大，为达到理想的预期效果不宜采取统一的模式。如果代之以定位分流、分类分层的方法，由教师认真领会创新创业教育的相关精神进行自我评价，拟定其信息素养的提升计划，既能保证创新创业教育改革的系统性和全面性，又可针对高职院校教师的个性，激发教师的积极性和能动性。

（五）高职院校教师的信息素养培训没有充分考虑系统性和全面性

高校信息素养培训重智轻情的失衡倾向一直存在，忽视对教师情感的功能及发生机制的介入引导。在信息化教学中，任何教师都会感受到知识储备和技能的不足，从而陷入焦虑、怀疑等消极情绪中。因此信息素养培训绝不只是信息技术培训工作，而且应该侧重增强教师对信息化教学的情感适应，侧重与自身专业的整合、信息构建的能力乃至新形势下师生关系等方面内容。

三、高职院校提升教师信息素养的策略

（一）选择对高职院校不同类型的教师作为研究对象，编制特征编码、形成有效的模型评价体系

1．多方面考察教师信息素养达到的程度。教师的信息素养多数停留在基础层面（如Power-Point制作教学课件），中高端信息化教学技能滞后（如利用PPT图形功能自制动画课件、使用小型DV自制视频教学资源、使用电子手写板手绘课件、VideoScribe手绘动画制作工具在微课制作中的应用），欠缺自觉利用信息技术整合课堂教学的意识。考察教师是否具备较高信息素养可从其是否对信息有内在需求、主动知觉和获取信息，是否了解先进的信息理论和信息技术，是否擅长利用信息技术获取、处理、创新和生成新信息等方面来判断。

2．选取指标，构建模型评价体系，对教师信息素养的水平及发展潜力作出客观评价。根据职业教育教师“双师型”的路线，从提高教学内容的深刻性和实效性出发，将教学资源数字化，并通过信息重组，共享优质信息资源。教师大多认为需要安排多媒体课件设计与开发培训，但是只有少数教师将所学内容应用到了教学实践，培训效果不明显甚至流于形式，甚至有少数青年教师对此有抵触情绪，因此要基于信息化职业实践技能、信息化职业技术知识等因素构建模型评价体系。教师信息素养培训要在充分调研的基础上，对教师信息素养的水平及发展潜力有个客观评价，鼓励教师之间进行帮扶和带动。

（二）模型评价体系的应用

1．创新创业教育教学教师选拔。由于开展创新创业教育教学的教师需要更高的信息素养和更多的网络教学实践经验，而模型指标可以体现教师在创新创业教育教学中的教学能力特征和岗位胜任程度，反映教师在创新创业教育教学中取得成功的内外因素，从而更好地对从事创新创业教育教学的教师进行指导和选拔。不符合要求的教师可以参加有针对性的培训。

2.信息化教学在高职院校创新创业教育中的应用与发展。实训教学由于资源及安全方面的限制往往会遇到很多困难，虚拟环境、模拟操作、同步异步消息机制、数据分析指导和纠正实践问题等信息技术的应用则提供了解决的办法。基于信息素养的胜任力模型，结合创新创业教育实践教学要求，为信息化时代高职院校教师专业发展确定了目标，其基础、扩展、融合、贯通四个层级的划分提供了教师判断自己的信息素养水平的依据。以此为基础进行高职教育创新创业教育教师培训是“十三五”期间教师专业发展的方向。

（三）政策支持

信息素养的养成需要一定的培训和实践过程，还需要高职院校各有关职能部门的协作及政策支持。

1．跟踪培训效果，完善实践及考核激励办法。信息素养的提升不仅需要合适对路的培训，更需要教师在日常教学实践中提高。学校人事部门制定培训计划，出台职称、考核等方向性激励措施；教务部门推动教师把信息意识、信息知识及信息能力融会贯通到课堂教学中，组织参加各类大赛，激发教师的信息技术应用热情；教育技术部门提供相关支持与服务。

2.为提升高职院校教师信息素养营造良好的环境。高职院校职能管理部门做好信息环境和平台的完善工作，是教师开展创新创业教育教学和研究的基本保障，同时教育技术部门还要和专业教师进行项目合作，不断提供更丰富的教学资源，为教师开展信息化教学及提升信息素养提供良好的软硬件环境，使教师的信息素养在潜移默化中得到提升。

3．探索将科研成果转化为信息化教学资源之路。如果把科研成果转化为信息化教学资源（如转化为课堂教学内容、综合性实验素材），作为高职院校评定职称的一项指标，可以调动广大教师把科研成果转化为教学资源的积极性，以形成教学带动科研、科研促进教学的良性循环。使高职教师愿意花时间和精力进行科研成果转化为教学资源的工作，提高教学效果，从而培养出适合社会的创新创业人才。

参考文献：

[1]梁云真，蒋玲，赵呈领，等.职业院校教师信息化教学能力现状及发展策略研究———以W市5所职业院校为样本[J].电化教育研究，2016（4）：107－112.

[2]左明章，卢强，雷励华.困惑与突破：区域教师信息化教学能力培训实践研究[J].中国电化教育，2016（5）：104－111.

[3]陆亚丽，张艳.基于教育信息化的教师信息素养培养[J].教育理论实践，2015（22）：38－40.

[4]颜正恕.高校教师慕课教学胜任力模型构建研究[J].开放教育研究，2015（6）：104－111

[5]高海燕.高校英语教师信息素养现状及培养策略研究[J].中国成人教育，2015（1）：113－115.

信息素养论文

信息素养养的培养主要表现在学生在学习的过程中能够正确理解信息技术以及相关概念，并在遇到问题的时候能够熟练地运用技术解决实际问题，重视对信息的查找、分析以及评价等，从某种意义上来说这也是对初中学生一种独立学习能力的培养。接下来是我为您整理的信息素养论文，希望对您有所帮助。

1初中信息技术课中学生信息素

养培养的重要意义分析初中阶段的信息技术课堂教学是学生接受信息技术知识的一个主要阵地，因此在教学过程中培养学生的信息素养具有十分重要的现实意义。信息素养养的培养主要表现在学生在学习的过程中能够正确理解信息技术以及相关概念，并在遇到问题的时候能够熟练地运用技术解决实际问题，重视对信息的查找、分析以及评价等，从某种意义上来说这也是对初中学生一种独立学习能力的培养。对于初中生来说，其信息素养应该包括信息常识、信息意识、信息道德以及信息能力等四个方面的内容。通过信息素养的培养，不仅能够培养学生应用所学信息技术来分析和解决实际生活中问题的能力，增强学生的信息技能，而且能在这个过程中促进学生对信息的理解、筛选、获取以及辨别等思维能力的提高，促进学生对信息的加工和处理，培养学生的创新能力，同时还可以通过信息道德对学生的行为进行规范，使其自觉遵循一定的社会伦理道德规范，增强学生的社会责任感。

2初中信息技术课培养学生信息

素养的教学实践分析任务驱动教学法是一种“以学生为中心，以能力为本位”的行动导向教学方法，它是由美国教育家杜威提出的，是一种建立在建构主义教学理论基础上的教学法，其含义就是学生在学习的过程中受强烈的问题动机的驱动，围绕教师指定一个共同的任务活动中心，通过积极主动地应用学习资源，并结合自主探索和互动协作，来完成学习实践活动。任务驱动教学法在其教学模式的构建中更加注重对学生探究、好奇心理的利用，将所要学习的新知识隐含在任务中，让学生在真实的教学情境中以较高的兴趣带着任务或者问题进行学习活动，并通过对任务的分析和讨论对其中所涉及的知识进行了解和掌握，并在教师的指导下，对问题的解决方法进行探索。这种教学方法不仅能够促进学生学习兴趣以及学习效率的提高，同时还可以培养学生的创新能力和协作精神，将其应用于初中信息技术教育从而有助于学生信息素养的培养。

以目标为依据，创设情境，设计任务任务的设计是任务驱动教学开展的前提条件，同时也是整个教学模式的核心内容，而创设情境的目的是使各种学习因素处在最和谐的状态，以便教与学的有效开展，这是实现任务驱动教学的必要途径。在教学的过程中，教师可以利用多媒体或者学生在日常生活、学习中常见的生活情境对任务进行设计，自然而真实地引出任务，进而唤起学生对原有认知结构中的知识和经验，并对任务有更深的理解。在任务的设计中我们需要注意以下几个原则：一是任务的设计要具有层次性，在设计中要将任务分为基本任务、提高任务和创作任务三个阶段，设计遵循由浅入深、循序渐进的原则；二是任务的设计要具有综合性，任务应该同时涉及到新知识和旧知识，这有利于完善知识系统的.构建以及知识的灵活运用；三是要充分考虑任务的大小、知识点的含量、前后的联系以及重点和难点的分散等多方面的因素，这有利于促进学生信息能力的提高。

组织课堂，完成任务教师是课堂的组织者和引导者，在引出任务之后，为了减少学生在完成任务过程中的盲目性，教师可对任务进行适当的分析。通过任务的提出，学生开始思考，并用所学的知识对任务进行处理和完成，在这个过程中教师可根据情况积极鼓励学生进行自主学习、团结协作，倡导学生开展讨论和交流，这有利于学生之间不同观点的补充、修正和交流，激发学生通过新旧知识的学习和巩固对自己的知识体系进行构建和完善，充实和丰富自身的知识、能力。

效果评价和总结效果评价和总结是任务驱动教学法运用中的一个重要部分，同时也是培养学生良好的自信心与成就感的大好时机。首先学生对解决问题的方案、过程以及结果进行积极的自我评价或者相互评价，并结合别人的发言，提高自身的学习水平。其次教师也应适当做出总结性评价，帮助学生作归纳与总结，指出这些作品的长处和值得改进的地方，加深收获，在这个过程中，教师应该对各种见解的合理性给予充分的肯定，尊重学生的意见和个性发展，并适当地给予启发和引导，善于抓住学生中的创新点，着重阐明可学习和借鉴之处。

3结语

总的来说，信息技术课不是单纯的技能教育，而是以满足素质教育为目的构建的，在当今社会激烈的竞争下，初中信息技术教师应该将学生的信息素养能力作为教学的重点，有意识地对中学生进行信息素养的培养，不仅要突出学科特点，同时还要联系教学实际，最大限度地发挥信息技术课的综合效能，以促进学生信息素养的提高。通过大量的教学实践证明，任务驱动法应用于初中信息技术课程中，对于学生学习兴趣的激发和学习效率的提高以及学生信息素养的培养都具有积极的意义，初中信息技术教师应该加强这方面的研究和应用。

1、选择——高级检索2、选择主题“信息素养” 和“高校”检索式为：SU='高校'*'信息素养'这样能找出来1800多篇相关文献，3、可以进一步限定重要文献，限定文献来自核心期刊或cssci，可以找到三百多篇按时间排序后选择比较晚近的重点文章研究一下就可以了

生物信息获取能力的培养研究论文

这种最基本的东西没必要求论文啊，自己随便写写就好了，用个DNAMAN，随便挑个基因，分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧？这点东西根本不够资格，只够在某篇论文里的两句话的分量。

谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息，如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广，除遗传物质、神经电冲动和激素之外，生物体发出的声音、气味、颜色以及生物的行为本身都含有信息，都对生物的个体和群体产生影响，和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质，但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序）。遗传信息以密码形式存储在DNA分子上，通过DNA的复制传递给子代。在后代生长发育过程中，遗传信息自DNA转录给RNA，后翻译成特异的蛋白质，以执行各种生命功能。从历史上看，首先是由（1866）的研究形成了概念，即相应于生物各种性状的因素（现在称为基因）中包含着相应的信息（以后等人（1941）所开创了遗传生物化学的研究，描绘出这样一个轮廓：基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。关于基因的化学本质方面，根据等（1944）进行的转化实验，以及和（1952）用大肠杆菌噬菌体的DNA进行的性状表达实验，已阐明DNA是遗传信息的载体。附着DNA结构研究的进展，现在已经确立了这样的概念，即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时，DNA的碱基排列首先被转录成RNA的碱基排列，然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA，而是RNA。遗传信息不仅有相应于蛋白质的基因信息，也包括对信息解读所必需的信息、控制信息表达所必需的信息，以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息，进行加工处理，调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息，加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此，神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行，对环境能及时做出反应，是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用，然而，原始的生物信息资源挖掘出来后，生命科学工作者面临着严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？生物信息学产业的高级阶段体现于此，人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此，生物信息学便是生物信息在生物研究中重要应用。生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：(1)新算法和统计学方法研究；(2)各类数据的分析和解释；(3)研制有效利用和管理数据新工具。生物信息学作为基因组研究的有力武器，被广泛地用来加快新基因的寻找过程，以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中，中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报，是一个无法回避的新课题。生物信息学的主要研究方向：基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学，随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，目前已达到每14个月翻一番的速度。同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初组阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。

1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因；Paralogous: 相同种族,不同功能的基因；Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop， 2007，69-88）等方面。以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。当然，建立生物系统的理论模型还需要很长时间的努力，现在实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了目前数据的产出能力。例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是目前系统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。 10, 生物图像没有血缘关系的人，为什么长得那么像呢？外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？有什么生物学基础？基因是不是相似？我不知道，希望专家解答。 11, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.

相关百科

文本信息抽取研究的论文

2024-07-05

论文检测文本抽取失败

2024-07-05

python爬取知网论文信息

2024-07-05

研究性论文怎样随机抽取样本数据

2024-07-05

关于信息论研究的论文

2024-07-05

电子信息论文题目选取

2024-07-04