全文搜索引擎有什么(全文搜索引擎是名副其实的)

全文搜索引擎有什么,全文搜索引擎是名副其实的内容导航:全文检索工具有哪些全文搜索引擎有那些、目录索引与全文搜索引擎有什么不同全文搜索引擎目录搜索引擎有什么不同举例说明一、全文检索工具有哪些1.LuceneLucene的开发语言是Java,也是J

全文搜索引擎有什么,全文搜索引擎是名副其实的

内容导航:

  • 全文检索工具有哪些
  • 全文搜索引擎有那些、
  • 目录索引与全文搜索引擎有什么不同
  • 全文搜索引擎 目录搜索引擎有什么不同 举例说明
  • 一、全文检索工具有哪些

    1. Lucene
    Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索,但linkedin和twitter有分别对Lucene改进的实时搜素.
    其中Lucene有一个C++移植版本叫CLucene,CLucene因为使用C++编写,所以理论上要比lucene快. 2. Sphinx
    Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空间换取事件的策略,在检索速度上,和lucene相差不大,但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面,Lucene要优于Sphinx.其中Sphinx支持实时搜索,使用起来比较简单方便.
    3. Xapian
    Xapian是一个用C++编写的全文检索程序,它的api和检索原理和lucene在很多方面都很相似,算是填补了lucene在C++中的一个空缺. 4.
    Nutch Nutch是一个用java实现的开源的web搜索引擎,包括爬虫crawler,索引引擎,查询引擎.
    其中Nutch是基于Lucene的,Lucene为Nutch提供了文本索引和搜索的API.
    对于应该使用Lucene还是使用Nutch,应该是如果你不需要抓取数据的话,应该使用Lucene,最常见的应用是:你有数据源,需要为这些数据提供一个搜索页面,在这种情况下,最好的方式是直接从数据库中取出数据,并用Lucene
    API建立索引. 5. DataparkSearch DataparkSearch是一个用C语言实现的开源的搜索引擎. 其中网页排序是采用神经网络模型.
    其中支持HTTP,HTTPS,FTP,NNTP等下载网页.包括索引引擎,检索引擎和中文分词引擎(这个也是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果,拥有完整的日志记录.
    6. Zettair Zettair是根据Justin Zobel的研究成果为基础的全文检索实验系统.它是用C语言实现的. 其中Justin
    Zobel在全文检索领域很有名气,是业界第一个系统提出倒排序索引差分压缩算法的人,倒排列表的压缩大大提高了检索和加载的性能,同时空间膨胀率也缩小到相当优秀的水平.
    由于Zettair是源于学术界,代码是由RMIT
    University的搜索引擎组织写的,因此它的代码简洁精炼,算法高效,是学习倒排索引经典算法的非常好的实例. 其中支持linux,windows,mac
    os等系统. 7. Indri Indri是一个用C语言和C++语言写的全文检索引擎系统,是由University of
    Massachusetts和Carnegie Mellon University合作推出的一个开源项目.
    特点是跨平台,API接口支持Java,PHP,C++. 来自网络。

    二、全文搜索引擎有那些、

    原发布者:深蓝海域kmpro搜索引擎分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
    1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
    信息大多面向网站,提供目录浏览服务和直接检索服务。
    该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
    这类搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。
    2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
    服务方式是面向网页的全文检索服务。
    该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
    这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:”天网”、悠游、OpenFind等。
    3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
    服务方式为面向网页的全文检索。
    这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能百度、 谷歌就是典型的全文搜索引擎。
    它们都是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
    1、简单查询。
    在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
    2、使用双引号用(” “)。
    给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
    例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
    3、使用加号(+)。
    在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
    4、使用减号(-)。
    在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-
    中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
    5、使用通配符(和?)。
    通配符包括星号(
    )和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。
    例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、compete
    等单词。
    百度(Baidu)、 谷歌(Google)就是典型的全文搜索引擎。
    它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
    其他全文搜索引擎有:雅虎、有道、搜搜、搜狗、必应、即刻等。
    从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的baidu、google;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如国外的Lycos引擎。
    全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
    这个过程类似于通过字典中的检索字表查字的过程。
    国内用的比较多的全文搜索引擎有:Solr、ElasticSearch其他的还有:Lucene、Sphinx、Xapian、Nutch、DataparkSearch、Zettair、Indri、Terrier、Galago、Zebra、Whoosh可分为三种
    搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search
    Index/Directory)和元搜索引擎(Meta Search Engine)。
    全文搜索引擎
    全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。
    它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
    从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
    目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
    用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
    目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。
    其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。
    国内的搜狐、新浪、网易搜索也都属于这一类。
    元搜索引擎(META Search Engine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
    著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。

    三、目录索引与全文搜索引擎有什么不同

    答:目录索引也称为分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无须输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)上。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

    四、全文搜索引擎 目录搜索引擎有什么不同 举例说明

    答:全文搜索是从网站全部内容里进行搜索,目录搜索是指定网站的某一个目录下的内容进行搜索。就比如,你知道一篇文章的名字,但是你找不到,也不知道具体在哪个目录分类下,那么就要用到全文搜索比如,有篇文章是“中国有多大?”,而且你知道是在世界地图这个目录里,那么你就可以直接从世界地图这个目录来搜索。目录搜索对于全文搜索来说,搜索的更准确,速度也更快,楼上说的对

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/104454.html

    (0)
    robot
    上一篇 2022-04-17
    下一篇 2022-04-17

    相关推荐

    • 织梦网站如何更新系统(织梦怎么改网站主页)

      织梦网站如何更新系统,织梦怎么改网站主页内容导航:织梦后台管理系统如何升级如何更新鸿蒙系统网站建设织梦系统网站的优化方法是什么如何更新织梦cms系统里模板的内容一、织梦后台管理系统如何升级1,进入后台主页2,看到有在线更新,点击3,系统自动检测最新版本。4,若已经最新,系统会提示5,若有补丁,会列举出来,你点击更新就好了。注意经常检查有没有新的漏洞补丁,及时更新有助于保护网

      2022-04-24
      0
    • c语言如何存储字符串

      在C语言中,字符串是以字符数组的形式存储的。每个字符都用一个字节存储,以空字符 ‘\0’ 结尾。以下是存储字符串的几种常见方法:使用字符数组:可以声明一个字符数组来存储字符串,例如:char str[20] = “Hello, World!”;在这个例子中,字符数组 str 有足够的空间来存储字符串 “Hello, World!” 及其结尾的空字符。使用字符指针:也可以使用字符指针来存储字符串,

      2024-01-14
      0
    • oracle单表查询慢怎么加速

      有几种方法可以尝试加速Oracle单表查询:创建合适的索引:确保表中经常查询的列都有索引,可以加快查询速度。可以通过分析查询语句和表的结构来确定哪些列需要创建索引。使用适当的查询语句:尽量避免使用全表扫描,尽量使用索引或者其他查询优化方法来减少查询时间。调整Oracle参数:可以通过调整Oracle数据库的参数来提高查询性能,例如增加SGA大小、调整PGA大小等。使用数据库统计信息:确保Oracl

      2024-03-02
      0
    • 战舰世界盒子如何使用技巧

      战舰世界盒子如何使用技巧?很多的小伙伴虽然下载使用了战舰世界盒子但是并没有对软件的功能进行一个有效的开发。一起来看看更多的软件使用技巧吧。战舰世界盒子如何使用技巧1、在软件的左侧排列着的实质性功能服务,如工具、插件、涂装等等选项都对应着不同的功能,点击进入就可以体验了。2、以【插件】举例,用户们点击插件进入后,就可以看到软件提供的各种插件功能了,选择需要的点击下载即可自动安装使用。3、在【涂装】功

      2024-01-16
      0
    • 「北京智能电表怎么看度数」现在智能电表怎么看度数

      北京智能电表怎么看度数,现在智能电表怎么看度数内容导航:现在智能电表怎么看度数电表怎么看度数北京智能电表怎么看度数智能电表怎么看度数一、现在智能电表怎么看度数智能电表上面都会有个按钮,这个按钮就是用来查询智能电表里面的数据的,每看一下,表里面显示的数据就会更新。智能电表是智能电网(特别是智能配电网)数据采集的基本设备之一,承担着

      2022-05-13
      0
    • 「tm商标域名有什么用」tm标有商标注册号吗

      tm商标域名有什么用,tm标有商标注册号吗 内容导航: 商品包装上“TM”是什么意思 “在产品”是什么意思 商标TM标志有什么用 tm域名与商标TM有什么区别 一、商品包装上“TM…

      2022-08-22
      0