如何构建大型网站架构(网站的构建)

如何构建大型网站架构,网站的构建

内容导航：

搭建一个大型网站架构的实验环境

大型网站架构模式有哪些

如何设计一个真正有利于SEO的网站架构

大型网站的架构设计问题是怎么样的

一、搭建一个大型网站架构的实验环境

今天我们来谈谈一个网站一般是如何一步步来构建起系统架构的，虽然我们希望网站一开始就能有一个很好的架构，但马克思告诉我们事物是在发展中不断前进的，网站架构也是随着业务的扩大、用户的需求不断完善的，下面是一个网站架构逐步发展的基本过程，读完后，请思考，你现在在哪个阶段。架构演变第一步：物理分离WebServer和数据库最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了。这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易出问题。于是进入了第一步演变阶段：将应用和数据库从物理上分离，变成了两台机器，这个时候技术上没有什么新的要求，但你发现确实起到效果了，系统又恢复到以前的响应速度了，并且支撑住了更高的流量，并且不会因为数据库和应用形成互相的影响。看看这一步完成后系统的图示：架构演变第二步：增加页面缓存好景不长，随着访问的人越来越多，你发现响应速度又开始变慢了，查找原因，发现是访问数据库的操作太多，导致数据连接竞争激烈，所以响应变慢。但数据库连接又不能开太多，否则数据库机器压力会很高，因此考虑采用缓存机制来减少数据库连接资源的竞争和对数据库读的压力。这个时候首先也许会选择采用squid等类似的机制来将系统中相对静态的页面(例如一两天才会有更新的页面)进行缓存(当然，也可以采用将页面静态化的方案)，这样程序上可以不做修改，就能够很好的减少对WebServer的压力以及减少数据库连接资源的竞争，OK，于是开始采用squid来做相对静态的页面的缓存。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：前端页面缓存技术，例如squid，如想用好的话还得深入掌握下squid的实现方式以及缓存的失效算法等。架构演变第三步：增加页面片段缓存增加了squid做缓存后，整体系统的速度确实是提升了，WebServer的压力也开始下降了，但随着访问量的增加，发现系统又开始变的有些慢了。在尝到了squid之类的动态缓存带来的好处后，开始想能不能让现在那些动态页面里相对静态的部分也缓存起来呢，因此考虑采用类似ESI之类的页面片段缓存策略，OK，于是开始采用ESI来做动态页面中相对静态的片段部分的缓存。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：页面片段缓存技术，例如ESI等，想用好的话同样需要掌握ESI的实现方式等;架构演变第四步：数据缓存在采用ESI之类的技术再次提高了系统的缓存效果后，系统的压力确实进一步降低了，但同样，随着访问量的增加，系统还是开始变慢。经过查找，可能会发现系统中存在一些重复获取数据信息的地方，像获取用户信息等，这个时候开始考虑是不是可以将这些数据信息也缓存起来呢，于是将这些数据缓存到本地内存，改变完毕后，完全符合预期，系统的响应速度又恢复了，数据库的压力也再度降低了不少。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：缓存技术，包括像Map数据结构、缓存算法、所选用的框架本身的实现机制等。架构演变第五步：
增加WebServer好景不长，发现随着系统访问量的再度增加，webserver机器的压力在高峰期会上升到比较高，这个时候开始考虑增加一台webserver，这也是为了同时解决可用性的问题，避免单台的webserver
down机的话就没法使用了，在做了这些考虑后，决定增加一台webserver，增加一台webserver时，会碰到一些问题，典型的有：1、如何让访问分配到这两台机器上，这个时候通常会考虑的方案是Apache自带的负载均衡方案，或LVS这类的软件负载均衡方案;2、如何保持状态信息的同步，例如用户session等，这个时候会考虑的方案有写入数据库、写入存储、cookie或同步session信息等机制等;3、如何保持数据缓存信息的同步，例如之前缓存的用户数据等，这个时候通常会考虑的机制有缓存同步或分布式缓存;4、如何让上传文件这些类似的功能继续正常，这个时候通常会考虑的机制是使用共享文件系统或存储等;在解决了这些问题后，终于是把webserver增加为了两台，系统终于是又恢复到了以往的速度。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：负载均衡技术(包括但不限于硬件负载均衡、软件负载均衡、负载算法、linux转发协议、所选用的技术的实现细节等)、主备技术(包括但不限于ARP欺骗、linuxheart-
beat等)、状态信息或缓存同步技术(包括但不限于Cookie技术、UDP协议、状态信息广播、所选用的缓存同步技术的实现细节等)、共享文件技术(包括但不限于NFS等)、存储技术(包括但不限于存储设备等)架构演变第六步：分库享受了一段时间的系统访问量高速增长的幸福后，发现系统又开始变慢了，这次又是什么状况呢，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢，这下怎么办呢?此时可选的方案有数据库集群和分库策略，集群方面像有些数据库支持的并不是很好，因此分库会成为比较普遍的策略，分库也就意味着要对原有程序进行修改，一通修改实现分库后，不错，目标达到了，系统恢复甚至速度比以前还快了。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：这一步更多的是需要从业务上做合理的划分，以实现分库，具体技术细节上没有其他的要求;但同时随着数据量的增大和分库的进行，在数据库的设计、调优以及维护上需要做的更好，因此对这些方面的技术还是提出了很高的要求的。架构演变第七步：分表、DAL和分布式缓存随着系统的不断运行，数据量开始大幅度增长，这个时候发现分库后查询仍然会有些慢，于是按照分库的思想开始做分表的工作。当然，这不可避免的会需要对程序进行一些修改，也许在这个时候就会发现应用自己要关心分库分表的规则等，还是有些复杂的。于是萌生能否增加一个通用的框架来实现分库分表的数据访问，这个在ebay的架构中对应的就是DAL，这个演变的过程相对而言需要花费较长的时间。当然，也有可能这个通用的框架会等到分表做完后才开始做。同时，在这个阶段可能会发现之前的缓存同步方案出现问题，因为数据量太大，导致现在不太可能将缓存存在本地，然后同步的方式，需要采用分布式缓存方案了。于是，又是一通考察和折磨，终于是将大量的数据缓存转移到分布式缓存上了。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：分表更多的同样是业务上的划分，技术上涉及到的会有动态hash算法、consistenthash算法等;DAL涉及到比较多的复杂技术，例如数据库连接的管理(超时、异常)、数据库操作的控制(超时、异常)、分库分表规则的封装等;架构演变第八步：增加更多的WebServer在做完分库分表这些工作后，数据库上的压力已经降到比较低了，又开始过着每天看着访问量暴增的幸福生活了。突然有一天，发现系统的访问又开始有变慢的趋势
了，这个时候首先查看数据库，压力一切正常，之后查看webserver，发现apache阻塞了很多的请求，而应用服务器对每个请求也是比较快的，看来是请求数太高导致需要排队等待，响应速度变慢。这还好办，一般来说，这个时候也会有些钱了，于是添加一些webserver服务器，在这个添加webserver服务器的过程，有可能会出现几种挑战：1、Apache的软负载或LVS软负载等无法承担巨大的web访问量(请求连接数、网络流量等)的调度了，这个时候如果经费允许的话，会采取的方案是购买硬件负载平衡设备，例如F5、Netsclar、Athelon之类的，如经费不允许的话，会采取的方案是将应用从逻辑上做一定的分类，然后分散到不同的软负载集群中;2、原有的一些状态信息同步、文件共享等方案可能会出现瓶颈，需要进行改进，也许这个时候会根据情况编写符合网站业务需求的分布式文件系统等;在做完这些工作后，开始进入一个看似完美的无限伸缩的时代，当网站流量增加时，应对的解决方案就是不断的添加webserver。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：到了这一步，随着机器数的不断增长、数据量的不断增长和对系统可用性的要求越来越高，这个时候要求对所采用的技术都要有更为深入的理解，并需要根据网站的需求来做更加定制性质的产品。架构演变第九步：数据读写分离和廉价存储方案突然有一天，发现这个完美的时代也要结束了，数据库的噩梦又一次出现在眼前了。由于添加的webserver太多了，导致数据库连接的资源还是不够用，而这个时候又已经分库分表了，开始分析数据库的压力状况，可能会发现数据库的读写比很高，这个时候通常会想到数据读写分离的方案。当然，这个方案要实现并不容易，另外，可能会发现一些数据存储在数据库上有些浪费，或者说过于占用数据库资源，因此在这个阶段可能会形成的架构演变是实现数据读写分离，同时编写一些更为廉价的存储方案，例如BigTable这种。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：数据读写分离要求对数据库的复制、standby等策略有深入的掌握和理解，同时会要求具备自行实现的技术;廉价存储方案要求对OS的文件存储有深入的掌握和理解，同时要求对采用的语言在文件这块的实现有深入的掌握。架构演变第十步：进入大型分布式应用时代和廉价服务器群梦想时代经过上面这个漫长而痛苦的过程，终于是再度迎来了完美的时代，不断的增加webserver就可以支撑越来越高的访问量了。对于大型网站而言，人气的重要毋庸置疑，随着人气的越来越高，各种各样的功能需求也开始爆发性的增长。这个时候突然发现，原来部署在webserver上的那个web应用已经非常庞大
了，当多个团队都开始对其进行改动时，可真是相当的不方便，复用性也相当糟糕，基本是每个团队都做了或多或少重复的事情，而且部署和维护也是相当的麻烦。因为庞大的应用包在N台机器上复制、启动都需要耗费不少的时间，出问题的时候也不是很好查，另外一个更糟糕的状况是很有可能会出现某个应用上的bug就导
致了全站都不可用，还有其他的像调优不好操作(因为机器上部署的应用什么都要做，根本就无法进行针对性的调优)等因素，根据这样的分析，开始痛下决心，将系统根据职责进行拆分，于是一个大型的分布式应用就诞生了，通常，这个步骤需要耗费相当长的时间，因为会碰到很多的挑战：1、拆成分布式后需要提供一个高性能、稳定的通信框架，并且需要支持多种不同的通信和远程调用方式;2、将一个庞大的应用拆分需要耗费很长的时间，需要进行业务的整理和系统依赖关系的控制等;3、如何运维(依赖管理、运行状况管理、错误追踪、调优、监控和报警等)好这个庞大的分布式应用。经过这一步，差不多系统的架构进入相对稳定的阶段，同时也能开始采用大量的廉价机器来支撑着巨大的访问量和数据量，结合这套架构以及这么多次演变过程吸取的经验来采用其他各种各样的方法来支撑着越来越高的访问量。看看这一步完成后系统的图示：这一步涉及到了这些知识体系：这一步涉及的知识体系非常的多，要求对通信、远程调用、消息机制等有深入的理解和掌握，要求的都是从理论、硬件级、操作系统级以及所采用的语言的实现都有清楚的理解。最后，附上一张大型网站的架构图：

二、大型网站架构模式有哪些

1.分布式对于大型网站，分层和分割的一个主要目的是为了切分后的模块便于分布式部署，即将不同模块部署在不同的服务器上，通过远程调用协同工作。
分布式意味着可以使用更多的计算机完成同样的功能，计算机越多，CPU、内存、存储资源也就越多，能够处理的并发访问和数据量就越大，进而能够为更多的用户提供服务。
2.分层分层是企业应用系统中最常见的一种架构模式，将系统在横向维度上切分成几个部分，每个部分负责一部分相对比较单一的职责，然后通过上层对下层的依赖和调用组成一个完整的系统。
分层结构在计算机世界中无处不在，网络的7层通信协议是一种分层结构；计算机硬件、操作系统、应用软件也可以看作是一种分层结构。
在大型网站架构中也采用分层结构，将网站软件系统分为应用层、服务层、数据层。
3.分割如果说分层是将软件在横向方面进行切分，那么分割就是在纵向方面对软件进行切分。
网站越大，功能越复杂，服务和数据处理的种类也越多，将这些不同的功能和服务分割开来，包装成高内聚低耦合的模块单元，一方面有助于软件的开发和维护；另一方面，便于不同模块的分布式部署，提高网站的并发处理能力和功能扩展能力。
4.集群使用分布式虽然已经将分层和分割后的模块独立部署，但是对于用户访问集中的模块（比如网站的首页），还需要将独立部署的服务器集群化，即多台服务器部署相同应用构成一个集群，通过负载均衡设备共同对外提供服务。
5.缓存缓存就是将数据存放在距离计算最近的位置以加快处理速度。
缓存是改善软件性能的第一手段，现代CPU越来越快的一个重要因素就是使用了更多的缓存，在复杂的软件设计中，缓存几乎无处不在。
大型网站架构设计在很多方面都使用了缓存设计。
6.异步计算机软件发展的一个重要目标和驱动力是降低软件耦合性。
事物之间直接关系越少，就越少被彼此影响，越可以独立发展。
大型网站架构中，系统解耦合的手段除了前面提到的分层、分割、分布等，还有一个重要手段是异步，业务之间的消息传递不是同步调用，而是将一个业务操作分成多个阶段，每个阶段之间通过共享数据的方式异步执行进行协作。
架构模式这，从俗语言说一下吧：层、模型-视图-控制、表示-抽象-控制等 1.三层架构 2.单例模式，工厂模式等 3.分层架构模式

扁平or树型：一说到网站结构，大家都会提到扁平结构和树型结构，言必称“结构扁平化”，这些指的是物理结构，即基于内容聚合的目录及文件位置决定的结构。
其实对于百度搜索引擎来说，只要结构合理、有逻辑性、内容有规律可循都可以，都是友好的。
链接结构：相对于物理结构，就要说到逻辑结构：即通过内部链接形成的链接结构，逻辑结构才是搜索引擎最关注的。
对于一个网站来说，网页仅仅可以通过首页——目录1——目录2一层一层follow到是远远不够的，一个优秀的链接结构应该是网状的。
首页链接应该链向重要的频道页，频道页再链向下面的节点页或普通页面。
同时，频道页、节点页和普通页面都应该可以链回到首页
无论哪些页面之间互相链接，都需要一个描述恰当的锚文本
链接不要放在JS、FLASH等搜索引擎不可见的位置，使用图片做链接入口应该完善alt标签
百度搜索引擎目前仅支持对部分JS和FLASH进行解析，绝大多数放在JS和FLASH里的链接都是获取不到的
为重要页面留更多入口。
百度搜索引擎认为，获得更多内部投票的网页相对来说更加重要
“离首页越近”的网页，越容易受到百度重视。
这个“近”指的是页面离首页的点击距离。
即使URL所在目录层级较深，只要在首页有入口，百度也认为这是一个非常重要的页面。
不要产生可怕的孤岛页面。
虽然百度在提交入口、社会化挖掘方面做了许多工作，但链接抓取依然是百度获得新页面的最重要渠道

三、如何设计一个真正有利于SEO的网站架构

最基本的网站架构设计三大原则
第一：为用户指导
规划网站时要记住一点，几乎每个用户开始时都并不知道去哪里、做什么以及如何找到他想要的内容。网站的架构如果认识到这种困难，利用熟悉的可用性标准建立直观的链接结构，就有可能带来正面的网站访问体验。精心组织的网站架构有助于解决这些问题，为用户和搜索引擎提供语义和可用性的好处。
第二：为搜索引擎表现
一个网站可以使用智能的架构，满足访问者对内容的期望，创建正面的浏览体验。这个结构不仅能够帮助人们更加轻松的浏览网站还能帮助搜索引擎看到，你的内容和逻辑概念分组融为一体。你可以用这种方法帮助产品应用和产品属性获得良好的排名。
第三：围绕主题设计
尽管网站架构只占据百度算法的一小部分，搜索引擎还是利用主题之间的关系，为以合理的方式组织的内容增加价值。例如，当你在不正确的分类中随机地加入子页面，排名就会受到影响。搜索引擎通过爬行web的丰富经验，发现主题架构中的模式。并奖励坚持直观内容流向的网站。
网站架构设计的一般标准
尽管网站架构设计通常是信息架构师的领域，不需要公司内部内容团队的帮助，但是，从长远看来，它对搜索引擎排名的影响是很显著的，因此遵循基本的搜索友好原则是明智的。
设计出一个好的网站架构需要你做出很多的用户行为分析，最后才能明白用户来到你的网站之后他们会做什么。
1、列出所有必须的内容页面(博客文章、文章、产品详情页面等)。
2、创建足以包含网站各个类型详细内容的顶级导航。
3、反转传统的自顶向下过程，从详细内容开始，向上创建一个能够涵盖每个页面的组织结构。
4、理解底层之后，填补中层的内容。增补子导航机构，使其合理地将顶级页面和详细内容联系起来。在小网站中，可能不需要这个层次，但是在较大的网站中，可能需要2-3级子导航。
5、加入辅助性页面，如版权、联络信息和其他非实质性内容。
6、构建展示网站所有页面的视觉层次(至少包括最后一级子导航)。

四、大型网站的架构设计问题是怎么样的

答：对大中型组织来说，它也是一个健全的可扩展的网站内容管理解决方案

如何构建大型网站架构(网站的构建)

内容导航： 搭建一个大型网站架构的实验环境 大型网站架构模式有哪些 如何设计一个真正有利于SEO的网站架构 大型网站的架构设计问题是怎么样的

一、搭建一个大型网站架构的实验环境

二、大型网站架构模式有哪些

三、如何设计一个真正有利于SEO的网站架构

四、大型网站的架构设计问题是怎么样的

相关推荐

怎么用Python制作一个简单的文章搜索工具

世界十大坚硬物质排行(什么东西最硬)

eclipse运行java文件没反应怎么解决

r语言读取文件路径的方法有哪些

ebook电子书阅读器打不开书（适合学生用的电子书阅读器）

css系统是什么(CSS是做什么的)

内容导航：

搭建一个大型网站架构的实验环境

大型网站架构模式有哪些

如何设计一个真正有利于SEO的网站架构

大型网站的架构设计问题是怎么样的