<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Martin&#039;s Blog &#187; cluster</title>
	<atom:link href="http://martinliu.cn/tag/cluster/feed" rel="self" type="application/rss+xml" />
	<link>http://martinliu.cn</link>
	<description>如何以服务的视角管理IT？</description>
	<lastBuildDate>Wed, 08 Feb 2012 08:10:04 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>What is Google Infrastructure?</title>
		<link>http://martinliu.cn/2008/06/google-infrastructure.html</link>
		<comments>http://martinliu.cn/2008/06/google-infrastructure.html#comments</comments>
		<pubDate>Sat, 21 Jun 2008 07:01:58 +0000</pubDate>
		<dc:creator>Martin Liu</dc:creator>
				<category><![CDATA[Infrastructure]]></category>
		<category><![CDATA[BigTable]]></category>
		<category><![CDATA[cluster]]></category>
		<category><![CDATA[data center]]></category>
		<category><![CDATA[GFS]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[MapReduce]]></category>
		<category><![CDATA[opensource]]></category>

		<guid isPermaLink="false">http://www.martinliu.cn/?p=104</guid>
		<description><![CDATA[If you have no idea, you should read this post &#8220;Google spotlights data center inner workings&#8220;. There are some notes I took as blowing. Google Infrastructure: clusters of 1,800 servers are pretty routine. an ordinary Google search query that involves 700 to 1,000 servers puts 40 servers in each rack Google has 36 data centers<p><a href="http://martinliu.cn/2008/06/google-infrastructure.html" class="more-link">Continue reading &#187;</a></p>
Related posts:<ol>
<li><a href='http://martinliu.cn/2008/04/do-you-have-a-google-app-engine.html' rel='bookmark' title='DO you have a google App Engine?'>DO you have a google App Engine?</a></li>
<li><a href='http://martinliu.cn/2009/11/whats-google-chrome-os.html' rel='bookmark' title='What&#8217;s Google Chrome OS'>What&#8217;s Google Chrome OS</a></li>
<li><a href='http://martinliu.cn/2009/07/cloud-computing-infrastructure-and-architecture-guide-from-sun.html' rel='bookmark' title='Cloud Computing Infrastructure and Architecture Guide-From SUN'>Cloud Computing Infrastructure and Architecture Guide-From SUN</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><img src="http://i.i.com.com/cnwk.1d/i/bto/20080529/Google_data_center_c2000_Jeff_Dean_400x318.jpg" alt="" width="400" height="318" /></p>
<p>If you have no idea, you should read this post &#8220;<a href="http://news.cnet.com/8301-10784_3-9955184-7.html?tag=blog.1" target="_blank">Google spotlights data center inner workings</a>&#8220;.</p>
<p>There are some notes I took as blowing.</p>
<p>Google Infrastructure:</p>
<ul>
<li>clusters of 1,800 servers are pretty routine.</li>
<li><a title="We're all guinea pigs in Google's search experiment -- Thursday, May 29, 2008" href="http://news.cnet.com/8301-10784_3-9954972-7.html">an ordinary Google search query that involves 700 to 1,000 servers</a></li>
<li>puts 40 servers in each rack</li>
<li><a title="Use Google Maps to find Google data centers -- Friday, Apr 11, 2008" href="http://news.cnet.com/8301-10784_3-9917205-7.html">Google has 36 data centers across the globe</a>; Google has more than 200,000 servers; growing every day.</li>
<li>Google largely builds its own technology.</li>
<li>to treat each machine as expendable; Google prefers to invest its money in fault-tolerant software. NOT hardware  fault-tolerant.</li>
<li>Google uses ordinary hardware components for its servers, it doesn&#8217;t use conventional packaging. Google required Intel to create custom circuit boards.</li>
<li> As to the servers themselves, Google likes multicore chips, those with many processing engines on each slice of silicon.</li>
<li>three core elements of Google&#8217;s software: <a class="external-link" href="http://labs.google.com/papers/gfs.html">GFS, the Google File System</a>, <a class="external-link" href="http://labs.google.com/papers/bigtable.html">BigTable</a>, and the <a class="external-link" href="http://labs.google.com/papers/mapreduce.html">MapReduce</a> algorithm.</li>
<li>Google helps with<span style="color: #ff0000"><strong> a lot of open-source software projects</strong></span> that helped the company get its start, these packages remain proprietary except in general terms.</li>
<li>GFS stores each chunk of data, typically 64MB in size, on at least three machines called chunkservers; master servers are responsible for backing up data to a new area if a chunkserver failure occurs.</li>
<li>The largest BigTable instance manages about 6 petabytes of data spread across thousands of machines.</li>
<li>On any given day, Google runs about 100,000 MapReduce jobs; each occupies about 400 servers and takes about 5 to 10 minutes to finish.</li>
</ul>
<p><strong>总结一下上面的东西：</strong></p>
<p>Google不是买的成品服务器，而是去Intel定制的芯片自己攒的，特别喜欢使用多核的cpu，由于他们的程序都适应与多线程并行计算的方式。一个群集有1800个服务器是非常平常的。Google大概有二十万个服务器，每40个放在一个机架上，分布在全球36个数据中心。Google不使用商业的服务器包括数据库等软件，一来造价太高，二来无法满足扩展性的需求。Google使用了很多的开源软件项目，事实上它们就是站在开源软件的肩膀上发家的；GFS，BitTable等都是它们常用的。广泛使用软件容错技术。</p>
<p><strong>传统商业公司和google的不同：</strong></p>
<ol>
<li>从硬件到软件基本都使用现成的商业产品。基础架构中的每个环境都是钱堆出来的。用钱来节省时间，不过google的时间和金钱的节省都是值得学习的。</li>
<li>在容错技术上硬件HA技术用的最多，群集中的服务器数量不多。</li>
<li>不同业务系统之间几乎是孤立的。从数据库到web到关联的网络设备都是一套独立的系统，甚至于按业务系统划分运维的团队。</li>
<li>系统的扩展性比较小，对核心部件：如核心应用服务器或者核心数据库服务器的扩展，垂直扩展比较多，追求单机的多CPU，高主频，高内存。而另一方面：在这些系统上的压力测试和性能调优工作异常的痛苦。</li>
<li>饱受被商业软件公司绑定之苦，如果数据库、应用服务器等出了产品的bug，厂商提供fix一般都需要一定的时间周期-时间代价比较高，原厂的现场技术支持服务金钱代价也比较贵。</li>
<li>从高层看：CTO、CIO、CEO没有正视开源技术。只要预算允许，引入和采购业内流行的商业技术似乎是永恒的明智之举。开源软件技术应用的有不过很少。</li>
<li>从基层看：工程师可能有足够的某项开源的技能，不过没有适当的渠道能反应到上层来提议使用该技术；如果在下面擅自使用了某种技术，非常担心出了IT事故后对后果的承担。开源技术对技术人员只是一个爱好而无法应用与自己的日常工作中。</li>
<li>特别是中国用户对最新潮的IT技术永远保持着极度的热情，不管是硬件和软件买就买最先进的，数据中心的机房最后成为博物馆，新老系统很难整合资源。把基础架构的彻底改变寄希望于未来的某种技术革命，实际上技术变革已经悄悄发生了好几波了，怎么管理现状怎么就是越来越艰难，越来越花钱呢？走中国特色道路真的值得提倡一下了。</li>
</ol>
<p>Google的这些特点真是引人入胜，任何企业都无法复制；而且也不可能复制，它毕竟是一个商业公司而不是一个开源项目。如何使用现有的技术和人员来打造出你自己的完美基础架构呢？现实中这么多的role model已经证实了很多技术都是可用的，完美的境地也不是空中楼阁。如何集思广益并多多引入开源技术和人才可能是一个需要斟酌的题目。</p>
<p>[poll id="3"]</p>
<p>Related posts:<ol>
<li><a href='http://martinliu.cn/2008/04/do-you-have-a-google-app-engine.html' rel='bookmark' title='DO you have a google App Engine?'>DO you have a google App Engine?</a></li>
<li><a href='http://martinliu.cn/2009/11/whats-google-chrome-os.html' rel='bookmark' title='What&#8217;s Google Chrome OS'>What&#8217;s Google Chrome OS</a></li>
<li><a href='http://martinliu.cn/2009/07/cloud-computing-infrastructure-and-architecture-guide-from-sun.html' rel='bookmark' title='Cloud Computing Infrastructure and Architecture Guide-From SUN'>Cloud Computing Infrastructure and Architecture Guide-From SUN</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://martinliu.cn/2008/06/google-infrastructure.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ganglia install and configure</title>
		<link>http://martinliu.cn/2008/05/ganglia-install-and-configure.html</link>
		<comments>http://martinliu.cn/2008/05/ganglia-install-and-configure.html#comments</comments>
		<pubDate>Sat, 24 May 2008 02:15:27 +0000</pubDate>
		<dc:creator>Martin Liu</dc:creator>
				<category><![CDATA[NSM]]></category>
		<category><![CDATA[cluster]]></category>
		<category><![CDATA[Ganglia]]></category>
		<category><![CDATA[grid]]></category>

		<guid isPermaLink="false">http://www.martinliu.cn/2008/05/24/ganglia-install-and-configure/</guid>
		<description><![CDATA[我准备安装的版本是ganglia-3.0.7 ， 参考的安装文档是http://www.linuxsir.org/bbs/thread309837.html rpm的安装会比较省事。rpm安装都会很正常，不过在Suse下面需要注意一下两点： gmond和gmated的启动脚本不是rpm包中默认装上的那个，那个脚本适用于redhat linux；下载源码编译之后在gmond/ gmated/的文件夹里有后缀为 .SuSE的哪两个文件才对。 rpm吧gmated的web界面默认安装路径是/var/www/http/ ，SuSE下的apache的路径是 /srv/www/htdoc/；安装完后copy或者连接过来 配置： gmond.conf 更具我参考的安装文档产生这个文件的命令是 gmond -t &#62; /etc/gmond.conf；rpm安装包中有这个文件，如果需要恢复到默认状态可以使用这个命令。 gmated.conf 是服务器端的主要配置文件，详细阅读一下源码包中的那个html文件对这个文件的配置会有帮助 安装过程中出现的问题如下：在启动gmond的时候启动失败，debug一下可以看到下面的错误。 sles:~ # gmond &#8211;debug=9 slurpfile() open() error on file /sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq: No such file or directory udp_recv_channel mcast_join=239.2.11.71 mcast_if=NULL port=8649 bind=239.2.11.71 Error creating multicast server mcast_join=239.2.11.71 port=8649 mcast_if=NULL family=&#8217;inet4&#8242;. Exiting. 在所有虚拟机（host-only 网络设置）上都遇到这个错误。一次一个NAT网络的虚机上正常 至今觉得这是一个网络的问题，还没有想出正确的配置和解决方法。如果您有什么好建议请留言。 Related posts:<p><a href="http://martinliu.cn/2008/05/ganglia-install-and-configure.html" class="more-link">Continue reading &#187;</a></p>
Related posts:<ol>
<li><a href='http://martinliu.cn/2008/04/using-ganglia-for-cluster-and-grid-monitoring.html' rel='bookmark' title='Using Ganglia for cluster and grid monitoring'>Using Ganglia for cluster and grid monitoring</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>我准备安装的版本是ganglia-3.0.7 ， 参考的安装文档是<a title="http://www.linuxsir.org/bbs/thread309837.html" href="http://www.linuxsir.org/bbs/thread309837.html">http://www.linuxsir.org/bbs/thread309837.html</a></p>
<p>rpm的安装会比较省事。rpm安装都会很正常，不过在Suse下面需要注意一下两点：</p>
<ul>
<li>gmond和gmated的启动脚本不是rpm包中默认装上的那个，那个脚本适用于redhat linux；下载源码编译之后在gmond/ gmated/的文件夹里有后缀为 .SuSE的哪两个文件才对。</li>
<li>rpm吧gmated的web界面默认安装路径是/var/www/http/ ，SuSE下的apache的路径是 /srv/www/htdoc/；安装完后copy或者连接过来</li>
</ul>
<p>配置：</p>
<ul>
<li>gmond.conf 更具我参考的安装文档产生这个文件的命令是 gmond -t &gt; /etc/gmond.conf；rpm安装包中有这个文件，如果需要恢复到默认状态可以使用这个命令。</li>
<li>gmated.conf 是服务器端的主要配置文件，详细阅读一下源码包中的那个html文件对这个文件的配置会有帮助</li>
</ul>
<p>安装过程中出现的问题如下：在启动gmond的时候启动失败，debug一下可以看到下面的错误。</p>
<p>sles:~ # gmond &#8211;debug=9<br />
slurpfile() open() error on file /sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq: No such file or directory<br />
udp_recv_channel mcast_join=239.2.11.71 mcast_if=NULL port=8649 bind=239.2.11.71<br />
Error creating multicast server mcast_join=239.2.11.71 port=8649 mcast_if=NULL family=&#8217;inet4&#8242;. Exiting.</p>
<p>在所有虚拟机（host-only 网络设置）上都遇到这个错误。一次一个NAT网络的虚机上正常</p>
<p>至今觉得这是一个网络的问题，还没有想出正确的配置和解决方法。如果您有什么好建议请留言。</p>
<p>Related posts:<ol>
<li><a href='http://martinliu.cn/2008/04/using-ganglia-for-cluster-and-grid-monitoring.html' rel='bookmark' title='Using Ganglia for cluster and grid monitoring'>Using Ganglia for cluster and grid monitoring</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://martinliu.cn/2008/05/ganglia-install-and-configure.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Using Ganglia for cluster and grid monitoring</title>
		<link>http://martinliu.cn/2008/04/using-ganglia-for-cluster-and-grid-monitoring.html</link>
		<comments>http://martinliu.cn/2008/04/using-ganglia-for-cluster-and-grid-monitoring.html#comments</comments>
		<pubDate>Wed, 16 Apr 2008 09:41:06 +0000</pubDate>
		<dc:creator>Martin Liu</dc:creator>
				<category><![CDATA[NSM]]></category>
		<category><![CDATA[cluster]]></category>
		<category><![CDATA[Ganglia]]></category>
		<category><![CDATA[grid]]></category>

		<guid isPermaLink="false">http://www.martinliu.cn/2008/04/16/using-ganglia-for-cluster-and-grid-monitoring/</guid>
		<description><![CDATA[Ganglia是一个用来监控群集和网格计算环境的软件。它是可以扩展的分布式监控系统，它基于多播协议，数据存储和传输的格式都是基于开源的标准：XML/XDR/RRDTool/APR/Apache/php等。 应用Ganglia的几个理由： 在一个点上监控包含很多服务器的群集，单个cluster内服务器的数量比较多，需要从整体看某个cluster的可用性和性能，也要能看到单独某个机器的运行情况。 监控分布式的cluster环境，例如跨网段和地域的灾备的环境。 需要监控系统能分N级的查看方式，以银行为例：北数据中心&#8211;&#62;网络银行业务&#8211;&#62;个人网银系统&#8211;&#62;web server 群集&#8211;&#62; WebSvr001；可以按业务逻辑和系统架构逻辑。 需要7*24*365的监控整个系统，能得到可用性、性能和容量等方面的报表。 应用Ganglia的几个好处： 监控能力的无限扩展，被管理服务器数量达数千个甚至根多。 纯web前端，apache和php的应用页面方便定制 强壮的系统结构，并且具备可以任意扩展采集数据KPI的特点 适合高性能计算或者网格计算环境。 Ganglia应用需要注意的方面： 在每一个节点上需要部署一个代理程序，考虑到对代理配置的变更的工作量，在部署代理之前，需要彻底的分析需求，尽量减少部署过程中配置变更带来的多于调试的工作量。 部署后期的变更工作，如果比较频繁的话将导致后台维护工作量增大，可以考虑使用一些开源的软件分发和自动化配置管理的工具。这些配置的初始化工作可以与OS的安装部署工作一起考虑。 它被很多大学和专业机构研究并使用，所以有非常多的专业文档可以参考，哪行文档多分析了Ganglia的系统架构和特点，多系统的原理介绍的非常细致。下面是我收集的几个关于这个软件的文档请参考。并且在它们的网站上也可以看到很多相关的资源连接，都是非常好的实施方面的详细文档。 If you need more detail please take look those documents below. Related posts: Ganglia install and configure
Related posts:<ol>
<li><a href='http://martinliu.cn/2008/05/ganglia-install-and-configure.html' rel='bookmark' title='Ganglia install and configure'>Ganglia install and configure</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://ganglia.info/" target="_blank"><img style="margin: 4px" src="http://www.nowmicro.com/NM_Images/hpc-ganglia-logo.jpg" align="left"></a> Ganglia是一个用来监控群集和网格计算环境的软件。它是可以扩展的分布式监控系统，它基于多播协议，数据存储和传输的格式都是基于开源的标准：XML/XDR/RRDTool/APR/Apache/php等。</p>
<p>应用Ganglia的几个理由：</p>
<ul>
<li>在一个点上监控包含很多服务器的群集，单个cluster内服务器的数量比较多，需要从整体看某个cluster的可用性和性能，也要能看到单独某个机器的运行情况。</li>
<li>监控分布式的cluster环境，例如跨网段和地域的灾备的环境。</li>
<li>需要监控系统能分N级的查看方式，以银行为例：北数据中心&#8211;&gt;网络银行业务&#8211;&gt;个人网银系统&#8211;&gt;web server 群集&#8211;&gt; WebSvr001；可以按业务逻辑和系统架构逻辑。</li>
<li>需要7*24*365的监控整个系统，能得到可用性、性能和容量等方面的报表。</li>
</ul>
<p>应用Ganglia的几个好处：</p>
<ul>
<li>监控能力的无限扩展，被管理服务器数量达数千个甚至根多。</li>
<li>纯web前端，apache和php的应用页面方便定制</li>
<li>强壮的系统结构，并且具备可以任意扩展采集数据KPI的特点</li>
<li>适合高性能计算或者网格计算环境。</li>
</ul>
<p>Ganglia应用需要注意的方面：</p>
<ul>
<li>在每一个节点上需要部署一个代理程序，考虑到对代理配置的变更的工作量，在部署代理之前，需要彻底的分析需求，尽量减少部署过程中配置变更带来的多于调试的工作量。</li>
<li>部署后期的变更工作，如果比较频繁的话将导致后台维护工作量增大，可以考虑使用一些开源的软件分发和自动化配置管理的工具。这些配置的初始化工作可以与OS的安装部署工作一起考虑。</li>
</ul>
<p>它被很多大学和专业机构研究并使用，所以有非常多的专业文档可以参考，哪行文档多分析了Ganglia的系统架构和特点，多系统的原理介绍的非常细致。下面是我收集的几个关于这个软件的文档请参考。并且在它们的网站上也可以看到很多相关的资源连接，都是非常好的实施方面的详细文档。</p>
<p>If you need more detail please take look those documents below.</p>
<p><embed src="http://www.box.net/static/flash/box_explorer.swf?widgetHash=rb2sx5msk8&amp;cl=0" width="460" height="345" type="application/x-shockwave-flash" wmode="transparent"></embed></p>
<p>Related posts:<ol>
<li><a href='http://martinliu.cn/2008/05/ganglia-install-and-configure.html' rel='bookmark' title='Ganglia install and configure'>Ganglia install and configure</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://martinliu.cn/2008/04/using-ganglia-for-cluster-and-grid-monitoring.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

