百度技术沙龙第2期
15号的时候在北京参加了一个infoq和baidu组织的1个技术沙龙,2个演讲嘉宾分别介绍了能够为超大数据量提供分布式且可扩展的百度Hadoop架构,和FreeWheel公司的广告核心系统的架构设计。PPT可以从infoq下载。
据我泛泛学习到,百度Hadoop是1个针对OLAP的分布式可扩展文件系统,不适合OLTP的随机读。适合存储用类似OLAP的列式数据库,比方说HBase。或许baidu是将网上抓取得网页进行分析并存储在Hbase中,然后批量读取以列方式存储的Title,Keywords,Content等字段来提高索引的吞吐量和性能。列式数据库的领域是大有前途阿,难怪SAP要整合Sybase。
Hadoop整体架构有点类似Oracle的ASM,整套(1个namenode+多个datanode)的Hadoop文件系统是1个disk group,每个datanode是该disk group中的1个disk。数据存储在Hadoop文件系统中,可以对数据个性化设置类似ASM的冗余属性等,且你不需要知道数据存储在哪个datanode中。当新的datanode加入到Hadhoop中的时候,会做类似ASM的rebalance均匀在datanode中分布数据stripe everything减免热块竞争。
另一位嘉宾是来自FreeWheel核心系统的技术总监。我觉的FreeWheel公司是一个有意思的互联网公司,它的业务模式很有意思。它是做多媒体运营商(比方说tudou)和多媒体内容提供商(比方说CCAV)的中间公证人。网络媒体的收入主要来自广告。这个广告费用那,有运营商和媒体提供商分成,这2个买卖对象,谁也不能100%相信谁,这就需要1个作中间得公证人。FreeWheel独立的负责广告投放的监管和计费,从中牟利。很明显的,这个模式目前在中国行不通。
不过不影响FreeWheel的发展,FreeWheel的所有开发人员都在中国招聘,应该在跨国IT公司中全球化战略比较成功的了。他们所带来的演讲我觉得也非常典型,business发展不同阶段对技术的使用和运营有不同的需求,只要应用规划和实施能够不制约商业规模的发展就是好猫,并且在每个阶段都要做好Capacity design,致力于High Avail。比方说PPT中提到的2点–50% 上限 & N+1 Data Center。
现场围观效果比瞄PPT收获好多了。



















Hadoop 的处理方式更加接近于Oracle的RAC parallel并行操作..hdfs 类似于GFS, 一个Master Slave的中心节点存储元数据信息, 多个DataNode存储具体数据..
FreeWheel公司的架构设计还是蛮有意思的.. 看了ppt,,没有到现场,,
hadoop是个好东西,咱公司好像也在研究这东西嘛。HDFS的冗余和ASM有点相似。