刚伊始使用cassandra的时候,不太了解怎么要利用cassandra。在想用mysql或redis等不是可以代替cassandra吗?
为啥要花时间去探听使用它吗?

11本商业智能、数据挖掘皮之不存毛将焉附书目(2):扩充《智能Web算法》

上面简单讲一下,大家为啥要动用cassandra。

1:《SQL Server
2008商业智能完美解决方案》,对商业智能做了一个概括的介绍。个人见解相比符合于已经深谙微软商业智能原理与贯彻的人观看,比如熟稔sql
server
2005商业智能完结的人方可了然一下2008下的情事。不熟谙的人通过那本书可以明白商业智能的基础理论。涉及到具体的操作,书中即使有众多截图,不过不够详细,无法用那本书来学学具体的操作。个人观点那本书要么再详尽一些,要么再不难一些,都会比现在自己。

cassandra的性状好处

  • 造福增加存储
  • 有弹性的情势定义
  • 高写入品质。

2:《数据挖掘导论(完整版)》是国外大学的讲义,看译者序许多境内高线也用它当作教材。由此那本书讲原理相比较多。比较透彻,充满了数学符号和公式。详细讲述了分类、关联分析、聚类分析二种多少挖掘算法的原理。我意识有点数据挖掘的参数在微软的声援文档中没说通晓,看那本书说的相比清楚。我想看的是能率领实际的多寡挖掘操作的书,因而对书中的公式基本跳过。只看了看书中讲到的算法解决的各个难题及其思路。

切切实实表明

  • 惠及扩大存储

卡桑德拉是分布式系统,==只需求增添节点就可以伸张存储空间==;众所周知,mysql的单表数据量是有瓶颈的,当数据量到达一定级别,就必要考虑分库分表或者分区等等。并且mysql不是一个分布式的数据库(纵然有主题,那不是的确意义上的分布式)。

动用cassandra,则不要求考虑该难点,当数据量增添,只需求追加cassandra的机器即可(运维层面增加),对于开发来讲,大约从不影响。

  • 有弹性的方式定义

cassandra的筹划编制控制了,它的数码格局(列的增减)的更动的工本是万分低的。在mysql中,对一张大数据的表展开schema改动(列的增删改)的资产是不行越发高的,一不小心就会招致锁表,导致业务分外。而==有的工作数据量很大又由于必要的不稳定性会常常需求改变数据的形式定义==,那时就足以考虑cassandra,Cassandra很吻合做这么的事;

  • 高写入质量

Cassandra写入品质是万分高的,Netflix曾经在几遍测试中完结每秒当先100万次的写入;分外适合高写入的利用,如广告点击记录,用户浏览记录等等

  • 较高(不低)的读取品质

一些事情在甄选采用cassandra的时候会因为从一些材料里面得知,cassandra的读取质量很低,而不敢使用。这一点莫过于是误会,在cassandra的早期版本确实是如此。不过随着cassandra的向上,该难题已经取得了惹人注目缓解。具体可以参考DataStax集团的CTO兼联合创办人的那篇小说有关cassandra的错误观点

不过当您的事体对读取有较高的渴求时,提出选取正确的cassandra版本并开展客观的测试

3:《数据挖掘原理与应用(第2版)》,讲解Excel2007的数量挖掘插件做多少挖掘的有些科学,前边讲数量挖掘的各类算法,详细列出了种种参数和DMX脚本,不过并未透彻的教学,给自己的感到就好像微软的bookonline,适合当作工具书去查看,可是不切合营为入门书去读书。书的终极部分提交了用.net完成多少挖掘编程的例证,应该还足以实例代码在其实项目中做参考。

适用场景

  • 快快支付应用程序:Schema
    Free的特点,让Cassandra可以高速适应你的初期变更;要是你选拔关系型数据库,那么就只能从数据表、DAO层、Logic/Service层到UI层进行稀有变更,哪怕只是一个细小的列名或字段类型变更;

  • 多量写入、总计和分析:Cassandra的列族设计是包含数据涉嫌和排序的,并且可以不存储不须求的多寡,那巨大减省了表联接和冗余字段带来的性质费用,后者刚刚是高并发写入操作、总结分析时关系型数据库的瓶颈;

  • 急需扩张的配置社团:Cassandra是面向分布式的筹划,那让它能够灵活地水平增添,以在运维阶段满意你的急需,而不必考虑“将数据迁往更高质量的服务器”那样的题材。

4:《精晓sql server
2008先后设计》,全书分了八个部分,第四片段讲商业智能。限于篇幅难点在数量挖掘地方只讲了一种算法(聚类分析)的兑现,假若想打听商业智能与数量挖掘,那本书也不够实用。

行使实例

  • Yelp的广告分析种类
  • Spotify的拥有用户音信囤积

5:《智能Web算法》:所谓智能web,书中是指能按照用户在网站的一言一动作出针对用户的响应的网站。常见的选择就是援引系统。其余小编认为google的搜索也是智能web的例证。

书中研究了谷歌搜索原理、推荐系统原理、聚类算法、分类算法。本书附有Java完结书中算法的源代码,书中有好多篇幅是针对源代码讲算法。读者也得以选取源代码做测试。当然作者注解给出的代码都是经过刻意简化,目的是为着让读者很快领会算法的基本原理。

感觉本书的翻译还比较标准,读起来相比流利。

值得夸一夸的是本书的印刷用纸。不知道业内名词,然而书拿在手里眼看比同体积的书要轻,感觉很舒畅女士。我在amazon.com上买过几本美利哥出的书,也是感到显明比较轻。

6:《深远浅出数据解析》:长远不够,浅出做的不错。适合技术人士与业务人士作为计算学入门读物来读书

《深刻浅出数据解析》是美利坚合众国O’REILLY出版社的“深入浅出”种类之一。这么些种类的风味是花了累累想法切磋如何让读者更舒心地读书、记住书中越多内容,书即使都比较厚,可是插图至极多。插图与本文常常混在协同,没有鲜明的尽头。读起来着实比较轻松,相对文字多图少的书来说,也的确更易于记住书中的内容。由于图多字少,读起来很快,也能令人倍感相比有成就感。但是那些种类的书都相比贵。

那本书的要紧内容本身以为是统计学入门。不懂技术不过用过excel的人就可以看。讲了讲计算学的基本概念和贝叶斯计算、直方图、回归、误差等概念,使用了excel和一个专门的计算工具R做示范。小编比较推荐R。因为那个工具在总计学应用方面比excel更灵活。是一个开源软件,还有连锁的社区在为那几个软件不停的增多效果。

7:《可视化数据》专讲Process那一个软件的选择,网络书店对那本书的牵线都提及了那一个难题。对这一个软件不感兴趣的就不用买了。我买的时候没留意到网页上介绍,看的时候才发现。书中充斥着process的代码。没有上学和选用process的布置,因而也就大概翻了翻,看看process解决的题目及其思路。

8:《业务建模与数码挖掘》是05年出版的。与《数据模型资源手册》卷一卷二同属机械工业出版社的数据库技术系列丛书。后者已经卖光了,那本书还有。看来仍然相比偏僻。翻译同样的比较正式。同样是偏学术性的。然则作为专业书来说,公式、图表偏少。个人意见想商量具体的多寡挖掘算法可以看《数据挖掘导论(完整版)》。

9:《数据之美》:概括描述了20个数据挖掘、数据可视化、云存储及其他数据处理有关品种

那本书相对来说还算相比新,是从英文版翻译过来的。英文版二〇〇九年问世。中文版二零一零年十一月问世。由20篇互相独立的篇章结合。每篇讲一个数据处理有关的品类。不关乎具体的技术细节,仅仅是包蕴表达原理、思路、进度、结果。

一体化来说,阅读起来有点生硬。感觉作者基本都掌握英文版的情趣,然而有点地点汉语表明上不够通顺。那在IT业的翻译书中早即便不错的结缘了,强过汉语过关不过不懂技术的气象。

10:《超级数字天才》讲数量挖掘给人类带来的补益。相比详细,给出了具体的例子和落到实处的笔触。书中列也在利用“数据解析”这些词,基本也在指“数据挖掘”。书中罗列了数码挖掘在内阁政策、教育、医疗等诸多地点的莫过于行使的事例,都相比有趣。想打听多少挖掘的现举行使,可以看看那本书。

书中给我影像比较长远的是例证中政坛与教育行业的多少挖掘利用。一项政策的优劣,一个教育格局的优劣,美利坚联邦合众国人都试图用数据说话。

11:《数据解析竞争法》是商务印书馆的交大经管种类之一,名头比较大,先看它。可是有些失望。不是给技术人员看的。标题中的数据解析差不离是说商业智能中的数据挖掘。小编把企业采取数据挖掘的水平分为由低到高的五级。全书反复论述每个级其余格局、工具、流程、对集团的功利,还举了有的的例子。在我看来这几个事例不够详细,太笼统。所以自己认为那本书适合于不精通商业智能与数量挖掘的管理人士阅读。