第5页 - 关于cassandra的讨论汇总 - 话题女王

全部话题 - 话题: cassandra

l*****t
发帖数: 2019

来自主题: JobHunting版 - 大家介绍一下当下比较流行的网页编程吧 (转载)

这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关，我觉得攻略是
1）看老paper：amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2）看网上评论，你的问题就是keywords
3）future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 后Hadoop时代的大数据架构

r*******k
发帖数: 44

来自主题: Java版 - BIgData对job market的影响?

我估计您只读过一些过时blog, 网文之类，没有hands on experience. （sorry,
really not nice）
NameNode HA 在2012年中已经比较成熟，我知道的多数公司2012年底已经upgrade
their production systems to use Namenode HA. 如果你听说过spof of NN，那是
2013年前的事情了，以后千万别提了。
这个领域的特点，所有的事情的都在moving around。如果你不肯定，请不要乱说。
这里不适合讨论cassandra hbase 实现细节一类，理论上的东西和实际差远了，看似美
好的东西实际实现两码事，你需要做很多的妥协来实现这些美好的目标，而cassandra
需要妥协的地方的太多了。不要以为fb, twitter ，还有其他一些公司drop cassandra
是没有strong reason的。再踢一次，cassandra 是fb 最早开发的，现在他们已经退
出很久了。
关于mapred on CFS，that's my point, 只是粘合: cassandra imp... 阅读全帖

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

你的图举了288个节点的1百万次/s的写。你给的方案是写数据库分表。
你难道说把车票表分成N个写数据库，用Cassandra来支持1百万次/s买票请求的log的写
，然后通过Cassandra慢慢的把这些throughput分给这N个写数据库？
或者说你压根不用你的写数据库分表的设计了，直接上Cassandra?如果那样的话，倒是
能讲通。但如果是那样的话，你的成本就从N个写数据库变成了288个server。
讨论方案的时候，你不能把每个方案的强项硬拉过来。
你一直说是写数据库分表+读数据库hit cache说魏老师的方案没节省多少钱。
一问throughput在写数据库分表怎么解决的时候，你就上Cassandra。
我这要是再一问Cassandra的成本，你估计得说不行去租。我告诉你天朝的商业合同的
约束力很弱，你就是事后去打官司判你赢，你都拿不到赔偿款的。
你这不是一个人在战斗，你这是一批方案在战斗 -_-

sector

d*******r
发帖数: 3299

来自主题: Programming版 - AWS cloud 内部做log，大家怎么设计

其实我是用过Mongo, 没用过Cassandra, 组里有人用，说Cassandra有很多参数要调整
，要难学一点。
组里有不少人还在用 MySQL, 我想他们也能查询我做这个 log server. 不知道
Cassandra有靠谱点的白痴 client / web GUI 没有。
e.g. 不知道这种东西靠谱不
https://github.com/sebgiroux/Cassandra-Cluster-Admin
还有，HBase 现在跟 Cassandra 比起来如何，用起来能更简单可靠吗?

g*****g
发帖数: 34805

来自主题: Programming版 - 太监语录

还好以前存档了，太监虽然是没做过服务器应用的菜鸟，却能轻松灭了Cassandra 1-2
个数量级。500万票12306紧耦合，是世界上最快的系统，可以卖银河系的票，顺带灭了
Nasdaq，破掉了CAP Theorom. 都是有原文引用的，口说无凭。说起来后面灭Nest其实
不算什么。
发信人: goodbug (好虫), 信区: Programming
标题: 应该给魏大师发10个图灵奖。
发信站: BBS 未名空间站 (Thu Nov 28 04:53:39 2013, 美东)
魏老师拍了一下脑袋，在两天的世界内，从完全对server app, cloud, NoSQL没有经验
的处男，一举成长为史上最牛逼的计算机科学家和工程师。我在这里列举一下魏老师的
成就，从小的说起。首先，魏老师做了一个比Cassandra快1-2数量级的NoSQL。
［
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 16:52:13 2013, 美东)
说了这么多你还是... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 挨踢热点过去二十年应该是这样的

95到00年期间，应该是java是热点
java一出来就是热点，只不过当时主要热在applet上
微软为java的推广其实出了不少力
当时这两个联手搞死了web浏览器巨头网景
后来因为微软打算夹带私货以捆绑java语言
导致sun一怒之下，对薄公堂，闹翻了
同时java也被分为三个版本，se,ee和me
闹翻了，现在回头看，其实是双输
如果没闹翻，估计现在m$也能从java上获益良多
就像ibm一样，java也能更快更普及滴推广
闹翻了之后，se部分的确是不行了，applet也一蹶不振
一度成为html tag的后来在html5时代就被拿掉了
但是兴起的是j2ee，当时最炙手可热的公司是庄思浩的bea
bea一度成长为世界第七大软件公司，而且是最快实现盈利百万的软件公司好像
bea的炙手可热被ibm所觊觎，很快ibm就搞出了websphere以对抗bea的weblogic
而且ibm的确是ibm，websphere很快就跟weblogic分庭相抗
这个局面持续到互联网泡沫破灭
互联网泡沫02年左右时间破灭之后，整个行业萧条了一段时间
但是j2ee的发展反而没有因此而停滞... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - new graduate刚学完java三大框架做个什么小project好。

你搞过ds的话，不需要学习scala，把api熟悉一下
ds的问题主要是api level的，多数都是理论
只要你懂cassandra, hdfs这些，你应该比其他人，比如用python的，用r的
有更多的机会被找ds的hr骚扰，但是目前应该整个市场行情一般
不宜把鸡蛋全放在这个篮子里
mongodb流行是因为跟db最像，大多数人熟悉了db之后，就不像用变化特别大的东西
但是我觉得cassandra是一个极端，跟db极为不像
所以学习cassandra也有必要，而且cassandra和hdfs也是ds部分用得多
所以如果你想找回ds那条路的话，这两个也是有帮助的
就是如果你写上去说你懂这两个，别人就更相信你懂ds
当然spark对于ds帮助最大
相比之下spring和hibernate倒未必帮助那么大

b**********5
发帖数: 7881

来自主题: JobHunting版 - MLGB 的

一个店面，准备热热身的。一个印度男经理，看linkedin，好像从印度工作然后
过来。。我对印度口音还行，但这个男的，口音特别中，死气无力的。。。在那
里呻吟。。。
1）上来问HBase， cassandra的区别。然后我开始说一通architectural的区别。
HBase是master slave architecture啊， Master管着一群region server， partition
的infomation metatable都在master里面。 HBase需要HDFS啊， HBase的single point
failure不是因为masterserver，我们以前其实用zookeper来管二个HBase
masterserver啊。 HBase的single point failure 其实是因为HDFS single namenode
啊。。。 Cassandra其实就是像P2P一样，一个consistent hash ring啊，然后data
key的本身有partition key， partition key来决定放哪个... 阅读全帖

j****g
发帖数: 17

来自主题: JobMarket版 - Alibaba全球找华人技术牛人

7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘，欢迎各位同胞们联系我
以下职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case by case！
工程业务团队资深岗位关键词
会员平台资深产品专家海外经历、用户产品
技术质量资深测试架构师技术质量、软件测试、测试框架
技术质量资深工程效能专家工程效能、内部协同、效率提升
创新业务&评价资深技术专家信用评价、业务架构
数据服务资深算法专家推荐系统、广告系统、机器学习，VR等
数据服务资深数据科学家 NLP、知识图谱等
数据服务资深数据产品专家大数据、国际化
营销平台资深营销交易产品专家全球化、产品规划
营销平台资深架构师电商架构、分布式业务架构
结算&支付平台资深支付域... 阅读全帖

c********t
发帖数: 4527

来自主题: Boston版 - software engineer jobs (70k to 150k)

which range that you feel that you are comfortable and confident in getting
the job?
I think mine is 98k
JOB#1: Mid Level and Senior Engineer ($70k-$120k) Somerville/Davis Square
We are the world's leading music intelligence platform serving music data to
100 million music consumers a month via an API that supports hundreds of
queries a second to mobile devices, websites and applications. We are
looking for a senior engineer to help lead our team build the best music
intelligence products and gr... 阅读全帖

g*****g
发帖数: 34805

来自主题: SanFrancisco版 - 对于语言没有明显人身攻击的争议性质的话题

魏老师不就是吹牛皮吹破了，被我打脸躲了三个月吗。这么发大字报有用吗？
发信人: goodbug (好虫), 信区: Programming
标题: 应该给魏大师发10个图灵奖。
发信站: BBS 未名空间站 (Thu Nov 28 04:53:39 2013, 美东)
魏老师拍了一下脑袋，在两天的世界内，从完全对server app, cloud, NoSQL没有经验
的处男，一举成长为史上最牛逼的计算机科学家和工程师。我在这里列举一下魏老师的
成就，从小的说起。首先，魏老师做了一个比Cassandra快1-2数量级的NoSQL。
［
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 16:52:13 2013, 美东)
说了这么多你还是没抓住重点。
我的系统也是NoSQL。Cassandra那点玩意儿做一个比他快1-2个数量级的也没问题。
］
其实，魏老师谦虚了。魏老师的单机系统，每秒处理500万，比起我们公司用Cassandra
288台机器才勉强... 阅读全帖

c***r
发帖数: 4631

来自主题: LeisureTime版 - 【西游】哈利。波特和他的魔法世界

Sybill Trelawney, Sybill Trelawney，这是这本书里设计地最牛的一个名字了。在哈
利波特书里，Sybill是著名的预言家Cassandra的后人。
在希腊神话里，Sybil是能预言未来的女人。但要说这个故事，先要从Cassandra说起。
要说Cassandra的故事，要说有一次希腊众神开party，地上有个苹果写着“给最美的”
，三个女神发现了这个苹果，让特洛伊王子Paris选择谁是最美的……好像扯远了。
反正斯巴达公主Hermione她妈斯巴达王后海伦后来跟特洛伊王子Paris私奔了，
Hermione 她爹也就是斯巴达国王找到他兄弟买稀泥国王，呵，应该是迈锡尼国王阿伽
门农，纠集了各路土匪豪杰，英雄好汉，去特洛伊要人。
话说特洛伊的国王叫Priam，在Luwian语里面是“特勇敢的意思”。Priam老婆叫Hecuba
。Hecuba是Phrygia的公主。说起Phrygia，给我们留下最牛的东西就是他们的帽子了。
Phrygia人的帽子如下图。
法国大革命的时候，这种帽子，特别是红色的这种帽子成了革命和自由的象征。
啊，蓝白红，多伟大的颜色，
红色... 阅读全帖

c***r
发帖数: 4631

来自主题: LeisureTime版 - 【西游】哈利。波特和他的魔法世界

l*s
发帖数: 783

来自主题: DotNet版 - [合集] 要不要跳ASP.net and C# 坑？

☆─────────────────────────────────────☆
runPython (凸-.-) 于 (Mon Oct 15 00:29:15 2012, 美东) 提到:
还在犹豫：
语言上C#强于Java；
框架上MVC的ASP更易用，
但是JAVA的基于开源的生态系统已经很强大，
大公司都在用，找工作前景很不错。
感觉上java和j2EE的是中大公司搞，
C#和ASP是中小公司搞或者非IT的大公司。
可以看出来薪水还是有点差别的，平均来说。
JAVA略高
☆─────────────────────────────────────☆
a9 (嗯) 于 (Mon Oct 15 08:33:29 2012, 美东) 提到:
搞电子商务的很多大公司都在用.net

☆─────────────────────────────────────☆
NeverLearn (24K golden bear) 于 (Mon Oct 15 11:06:35 2012, 美东) 提到:
Java is paid high simply b/c it's c... 阅读全帖

z****e
发帖数: 54598

来自主题: Java版 - BIgData对job market的影响?

hbase还不够成熟，版本号连1都没上，也就是还没有正式版
用起来风险太大
fb用hbase是因为以前cassandra跟hadoop不怎么兼容
或者说不象hbase那样原生态，所以整合起来比较折腾
现在apache已经开始整合cassandra跟hadoop了
所以用cassandra并不是很坏的结果，而且cassandra单独用也瞒好的
hbase单独用就折腾

t*******e
发帖数: 684

来自主题: Java版 - BIgData对job market的影响?

和我感觉的相反。Hbase有SPOF, scalability也不如cassandra。HBase每个data
region只有一个region server负责读写。cassandra replica set的所有node都可以负
责读写。Hbase是master-slave topology, cassandra是peer to peer。不过如果
mongodb够用，可能还是mongodb容易使用，毕竟支持ad hoc queries。Cassandra0.7支
持native indexing了，基本相当于支持ad hoc query了。
另外cassandra is modeled after Amazon Dynamo, 不是FB的技术。

r*******k
发帖数: 44

来自主题: Java版 - BIgData对job market的影响?

hbase 没有spof, for sure.
从那里听说的？你是说facebook 的系统不scalable?
this is by design, to guarantee strong consistency. HBase chooses CP of CAP
and cassandra chooses AP of CAP. It's their design choices.
cassandra's gossip protocol sounds ideal, but the real throughput would be a
big issue. That's why FB dropped cassandra and adopted hbase in their
production systems.
不明白，有不支持adhoc query 的nosql ? 你说的是secondary indexing?
distributed indexing for large scale distributed DB is not that easy.
cassandra was st... 阅读全帖

r*******k
发帖数: 44

来自主题: Java版 - BIgData对job market的影响?

版本号和成不成熟没大关系。2010年 digg vp of engineering got fired because
cassandra failed their whole system. 那时cassandra 应该早>1.0了
http://www.neowin.net/news/digg-vp-of-engineering-fired-after-v
这不是主要原因。https://www.facebook.com/UsingHbase 里面有，懒得找了，主要是
write throughput。
没有的事儿。怎么整合？cassandra on hdfs? mapred optimization on cassandra?
凑合粘乎一下还行，整合就不可能了。

t*******e
发帖数: 684

来自主题: Java版 - BIgData对job market的影响?

Brisk， Hadoop on CFS，不过不是apache搞的。Besides, Cassandra can work
natively as a hadoop data source or sink.

：现在apache已经开始整合cassandra跟hadoop了
没有的事儿。怎么整合？cassandra on hdfs? mapred optimization on cassandra?
凑合粘乎一下还行，整合就不可能了。

w**z
发帖数: 8232

来自主题: Java版 - BIgData对job market的影响?

We use Cassandra to store friends, persistent notifications and newsfeed.
You can't really call it OLTP since it doesn't have transaction.
We don't do analytical processing (yet), you can set up a cluster just for
data analyze. The integration with Hadoop is not great, but it works for
someone.
You can subscribe to the cassandra user group, u**[email protected]
and you can also join IRC channel: #cassandra channel on irc.freenode.net.
People there are really helpful.
And Datastax is a great... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Scala的AKKA很惨淡

我觉得这篇文章讲得很不清楚，只是单纯滴比较
没有实战价值
不过看评价缺点还是很有启发的，跟我猜的差不多
主要问题就是
hadoop慢
我们用hadoop是因为没有选择
而且hbase存文件容量比较大，能放得多
但是并不代表我们不能自己动手做优化
实际上cap理论里面，hbase就牺牲了a
这个就意味着总是很慢，但是慢没有关系，可以优化
其中一个优化手段是参考传统db建view的方式
找一个db，做预处理查询，把结果存在某一个查询快的角落
比如内森用的elephonedb，db牺牲的是p，没有牺牲a，所以快
然后storm放到前端用来处理最近时间段的数据
persistence这个时候就不能再用hbase了，慢
所以上cassandra，我总是很喜欢cassandra
cassandra牺牲的是c，没有牺牲a，所以快
然后并发存取，并把历史数据存到hbase里面去
这样通过三个不同的数据存储方式hbase，db和cassandra
分别对应历史数据，历史数据视图和即时数据存储
就能解决hadoop慢的问题
绕了这么一大圈就是因为hadoop慢
storm帮忙做了不少事，但是如果换成akk... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 好虫，看看你的东东有没有问题？

前面说完了维护余票的数据库，以及后台处理订单的模块。这里再说说订单系统。
我一开始就说commit log + 离线订单。订单产生之后怎么处理我说完了，
现在说产生订单的部分。我提到订单系统就是个基于commit log的message queue，
同样是可以根据车次和天划分的。
我之所以提commit log，是因为有很多现成的实现。commit log这块就是魏老师嘴里所谓
的高throughput单机DB。但他对诸多现成的NoSQL实现完全没有概念。而且我很肯定他的
谈到的系统在throughput上远逊于Cassandra。他的DB有瓶颈，我的设计没有，是完全
scale out的。懂得Cassandra的都知道原理，就是根据hash在集群上找到对应的结点写
。魏老师写的是1个结点，Cassandra写的可以是几百个个结点的集群。为了提高可靠性
和availablity，可以用常见的replication factor 3和quorum写。也就是每个数据有
三份拷贝，两份写即时确认，一份后台复制。维护同一数据的三台机器里，一台机器坏
了不影响读写。
不仅如此，Cassandr... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 春运火车票2个方案比较

我说了又解释了那么多次的方案，你连最基本的都没明白？
确实就不是一个方案在战斗，从开头就是设计了两个数据库。一个存订单，一个存余票
计数器。
订单数据库写流量极大，但是订单本身互相不冲突，不需要锁，所以上Cassandra
余票数据库，总共每车次一万张票，每天一千车次的话，也就一千万张票。只有有余票
，银行付了钱，才会更新。这个东西涉及到钱，需要transaction，用得是RDBMS。不是
慢慢地写到N个余票数据库上，是慢慢地处理这些订单，因为银行很忙，成功的才写到
这些数据库上。
把余票数据库放到Cassandra上是不可行的。一个是做transaction不方便。更重要的是
，Cassandra读写高是因为读写的是不同的row，用户有多少单子，就有多少row，并行
读写不难。当你总共就几千行的计数器反复读写还加锁，就会产生Hotspot。什么数据
库都顶不住。魏老师那10万次读写，还要加锁更新计数器的，是纯粹打嘴炮。
说到成本，Cassandra是免费的。我说的整个架构可以在云上跑，是elastic的。如果
288个结点才能撑100万次/秒读写的话，非春运放三个结点就行了，结点多... 阅读全帖

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

我是没明白，因为你的方案前后不一致。逻辑上讲不通。打补丁是可以的，但是我要是
漏掉了你的哪个回帖，没更新到最新的方案，你也多包涵。
去翻你的旧方案，这纯粹就是口水仗，没有意思。我就更正你对魏老师方案的一个理解
错误，然后你正面回答我两个问题就可以了。
“魏老师那10万次读写，还要加锁更新计数器的”你这理解是错误的。魏老师的主机其
实就想替代你的余票数据库。但他不用数据库实现。你可以认为都放到内存里面了，主
机就是处理定票请求，返回订票成功与否。这个在魏老师的方案和我的小结里面都提过
的。因为他给了个高throughput的方案，所有订票请求都在一个queue里面，根据到达
先后入queue。任意时间如果是单线程的话，订票是不需要加锁的（加锁这个是你强加
给别人的-_-）
然后这个主机上面，完成定票本地需要写log，然后会把log广播到standby上面去。log
广播的速度应该不是主要问题，主要问题是本地的log写。然后就像你计算的那样，余
票的数量是到不了10万次/s的要求的。我不明白你为什么要人家实现10万次/s的写操作
，难道就因为Cassandra能实现1百万次/s的写？？？我... 阅读全帖

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

发信人: goodbug (好虫), 信区: Programming
标题: Re: 写一个Complete Failover Handbook吧
发信站: BBS 未名空间站 (Tue Nov 26 22:00:50 2013, 美东)
魏老师又来伸脸找抽了，很好，我就再抽几下让他长长记性。
说到这个failover，Cassandra replica factor 3, Quorum read/write的本质，就是
两结点的同步写，加一结点的异步写。魏老师提到了这个不是sync，是flush，没有错
，flush和sync有间隔，而且缺省设置远比他想象的时间长，不是ms级，而是10秒，当
然可以调，调到0就是sync，但是慢。
http://wiki.apache.org/cassandra/StorageConfiguration
好，现在想象一下啊这10秒里结点挂掉。如果挂掉一个结点，数据没有丢。读写也没有
任何影响。如果挂掉两个结点，这个本身就是个很小概率的事件，但数据还是没有丢。
但是读写不会成功。Cassandra的monitor process (Priam)会自... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 应该给魏大师发10个图灵奖。

魏老师拍了一下脑袋，在两天的世界内，从完全对server app, cloud, NoSQL没有经验
的处男，一举成长为史上最牛逼的计算机科学家和工程师。我在这里列举一下魏老师的
成就，从小的说起。首先，魏老师做了一个比Cassandra快1-2数量级的NoSQL。
［
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 16:52:13 2013, 美东)
说了这么多你还是没抓住重点。
我的系统也是NoSQL。Cassandra那点玩意儿做一个比他快1-2个数量级的也没问题。
］
其实，魏老师谦虚了。魏老师的单机系统，每秒处理500万，比起我们公司用Cassandra
288台机器才勉强撑到100万，是三个数量级的区别。从cassandra能值个5亿，魏老师
这NoSQL DB快1000倍，少说也值100亿吧？而且是2万刀一下的平民级硬件就攒出来了，
多一分也不行，必须的。
[
发信人: TeacherWei (TW), 信区: Programming
标... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - AWS cloud 内部做log，大家怎么设计

mongodb把index全部读入内存
对于log有必要么？
是我就全部扔给cassandra去做
cassandra很简单的，不比mongodb难
我现在是aop+cassandra，轻轻松松
wwzz还有古德霸他们也都有用cassandra做log

g*****g
发帖数: 34805

来自主题: Programming版 - 魏公公把吹的牛逼给圆了吧，我就看到魏公公下面没有了。

发信人: goodbug (好虫), 信区: Programming
标题: 应该给魏大师发10个图灵奖。
发信站: BBS 未名空间站 (Thu Nov 28 04:53:39 2013, 美东)
魏老师拍了一下脑袋，在两天的世界内，从完全对server app, cloud, NoSQL没有经验
的处男，一举成长为史上最牛逼的计算机科学家和工程师。我在这里列举一下魏老师的
成就，从小的说起。首先，魏老师做了一个比Cassandra快1-2数量级的NoSQL。
［
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 16:52:13 2013, 美东)
说了这么多你还是没抓住重点。
我的系统也是NoSQL。Cassandra那点玩意儿做一个比他快1-2个数量级的也没问题。
］
其实，魏老师谦虚了。魏老师的单机系统，每秒处理500万，比起我们公司用Cassandra
288台机器才勉强撑到100万，是三个数量级的区别。从cassandra能值个5亿，魏老... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 竟然有人号称数据紧耦合是伪问题

g*****g
发帖数: 34805

来自主题: Programming版 - 这个版上，Netflix工作的不止goodbug一个吧？

吹牛逼吹破了，躲了三个月风头你怪谁？数据确凿，你哭诉有用吗？
信人: goodbug (好虫), 信区: Programming
标题: 应该给魏大师发10个图灵奖。
发信站: BBS 未名空间站 (Thu Nov 28 04:53:39 2013, 美东)
魏老师拍了一下脑袋，在两天的世界内，从完全对server app, cloud, NoSQL没有经验
的处男，一举成长为史上最牛逼的计算机科学家和工程师。我在这里列举一下魏老师的
成就，从小的说起。首先，魏老师做了一个比Cassandra快1-2数量级的NoSQL。
［
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 16:52:13 2013, 美东)
说了这么多你还是没抓住重点。
我的系统也是NoSQL。Cassandra那点玩意儿做一个比他快1-2个数量级的也没问题。
］
其实，魏老师谦虚了。魏老师的单机系统，每秒处理500万，比起我们公司用Cassandra
288台机器才勉强撑到100... 阅读全帖

w**z
发帖数: 8232

来自主题: Programming版 - 请教真正了解nosql的大牛个问题

I don't know much of leveldb, I am only familiar with Cassandra. There are
different knobs you can turn in Cassandra:
Key Cache
Row Cache
BloomFilter
index_interval within the SSTable (It does have index with in the SSTable to
speed up the lookup)
It's the trade off between memory consumption and read performance. For
Cassandra, you don't want to use more than 8G of Heap to avoid long GC pause
. Cassandra is built in a way that horizontal scale is easy and efficient.
For individual node, normall... 阅读全帖

w***g
发帖数: 5958

来自主题: Programming版 - 阿里系统崩溃，没人讨论下

在我看来cassandra确实没啥技术难度。要么学术上原创，要么技术上牛B，
cassandra就一个轮子，两个都沾不上。但cassandra还不是最差的，好歹是
基于磁盘的，还要维护cache。像redis这种纯内存的才是真的不需要技术。
log structure storage是一项伟大的创举，非常漂亮。我觉得从学术上说
比B+树都要牛。这个idea最开始是
做文件系统的，后来被应用到db上。cassandra只是后人乘凉而已。
http://en.wikipedia.org/wiki/Log-structured_file_system
还有大家都知道的vmware，我觉得也是技术上牛B得不得了。logFS和vmware
后面有个哥们叫Mendel Rosenblum，那才是真正的牛魔王。facebook技术不行
在湾区应该是公认的吧。
update:
刚刚又考了下古，C* 2.0后料还是多了不少，似乎没我说的那么不堪。

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】Free iPhone/iPad games for XMas

iPad
The Mystery of the Crystal Portal:
http://itunes.apple.com/us/app/the-mystery-crystal-portal/id341329826?mt=8
The Stone of Destiny HD:
http://itunes.apple.com/us/app/the-stone-of-destiny-hd/id364797888?mt=8
Cassandra's Journey: Legacy of Nostradamus HD:
http://itunes.apple.com/us/app/cassandras-journey-legacy/id364691489?mt=8
The Mysterious Past of Gregory Phoenix:
http://itunes.apple.com/us/app/the-mysterious-past-gregory/id397141118?mt=8
iPhone
Crazy Checkers:
http://itunes.apple.com/us/a... 阅读全帖

e********8
发帖数: 929

来自主题: Military版 - 本文对我们在X档案电视剧集中知道和未知的事做...

本文对我们在X档案电视剧集中知道和未知的事做一个回顾，同时对于可能
恢复的X档案故事给予一定关注（如X档案的第二部电影）。
这部系列剧终结篇宣称解释了大量政府的阴谋。然而事实是几乎没有解释
什么，如果这部终结篇中的任何事都是最新的。以前情节中没有发现的事
仍然没有揭示谜底。而且，在对Mulder审判过程中的简短的对话片断所提
供的解释仍然留下了太多疑问没有说明。
仔细回顾X档案以前神秘理论情节中所提供的图片比终结篇给我们提供的更
完整。也许我的这种观点并不权威，但至少把他们结合在一起是这样。
这是我对X档案中外星人/阴谋论完整性的解释：
被称之为黑油（Black Oil）的病毒，出现于几百万年前的地球。它可能已
经进化了。很可能是通过流星或别的手段来到地球。有人认为它是行走于
地球的第一个智能生物。这种病毒以类似于油的自然形式呈现，能进入异
种生物体内并控制他们的身体。因此，这种病毒被认为肯定存在着感觉能
力。
另一类外星人，他们类似于人，也是很久以前到达地球，大约在35,000年
前。显而易见黑油控制着部分或所有这种类型的外星人。他们中的一部分
离开了地球，很可能是在这种病... 阅读全帖

d****o
发帖数: 1055

来自主题: JobHunting版 - 详解知名网站的技术发展历程(zz)

对于大家复习design problem有帮助
互联网已经发展多年，其中不乏脱颖而出者，这些网站多数都已存在了接近10年或10
年以上，在如此长时间的发展过程中，除了业务上面临的挑战，在技术上也面临了很多
的挑战。我挑选了一些Alexa排名较前的网站(排名截止到2012年4月21 日)，看看它们
在技术上是如何应对业务发展过程中的挑战的。
Google 目前Alexa排名第1。它诞生于1997年，当时是一个研究性项目，每个月
build一次索引，build出来的索引通过sharding(shard by doc)的方式分散到多台服务
器(Index Server)上，具体的网页数据同样通过sharding的方式分散到多台服务器(Doc
Server)上，当用户提交请求时，通过前端的一台服务器将请求提交给Index Server获
得打了分的倒排索引，然后从Doc Server提取具体的网页信息(例如网页标题、搜索关
键词匹配的片段信息等)，最终展现给用户。
随着索引的网页增加，这个结构可通过增加Index Server以及Doc Server来存储索
引以及网页的数据，但仍然会面临其他... 阅读全帖

g**u
发帖数: 504

来自主题: JobHunting版 - F家这个烂大街的system题哪位大侠仔细讲讲

你们是哪家，twitter也用Cassandra实现的吧？ Facebook 好像用的pull, 存储和查询
用的是一个类似 leveldb的东西，不知道现在还是不是这样的。

用MySQL 是找死。我们就是用Cassandra 实现这个功能。Facebook 放弃Cassandra ,转
到HBase 了。

g**u
发帖数: 504

来自主题: JobHunting版 - F家这个烂大街的system题哪位大侠仔细讲讲

z****e
发帖数: 54598

来自主题: JobHunting版 - 关于我们做一个中文的online judge

用什么做存储的问题，java版现在有两cow正在大讨论
topic是hbase vs cassandra
我正在其中慢慢汲取营养
anyway
现在nosql很火，但是transaction的问题搞不定
所以涉及到不允许错的部分，比如财务还有账户信息，重要性比较高
还是放在传统的db中比较安全，错了可以滚回去，可以用的工具也多
比如建立连接池之类的，剩下的
比如做了多少题这种数据，就放在nosql里面吧
要么cassandra要么hbase，我倾向于cassandra
这样可以迅速扩容，不会受太多的限制
毕竟这是一个web系统

z****e
发帖数: 54598

来自主题: JobHunting版 - 关于我们做一个中文的online judge

z****e
发帖数: 54598

来自主题: JobHunting版 - 问一道G家系统设计题

不能说你是错的
但是没有满足第三个条件，存储空间有限
你必需persistence
我觉得用db或者cassandra都好
只要不用hbase这种半天不响应的
不过db可能撑不住，数据继续大下去，p一定要被牺牲掉
用cassandra
参考内森那篇文章
其实这题最简单就告诉它
storm+cassandra
搞定
twitter在low latency上颇有建树，多参考它们的文章

queue

d**e
发帖数: 6098

来自主题: JobHunting版 - [合集] System design总结

☆─────────────────────────────────────☆
peking2 (scala) 于 (Tue Mar 19 14:28:11 2013, 美东) 提到:
1. System design 是一个很大的话题，大的System一般都是由Architect来设计的，因
此就算工作过若干年的也未必有很丰富的system design的经验。如果想对system
design有一个初步了解，我发现这个文章不错，http://www.palantir.com/2011/10/how-to-rock-a-systems-design-interview/。
2. 因为我们jobhunting的主要目标集中在了FLGT等互联网公司，因此在这个范畴里的
system design也就集中在了分布式计算和分布式存储的design上了。想对这些设计理
念有个大体的了解可以读读Google的三驾马车，GFS, MapReduce和BigTable。
3. 有大牛建议读读各个公司的engineering blogs，我觉得是非常好的建议。不但能学
习system des... 阅读全帖

p*****2
发帖数: 21240

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

确实太重了
我当时比较过hbase和cassandra感觉学习曲线相差太大了除了特殊的应用不然直接上
cassandra为佳
当然hbase有hadoop的优势现在spark来了就可以全活了
一个人搞定cassandra spark问题不大

p*****2
发帖数: 21240

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

b**********5
发帖数: 7881

来自主题: JobHunting版 - 问个L家设计题分布式 inverted index设计

怎么存，就是存在cassandra或者hbase里啊。 hbase、cassandra都是帮你partition
好了， scale好了。你可以谈谈hbase， cassandra的architecture。 real time
更新就是lookup， overwrite， insert到你这个nosql table里。。。

w**********0
发帖数: 192

来自主题: JobHunting版 - 驳G家的技术不如FLA先进

Cassandra 2006-2007就做好 2008年就开源了
kafka 2011年才搞出来这时候Facebook都决定不用cassandra了
再者一个分布式消息队列怎么也没法和cassandra比人家至少一个NoSql的产品是
要和mangoDB这些比的。刚出品的时候 twitter digg这些公司都高调选择采用

z****e
发帖数: 54598

来自主题: JobHunting版 - 老年马工赶快去 fb

fb作出了cassandra，没错，属实
但是后来fb用不下去了，觉得不好用
白白丢掉又觉得可惜，于是就贡献给了apache
然后内部放弃了，结果不成想，贡献给了apache之后
在apache手里回光返照，越来越流行
得到了一堆公司比如netflix的使用，越做越好
cassandra后来都融入到了hadoop eco里面去了
变成ca系统的旗帜，所以严格说来，cassandra的成功跟fb没有太大关系
跟apache有很大关系，apache foundation里面top level projects很多
只要能做到top level projects的lead
基本上wikipedia上有人帮忙修个term没啥问题
也算是青史留名的一种

z****e
发帖数: 54598

来自主题: JobHunting版 - new graduate刚学完java三大框架做个什么小project好。

把知识拆成碎片，一点一点积累起来
nosql的cap是一个碎片，这个跟其他碎片依赖小，很容易捡
就捡起来，然后cassandra对应的是哪个部分，怎么处理的
也捡起来，然后crawler是一个碎片，捡起来
再然后inverted index table是一个碎片，捡起来
多线程部分是一个碎片，捡起来，异步是一个碎片，捡起来
这样一点一点积累下去，一段时间之后就不一样
哪怕是瞎搞，也比什么都不做强很多
编程这种东西，就是熟能生巧的玩意，自己发挥主观能动性
能做很多东西，不指望在一夜之间就什么都懂
实际上也没有多少人真的什么都懂，但是基本原理要理解
而理解基本原理，你就是看cassandra.apache.org的文档
都能学会不少东西，你看wwzz从不懂cassandra到现在
用了多久？临渊羡鱼，不如那个啥？
越怕越不做，越不做越是什么都不会做
真想学，自己会去琢磨，都多大的人了，学习这种东西还需要教么？
实际上工作了之后的学习也还是靠自己

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天