第9页 - 关于cassandra的讨论汇总 - 话题女王

全部话题 - 话题: cassandra

g*****g
发帖数: 34805

来自主题: Programming版 - Python就是爽

http://www.networkworld.com/news/tech/2012/102212-nosql-263595.
Here's a good comparison of different NoSQL DBs, obviously there are pros
and cons on different DBs, it all depends on what kind of app you are
writing, write intensive or read intensive. Overall, Cassandra shows great
write performance and read performance with tunable consistency. MongoDB has
great read performance, is closer to SQL DB in the queries, and has better
JSON support.
Personally I feel Cassandra is more flexible but ha... 阅读全帖

s***o
发帖数: 6934

来自主题: Programming版 - 现在做手机网游，选什么数据库合适？

very much depending on the data you are storing. There are needs for data
store in many layers: application layer serving stores, data warehouse for
your BI, billing/financial data.
* serving stores are usually nosql solutions or mysql/postgresql instances
depending on your need.
- there will be data that you only need key -> value lookup, use stores like
cassandra/riak/memcache/mongo depending on your requirements of access
patterns. cassandra requires thrift, which is painful to some. riak sup... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

我肯定不会重造一个hadoop
直接用hadoop和cassandra或者hbase
现在主要少的是web crawler，这个我一直没找到合适的产品
这个要自己做，有现成开源的我一定用
如果web crawler有现成的开源的，最好还是apache的
那就更好了，我们javaer不都是这样的么？
有就用，然后反馈，然后上集团军优势
围剿那些不肯开源的
如果spring可以围剿ejb
那hadoop也可以围剿gfs这些
什么时候搜索引擎遍地都是了
那差不多这行就可以走人了，向下一个进军
开源就是蝗虫
当年搞个论坛，四方连通还能变成新浪
后来论坛代码遍地都是了，天涯做得再好，想变成新浪
想上市，那多少就没这个可能了
我看好hadoop的前景，hadoop基本上三驾马车都模拟了
现在web crawler有什么好的免费的开源的推荐没有？
我不求自己能写出什么jvm，app server这些
但是我很需要知道，有什么比较好的东西能够让我免费使用
而且又能够山寨这些产品
就像当年spring和jboss搞websphere
mysql搞oracle db一样
hadoop和cassandra真... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

搜索database的话，负担会很大，而且没有必要
上mapreduce，而且可以通过nosql降低对于db的要求
可以大幅度增加性能，很多数据不需要保证百分百准确
尤其是很多客户资料，你说客户的兴趣爱好，这个玩意上db就有些吃太饱了
上nosql就好，错了就错了，本来就不是很准确的东西
其实大部分企业，除了交易和账户信息，这两块，其它大部分是非精准信息
应该用nosql来降低负载同时扩容，然后用mapreduce来找
mapreduce+nosql带来的性能提升很可喜啊
其实这个可以回答java版的那个关于store procedure的问题
sp不仅难以维护，而且成本并不低，移植性扩展性也很差
上nosql
这也能回答为什么现在hadoop和cassandra经验那么热门的原因
会hadoop和cassandra下一个十年才有发展，db那个不能说过时
但是热点的确已经不在这一块了，oracle财报刚出来，远低于预期
股价暴跌9％，别固守sql和db了，nosql是大势所趋，要顺应潮流

z****e
发帖数: 54598

来自主题: Programming版 - 是我的错觉么？我觉得google的三架马车其实没啥东西

公司本身其实跟我没有太大关系
不给钱都是杂种，只要给钱都是good guy
对于码农本身来说，更重要的是skill set的补全
以前mapreduce和nosql我不会，毫无概念
但是现在有了hadoop和cassandra这些，如果有人要我做这个
那我就会做了，从无到有的进步是很关键的
至于性能上的提升，那个区别其实不大
举两个例子
比如websphere和weblogic，这两个牛逼到死
现在这两个用的jvm，r9和jrockit效率都要明显优于hotspot
这两个都是准real time的jvm
但是呢，这两个要钱，要不少钱，资本家都是抠门的
软件licence fee掏出去了，那会从哪里找回平衡，很容易想到的
多半是我的工资
那怎么办？还好，有开源，jboss推出之后，就算我没有办法做到跟ibm还有bea一样
我一样可以提供类似的服务，剩下的一点点效率上的差异，那个其实绝大多数时候用不到
这就是为什么古德霸说，real time其实不是它的领域
再比如，日本人他们做游戏，很多时候，帧数控制在60fps
跟美帝技术上其实差得很远，美帝上个90fps无压力
但是小日本的游戏有的... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 不管你愿意不愿意，java正在prevailing

这是那个合集我回的关于iCloud的第一个帖子，不是我做的合集，我也不能修改。大家
到是看看我如何否认iCloud跑在Azure里。你丫做人不要脸就罢了，不要把我扯到跟你
一个水准上。至于iCloud是否用Azure的storage，确实谁都没有第一手证据。你不服倒
是拿证据出来。何况我帖子说得明白，就算是用azure storage，跟.net还是没啥大关
系。
你每次被打脸也就剩断章取义这点本事了。
http://www.mitbbs.com/article/DotNet/31106475_3.html
goodbug (好虫) 于 (Tue Oct 23 04:17:58 2012, 美东) 提到:
BTW, iCloud is in Java. One apple engineer contacted me for a position so I
know this first hand. It makes sense because iCloud is on both AWS and Azure.
Using iCloud to prove .Net is laughable... 阅读全帖

c*****y
发帖数: 562

来自主题: Programming版 - Java必然败在oracle身上

我读到hadoop和Cassandra就意识到这是好虫了。请好虫指点一下，那么多nosql，你为
啥对Cassandra情有独钟

based
citizen
to
it'
more

z****e
发帖数: 54598

来自主题: Programming版 - google，facebook用的什么语言？

fb最早是lamp，后来因为php效率太低，主要是动态类型
后来改了c++写了一个hiphop，提升了效率
然后用java写了一个cassandra，如果是做core java的话，去面fb也很正常
g的核心系统大概在98年时候做成的
那个时候c++基本上是统治地位，java基本上还在搞applet
后来再改，就不太可能了
实际上g家一开始c++，后来大面积使用python
java进入g那是更后面的事了
g这种情况很有代表性，就是对于旧的，c++写成的老系统
说要整个换成其它语言，是不对滴，最典型的是db
绝大部分成熟的db，其实都是c写的
但是到了nosql时代，cassandra和hbase就开始冒头
明显压着mongodb在揍，时代不同了，有了新东西
就会有新选择

d*******r
发帖数: 3299

来自主题: Programming版 - 大牛们讨论一下异步编程吧

我还在琢磨搞个什么idea，二爷已经搞出来，惭愧了...
前一个星期都在乱看些 noSQL database, 把流行的noSQL database的都看了一下.
Redis (C) 很流行的样子，好像多用在内存里面做缓存, 不算专门的Database.
CouchDB (Erlang), 据说迁移和 Peer Backup/Synchronization 功能非常好. 看了下
他们公司的产品感觉很多很晕，新合并了公司，现在有个CouchBase貌似包括了CouchDB
的功能.
还看到一些游戏公司(e.g. Rovio) 在用 Riak (也是Erlang写的，multiple data
center deployment 要按node收钱).
http://vimeo.com/65582437
看到最后，貌似这2个组合用的人最多最流行?
Node.js + MongoDB(C++) for quick prototyping
Java/Scala + Cassandra(Java) for serious players
Cassandra 很多大公司用，看着很靠谱的样... 阅读全帖

p*****2
发帖数: 21240

来自主题: Programming版 - 大牛们讨论一下异步编程吧

CouchDB
我用node, mongo, redis。redis也可以认为是一种简单的数据库，因为数据是
persistent的。
cassandra我昨天还再看，感觉争论挺大的呀，说FB自己都不用了。不过我感觉我们很
多存在mongo里的东西应该往cassandra上放。这个我还准备有时间好好研究一下。

g*****g
发帖数: 34805

来自主题: Programming版 - 大牛们讨论一下异步编程吧

别的不懂，谈谈Cassandra哈。Cassandra的主要弱点是ad-hoc query支持不好，当然没
有transaction有时候也是个问题。优点就是读写很快，特别是写的性能极佳。特别适
合高并发，
用户之间比较独立，没有太多关系数据的场合。

CouchDB

p*****2
发帖数: 21240

来自主题: Programming版 - 大牛们讨论一下异步编程吧

我感觉cassandra非常适合写log，我们现在往mongo里边丢，觉得有问题，应该上
cassandra,大牛怎么看？

d*******r
发帖数: 3299

来自主题: Programming版 - 大牛们讨论一下异步编程吧

看到 goodbug 他们 Netflix 就在用 Cassandra
貌似下面这个summary很靠谱?
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

g*****g
发帖数: 34805

来自主题: Programming版 - 其实开源（OpenSource) 不便宜！

俺这么多年下来用struts, spring, hibernate, jersey, cassandra, mysql, netty,
apache httpclient, zookeeper, maven, 还有其他无数小的开源类库，还没买过维护
。在上一个公司我们从
Oracle转到mysql+cassandra，光License fee一年就省一百多万，光DBA就能养10个。
最搞笑的说开源不行的全是不用开源的。用开源类库的确是需要能力，没能力评估各种
选择，
没能力解决出现的问题的。确实不合适。微软那一坨就适合无脑码农。反正微软有啥你
就用啥，
没有的就直接躲着走就对了。所以到今天微软在internet上就没什么牛逼的服务，连收
购的那么牛逼的Hotmail都逼到改名的份上。

.

w**z
发帖数: 8232

来自主题: Programming版 - Performance Comparison Between Node.js and Java EE

The number is bogus. I can give you real number in our production.
Tomcat + Cassandra
250 request/second, average response time: 6ms, 99th percentile response
time: 30ms, we don't do any cache at tomcat layer, every request goes to
Cassandra.

c******o
发帖数: 1277

来自主题: Programming版 - 你们有没有一种感觉，其实big data

我挺喜欢这个个家伙的这个blog
我觉得基本上都还中肯
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
我只对mongodb, redis, Cassandra熟，觉得他写的不错。

T********i
发帖数: 2416

来自主题: Programming版 - 好虫，看看你的东东有没有问题？

说了这么多你还是没抓住重点。
我的系统也是NoSQL。Cassandra那点玩意儿做一个比他快1-2个数量级的也没问题。
我说的是一个不能分布的应用。只比单机性能。
现实中有很多这样的例子，春运算一个，股票和金融交易算一个，还有很多。将来甚至
淘宝之类的很多商品也有可能有这样的特性。
换句话说，分布到最小的granularity也就这样了。这种情况下衡量性能就是一个Gb/s。
再换句话说，你那些东西我的系统都能做，scalability和availability。你用那个
Cassandra做个NASDAQ交易系统给我看看？

所谓
他的

z****e
发帖数: 54598

来自主题: Programming版 - node不负众望，完胜Java

jboss还提供了aop，aop要换成aspect j或者spring aop也没啥难度
不过要集成，每次搞集成，都是折腾半天，文档，资料，各种不完整
烦都烦死了，直接上jboss，至少web server,di和aop的集成我不要处理
然后用aop生成log扔到cassandra里面去，时间过了一天，再从cassandra转移到hbase
里面去
基本上是照抄内森的那一套
现在几个问题，一个是怎么把jboss跟hadoop做集成，因为两个各自都有自己的线程管理
yarn还是ejb container，我也不知道，不过目前hbase利用率也不高
先jboss了
还有一个是怎么保证stream连接反馈得比较有效率
storm处理了之后，几乎是单向的，latency还是太高，我还不如直接写一个beans
然后保证输入和输出，不用storm也没啥，主要是以前被storm说可以做网游给忽悠了一把
现在在想这么做是否有必要
最后一个就是ios了，唯一我用java还处理不了的部分，其他都还好
没什么，很多东西贪图便宜，一集成就是个大麻烦，一般公司有钱雇人，俺们这种自己搞
出不起太多的钱，给点美工做... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 本着负责的态度最后说几句

我这么说的意思，就是吹牛皮不上税。魏老师可是拍胸膛写个DB能秒了Cassandra，
我刚才去看了Cassandra刚拿到45M的fund，市值怎么也有个5亿的样子。
魏老师1万行的东西就秒了人家，你信吗？

p*****2
发帖数: 21240

来自主题: Programming版 - 请大牛来谈谈对Solr的看法

有cassandra到ES的river吗？cassandra大并发起来ES的表现如何呀？

g*****g
发帖数: 34805

来自主题: Programming版 - 请大牛来谈谈对Solr的看法

好像还没有官方的支持，我们就是写个应用去cassandra pull data放进ES。
datastax有cassandra+solr的企业版。solr的问题是有schema。

g*****g
发帖数: 34805

来自主题: Programming版 - 我老说说魏老师为啥扯谈吧

再说我为啥把魏老师逼到这角落里。这个系统，throughput最高的地方，在于订单。
魏老师的方案就是单机+standby+拼命优化，我的方案就是简单的Cassandra cluster
based MQ。
对于这么一个系统，受到冲击的时候，每秒10万次写是必须达到的，每秒100万次写都
有可能在短时间内达到。这用一个像Cassandra的distributed DB是可以做到的，而用
单机，IBM最大的机器拿过来有可能能行，这也就是我一开始就说你买一太服务器的钱
，够我这系统EC2上跑10年。但魏老师非装逼要用1万刀的commodity hardware。被打脸
是自找的。

g*****g
发帖数: 34805

来自主题: Programming版 - 春运这个东西，用Storm就可以轻松搞定了

不是Cassandra后台慢慢处理，是应用后台慢慢处理，读Cassandra，写RDBMS。
银行能处理多快，就多快回复。快的话几秒钟，慢的话几个小时。又不是我的系统决定
的。

g*****g
发帖数: 34805

来自主题: Programming版 - 古德巴大牛，请看这个设计题

用时间是不行的，会冲突。我能想到的是time based UUID。源码这里有。但是连续就
比较够呛。
https://svn.apache.org/repos/asf/cassandra/trunk/src/java/org/apache/
cassandra/utils/UUIDGen.java

x****d
发帖数: 1766

来自主题: Programming版 - 古德巴大牛，请看这个设计题

cassandra 和其他nosql 的auto increment怎么解决的？cassandra好象有个counter的
东西，那个是干啥的？

g*****g
发帖数: 34805

来自主题: Programming版 - 古德巴大牛，请看这个设计题

Cassandra一般用UUID，ID即使连续，也不是存一块的，没有意义。Cassandra有个
distributed counter，挺复杂，你可以看看。
http://www.datastax.com/wp-content/uploads/2011/07/cassandra_sf

g*****g
发帖数: 34805

来自主题: Programming版 - 还是别争了，从旁观者角度看，两个方案没准都能工作

mongodb是C/C++写的，Cassandra和HBase是java写的。
项目也有几年了，比如Cassandra 0.8起production ready，现在都2.0了。

g*****g
发帖数: 34805

来自主题: Programming版 - 从工程角度再比较一下春运火车票的2个方案

这不是又来给魏老师洗地。退一万步，我老那个设计，出票不分库了，你该上啥机器上
啥机器，反正总量亿级别，又是后台处理，没啥不行的。我分库的主要目的是减少处理
延迟。再慢一亿张票当天也处理了。
说到传统数据库分库，Oracle之类的都有很好支持，难度在于找个好的划分，实现是基
本对应用透明的，没有难度。如果分库性能比不分还差，就没人去分库了。在完美分库
的情况下，在大部分交易不跨库的情况下，性能都远高于不分。你也不想想Oracle折腾
这个feature干啥，你这个完全是无稽之谈。
再说责任，我Cassandra的订单系统，是一周可以Prototype一个，立马上量测试验证是
否可行的。NoSQL归NoSQL，好歹是无数前人用过的。魏老师是自己写了一个这样的
NoSQL系统，又log又rollback的。你凭啥相信他能比Cassandra写得好？failover,
fault tolerant, 都是很复杂的东西，10%的要求就能搞掉你90%的时间。
风险在哪里？魏老师大部分时间，都要花在这个NoSQL轮子上，没时间写商业逻辑。而
且不写好，没法上量测试。能不能行全靠他一张嘴。你要是一个好... 阅读全帖

T********i
发帖数: 2416

来自主题: Programming版 - 说说魏老师犯的几个常识性错误。

你这么多天还一直洋洋自得你的10万每秒呢。288台机器100万勉强就不得了了。
这个是单机500万请求每秒。你的方案要先queue住这些请求。处理速度基本上和单线程
区别不大。
我还没问你你要用cassandra怎么queue住呢？众所周知queue是要有排序的。
cassandra这方面短板基本无药可医。
你能用cache我为啥不能用。
我可以multicast票务状态实时给无穷台服务器，还可以跨dc。让这些台服务器去分流
压力好了。真正有票才给主服务器试一下。
要不要再搞几台queue服务器继续分流？我说了1-2万一台。从来没说过多少台。
我看搞20台，够服务全世界了。

g*****g
发帖数: 34805

来自主题: Programming版 - 目前为止，魏老师承认了

我觉得Cassandra也用了，你觉得呢？
发信人: TeacherWei (TW), 信区: Programming
标题: Re: 请教一下魏老师的failover方案
发信站: BBS 未名空间站 (Wed Nov 27 00:50:50 2013, 美东)
web server继续放在cloud里面。我还是很爱cloud的。
包括交易记录。goodbug好好学习基础知识。可以让他用cassandra管。

g*****g
发帖数: 34805

来自主题: Programming版 - 魏老师在挑战CAP theorum.

再看我的设计在这种情况下如何，这是我们跑在产品环境里的设计。
同样三DC，独立供电，独立网络，专线连接(EC2上叫做同一region3个zone)
web和Cassandra是同样在DC里平分的，没有主次之分，这样既不浪费，没有standby，
又达到高throughput。
zone1和zone2,3断开的时候。从zone1 web发出的订单，因为不能达到quorum写(同步写
两zone的cassandra，都ack为成功)，提交会立刻失败，错误返回到用户。当用户重新
提交的时候，有2/3的概率能提交到zone2/3而成功。
这时候zone1着火，玩完，连web也没了。所有流量被导向zone2,zone3，因为符合
quorum写，所有订单成功。

z****e
发帖数: 54598

来自主题: Programming版 - 应该给魏大师发10个图灵奖。

老魏啊
cap里面，ap系统就是cassandra
如果你要cp，可以选hbase，还有就算不喜欢hbase
你也可以tune cassandra以达到cp的作用
所以你说c不能保证，其实是错误的
但是要保证c需要时间，performance自然就差了
所以怎么搞，这里面有不少理论，你有兴趣可以去看看

100
big

z****e
发帖数: 54598

来自主题: Programming版 - AWS cloud 内部做log，大家怎么设计

hbase比cassandra还难搞
db用来做log就over kill了
如果你想找类似c*的，用couchdb
这个容易搞，支持python做查询
跟mongodb比较怎么说
couchdb vs mongodb
就像
cassandra vs hbase

n****1
发帖数: 1136

来自主题: Programming版 - 是否值得把业务逻辑做到Hbase coprocessor里面?

俺一直觉得logic layer与persistence layer之间严格分开的做法, 甚至放在不同的进
程里面, 这样overhead太大. 所以一直对PL/SQL procedure programming很有兴趣, 可
惜这样做会被Oracle vendor locking.
俺个人对MapReduce的理解就是分布式的PL/SQL procedure, mapper/reducer是把业务
逻辑植入到persistence layer里面以提高性能. 这也应该是Cassandra和Hbase之间的
主要区别. Cassandra基本就是个key-value storage with random partition, 而
Hbase则与mapreduce概念结合更密切, 甚至提供coprocessor用来实现传统数据库中的
trigger等功能. Coprocessor应该就是个long standing mapper/reducer吧.
大家觉得这种架构可行吗?

c*****a
发帖数: 1638

来自主题: Programming版 - 从12306来看，国内IT水平不高

我还真不信所谓资金管够的情况下这个会做不出来。估摸着就是没人敢接免得得罪那个
搞这个网站的太子党。
LZ说的也不太对，这个本身和大数据啥关系没有（别说4千万用户了，就算再加10倍，
也算不了啥大数据的问题）。不过用nosql可以提高并发读的扩展性。事实上铁路数据
本身很小，直接cache就完了，available的ticket部分存到cassandra里面（cassandra
在写并发啥是不是号称最好的nosql？）
关键是，查询部分是只读的情况，只有reserve票的时候涉及事务。模式和机票类似，
走eventually consistent就行了。
耦合是关键，很明显他们的系统是没法扩展的，给铁道部洗地的文章里面也说到只能做
到说scale up（提升节点硬件和软件）而不是scale out（增加节点）。所以就是说他
们那个破框架设计本身到20个节点自己不行了
这种情况下，只能重做
他这个东西和淘宝还是不能比的，他的业务其实简单多了，后台数据的查询路径基本是
固定的，比起来淘宝那个网站要实现的用户需求比他这个难很多个数量级。
确实来说，国内IT水平其实挺高的都在几个大公司里面，断档... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 说说12306需要多少台机器

只说前端，从下订单到存订单这部分，后端出票部分数据量低几个数量级，而且可以离
线处理，现在就能顶住，不进一步讨论。从前面有文章提到一分钟40M来看，需要能撑
住每秒1M的订单。
用Cassandra, 底下这个测试用EC2 m1.x1，大约300个节点撑住了每秒1M/秒的写，当然
实际是3备份，3M/秒。
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scal
这不是ec2上最好的机器，但反正是io bound. 这个测试大约每小时280美刀，包括了
stress client的费用，去掉test client, 大约每小时$220 / 288台机器。
前端界面假定需要10次交互才能下订单，1M订单就是10M次，经验而言没状态的web app
server每秒可以撑住10K/次，所以需要1000台，同样的跑business logic的app
server也需要1000台。另外需要几百台web server放图片，css, js这些静态文件。需
要监控的cluster, 需要load balancer，需要一些ca... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 说说12306需要多少台机器

如果你知道cassandra的机制，就不会提出这个疑问了。Cassandra的R/W都是linear
scale out的，纯粹的堆机器。

n****1
发帖数: 1136

来自主题: Programming版 - 说说12306需要多少台机器

自己搭cassandra和直接用amazon dynamo哪个好? IO bound的话t1.micro都能做
cassandra吧, 而且还是浪费了cpu.
dynamo好像自动用ssd的

g*****g
发帖数: 34805

来自主题: Programming版 - 排队法是解决不了问题的

你写多个库也不是不行，没有我用cassandra简单，全局排序加上多DC failover。
我用cassandra，流量大了起个节点就完了。你那要改一堆配置，老费劲了。

d*******r
发帖数: 3299

来自主题: Programming版 - c++的两大威胁

那个玩 Cassandra 的老美确实很机灵，自己在一个老派的大公司写 C++, 然后因为和
我们CTO是朋友，就跑到我们这里来做 part time. 大公司闲，他就拿着1.5份钱, 天
天玩把 Cassandra, Kafka, Hadoop, Kinesis 这些东西。他基本把这些玩了个遍之后
，几个月过去了，他那个 real time user data analysis 的 project 才开始写。
我是才来公司不到2个月，老大想让我顶替他了。然后他就说那些技术都不适合这项目
，他要用 Python 裸写，裸写支持大并发的 message queue, JSON-based database
啥的。要用他说这种 light-weighted 的方法，实现 real time 地从 50,000,000 多
视频直播用户那里收集，分析数据。我听完晕菜了, 不知道他这个工程到底进展如何
了。现在老大又叫我暂时不要接手了，搞得我有点郁闷。

m*******t
发帖数: 1060

来自主题: Programming版 - 今天第一次在windows上倒腾vert.x

要不然是坏境问题，要不然是。。。。深表同情。对了，刚刚试了一下vert,x, 先在
linux上，然后在windows上，都没有你说的问题。呵呵。
Update: There IS a problem when running vert.x java code. Sounds like
whenever launching /windows/system32/java.exe, this app tries to read the
jre settings
configured through "Java Configuration Applet"(under control pannel). From
there, it knows which java is active. However, I failed to use this applet
to configure java to use JDK instead of jre.
On linux, /usr/bin/java is a symbolic link to the actual jre/jdk, so it ... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

S3存文件是个标准的解决方案。又简单又保证high availability，
如果你有meta data可以EC2上起个cluseter跑cassandra (simpleDB也行)，文件小的话
直接扔cassandra
里即可。
我说的这个方案是可以无限扩展，无论文件多少，用户多少，都可以保证速度的方法。
我们本身就这么管理一些文件。dropbox 也是用的S3。
楼上有几位啥都不懂的，动不动又要造轮子了。先想想把availability做到S3 99.99%
那么容易吗？

c*****a
发帖数: 1638

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

除非他有处理这些文件内容的需求，否则end up在hdfs是很奇怪的事情。
hdfs当年设计出来就不是做他主贴里面这种事情的，HDFS的多数特性都是为了一个分部
计算系统做支持的file system提供的，单独作为file system挺弱。
LZ还是比较一下别的file system，你这种需求用hdfs+cassandra是很奇怪的。
S3对于LZ的需求可能会比较省事，但是会受制于带宽而且可能有思维上面的限制（很多
公司不愿意把文件放在外面）。除非他们已经开始用aws了，否则很难想象他们会为这
么个项目用aws。
LZ还是看看别的吧，虽然不很确定什么是最好的，但是HDFS和cassandra应该不适合你
这种情况，TCO会很高（除非你预见将来会有处理大数据文件的需求）。

g*****g
发帖数: 34805

来自主题: Programming版 - 那个 distributed file sysyem 适合我的需求

Cassandra便宜呀，当然坏处就是得自己管。
http://www.datastax.com/2012/05/cassandra-vs-dynamodb-tco

T********i
发帖数: 2416

来自主题: Programming版 - 说的再清楚一点: 抢票机性能只和中途停靠总站数相关

我真难以想象goodbug这个人基本功如此差劲。
丫明显不懂interlock.decrement怎么用。昨天我已经给丫指出来了，丫迄今都不肯牵
狗。
其实Cassandra要是也能实现这个原语primitive，我就不一定和丫赌了。
第一，Cassandra迄今没有这类操作
第二，即使有这类操作，一个变量也不可能达到5M/s。

g*****g
发帖数: 34805

来自主题: Programming版 - 古德霸放个带细节设计的方案吧

没有啥长时间一说，就是几分钟。
后台我当然是做并发得，只不过是单关系数据库，用transaction来保证acid。把单子
按车次排序分队列，这个前端写单子存入得时候就做好了。后端得处理服务器是一个集
群，每次可以从cassandra批量读。另外每隔一秒从数据库里拿出个所有余票的
snapshot，cache到
各个处理服务器上。处理先跟这个cache比较，确认各段都有票，再发到数据库交易。
所以处理是并发得，如果没票的话，不用写入关系数据库，写回cassandra确认订单失
败。
尽管订单很多，峰值达到百万／秒，可用的票很少，根据新闻每天千万人次，一半
12306出，每天不过500万张。这500万张，在一台大机器上，oracle数据库，5k－10k/
秒的速度是一个常规的估计。按5k算的话，也不过1000秒，17分钟。12306其实每天是
分多个时段分票的，结果就是延迟更少，如果每天放票8次，那就是2分钟。这是数据库
的延迟。无效订单有延迟，每次处理无非是查内存里一个数组是否有0，有0就可以放弃
，单操作毫秒级的处理。。而且是多核集群并行处理，完全scale out, 订单很多可以
... 阅读全帖

b*******g
发帖数: 603

来自主题: Programming版 - 拿C*当message queue用，不知道哪里面试能通过

cassandra写快读慢，但MQ都是批量读，完全没有性能问题。
一个简单的time-based UUID做key, 一个index CF就搞定了。
唯一要注意的是tombstone, 删除要批量删，否则对性能有影响。
太监根本就没用过Cassandra.

b*******g
发帖数: 603

来自主题: Programming版 - 拿C*当message queue用，不知道哪里面试能通过

Cassandra is not an MQ, Cassandra is only a storage backing the MQ.
You can read one record at a time 100K times or you can read 100K records at
a time and put them in memory. We all know which one is faster.
While the keys are centralized (some sharding is possible too), they are
very small and messages are big. Concurrently retrieving messages from a
cluster is a big advantage as you won't have a hot spot.

n*****t
发帖数: 22014

来自主题: Programming版 - 搞技术的，要有起码的是非观念 by 老魏

寄信人: TeacherWei (TW)
标题: 搞技术的，要有起码的是非观念
发信站: 未名空间 (Sun Feb 9 13:47:45 2014)
来源: 68.
搞技术的，要有起码的是非观念
计算机技术大多数时候是一个binary world，没有较真的精神，也就无乐趣而言。老外
喜欢说 My Pleasure Is My Business。
goodbug那个所谓的分布式分票算法，迄今为止似乎大多数网友都没看出其中的问题。
我被封发贴与此有关，当然我自省其中有我不冷静因素，但是我还要不吐不快。
goodbug定义它的系统是延迟分票系统，不是彩票系统对吧？
延迟分票，只不过是收集用户请求，然后集中分票，然后确认。
彩票系统是，收集用户请求，对于符合条件的用户，如果人多票少。则随机分配。
其中的差别，主要是分票规则，如果人多票少，分给谁？延迟分票，要有先来后到，彩
票系统则不尊重次序。
Cassandra，读写都可以并行，不过有一个条件，就是读写的时候没有数据依赖性。
时间依赖性也是依赖。
问题是，只要goodbug尊重时间，则他那个分布式分票机不论用多少台机器，不可能持... 阅读全帖

T********i
发帖数: 2416

来自主题: Programming版 - goodbug你现在懂message queue了么？

别PA，当心我举报你。
你自己的帖子啊：
cassandra写快读慢，但MQ都是批量读，完全没有性能问题。
一个简单的time-based UUID做key, 一个index CF就搞定了。
唯一要注意的是tombstone, 删除要批量删，否则对性能有影响。
太监根本就没用过Cassandra.

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天