那个 distributed file sysyem 适合我的需求 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 那个 distributed file sysyem 适合我的需求

相关主题
● 举几个java换成C++的例子	● 学scala和spark需要什么pre req?
● 试了下spark，不过如此啊	● 以后真的是cassandra spark的天下了？
● coltzhao的公司还在用mongo吗？	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
● MapReduce 的思想是怎么发明的？	● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比
● Spark 和 Dynamodb 之间如何连接	● 请教一个 F的message设计问题，不能理解
● 解密hadoop文件系统数据存储方式	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 怎么自学cloud/big data programming	● Spark + C*
● AWS cloud 内部做log，大家怎么设计	● 问二爷一个题外话

相关话题的讨论汇总
话题: hdfs话题: 文件话题: file话题: 需求

进入Programming版参与讨论

(共1页)

c*****e
发帖数: 3226

1） the file system will be distributed across 3 台机器
2）文件系统将被 apache farms mount to local file system 用于 serves
static files and 文件上传
3）任何一台机器突然断电不要丢失数据。
4）这个系统最好安装简单，小巧。
hdfs? owfs? Ceph? shrift?

c*****e
发帖数: 3226

nnd, 发觉版上尽是些南郭先生，看似牛逼的architecture夸夸其谈和吵架，真问个具
体的技术问题，屁都没一个。

【在 c*****e 的大作中提到】

: 1） the file system will be distributed across 3 台机器
: 2）文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3）任何一台机器突然断电不要丢失数据。
: 4）这个系统最好安装简单，小巧。
: hdfs? owfs? Ceph? shrift?

f******2
发帖数: 2455

你这个需求HDFS与Ceph都行，如果文件都是小文件建议用Ceph，但是Ceph的缺点是
系统比HDFS复杂很多。

【在 c*****e 的大作中提到】

f******2
发帖数: 2455

这个版上的很多都是语言类科普读物阅读(例如master Java in 21 days)
后出来切磋的,其实没有什么不好，因为更多的人是科普读物都没有读完，
看看版上的讨论，省21天时间也很好。
不喜欢就不要来好了。

【在 c*****e 的大作中提到】

: nnd, 发觉版上尽是些南郭先生，看似牛逼的architecture夸夸其谈和吵架，真问个具
: 体的技术问题，屁都没一个。

z****e
发帖数: 54598

现在开源的distributed file system弄来弄去就那么几个
甚至主流的就那一个
有什么选择可以做的？
你完全可以无脑上
就跟你问web server如果在jvm上用tomcat还是用resin好一样
没有什么意义，这种问题连回答的必要都没有

【在 c*****e 的大作中提到】

: nnd, 发觉版上尽是些南郭先生，看似牛逼的architecture夸夸其谈和吵架，真问个具
: 体的技术问题，屁都没一个。

c*****e
发帖数: 3226

那只能说明你半瓶水在那里晃，根本没实际的实用经验。就像你回答买车：车都差不多
，随便买一部就可以，这种问题连回答的必要都没有。
给你看看真的专业水平：
http://architects.dzone.com/articles/overview-and-recommendatio

【在 z****e 的大作中提到】

: 现在开源的distributed file system弄来弄去就那么几个
: 甚至主流的就那一个
: 有什么选择可以做的？
: 你完全可以无脑上
: 就跟你问web server如果在jvm上用tomcat还是用resin好一样
: 没有什么意义，这种问题连回答的必要都没有

c***d
发帖数: 996

你这个需求，整分布式文件系统太麻烦了。

【在 c*****e 的大作中提到】

g*****g
发帖数: 34805

像你这样的需求，很多带read replica的DB就可以完成。

【在 c*****e 的大作中提到】

c*****e
发帖数: 3226

uploaded 的文件有好百兆， db 不可能

【在 g*****g 的大作中提到】

: 像你这样的需求，很多带read replica的DB就可以完成。

z****e
发帖数: 54598

又装逼
FILE SYSTEM都倒腾半天，干活要到什么时候去
毫无必要
你有兴趣自己搞就行了
没有必要拿出来显摆
当然有啥经验分享还是欢迎的
顺便，车的确都差不多，我开车是无所谓的
有车我就开

【在 c*****e 的大作中提到】

: uploaded 的文件有好百兆， db 不可能

相关主题
● 解密hadoop文件系统数据存储方式	● 学scala和spark需要什么pre req?
● 怎么自学cloud/big data programming	● 以后真的是cassandra spark的天下了？
● AWS cloud 内部做log，大家怎么设计	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
进入Programming版参与讨论

z****e
发帖数: 54598

抓大放小
很多脚本在我看来也是一回事
ruby==python==groovy==javascript
要不你来议一议这几个的区别

【在 c*****e 的大作中提到】

: uploaded 的文件有好百兆， db 不可能

c***d
发帖数: 996

自己写个sync, 或者用s3, 连edge都有了.

【在 c*****e 的大作中提到】

: uploaded 的文件有好百兆， db 不可能

c*****e
发帖数: 3226

有些道理， rsync 也能凑合用，但是没法做到 single node down 不影响系统的使用。
另外分布式文件系统API也可以用于 self implemented services.

【在 c***d 的大作中提到】

: 你这个需求，整分布式文件系统太麻烦了。

c***d
发帖数: 996

没看懂。你同时读两下，哪个先回来就用哪个。 node down不down有什么关系。
不知道分布式文件系统有什么特别的api对你特别有意义。

用。

【在 c*****e 的大作中提到】

: 有些道理， rsync 也能凑合用，但是没法做到 single node down 不影响系统的使用。
: 另外分布式文件系统API也可以用于 self implemented services.

z****e
发帖数: 54598

所以说
cassandra就可以了

【在 c***d 的大作中提到】

: 没看懂。你同时读两下，哪个先回来就用哪个。 node down不down有什么关系。
: 不知道分布式文件系统有什么特别的api对你特别有意义。
:
: 用。

c*****e
发帖数: 3226

apache 有这样的功能：可以同时读两下，哪个先回来就用哪个？除非自己改吧。

【在 c***d 的大作中提到】

: 没看懂。你同时读两下，哪个先回来就用哪个。 node down不down有什么关系。
: 不知道分布式文件系统有什么特别的api对你特别有意义。
:
: 用。

c***d
发帖数: 996

你upload和读都有自己的code吧。不过自己搞这些没必要，推上edge server算了。

【在 c*****e 的大作中提到】

: apache 有这样的功能：可以同时读两下，哪个先回来就用哪个？除非自己改吧。

b*******s
发帖数: 5216

别人要文件系统，你给上个数据库...
这样吧，我要scp东西上去，你给用数据库实现一下？楼主其实有一点说得对，这里有
几杆火铳遇到具体问题就抓瞎

【在 g*****g 的大作中提到】

: 像你这样的需求，很多带read replica的DB就可以完成。

z****e
发帖数: 54598

如果我告诉你vert.x可以轻松搞定scp呢？

【在 b*******s 的大作中提到】

: 别人要文件系统，你给上个数据库...
: 这样吧，我要scp东西上去，你给用数据库实现一下？楼主其实有一点说得对，这里有
: 几杆火铳遇到具体问题就抓瞎

g*****g
发帖数: 34805

如果文件大的话，DB管理metadata，文件可以扔s3上。

【在 c*****e 的大作中提到】

: uploaded 的文件有好百兆， db 不可能

相关主题
● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比	● Spark + C*
● 请教一个 F的message设计问题，不能理解	● 问二爷一个题外话
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● Time series big data大家觉得怎么存储比较好？
进入Programming版参与讨论

z****e
发帖数: 54598

然，再用vert.x管理一下具体的网络传输协议
搞定
SOA都做好了

【在 g*****g 的大作中提到】

: 如果文件大的话，DB管理metadata，文件可以扔s3上。

g*****g
发帖数: 34805

这种应用层的实现毫无压力，现成的就有，所谓数据库也不过是存metadata，Blob还是
另存文件罢了。

【在 b*******s 的大作中提到】

g*****g
发帖数: 34805

S3存文件是个标准的解决方案。又简单又保证high availability，
如果你有meta data可以EC2上起个cluseter跑cassandra (simpleDB也行)，文件小的话
直接扔cassandra
里即可。
我说的这个方案是可以无限扩展，无论文件多少，用户多少，都可以保证速度的方法。
我们本身就这么管理一些文件。dropbox 也是用的S3。
楼上有几位啥都不懂的，动不动又要造轮子了。先想想把availability做到S3 99.99%
那么容易吗？

z****e
发帖数: 54598

我怀疑她压根不知道scp是怎么回事
只是想来显摆一下的
哈哈
她以为这种问题无法用lib解决
只能自己瞎写
这是mod for vert.x
http://github.com/crashub/mod-shell
这是lib for java
http://www.jcraft.com/jsch/
随便搞，有的是办法
这是q&a
http://stackoverflow.com/questions/199624/scp-via-java

g*****g
发帖数: 34805

我老N年前就用jsch写过cloud上的concurrent logging search应用，拿scp来吓人实在
太外行了。你说问tcp能实现吗也罢了。

【在 z****e 的大作中提到】

: 我怀疑她压根不知道scp是怎么回事
: 只是想来显摆一下的
: 哈哈
: 她以为这种问题无法用lib解决
: 只能自己瞎写
: 这是mod for vert.x
: http://github.com/crashub/mod-shell
: 这是lib for java
: http://www.jcraft.com/jsch/
: 随便搞，有的是办法

c*****e
发帖数: 3226

AmazonS3？我的系统是内部的。

【在 g*****g 的大作中提到】

: 如果文件大的话，DB管理metadata，文件可以扔s3上。

g*****g
发帖数: 34805

必须内部那你还是hdfs吧。

【在 c*****e 的大作中提到】

: AmazonS3？我的系统是内部的。

z****e
发帖数: 54598

你信不信你最终会end up到hdfs和hadoop
cassandra来做cache管理这个最最最传统的方法上
所以说，无脑上就没错，讨论这么多不累么？我看着都累啊

【在 c*****e 的大作中提到】

: AmazonS3？我的系统是内部的。

c*****a
发帖数: 1638

除非他有处理这些文件内容的需求，否则end up在hdfs是很奇怪的事情。
hdfs当年设计出来就不是做他主贴里面这种事情的，HDFS的多数特性都是为了一个分部
计算系统做支持的file system提供的，单独作为file system挺弱。
LZ还是比较一下别的file system，你这种需求用hdfs+cassandra是很奇怪的。
S3对于LZ的需求可能会比较省事，但是会受制于带宽而且可能有思维上面的限制（很多
公司不愿意把文件放在外面）。除非他们已经开始用aws了，否则很难想象他们会为这
么个项目用aws。
LZ还是看看别的吧，虽然不很确定什么是最好的，但是HDFS和cassandra应该不适合你
这种情况，TCO会很高（除非你预见将来会有处理大数据文件的需求）。

【在 z****e 的大作中提到】

: 你信不信你最终会end up到hdfs和hadoop
: cassandra来做cache管理这个最最最传统的方法上
: 所以说，无脑上就没错，讨论这么多不累么？我看着都累啊

g*****g
发帖数: 34805

如果他们这些文件是给外部客户用的，用S3很合适。不用EC2但用了S3的应用也很常见。
如果只是内部用的，那才会有带宽限制这个问题。不过另一方面内部应用，通常也不用
考虑high availability。

【在 c*****a 的大作中提到】

: 除非他有处理这些文件内容的需求，否则end up在hdfs是很奇怪的事情。
: hdfs当年设计出来就不是做他主贴里面这种事情的，HDFS的多数特性都是为了一个分部
: 计算系统做支持的file system提供的，单独作为file system挺弱。
: LZ还是比较一下别的file system，你这种需求用hdfs+cassandra是很奇怪的。
: S3对于LZ的需求可能会比较省事，但是会受制于带宽而且可能有思维上面的限制（很多
: 公司不愿意把文件放在外面）。除非他们已经开始用aws了，否则很难想象他们会为这
: 么个项目用aws。
: LZ还是看看别的吧，虽然不很确定什么是最好的，但是HDFS和cassandra应该不适合你
: 这种情况，TCO会很高（除非你预见将来会有处理大数据文件的需求）。

相关主题
● 我老说说魏老师为啥扯谈吧	● 试了下spark，不过如此啊
● 说说12306需要多少台机器	● coltzhao的公司还在用mongo吗？
● 举几个java换成C++的例子	● MapReduce 的思想是怎么发明的？
进入Programming版参与讨论

z****e
发帖数: 54598

我觉得HDFS是一种GENERAL PURPOSE的系统
如果不是有什么很特殊的要求，就无脑上
我是这么搞的

【在 c*****a 的大作中提到】

w***g
发帖数: 5958

你要的不是distributed filesystem，而是三个镜像。rsync就可以。

【在 c*****e 的大作中提到】

N*n
发帖数: 456

Linux 上可以选veritas或者GFS。 veritas 貌似要收钱，GFS不是很好用。

【在 c*****e 的大作中提到】

N*n
发帖数: 456

搜了一下
Ceph 似乎是比 GFS 更新一些的系统。。 HDFS 就是Hadoop FS.. 其它两个都
没找到。
我的经验，这些cluster FS还真是有差别的。。设置，维护的难易程度挺不一样的。
文件数量大到一定程度以后是否撑得住。。平时运行好好的，加个security patch
重启一下回不来了或者在 fsck..从这个角度，云确实对开发者看起来是好事。。省
很多这些零碎问题。。

【在 N*n 的大作中提到】

: Linux 上可以选veritas或者GFS。 veritas 貌似要收钱，GFS不是很好用。

c*****a
发帖数: 1638

HDFS只能作为一个分布式处理系统的支撑，作为一个独立的文件系统来说，功能太弱了
。从长远来说，如果只是作为文件存储的解决方案，我个人觉得对未来功能扩展能提供
的可能性太低。

【在 z****e 的大作中提到】

: 我觉得HDFS是一种GENERAL PURPOSE的系统
: 如果不是有什么很特殊的要求，就无脑上
: 我是这么搞的

z****e
发帖数: 54598

我觉得文件系统-弱，是应该的
不弱那是不正常的，如果对哪些部分有其他需求
比如要求查找快，io快之类的
再通过某一个方面的强化产品来处理
而不是把所有的需求一股脑儿地丢给所谓的文件需求去处理
这样做的后果就象以前的数据库，啥都有，但是很难搞
成本也高，我对文件系统就几个要求，能存文件，别丢了，做好备份
没了，如果慢的话，我再想办法，做点cache什么的去处理
c*和hadoop是互补的两个处理系统，然后nosql和db本身也是互补的
所以你完全可以通过各种组合来实现你要的目的
而不用捆绑在一个所谓的产品上，我个人不喜欢又大又全的东西
喜欢先满足基本需求，然后挨个功能点做突破

【在 c*****a 的大作中提到】

: HDFS只能作为一个分布式处理系统的支撑，作为一个独立的文件系统来说，功能太弱了
: 。从长远来说，如果只是作为文件存储的解决方案，我个人觉得对未来功能扩展能提供
: 的可能性太低。

D*******a
发帖数: 3688

试过glusterfs吗？
hdfs好像没有人直接用来serve static files的，而且也不是很好集成吧（至少需要写
点code）

【在 c*****e 的大作中提到】

w***g
发帖数: 5958

glusterfs是个垃圾。idea不错，就是implement一直有问题，不适合用来存数据。
上了这个之后有你受的。我记得它读目录是去每个节点读一下，然后把结果合并，连数
据丢了都不会报错的。

【在 D*******a 的大作中提到】

: 试过glusterfs吗？
: hdfs好像没有人直接用来serve static files的，而且也不是很好集成吧（至少需要写
: 点code）

w***g
发帖数: 5958

非要上文件系统的话可以用MapR。这个是用来drop in替代HDFS的，而且设计非常科学
，存大文件小文件都没有问题。性能上可以秒杀HDFS。我在地下室就搞了个8个节点的
MapR机群用来存数据(自己做民科实验，用不起amazon)。Ceph我看过一两眼。这东西出
发点是并行计算而不是文件系统，存临时数据还可以，用来做主存储服务还是算了。

【在 c*****e 的大作中提到】

q*c
发帖数: 9453

现在用的都是 dynamDB...

【在 g*****g 的大作中提到】

: S3存文件是个标准的解决方案。又简单又保证high availability，
: 如果你有meta data可以EC2上起个cluseter跑cassandra (simpleDB也行)，文件小的话
: 直接扔cassandra
: 里即可。
: 我说的这个方案是可以无限扩展，无论文件多少，用户多少，都可以保证速度的方法。
: 我们本身就这么管理一些文件。dropbox 也是用的S3。
: 楼上有几位啥都不懂的，动不动又要造轮子了。先想想把availability做到S3 99.99%
: 那么容易吗？

相关主题
● MapReduce 的思想是怎么发明的？	● 怎么自学cloud/big data programming
● Spark 和 Dynamodb 之间如何连接	● AWS cloud 内部做log，大家怎么设计
● 解密hadoop文件系统数据存储方式	● 学scala和spark需要什么pre req?
进入Programming版参与讨论

g*****g
发帖数: 34805

Cassandra便宜呀，当然坏处就是得自己管。
http://www.datastax.com/2012/05/cassandra-vs-dynamodb-tco

【在 q*c 的大作中提到】

: 现在用的都是 dynamDB...

h**********0
发帖数: 88

就这要求3个linux装个直接nfs和autofs就可以了

c*****e
发帖数: 3226

我只能说你的那个方案是 a poor man's solution.
第一： autofs 不能mount two nfs into the same local directory. 估计还得写个
script 监控 first nsf mount is down, then mount 2nd nsf onto the same local
mounting point. 可靠性太差
第二：如果在上传文件过程中nfs server is down, 上传的内容没了， client 也没有
续传功能的话，整个操作就失败了。
distributed file system 内部包装解决了这些问题。

【在 h**********0 的大作中提到】

: 就这要求3个linux装个直接nfs和autofs就可以了

(共1页)

进入Programming版参与讨论

相关主题
● 问二爷一个题外话	● Spark 和 Dynamodb 之间如何连接
● Time series big data大家觉得怎么存储比较好？	● 解密hadoop文件系统数据存储方式
● 我老说说魏老师为啥扯谈吧	● 怎么自学cloud/big data programming
● 说说12306需要多少台机器	● AWS cloud 内部做log，大家怎么设计
● 举几个java换成C++的例子	● 学scala和spark需要什么pre req?
● 试了下spark，不过如此啊	● 以后真的是cassandra spark的天下了？
● coltzhao的公司还在用mongo吗？	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
● MapReduce 的思想是怎么发明的？	● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比

相关话题的讨论汇总
话题: hdfs话题: 文件话题: file话题: 需求

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天