由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 那个 distributed file sysyem 适合我的需求
相关主题
举几个java换成C++的例子学scala和spark需要什么pre req?
试了下spark,不过如此啊以后真的是cassandra spark的天下了?
coltzhao的公司还在用mongo吗?关于 SPARK, 问二爷peking2 和其他大牛一问题
MapReduce 的思想是怎么发明的?大牛能不能讨论下cassandra, Hbase, MongoDB的对比
Spark 和 Dynamodb 之间 如何 连接请教一个 F的message设计问题, 不能理解
解密hadoop文件系统数据存储方式感觉flink出来之后,hadoop就显得不怎么再需要了
怎么自学cloud/big data programmingSpark + C*
AWS cloud 内部做log,大家怎么设计问二爷一个题外话
相关话题的讨论汇总
话题: hdfs话题: 文件话题: file话题: 需求
进入Programming版参与讨论
1 (共1页)
c*****e
发帖数: 3226
1
1) the file system will be distributed across 3 台机器
2) 文件系统将被 apache farms mount to local file system 用于 serves
static files and 文件上传
3) 任何一台机器突然 断电不要丢失数据。
4) 这个系统最好安装简单, 小巧。
hdfs? owfs? Ceph? shrift?
c*****e
发帖数: 3226
2
nnd, 发觉版上尽是些南郭先生,看似牛逼的architecture夸夸其谈和吵架,真问个具
体的技术问题,屁都没一个。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

f******2
发帖数: 2455
3
你这个需求HDFS与Ceph都行,如果文件都是小文件建议用Ceph,但是Ceph的缺点是
系统比HDFS复杂很多。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

f******2
发帖数: 2455
4
这个版上的很多都是语言类科普读物阅读(例如master Java in 21 days)
后出来切磋的,其实没有什么不好,因为更多的人是科普读物都没有读完,
看看版上的讨论,省21天时间也很好。
不喜欢就不要来好了。

【在 c*****e 的大作中提到】
: nnd, 发觉版上尽是些南郭先生,看似牛逼的architecture夸夸其谈和吵架,真问个具
: 体的技术问题,屁都没一个。

z****e
发帖数: 54598
5
现在开源的distributed file system弄来弄去就那么几个
甚至主流的就那一个
有什么选择可以做的?
你完全可以无脑上
就跟你问web server如果在jvm上用tomcat还是用resin好一样
没有什么意义,这种问题连回答的必要都没有

【在 c*****e 的大作中提到】
: nnd, 发觉版上尽是些南郭先生,看似牛逼的architecture夸夸其谈和吵架,真问个具
: 体的技术问题,屁都没一个。

c*****e
发帖数: 3226
6

那只能说明你半瓶水在那里晃,根本没实际的实用经验。就像你回答买车:车都差不多
,随便买一部就可以,这种问题连回答的必要都没有。
给你看看真的专业水平:
http://architects.dzone.com/articles/overview-and-recommendatio

【在 z****e 的大作中提到】
: 现在开源的distributed file system弄来弄去就那么几个
: 甚至主流的就那一个
: 有什么选择可以做的?
: 你完全可以无脑上
: 就跟你问web server如果在jvm上用tomcat还是用resin好一样
: 没有什么意义,这种问题连回答的必要都没有

c***d
发帖数: 996
7
你这个需求, 整分布式文件系统太麻烦了。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

g*****g
发帖数: 34805
8
像你这样的需求,很多带read replica的DB就可以完成。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

c*****e
发帖数: 3226
9
uploaded 的文件有好百兆, db 不可能

【在 g*****g 的大作中提到】
: 像你这样的需求,很多带read replica的DB就可以完成。
z****e
发帖数: 54598
10
又装逼
FILE SYSTEM都倒腾半天,干活要到什么时候去
毫无必要
你有兴趣自己搞就行了
没有必要拿出来显摆
当然有啥经验分享还是欢迎的
顺便,车的确都差不多,我开车是无所谓的
有车我就开

【在 c*****e 的大作中提到】
: uploaded 的文件有好百兆, db 不可能
相关主题
解密hadoop文件系统数据存储方式学scala和spark需要什么pre req?
怎么自学cloud/big data programming以后真的是cassandra spark的天下了?
AWS cloud 内部做log,大家怎么设计关于 SPARK, 问二爷peking2 和其他大牛一问题
进入Programming版参与讨论
z****e
发帖数: 54598
11
抓大放小
很多脚本在我看来也是一回事
ruby==python==groovy==javascript
要不你来议一议这几个的区别

【在 c*****e 的大作中提到】
: uploaded 的文件有好百兆, db 不可能
c***d
发帖数: 996
12
自己写个sync, 或者用s3, 连edge都有了.

【在 c*****e 的大作中提到】
: uploaded 的文件有好百兆, db 不可能
c*****e
发帖数: 3226
13
有些道理, rsync 也能凑合用,但是没法做到 single node down 不影响系统的使用。
另外 分布式文件系统API也可以用于 self implemented services.

【在 c***d 的大作中提到】
: 你这个需求, 整分布式文件系统太麻烦了。
c***d
发帖数: 996
14
没看懂。 你同时读两下, 哪个先回来就用哪个。 node down不down有什么关系。
不知道分布式文件系统有什么特别的api对你特别有意义。

用。

【在 c*****e 的大作中提到】
: 有些道理, rsync 也能凑合用,但是没法做到 single node down 不影响系统的使用。
: 另外 分布式文件系统API也可以用于 self implemented services.

z****e
发帖数: 54598
15
所以说
cassandra就可以了

【在 c***d 的大作中提到】
: 没看懂。 你同时读两下, 哪个先回来就用哪个。 node down不down有什么关系。
: 不知道分布式文件系统有什么特别的api对你特别有意义。
:
: 用。

c*****e
发帖数: 3226
16
apache 有这样的功能:可以同时 读两下, 哪个先回来就用哪个? 除非自己改吧。

【在 c***d 的大作中提到】
: 没看懂。 你同时读两下, 哪个先回来就用哪个。 node down不down有什么关系。
: 不知道分布式文件系统有什么特别的api对你特别有意义。
:
: 用。

c***d
发帖数: 996
17
你upload和读都有自己的code吧。不过自己搞这些没必要,推上edge server算了。

【在 c*****e 的大作中提到】
: apache 有这样的功能:可以同时 读两下, 哪个先回来就用哪个? 除非自己改吧。
b*******s
发帖数: 5216
18
别人要文件系统,你给上个数据库...
这样吧,我要scp东西上去,你给用数据库实现一下?楼主其实有一点说得对,这里有
几杆火铳遇到具体问题就抓瞎

【在 g*****g 的大作中提到】
: 像你这样的需求,很多带read replica的DB就可以完成。
z****e
发帖数: 54598
19
如果我告诉你vert.x可以轻松搞定scp呢?

【在 b*******s 的大作中提到】
: 别人要文件系统,你给上个数据库...
: 这样吧,我要scp东西上去,你给用数据库实现一下?楼主其实有一点说得对,这里有
: 几杆火铳遇到具体问题就抓瞎

g*****g
发帖数: 34805
20
如果文件大的话,DB管理metadata,文件可以扔s3上。

【在 c*****e 的大作中提到】
: uploaded 的文件有好百兆, db 不可能
相关主题
大牛能不能讨论下cassandra, Hbase, MongoDB的对比Spark + C*
请教一个 F的message设计问题, 不能理解问二爷一个题外话
感觉flink出来之后,hadoop就显得不怎么再需要了Time series big data大家觉得怎么存储比较好?
进入Programming版参与讨论
z****e
发帖数: 54598
21
然,再用vert.x管理一下具体的网络传输协议
搞定
SOA都做好了

【在 g*****g 的大作中提到】
: 如果文件大的话,DB管理metadata,文件可以扔s3上。
g*****g
发帖数: 34805
22
这种应用层的实现毫无压力,现成的就有,所谓数据库也不过是存metadata,Blob还是
另存文件罢了。

【在 b*******s 的大作中提到】
: 别人要文件系统,你给上个数据库...
: 这样吧,我要scp东西上去,你给用数据库实现一下?楼主其实有一点说得对,这里有
: 几杆火铳遇到具体问题就抓瞎

g*****g
发帖数: 34805
23
S3存文件是个标准的解决方案。又简单又保证high availability,
如果你有meta data可以EC2上起个cluseter跑cassandra (simpleDB也行),文件小的话
直接扔cassandra
里即可。
我说的这个方案是可以无限扩展,无论文件多少,用户多少,都可以保证速度的方法。
我们本身就这么管理一些文件。dropbox 也是用的S3。
楼上有几位啥都不懂的,动不动又要造轮子了。先想想把availability做到S3 99.99%
那么容易吗?
z****e
发帖数: 54598
24
我怀疑她压根不知道scp是怎么回事
只是想来显摆一下的
哈哈
她以为这种问题无法用lib解决
只能自己瞎写
这是mod for vert.x
http://github.com/crashub/mod-shell
这是lib for java
http://www.jcraft.com/jsch/
随便搞,有的是办法
这是q&a
http://stackoverflow.com/questions/199624/scp-via-java
g*****g
发帖数: 34805
25
我老N年前就用jsch写过cloud上的concurrent logging search应用,拿scp来吓人实在
太外行了。你说问tcp能实现吗也罢了。

【在 z****e 的大作中提到】
: 我怀疑她压根不知道scp是怎么回事
: 只是想来显摆一下的
: 哈哈
: 她以为这种问题无法用lib解决
: 只能自己瞎写
: 这是mod for vert.x
: http://github.com/crashub/mod-shell
: 这是lib for java
: http://www.jcraft.com/jsch/
: 随便搞,有的是办法

c*****e
发帖数: 3226
26
AmazonS3?我的系统是内部的。

【在 g*****g 的大作中提到】
: 如果文件大的话,DB管理metadata,文件可以扔s3上。
g*****g
发帖数: 34805
27
必须内部那你还是hdfs吧。

【在 c*****e 的大作中提到】
: AmazonS3?我的系统是内部的。
z****e
发帖数: 54598
28
你信不信你最终会end up到hdfs和hadoop
cassandra来做cache管理这个最最最传统的方法上
所以说,无脑上就没错,讨论这么多不累么?我看着都累啊

【在 c*****e 的大作中提到】
: AmazonS3?我的系统是内部的。
c*****a
发帖数: 1638
29
除非他有处理这些文件内容的需求,否则end up在hdfs是很奇怪的事情。
hdfs当年设计出来就不是做他主贴里面这种事情的,HDFS的多数特性都是为了一个分部
计算系统做支持的file system提供的,单独作为file system挺弱。
LZ还是比较一下别的file system,你这种需求用hdfs+cassandra是很奇怪的。
S3对于LZ的需求可能会比较省事,但是会受制于带宽而且可能有思维上面的限制(很多
公司不愿意把文件放在外面)。除非他们已经开始用aws了,否则很难想象他们会为这
么个项目用aws。
LZ还是看看别的吧,虽然不很确定什么是最好的,但是HDFS和cassandra应该不适合你
这种情况,TCO会很高(除非你预见将来会有处理大数据文件的需求)。

【在 z****e 的大作中提到】
: 你信不信你最终会end up到hdfs和hadoop
: cassandra来做cache管理这个最最最传统的方法上
: 所以说,无脑上就没错,讨论这么多不累么?我看着都累啊

g*****g
发帖数: 34805
30
如果他们这些文件是给外部客户用的,用S3很合适。不用EC2但用了S3的应用也很常见。
如果只是内部用的,那才会有带宽限制这个问题。不过另一方面内部应用,通常也不用
考虑high availability。

【在 c*****a 的大作中提到】
: 除非他有处理这些文件内容的需求,否则end up在hdfs是很奇怪的事情。
: hdfs当年设计出来就不是做他主贴里面这种事情的,HDFS的多数特性都是为了一个分部
: 计算系统做支持的file system提供的,单独作为file system挺弱。
: LZ还是比较一下别的file system,你这种需求用hdfs+cassandra是很奇怪的。
: S3对于LZ的需求可能会比较省事,但是会受制于带宽而且可能有思维上面的限制(很多
: 公司不愿意把文件放在外面)。除非他们已经开始用aws了,否则很难想象他们会为这
: 么个项目用aws。
: LZ还是看看别的吧,虽然不很确定什么是最好的,但是HDFS和cassandra应该不适合你
: 这种情况,TCO会很高(除非你预见将来会有处理大数据文件的需求)。

相关主题
我老说说魏老师为啥扯谈吧试了下spark,不过如此啊
说说12306需要多少台机器coltzhao的公司还在用mongo吗?
举几个java换成C++的例子MapReduce 的思想是怎么发明的?
进入Programming版参与讨论
z****e
发帖数: 54598
31
我觉得HDFS是一种GENERAL PURPOSE的系统
如果不是有什么很特殊的要求,就无脑上
我是这么搞的

【在 c*****a 的大作中提到】
: 除非他有处理这些文件内容的需求,否则end up在hdfs是很奇怪的事情。
: hdfs当年设计出来就不是做他主贴里面这种事情的,HDFS的多数特性都是为了一个分部
: 计算系统做支持的file system提供的,单独作为file system挺弱。
: LZ还是比较一下别的file system,你这种需求用hdfs+cassandra是很奇怪的。
: S3对于LZ的需求可能会比较省事,但是会受制于带宽而且可能有思维上面的限制(很多
: 公司不愿意把文件放在外面)。除非他们已经开始用aws了,否则很难想象他们会为这
: 么个项目用aws。
: LZ还是看看别的吧,虽然不很确定什么是最好的,但是HDFS和cassandra应该不适合你
: 这种情况,TCO会很高(除非你预见将来会有处理大数据文件的需求)。

w***g
发帖数: 5958
32
你要的不是distributed filesystem,而是三个镜像。rsync就可以。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

N*n
发帖数: 456
33
Linux 上可以选veritas或者GFS。 veritas 貌似要收钱,GFS不是很好用。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

N*n
发帖数: 456
34
搜了一下
Ceph 似乎是比 GFS 更新一些的系统。。 HDFS 就是Hadoop FS.. 其它两个都
没找到。
我的经验,这些cluster FS还真是有差别的。。设置,维护的难易程度挺不一样的。
文件数量大到一定程度以后是否撑得住。。平时运行好好的,加个security patch
重启一下回不来了或者在 fsck..从这个角度,云确实对开发者看起来是好事。。省
很多这些零碎问题。。

【在 N*n 的大作中提到】
: Linux 上可以选veritas或者GFS。 veritas 貌似要收钱,GFS不是很好用。
c*****a
发帖数: 1638
35
HDFS只能作为一个分布式处理系统的支撑,作为一个独立的文件系统来说,功能太弱了
。从长远来说,如果只是作为文件存储的解决方案,我个人觉得对未来功能扩展能提供
的可能性太低。

【在 z****e 的大作中提到】
: 我觉得HDFS是一种GENERAL PURPOSE的系统
: 如果不是有什么很特殊的要求,就无脑上
: 我是这么搞的

z****e
发帖数: 54598
36
我觉得文件系统-弱,是应该的
不弱那是不正常的,如果对哪些部分有其他需求
比如要求查找快,io快之类的
再通过某一个方面的强化产品来处理
而不是把所有的需求一股脑儿地丢给所谓的文件需求去处理
这样做的后果就象以前的数据库,啥都有,但是很难搞
成本也高,我对文件系统就几个要求,能存文件,别丢了,做好备份
没了,如果慢的话,我再想办法,做点cache什么的去处理
c*和hadoop是互补的两个处理系统,然后nosql和db本身也是互补的
所以你完全可以通过各种组合来实现你要的目的
而不用捆绑在一个所谓的产品上,我个人不喜欢又大又全的东西
喜欢先满足基本需求,然后挨个功能点做突破

【在 c*****a 的大作中提到】
: HDFS只能作为一个分布式处理系统的支撑,作为一个独立的文件系统来说,功能太弱了
: 。从长远来说,如果只是作为文件存储的解决方案,我个人觉得对未来功能扩展能提供
: 的可能性太低。

D*******a
发帖数: 3688
37
试过glusterfs吗?
hdfs好像没有人直接用来serve static files的,而且也不是很好集成吧(至少需要写
点code)

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

w***g
发帖数: 5958
38
glusterfs是个垃圾。idea不错,就是implement一直有问题,不适合用来存数据。
上了这个之后有你受的。我记得它读目录是去每个节点读一下,然后把结果合并,连数
据丢了都不会报错的。

【在 D*******a 的大作中提到】
: 试过glusterfs吗?
: hdfs好像没有人直接用来serve static files的,而且也不是很好集成吧(至少需要写
: 点code)

w***g
发帖数: 5958
39
非要上文件系统的话可以用MapR。这个是用来drop in替代HDFS的,而且设计非常科学
,存大文件小文件都没有问题。性能上可以秒杀HDFS。我在地下室就搞了个8个节点的
MapR机群用来存数据(自己做民科实验,用不起amazon)。Ceph我看过一两眼。这东西出
发点是并行计算而不是文件系统,存临时数据还可以,用来做主存储服务还是算了。

【在 c*****e 的大作中提到】
: 1) the file system will be distributed across 3 台机器
: 2) 文件系统将被 apache farms mount to local file system 用于 serves
: static files and 文件上传
: 3) 任何一台机器突然 断电不要丢失数据。
: 4) 这个系统最好安装简单, 小巧。
: hdfs? owfs? Ceph? shrift?

q*c
发帖数: 9453
40
现在用的都是 dynamDB...

【在 g*****g 的大作中提到】
: S3存文件是个标准的解决方案。又简单又保证high availability,
: 如果你有meta data可以EC2上起个cluseter跑cassandra (simpleDB也行),文件小的话
: 直接扔cassandra
: 里即可。
: 我说的这个方案是可以无限扩展,无论文件多少,用户多少,都可以保证速度的方法。
: 我们本身就这么管理一些文件。dropbox 也是用的S3。
: 楼上有几位啥都不懂的,动不动又要造轮子了。先想想把availability做到S3 99.99%
: 那么容易吗?

相关主题
MapReduce 的思想是怎么发明的?怎么自学cloud/big data programming
Spark 和 Dynamodb 之间 如何 连接AWS cloud 内部做log,大家怎么设计
解密hadoop文件系统数据存储方式学scala和spark需要什么pre req?
进入Programming版参与讨论
g*****g
发帖数: 34805
41
Cassandra便宜呀,当然坏处就是得自己管。
http://www.datastax.com/2012/05/cassandra-vs-dynamodb-tco

【在 q*c 的大作中提到】
: 现在用的都是 dynamDB...
h**********0
发帖数: 88
42
就这要求3个linux装个直接nfs和autofs就可以了
c*****e
发帖数: 3226
43
我只能说你的那个方案是 a poor man's solution.
第一: autofs 不能mount two nfs into the same local directory. 估计还得写个
script 监控 first nsf mount is down, then mount 2nd nsf onto the same local
mounting point. 可靠性太差
第二:如果在上传文件过程中nfs server is down, 上传的内容没了, client 也没有
续传功能的话,整个操作就失败了。
distributed file system 内部包装解决了这些问题。

【在 h**********0 的大作中提到】
: 就这要求3个linux装个直接nfs和autofs就可以了
1 (共1页)
进入Programming版参与讨论
相关主题
问二爷一个题外话Spark 和 Dynamodb 之间 如何 连接
Time series big data大家觉得怎么存储比较好?解密hadoop文件系统数据存储方式
我老说说魏老师为啥扯谈吧怎么自学cloud/big data programming
说说12306需要多少台机器AWS cloud 内部做log,大家怎么设计
举几个java换成C++的例子学scala和spark需要什么pre req?
试了下spark,不过如此啊以后真的是cassandra spark的天下了?
coltzhao的公司还在用mongo吗?关于 SPARK, 问二爷peking2 和其他大牛一问题
MapReduce 的思想是怎么发明的?大牛能不能讨论下cassandra, Hbase, MongoDB的对比
相关话题的讨论汇总
话题: hdfs话题: 文件话题: file话题: 需求