由买买提看人间百态

topics

全部话题 - 话题: dedup
1 (共1页)
c**h
发帖数: 34
1
来自主题: SanFrancisco版 - riverbed vs emc
Lacking of core features will make it very hard to penetrate through main
stream market. Enterprise storage market is known to be very tough to get in
. Those core features are served as the barrier for newcomer to overcome.
Not many DISK arrays have the 'inline' dedup capability. But the 'inline'
dedup becomes a mush-have feature for ALL-FLASH arrays. The reason that DISK
arrays don't have dedup is simply because it CAN'T -- dedup will greatly
randomize the workload, which none of current disk ... 阅读全帖
c**h
发帖数: 34
2
来自主题: SanFrancisco版 - riverbed vs emc
Lacking of core features will make it very hard to penetrate through main
stream market. Enterprise storage market is known to be very tough to get in
. Those core features are served as the barrier for newcomer to overcome.
Not many DISK arrays have the 'inline' dedup capability. But the 'inline'
dedup becomes a mush-have feature for ALL-FLASH arrays. The reason that DISK
arrays don't have dedup is simply because it CAN'T -- dedup will greatly
randomize the workload, which none of current disk ... 阅读全帖
m**i
发帖数: 394
3
need to do dedup on file level first, then do dedup for lines.
calculate the checksum for each line for each file,
then do an unique sort with mergesort.

text
l********k
发帖数: 613
4
要做dedup是不是还要setup dedup的file system吧?
l********k
发帖数: 613
5
要做dedup是不是还要setup dedup的file system吧?
a*****s
发帖数: 2663
6
来自主题: Hardware版 - 赞一下mediatomb
真是好用。感谢一下Andre Lue。
另外,板上谁用zfs dedup的说说看, 俺的atom NAS开了dedup,performance有点惨,
不到原来一半速度呢。是不是正常现象啊?
a*****a
发帖数: 1429
7
来自主题: Hardware版 - zfs nas server budget 配置
家用折腾ZFS干什么,而且不是自己,是“朋友”。
自己的话,如果不折腾homelab,也没必要ZFS
首先冗余不是备份。还得折腾备份方案。
其次,RAID/ZFS提供得高可靠性指得是商业应用中得可靠性和持续性。家用没有这样得
需求。
当然,相比RAID,ZFS更适合家用,因为好的带电池的RAID卡非常贵。主板或者软RAID
,重建的时候很脆弱。
如果家里使用ZFS的话,SATA更合适些。内存也不需要那么大--把Dedup关掉好了。家里
NAS里无非是些照片,家用视频,一点点文件,以及一大堆下载的盗版电源电视,基本
是单用户。没有必要dedup,还化那么多内存。
最后还是那句话,家用没必要冗余。省下的钱捉摸捉摸备份方案,经常备份。
a*o
发帖数: 19981
8
quincycenter说得基本上对,楼上瞎掰。ATI的压缩就是压缩,他们还没本事搞dedupe
这么fancy的活儿。


: Dedupe和compression是两回事。

: :比如acronis true image对系统C盘备份,选择次高的压缩,10分钟以内就结
束了

: :

u****q
发帖数: 24345
9
来自主题: USANews版 - Snowden打脸
Jeff Jarvis ✔ @jeffjarvis
Hey @Snowden, for context, how long would it take the NSA to dedupe 650k
emails?
Edward Snowden ✔ @Snowden
@jeffjarvis Drop non-responsive To:/CC:/BCC:, hash both sets, then subtract
those that match. Old laptops could do it in minutes-to-hours.
u**s
发帖数: 50
10
来自主题: JobHunting版 - 算法一问
This method looks like O(nlogn).
However, when you code it, you will notice that dedup is a little bit
annoying.
If you create a bitmap/boolean for n^2 and init to false, then this is
already n^2. Of course, you can use other hashtable to solve this, but just
looks ugly.
If you ignore this issue, then you can say this is O(nlogn) ...
l********s
发帖数: 30
11
来自主题: JobHunting版 - [电话面试] 非死不可
facebook 电话一面。面筋之前,先问一下大家:一般第一轮电话面试后多久会有消息?
即多久会被据或者被通知下一步?等待的滋味不好受啊~ 不管面的是不是facebook的,
都请大家说一下,我好心里有底,谢谢~
面经:
1. Remove duplicate elements from a sorted array in place.
比如给,[1,3,3,5,5,6,9,9,9]
则结果为[1,3,5,6,9]
给的函数原型为:void dedup(int arr[], int &len)
2. I have large set of integers in a file (in billions). Integer values
range from 1 to 1000. I want to partition this file into three files. Top 20
% in one file next 30% in another file. Low 50% in another file.
if there 10 elements then top 2 will
b******n
发帖数: 4509
12
来自主题: JobHunting版 - 出道简单题让大家练练白板
int deDup (int a[], int n) {
for (int i = 0, j = 0; j < n; j++) {
if (a[j] != a[i])
a[++i] = a[j];
}
return i;
}
s****a
发帖数: 528
13
来自主题: JobHunting版 - 出道简单题让大家练练白板
int deDup(int *A, int N)
{
int idxChecked = 0;
int idxUnchecked = 1;
while (idxUnchecked < N)
{
if (A[idxChecked] < A[idxUnchecked])
A[++idxChecked] = A[idxUnchecked];
idxUnchecked ++;
}
return idxChecked;
}
c***d
发帖数: 26
14
dedup is doable too using this approach. just check whether you've seen the
item before swapping.
here is javascript version.
function dedup_perm(a){
var solutions = [];
if (!a || a.length == 0) return [];
return dedup_perm_helper(a, 0);
function dedup_perm_helper(a, start) {
if(start == a.length) solutions.push(a.slice(0));
var seen = {};
for(var i = start; i < a.length; i++){
if (!seen[a[i]]) { // this line ensures no dup permutations.
... 阅读全帖
d****n
发帖数: 233
15
来自主题: JobHunting版 - 第二次groupon面筋。。。
1. Before sending a message, the machine need to check the leader that there
is no ongoing sending on same message and the message has not been sent.
if this is the new message, the leader will record this message and issue
a work ticket. If the message failed to be sent, the machine need to notify
server on the failure so another machine can send it. If message sent, the
machine which sent it notify the leader to commit the message.
Another way is to use some existing distributed message queu... 阅读全帖
p*****3
发帖数: 488
16
来自主题: JobHunting版 - 讨论一道狗家的设计题

这个只能dedup,怎么保证不同机器能根据时间先后产生出id递增的方案呢?
z**a
发帖数: 69
17
来自主题: JobHunting版 - 愿意自断经脉的VMware面试经历
copy虽然不会减少size,但是有重复的segment不就节省空间了,dedup嘛,想来是一开
始我和对方的方向就不同。。。
第三轮就别说了,第二痛苦的面试经历。
z**a
发帖数: 69
18
来自主题: JobHunting版 - 愿意自断经脉的VMware面试经历
滚你的蛋,我上个公司就是做dedup的,我不知道hash能不能做?真正产品用的算法我
面试跟他说清楚?装逼死一边
w********s
发帖数: 1570
19
replication, dedup, tiering, recovery之类的难道不是靠软件搞定么?
r****7
发帖数: 2282
20
看了讨论觉得很奇怪啊
这个题难道不是就是A[i] + i和A[j]-j算一遍么?
j >= i有什么实际意义么?如果两个最大值是i > j,那就把i当j就是了
而且这俩还可以相等。。。都不用dedup
w*****t
发帖数: 485
21
来自主题: JobHunting版 - 分享T家电面经
I think this should be dedup.
m****c
发帖数: 11
22
来自主题: JobHunting版 - Fitbit 面经
1.交叉不影响吧,只要dfs吧?为什么要dedup不是就找最大吗?
2.不太明白什么意思.是Assume每个node上都有一个thread然后要写如何
multithreading?但如果从两边同时算那左边和右边node的code logic就已经要反过来
了吧?而且要怎么判断meeting point?
3.copy random pointer?
r*****s
发帖数: 1815
23
来自主题: JobHunting版 - T家在线测试面经,感觉好难啊
shabi.
x^3 ==> pow(x, 3)
for (int i = 0; i <= min(m,n); ++i) {
for (int x = 0; x^3*i <= m; ++x) {
for (int y = 0; y^3*i <= n; ++y) {
//insert x^3*i and y^3*i pair into a hash set:
set.insert(make_pair(x^3*i, x^3*i));
}
}
}
output(set)
there are lots of ways to dedup/optimize, but idea is clear and simple.

technical
x***y
发帖数: 633
24
来自主题: JobHunting版 - 问一道FB design之后续
some sort of variation of TTL, originally 2, decrease by 1 in each step? But
it may need to dedup in some cases
j**********9
发帖数: 5431
25
来自主题: Chicago版 - 飞机票真心贵啊
don't worry.
一般7天之内所有的credit card applications 只会被dedup 成1次hard inquiry记在你的credit
history
c**h
发帖数: 34
26
来自主题: SanFrancisco版 - riverbed vs emc
"比VMEM差远了"?
我们先不说 PureStorage 好在哪里,Violin Memory不好的太明显了。
从技术角度看,VMEM其实是一个纯粹的硬件公司。它主要的产品线,6000 Series Flash
Memory Arrays,是一款企业级存储阵列,却恰恰需要大量的软件features。一款企业
级存储阵列和一个简单磁盘阵列从硬件的角度来看可能区别不大。定义企业级存储阵列
的关键就在于一整套软件功能(enterprise feature set), 包括 complete LUN
management, thin provision, snapshot, replication, high availability, high
reliability etc., 以及对存储protocols支持和对不同平台的集成,象Vmware VAAI
etc. 所有这一些都是VMEM十分欠缺的。它去年才引进CTO of Software,试图弥补其缺
陷。从这个角度来说,他的技术还很不成熟。
VMEM也十分清楚这个弱点,它试图通过OEM其他存储软件公司的产品去实现其所缺的功
能。最近... 阅读全帖
c**h
发帖数: 34
27
来自主题: SanFrancisco版 - riverbed vs emc
"比VMEM差远了"?
我们先不说 PureStorage 好在哪里,Violin Memory不好的太明显了。
从技术角度看,VMEM其实是一个纯粹的硬件公司。它主要的产品线,6000 Series Flash
Memory Arrays,是一款企业级存储阵列,却恰恰需要大量的软件features。一款企业
级存储阵列和一个简单磁盘阵列从硬件的角度来看可能区别不大。定义企业级存储阵列
的关键就在于一整套软件功能(enterprise feature set), 包括 complete LUN
management, thin provision, snapshot, replication, high availability, high
reliability etc., 以及对存储protocols支持和对不同平台的集成,象Vmware VAAI
etc. 所有这一些都是VMEM十分欠缺的。它去年才引进CTO of Software,试图弥补其缺
陷。从这个角度来说,他的技术还很不成熟。
VMEM也十分清楚这个弱点,它试图通过OEM其他存储软件公司的产品去实现其所缺的功
能。最近... 阅读全帖
k**l
发帖数: 2966
28
dedupe
中国网民这么多,百度每人给两 T, 我觉得就是因为知道他们后台用不了那么多空间
a**********k
发帖数: 1953
29
来自主题: Zhejiang版 - 新人报到-浙江浙江:)
hmm, 如果算Internet traffic,你这个估算差不多,
(IDC的数据是21EB per month in 2010)。 这数据
应该可以从EMC等disk array 供应商销售量中推出来。
我开始的数据专指mobile data traffic,再算上数
据dedup。
如此看来storage行业利好, 因为数据存储需求量远
超出人们的预估。你看最早存储业定的标准: LBA是
22 bits(LUN是3 bits), 后来匆匆加到48 bits。
在ZB时代来临之际, 这显然不太够。而且,storage行业
的软件也相对落后。 比如这个买卖堤,其实没多少数据量,
却过一段时间就要停几天。估计是在忙于数据backup,也许
他们不会做snapshot. 这一方面也显示了这数据存储行业
工具的落后, 发展余地很大。
r**i
发帖数: 2328
30
来自主题: Zhejiang版 - 新人报到-浙江浙江:)
你老也太搞笑了,谁会把mobile data traffic看成internet traffic。我只是说
internet数据流量估算可以从国内推国外的。mobile network流量跟实际storage size
偏差太大了,压缩比不同,冗余值不同,就算你是dedup,实际上存的physical size取
决database系统。disk array的生产商怎么会只有几家,dell, oracle, hp, ibm,
hitachi,emc, netapp, panasas,infortred... IDC能知道ODM的量?狗关门好几年大
家都不知道他们server design换了6,7代了。
请教是哪个F家? MR当然有bottleneck,本来就是狗过时的技术公布出来的,业内大家
都知道的事情。snapshot还是有downtime,我说的ha没有downtime。看过这个广告用语
嘛? downtime is so 2012。
f**u
发帖数: 2769
31
估计是因为英文山西、陕西都一样,于是就被dedup了。
Z*****l
发帖数: 14069
32
说反了。不加all才是dedupe。
g**t
发帖数: 1872
33
来自主题: Hardware版 - Opensolaris ZFS ISCSI SAN
有没有turn on dedup?
c********r
发帖数: 649
34
来自主题: Hardware版 - Opensolaris ZFS ISCSI SAN
nope, i know it is awesome, especially for my set up that I use the SAN
mainly for VMs, dedup suppose to save lots disk space and improve
performance.
but i have few concerns,
1. memory requirement.
2. if it runs well with compression.
3. the feature is too new, concern abt bugs etc.
g**t
发帖数: 1872
35
来自主题: Hardware版 - 16GB DDR3 内存是不是多余?
zfs dedup对内存需求很大。
g**t
发帖数: 1872
36
来自主题: Hardware版 - 推崇SSD的,基本都是外行
家用上TB的都是放影片的吧,我指的是用zfs with dedup+compression。要是放影片当
然不够。你那samba是over GbE
吧,那个network bandwidth都变成了bottleneck,还有你那个samba的setup有没有用
ramdisk测过?可能还有别的
bottleneck呢。我觉得如果不是用来看影片和SSD价钱比现在低一半就值得了。

machine
a*****s
发帖数: 2663
37
来自主题: Hardware版 - 我来写个Synology NAS的quick guide
对头,这个我折腾ZFS的时候一开dedup之类就不行。现在自己折腾NAS至少也要弄个i3-
2100T这个档次的CPU,内存16G也不嫌多。
w****f
发帖数: 1420
38
来自主题: Hardware版 - 关于ZFS的SNAPSHOT功能,几张图
这个还真没用过,很不错。
你是哪个nas的os?zfs版本多少?有没有设置dedup?
j********2
发帖数: 4438
39
来自主题: Hardware版 - 关于ZFS的SNAPSHOT功能,几张图

用的最简单的freenas 8.3,查了下是zfs version 28,没设置dedup,反正空间还够大
。。
j********2
发帖数: 4438
40
来自主题: Hardware版 - 关于ZFS的SNAPSHOT功能,几张图

母鸡24G,只给freenas分了4g,对于zfs来说不用dedup的话内存要求其实也没那么变态
,等有空我用biostar的那个赛扬套装测试下,上次跳了newegg的combo。
有N54L的不妨试试,测试下看看性能如何
a*****a
发帖数: 1429
41
有dedup, 一T一G。关掉,没太多内存需求。而且没有哪个必须要ecc的
x***4
发帖数: 1815
42
没有那么夸张。关掉dedup,1g per T就够了。
ecc我觉得有用。而且也不贵。

★ 发自iPhone App: ChineseWeb 8.6
a*****a
发帖数: 1429
43
来自主题: Hardware版 - 求推荐路由器
你就扯吧。像Linux这样的系统,page cache直接写到块设备上去的,和vfs丝毫关系都
没有。基本原理都不一样。你懂文件系统?ext4这样的文件系统,inode都是
hierarchical的,metadata都在各个目录树节点上。嚷嚷写个文件要几G的缓存,是你
吧?以为写个文件人把整个目录树都加载到内存然后再全部写回去?
除了zfs这样的需要dedup的文件系统,需要大内存,哪个文件系统读写要几G缓存?

explanation.
path
w***g
发帖数: 5958
44
来自主题: Hardware版 - 你们backup都怎么做的?
比如正经公司,每天incremental backup(半夜操作),
七天full backup(周末操作),所有数据保存若干个月,
备份数据是线上数据的好几倍,所以才有专门针对备份
数据进行压缩的dedupe industry。这批人的线上系统
必然也是raid,他们说raid不能代替备份,绝对是
理所当然。
版上那些号称用backup不用raid的,我很好奇你们backup
怎么做的?我raid上了好几年了,backup一直没有一个
简单可行完全自动化的方案。
a*****s
发帖数: 2663
45
来自主题: Hardware版 - zfs nas server budget 配置
家用折腾ZFS的人很多啊。你不喜欢不代表别人不喜欢。我自己已经有四个ZFS机器了。
朋友觉得好,求懒人包,俺就顺便贴出来分享下。
俺从来没说过冗余就是备份,ZFS还没流行的时候,俺就在版上说了很多次冗余不等于
备份。不过大虾讲的大部分还是认同的,俺从不建议家用搞传统raid,也不建议家用
SAS drive,也不建议dedup。
说白了,要不要异地/远程备份,local的备份放到什么样的介质,每种选择会有什么样
的风险。这个每个人要根据自己的喜好和承受能力来选择。ZFS只是这其中一个环节上
的一种比较靠谱的选择。

RAID
a*****a
发帖数: 1429
46
来自主题: Hardware版 - FreeNas内存
吧dedupe关掉,用不了6G
g****d
发帖数: 3461
47
来自主题: Hardware版 - zfs还是太高大上

32G ECC还是算了。
144G ECC dedup 32T raidz 都太慢。
m**u
发帖数: 541
48
来自主题: Hardware版 - NAS装成了
ZFS确实有很多非常好的特性,特别是低成本的snapshot是到目前别的体系还比不了的

但ZFS也没有有些人吹的那么好,该挂还是挂,而且死得也是翘翘的;port出来的版本
问题还是很多,原来的估计邪恶代言人公司也没兴趣继续搞;弄个btrfs也是问题比较
多。
另外一旦dedup 1G/1TB远远不够,基本上我测出来的是要差不多5~6GB/TB才不觉得有大
的影响。现在128G ECC内存估计天价了。。。。
w***g
发帖数: 5958
49
Dedupe和compression是两回事。

:比如acronis true image对系统C盘备份,选择次高的压缩,10分钟以内就结束了
1 (共1页)