由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请教一个字串提取的问题 (转载)
相关主题
怎么用lex处理DFA?有谁用TBB吗
有人能解释一下这段C++代码吗Re: 问个cisco的mutex的面试题
请教一个自动下载网页链接的问题在图像算法领域,纯java没戏,用java和c++混合编程很恶心
问一个python的string split问题C++ Software Engineer 工作求内推(Boston)
perl: 怎么把文件中的某个字串取出来?c++11 std::thread 和 openmp 那个额外开销少?
some problems with "cin"熟悉C++,向Windows 还是Linux 方向发展? thanks
A problem on string parsing (using either grep or perl)我真不明白c++有什么难的
一道算法题 (转载)intel knights landing 72core CPU 谁用过?
相关话题的讨论汇总
话题: sub话题: 子集话题: extracted话题: string话题: grams
进入Programming版参与讨论
1 (共1页)
V*********r
发帖数: 666
1
【 以下文字转载自 JobHunting 讨论区 】
发信人: Voigtlander (Voigtlander), 信区: JobHunting
标 题: 请教一个字串提取的问题
发信站: BBS 未名空间站 (Wed Jul 31 02:51:27 2013, 美东)
给定一个字符串集合 S = {s_1, s_2, ..., s_n}
问题:判定是否存在 S 的一个子集 S',满足:
(1) S' 至少包含 N 个元素;
(2) S' 里所有元素都有某一个共同的子串 sub;
(3) sub 长度至少为 M;
(4) 不存在满足上述 (1)-(3) 条件的另一个子集 S",使得S'是S"的子集。
输入 S、M、N,
输出一组 S'、sub —— 如果存在的话。
比如:输入
S = {'aaa0000', '1aaa111', '22aaa22', '333aaa3', '4444aab'}
N = 3
M = 3
输出:
S' = {'aaa0000', '1aaa111', '22aaa22', '333aaa3'}
sub = 'aaa'
有没有高效一些的算法?
k**********g
发帖数: 989
2

Criteria (1), (2) and (3)
Hash all M-grams (all substrings of length M that can be extracted from a
string `s`)
For example, if one of the string `s` is "ILoveMITBBS", and M is 3, then the
following M-grams can be extracted:
ILo
Lov
ove
veM
eMI
MIT
ITB
TBB
BBS
Every of these M-grams (all from one string) will be inserted to a hash
table, with a back reference to the string from which it is extracted.
Criteria (4)
Not sure about this one. Possibly can be done with some post-processing.

【在 V*********r 的大作中提到】
: 【 以下文字转载自 JobHunting 讨论区 】
: 发信人: Voigtlander (Voigtlander), 信区: JobHunting
: 标 题: 请教一个字串提取的问题
: 发信站: BBS 未名空间站 (Wed Jul 31 02:51:27 2013, 美东)
: 给定一个字符串集合 S = {s_1, s_2, ..., s_n}
: 问题:判定是否存在 S 的一个子集 S',满足:
: (1) S' 至少包含 N 个元素;
: (2) S' 里所有元素都有某一个共同的子串 sub;
: (3) sub 长度至少为 M;
: (4) 不存在满足上述 (1)-(3) 条件的另一个子集 S",使得S'是S"的子集。

1 (共1页)
进入Programming版参与讨论
相关主题
intel knights landing 72core CPU 谁用过?perl: 怎么把文件中的某个字串取出来?
一道面试题some problems with "cin"
请教一个算法问题 (转载)A problem on string parsing (using either grep or perl)
问个算法的C++ 实现一道算法题 (转载)
怎么用lex处理DFA?有谁用TBB吗
有人能解释一下这段C++代码吗Re: 问个cisco的mutex的面试题
请教一个自动下载网页链接的问题在图像算法领域,纯java没戏,用java和c++混合编程很恶心
问一个python的string split问题C++ Software Engineer 工作求内推(Boston)
相关话题的讨论汇总
话题: sub话题: 子集话题: extracted话题: string话题: grams