D*****d 发帖数: 1307 | 1 I wrote some java code, might be ugly, but it works...
package Testing;
public class TestReplaceWithQuotes {
public static String replaceInsideQuotes(String source, char quote,
String target, String replacement){
StringBuilder regex = new StringBuilder();
StringBuilder replace = new StringBuilder();
String quoteChar = Character.isDigit(quote) || Character.
isAlphabetic(quote) ? String.valueOf(quote) : ("\" + quote);
String nonQuoteChar = "[^" + quoteCh... 阅读全帖 |
|
g**********y 发帖数: 14569 | 2 you can input.split("$[0-9]+") to get contents, but there is no simple way
to extract out splitters. Perhaps count is still the most efficient way in
Java.
ArrayList spliter = new ArrayList();
ArrayList content = new ArrayList();
Pattern pattern = Pattern.compile("\\$[0-9]+");
Matcher matcher = pattern.matcher(input);
int index = 0;
while (matcher.find()) {
int start = matcher.start();
int end = matcher.end();
if (start > index) {
content.add(i |
|
b**********5 发帖数: 7881 | 3 觉得很不对劲啊
第一题, 就是找string里的longest substring, 要包括至少一个upper case,和没
有数字
我写了一个这个
int solution (String s) {
int result = -1;
Pattern p = Pattern.compile("[A-Z&&[^0-9]]");
Matcher m = p.matcher(S);
while (matcher.find()) {
result = Math.max(matcher.end()-matcher.start()+1, result);
}
return result;
}
run 了 test, 通过, 最后submit test以后, 竟然显示结果是 0 |
|
|
W***o 发帖数: 6519 | 5 谢谢帮忙,收到了您写的code,但是有一点疑问,关于regex
private final static Pattern patt = Pattern
.compile("^([^,]+,){2}\d{2}/\d{2}/(\d{4})([^,]+,){3}([^,]+)"
);
Matcher m = patt.matcher(value.toString());
String year = m.group(2);
String crime = m.group(4);
这里面的正则表达是逐行分解CSV吗?里面的2和4,还有3是什么意思呢?谢谢 |
|
u***8 发帖数: 1581 | 6 要检测日期,2015-10-11 是不是YYYY-MM-DD的格式。
if (!startDate.matches("\d{4}-\d{2}-\d{2}")) {
throw new Exception("ERROR: startDate " + startDate + " is
invalid.");
}
reviewer说,Please compile the pattern + matcher, and use the matcher to
match the dates.
我问,值得么?
他说。In terms of performance, yes.
这个真的很大的performance 的关系么?
还有,return new X>(new Y (Y)
非要分段写, 3行。
说是Readability.
这算鸡蛋里面挑骨头么?
更新: 3楼之后。
http://stackoverflow.com/questions/2149680/regex-date-format-va
这个检测我是看这个的。
第2条, 我看c... 阅读全帖 |
|
x**s 发帖数: 93 | 7 perl我不熟悉,不过如果是java,可以这样写:
String str = "w8349 kx34k 89789 3425 jl98";
Pattern p = Pattern.compile("(\w+)");
Matcher m = p.matcher(str);
while(m.find()) System.out.println(m.group(1));
所以我猜可能写成这样? s/(\w+)/$1/i |
|
m******t 发帖数: 2416 | 8
Something along these lines (not tested or even compiled):
ArrayList parts = new ArrayList();
ArrayList vars = new ArrayList();
Pattern p = Pattern.compile("([^$]*)(\$\d+)");
Matcher m = p.matcher(string);
while (m.find()) {
``parts.add(m.group(1));
``vars.add(m.group(2));
}
int lastMatch = m.end();
if (lastMatch < string.length()) {
``parts.add(string.substring(lastMatch));
} |
|
b******e 发帖数: 1861 | 9 How about use group and loop.
import java.util.regex.*;
public class test
{
public static void main(String[] args)
{
Pattern p = Pattern.compile("a(a*)");
String a = "aaaa";
match(a, p);
}
private static void match(String s, Pattern p)
{
Matcher m = p.matcher(s);
while (m.find())
{
System.out.println("found char = " + m.group(0));
match(m.group(1), p);
}
}
} |
|
o********g 发帖数: 14 | 10 已读入html文件,现用正则表达式截取里的内容。如果 里只有一段内容(一
组 ),则可以成功截取。但若 里有大于等于2段内容时,则这一整块
内的内容无法截取。有谁知道怎么搞定这个问题吗?求给点意见
以下是Java的代码:
public static void main(String[] args) throws IOException {
File source_file = new File("./data/page source.txt");
FileReader fr = null;
BufferedReader br = null;
try {
fr = new FileReader(source_file);
br = new BufferedReader(fr);
} catch (FileNotFoundException e2) {
e2.printStackTrace()... 阅读全帖 |
|
i**w 发帖数: 883 | 11 Pattern p = Pattern.compile("
>(.+?)");
Matcher m = p.matcher(input);
if (m.matches()) {
int cnt = m.groupCount();
System.out.println(cnt);
String g1 = m.group(1);
System.out.println(g1);
String g2 = m.group(2);
System.out.println(g2);
} | |
|
h*****a 发帖数: 1718 | 12 Note that backslashes (\) and dollar signs ($) in the replacement string may
cause the results to be different than if it were being treated as a
literal replacement string; see Matcher.replaceFirst(java.lang.String). Use
Matcher.quoteReplacement(java.lang.String) to suppress the special meaning
of these characters, if desired.
这不是挺清楚的么?不算什么问题吧。 |
|
S*A 发帖数: 7142 | 13 这个不需要一下子上来就用 sequence matcher 的。
这个完全可以做 word based 的 title matching, 用很快的算法
把绝大多数没有共同单词的title先排除出去。剩下的一两个接近的再
用 sequence matcher. 尤其是有很多 title 是 exact match 的,这
时候根本不需要比较其他的 title。
我的感觉是针对你这个应用一定有可以快很多的办法。 |
|
a******a 发帖数: 2646 | 14 确实不公平,美国最多,但是联合国主要机构都在美国,开支都在美国,美国以22%的钱
matcher到100%的联合国开支,真是赚大发了。
日本是想进常任理事国,花钱是有目的,是投资,是有收益的。
中国一个没有联合国一点消费,二没有联合国一点私心,三是出兵为联合国维和,军费
开支巨大,这也要算联合国会费。
出钱是最多的和其他国家比,出力是最大的,可以说联合国的存在,和国际和平很大程
度是中国在维护。世界那么多富国,强国,尤其那些整天想出殡打仗的,为什么不增加
会费,反而躺在中国身上享受和平红利。 |
|
a******a 发帖数: 2646 | 15 确实不公平,美国最多,但是联合国主要机构都在美国,开支都在美国,美国以22%的钱
matcher到100%的联合国开支,真是赚大发了。
日本是想进常任理事国,花钱是有目的,是投资,是有收益的。
中国一个没有联合国一点消费,二没有联合国一点私心,三是出兵为联合国维和,军费
开支巨大,这也要算联合国会费。
出钱是最多的和其他国家比,出力是最大的,可以说联合国的存在,和国际和平很大程
度是中国在维护。世界那么多富国,强国,一些人争风想移民去的国家,尤其那些整天
想出殡打仗的,为什么不增加会费,反而躺在中国身上享受和平红利。 |
|
|
c********t 发帖数: 5706 | 17 java 里Matcher.groupCount 可以count. 不知道别的语言。 |
|
d*******s 发帖数: 65 | 18 while loop里面的matcher是不是应该是m啊 |
|
o**p 发帖数: 199 | 19 511.org has a car pool matcher... |
|
a*****g 发帖数: 19398 | 20 By Roland Moore-Colyer
Mon Nov 16 2015, 07:20
http://www.theinquirer.net/inquirer/feature/2434242/facebook-s-
FACEBOOK IS A COMPANY known primarily for its social feed of emotional
statuses, endless emojis, pictures of 'hols with the ladz', and, of course,
a big blue thumbs-up.
Normally associated with tech giants like IBM, Google and Apple, or some
disruptive Tech City startup, artificial intelligence (AI) is not the first
thing to spring to mind when pondering Zuckerberg's 1.5 billion-strong
s... 阅读全帖 |
|
|
G*****7 发帖数: 1759 | 22 svm就是个glorified template matcher,
你还是多看看hinton系的东西吧。
btw 四大系
逻辑系,老jm/mm和子弟;
jordan系;
神经系,hinton, lecun;
svm系,现在基本也就是在英国、欧陆、澳洲有些影响。
作。 |
|
N**D 发帖数: 10322 | 23 glorified?
你搞一个出来
神经网络也是template matcher
graphical model 也是
问题很简单,就是要找个好的template. |
|
G*****7 发帖数: 1759 | 24 svm就是个glorified template matcher,
你还是多看看hinton系的东西吧。
btw 四大系
逻辑系,老jm/mm和子弟;
jordan系;
神经系,hinton, lecun;
svm系,现在基本也就是在英国、欧陆、澳洲有些影响。
作。 |
|
N**D 发帖数: 10322 | 25 glorified?
你搞一个出来
神经网络也是template matcher
graphical model 也是
问题很简单,就是要找个好的template. |
|
t*******e 发帖数: 684 | 26 try Pattern and Matcher classes. |
|
m******t 发帖数: 2416 | 27
But that only gets you the part _before_ the first matching substring.
Try something like Pattern.compile(regex).matcher(text).find() |
|
a****i 发帖数: 13 | 28 in perl you can do @matched = "aaaaa" =~ m/(?=(a*))/g;
in java you probably can do similar thing by using zero-length look-ahead
and Matcher.find() |
|
g**e 发帖数: 6127 | 29 java用regex matcher。话说这个为什么要用java,shell script不就行了,cut sed
随喜 |
|
l***s 发帖数: 1405 | 30 谢谢,我搜搜matcher
我必须要用java读这些数据到sql...
这些文件每个里面还有一堆数据, 每个文件名里的xxx要作为一个colume... |
|
d****g 发帖数: 7460 | 31 Tada,这个是java.util.regex.Matcher的实现。用的是new StringBuffer()和sb.
toString()。这个会新分配250k + 250k + 125k + 64k +32k 的空间。
public String replaceAll(String replacement) {
reset();
boolean result = find();
if (result) {
StringBuffer sb = new StringBuffer();
do {
appendReplacement(sb, replacement);
result = find();
} while (result);
appendTail(sb);
return sb.toString();
}
re... 阅读全帖 |
|
A*********t 发帖数: 64 | 32 就是類似gmock那種。google到一個hamcrest.
不過更新到2012年,老了點。 |
|
l**********n 发帖数: 8443 | 33 其实不是个bug,String.replace用到Matcher,因此replacement str不能有$. |
|
S*A 发帖数: 7142 | 34 有 typo 也要能 match 上是原来 LZ 的要求。
用 sequence matcher 是可以允许 typo。
所以你不处理是不能满足要求的。 |
|
S*A 发帖数: 7142 | 35 语言比较不一样,解决的问题也不一样。
Java 的 boiler plate 代码比较多。
单位 commit 的代码少这个应该是好事。
说明程序精简。
关键要看多少代码解决了多少问题。
Linux kernel 支持如此众多的硬件和驱动。
是非常牛 B 的。代码臃肿不是值得光荣的
事情。
就比方那个 sequence matcher。我的 C 程序大概 2
屏,比 python 快几十倍,比后来有人贴的 go 的快 12 倍。
这个就是效率。至于你要是写个 Java 的,估计是慢
几倍以上。我有空可以用 Java 实现一遍,给大家有兴趣的
继续优化。
Linus 只有一个,但是给 kernel contribute 的人很多很多。 |
|
S*A 发帖数: 7142 | 36
只是有捷径而已,不是捷径的还是要老老实实
sequence match。捷径就是 dictionary map。如果是
exact match 就 dictionary map 捷径了。
不是 exact match 就要 sequence match 了。
老大,我问的最多的好不好。问他 string 这个
长度分布如何。
你 O(n)算法是错的。你自己说的,要个wrapper, 如果有
相似度低的 (typo)就要 sequence match,一般没有特指 O(n)说的是最坏
情况的复杂度。所以最坏情况就是相似度低,你要用 sequence matcher。
那个就是 O(n*n). 这个是算法复杂度常识好不好。 |
|
a*****g 发帖数: 19398 | 37 By Roland Moore-Colyer
Mon Nov 16 2015, 07:20
http://www.theinquirer.net/inquirer/feature/2434242/facebook-s-
FACEBOOK IS A COMPANY known primarily for its social feed of emotional
statuses, endless emojis, pictures of 'hols with the ladz', and, of course,
a big blue thumbs-up.
Normally associated with tech giants like IBM, Google and Apple, or some
disruptive Tech City startup, artificial intelligence (AI) is not the first
thing to spring to mind when pondering Zuckerberg's 1.5 billion-strong
s... 阅读全帖 |
|
l****7 发帖数: 148 | 38 Nice, nice and nice.
Dreams for many cmg. Seems close, but could be still far away.
Credential and experience, if possible, will be very helpful for others.
Let's all CMG in line (steps takers, matchers........) keep hope up, keep
doing what we are doing, someday we will get it. Let's walk steadily, and
carefully. |
|
k**e 发帖数: 2728 | 39 ☆─────────────────────────────────────☆
meigui0714 (rose) 于 (Sun Sep 5 20:07:27 2010, 美东) 提到:
_____________________________________
I don't understand why some people feel scared after reading above post.
This is simple calculation:
Year 2008- Year 2007= 18403-18065=338
Year 2009-year 2008=18883-18403=480
Year2010-Year 2009=19392-18883=509
Is 509 big different from 480? I don't think so.
From NRMP report, " Seventy-senve more position (1.5%) were offered in 2010
compared with 2009 in inte... 阅读全帖 |
|
s*********d 发帖数: 335 | 40 Realized that wasted too much time, puzzle about the future and have no
clear goals.
Decide to focus on the exam in next two years, and have stuied for step1 for
half a year.
Just want to ask the people who have experience, is it possible to take all
the steps in two years as a postdoc and plan to match in 2013?
I am not a smart guy.
Thank you so much for sharing experience.
Good luck for the preparers and matchers!
|
|
s********o 发帖数: 3319 | 41 I am very sorry to learn many friends have not matched this year. Please let
us know if we 2012 matchers can be of any help ...
split
you |
|
m*******1 发帖数: 328 | 42 Well, the difference might be caused by an unwillingness to report. Some
will report after Friday.
68 is a conservative number for last year. A number of prematchers did not
report again when March came. The total number of reported prematchers+
matchers could be well beyond 80.
we
a
They
on |
|