v****s 发帖数: 1112 | 1 如何提取大批html文件中规则的信息?
有10w个html files,都是一致的表格类型, e.g.
Name |
="-1"> Mitbbs
|
比如这个数据段中要提取出 Name 和 Mitbbs 。每个html文件中都有大概10个这样的<
tr> |
用regex应该可以搞定,但是觉得应该有更现成的办法?谢谢!c*****t 发帖数: 1879 | 2 你是打算把 name, mitbbs 放到一个文件?是用 C/C++/Java,还是任何 language
都可以?
如果只是要放到一文件,awk 应该就可以很快搞定。
另外如果想最快速度搞定的话,可以充分利用 fixed string length 以及 fixed
text (也就是不需要用 regex,只需要用 strstr 就可以找到位置)。flex 可以
很简单。用 re2c 可能更快些。
size
【在 v****s 的大作中提到】 : 如何提取大批html文件中规则的信息? : 有10w个html files,都是一致的表格类型, e.g. : : Name | : : : ="-1"> Mitbbs : | :
|
g*****g 发帖数: 34805 | 3 I would use java+htmlparser
size
【在 v****s 的大作中提到】 : 如何提取大批html文件中规则的信息? : 有10w个html files,都是一致的表格类型, e.g. : : Name | : : : ="-1"> Mitbbs : | :
|
v****s 发帖数: 1112 | 4 thanks!
fixed string length估计不行,因为中间那些变量的长短不一样。
最终是要把这些提取出来的信息insert到mysql去。
语言不限,linux/win也都可以。。。。
好虫大哥的java html parser可能是最快的办法,今天就试试看!
谢谢二位牛牛!
【在 c*****t 的大作中提到】 : 你是打算把 name, mitbbs 放到一个文件?是用 C/C++/Java,还是任何 language : 都可以? : 如果只是要放到一文件,awk 应该就可以很快搞定。 : 另外如果想最快速度搞定的话,可以充分利用 fixed string length 以及 fixed : text (也就是不需要用 regex,只需要用 strstr 就可以找到位置)。flex 可以 : 很简单。用 re2c 可能更快些。 : : size
|