由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 如何提取大批html文件中规则的信息?
相关主题
编辑网页的时候怎么使浏览的时候不显示link啊?nook color看中文epub的问题解决了吗?
Wget 提交form的问题去年OO跟风整了一个黑白nook,先在还没开封
Amazon内推不少简历后的分享已解决:Nook Simple Touch Reader 读中文[原创]
大家有没有觉得新版的bbs字体出现巨大变化 (转载)[原创]Nook STR 读中文(改进法)
Safari Extension Tumblrnook touch 怎么读txt的中文书?
Sp2018是我的另外一个ID[重贴]nook: Calibre 转换一步法(原创)
boston校友会归来世博美学三部曲
比较一下,为什么火狐那么难看呢?Windows为什么要把calibri这么丑的字体设为默认
相关话题的讨论汇总
话题: font话题: tr话题: html话题: td话题: 提取
进入Programming版参与讨论
1 (共1页)




比如这个数据段中要提取出 Name 和 Mitbbs 。每个html文件中都有大概10个这样的<
tr>
用regex应该可以搞定,但是觉得应该有更现成的办法?谢谢!
:
:
:

:
:
:
v****s
发帖数: 1112
1
如何提取大批html文件中规则的信息?
有10w个html files,都是一致的表格类型, e.g.
Name
="-1"> Mitbbs

c*****t
发帖数: 1879
2
你是打算把 name, mitbbs 放到一个文件?是用 C/C++/Java,还是任何 language
都可以?
如果只是要放到一文件,awk 应该就可以很快搞定。
另外如果想最快速度搞定的话,可以充分利用 fixed string length 以及 fixed
text (也就是不需要用 regex,只需要用 strstr 就可以找到位置)。flex 可以
很简单。用 re2c 可能更快些。

size

【在 v****s 的大作中提到】
: 如何提取大批html文件中规则的信息?
: 有10w个html files,都是一致的表格类型, e.g.
:
Name
:
: ="-1"> Mitbbs

:
g*****g
发帖数: 34805
3
I would use java+htmlparser

size

【在 v****s 的大作中提到】
: 如何提取大批html文件中规则的信息?
: 有10w个html files,都是一致的表格类型, e.g.
:
Name
:
: ="-1"> Mitbbs

:
v****s
发帖数: 1112
4
thanks!
fixed string length估计不行,因为中间那些变量的长短不一样。
最终是要把这些提取出来的信息insert到mysql去。
语言不限,linux/win也都可以。。。。
好虫大哥的java html parser可能是最快的办法,今天就试试看!
谢谢二位牛牛!

【在 c*****t 的大作中提到】
: 你是打算把 name, mitbbs 放到一个文件?是用 C/C++/Java,还是任何 language
: 都可以?
: 如果只是要放到一文件,awk 应该就可以很快搞定。
: 另外如果想最快速度搞定的话,可以充分利用 fixed string length 以及 fixed
: text (也就是不需要用 regex,只需要用 strstr 就可以找到位置)。flex 可以
: 很简单。用 re2c 可能更快些。
:
: size

1 (共1页)
进入Programming版参与讨论
相关主题
Windows为什么要把calibri这么丑的字体设为默认Safari Extension Tumblr
应该听这个斯坦福教授的意见么?Sp2018是我的另外一个ID
宋体字在google 中国新闻版显得暗淡boston校友会归来
向大家推荐一个编程用的好字体比较一下,为什么火狐那么难看呢?
编辑网页的时候怎么使浏览的时候不显示link啊?nook color看中文epub的问题解决了吗?
Wget 提交form的问题去年OO跟风整了一个黑白nook,先在还没开封
Amazon内推不少简历后的分享已解决:Nook Simple Touch Reader 读中文[原创]
大家有没有觉得新版的bbs字体出现巨大变化 (转载)[原创]Nook STR 读中文(改进法)
相关话题的讨论汇总
话题: font话题: tr话题: html话题: td话题: 提取