由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 5千至1万个左右的小网页采用什么结构存储呢?
相关主题
如何从html文件里提出中文C里面一个被分配了内存的指针如何知道分配了多少?
问一个在C里面转换十六进制的问题[合集] ofstream 无法使用binary mode的问题
C: struct 里面一个CHAR, 一个INT, 这个STRUCT 占多少字节?关于isapi
问个数据库的问题说起内存管理,记得bjarne讲的一个八卦
一个关于空间分配的问题怎么判断一块连续内存区域为零?
STL map变量的实际memory usage估算在windows下,如何手工或编程修改一个巨大(2GB)文件
弱人再问一个关于Java的问题一个很诡异的ifstream问题,求助~~
double to float的精度损失?唐骏开发Windows中文版 (转载)
相关话题的讨论汇总
话题: 文件话题: 万个话题: 千至话题: 存储话题: 网页
进入Programming版参与讨论
1 (共1页)
w*********r
发帖数: 73
1
我已经取了大约5千到1万个网页,分析,提取其中的内容。
提取出来的内容,保存的时候,需要有id, url, 正文,访问时间等等一系列内容。正
文一般都不大,可能1k字节是上限。
我该采取什么结构来存这些文件呢?这些文件存在一个大文件里即可,不需要分开存储
。 我能想到的是数据库和xml文件。大部分时间只是阅读这些文件,偶尔可能会排一下
序。怎么保存能够容易读取、排序呢?还有,阅读的时候,偶尔可能在某个文件上面加
上几行注释再保存。
高手们给我指点一下?
谢谢!
g*****g
发帖数: 34805
2
DB

【在 w*********r 的大作中提到】
: 我已经取了大约5千到1万个网页,分析,提取其中的内容。
: 提取出来的内容,保存的时候,需要有id, url, 正文,访问时间等等一系列内容。正
: 文一般都不大,可能1k字节是上限。
: 我该采取什么结构来存这些文件呢?这些文件存在一个大文件里即可,不需要分开存储
: 。 我能想到的是数据库和xml文件。大部分时间只是阅读这些文件,偶尔可能会排一下
: 序。怎么保存能够容易读取、排序呢?还有,阅读的时候,偶尔可能在某个文件上面加
: 上几行注释再保存。
: 高手们给我指点一下?
: 谢谢!

1 (共1页)
进入Programming版参与讨论
相关主题
唐骏开发Windows中文版 (转载)一个关于空间分配的问题
帮忙找个错STL map变量的实际memory usage估算
问个无厘头问题弱人再问一个关于Java的问题
问个内存的问题double to float的精度损失?
如何从html文件里提出中文C里面一个被分配了内存的指针如何知道分配了多少?
问一个在C里面转换十六进制的问题[合集] ofstream 无法使用binary mode的问题
C: struct 里面一个CHAR, 一个INT, 这个STRUCT 占多少字节?关于isapi
问个数据库的问题说起内存管理,记得bjarne讲的一个八卦
相关话题的讨论汇总
话题: 文件话题: 万个话题: 千至话题: 存储话题: 网页