由买买提看人间百态

topics

全部话题 - 话题: 数据文件
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*****1
发帖数: 473
1
来自主题: Computation版 - 如何合并两个数据文件 (转载)
【 以下文字转载自 Unix 讨论区 】
发信人: wz99331 (dotti), 信区: Unix
标 题: 如何合并两个数据文件
发信站: BBS 未名空间站 (Mon Mar 24 15:53:39 2014, 美东)
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
w*****1
发帖数: 473
2
来自主题: Statistics版 - 如何合并两个数据文件 (转载)
【 以下文字转载自 Unix 讨论区 】
发信人: wz99331 (dotti), 信区: Unix
标 题: 如何合并两个数据文件
发信站: BBS 未名空间站 (Mon Mar 24 15:53:39 2014, 美东)
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
w*****1
发帖数: 473
3
来自主题: DataSciences版 - 如何合并两个数据文件 (转载)
【 以下文字转载自 Unix 讨论区 】
发信人: wz99331 (dotti), 信区: Unix
标 题: 如何合并两个数据文件
发信站: BBS 未名空间站 (Mon Mar 24 15:53:39 2014, 美东)
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
b*********n
发帖数: 2975
4
来自主题: DataSciences版 - 如何合并两个数据文件 (转载)
creat a name variable as key, then use first left join second on a.name = b.
name

【 以下文字转载自 Unix 讨论区 】
发信人: wz99331 (dotti), 信区: Unix
标 题: 如何合并两个数据文件
发信站: BBS 未名空间站 (Mon Mar 24 15:53:39 2014, 美东)
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
p**z
发帖数: 65
5
CSV文件(或者其他类似的文本数据文件,比如tab delimited):
简单的全数据文件,只要用 numpy.loadtxt()。可是不够灵活,任何文本,数据不存在
等情形都会出错。
numpy.genfromtxt() 更加灵活,可以更改参数适应各种情况。
Excel文件:常用的包是xlrd。下面是一个最简单的例子
import xlrd
fn = r'c:\temp\test.xls’
wb = xlrd.open_workbook(fn)
sh = wb.sheet_by_index(0)
coldata = sh.col_slice(0, 4, 10)
firstdata = coldata[0].value
我在 Python 2.7 下用的 xlrd 版本还不支持 .xlsx 文件,所以 .xlsx 文件要先另存
为 Excel 97-2003 的 .xls 文件才可以。
w*****1
发帖数: 473
6
来自主题: Unix版 - 如何合并两个数据文件
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
w*****1
发帖数: 473
7
来自主题: Unix版 - 如何合并两个数据文件
我有两个数据文件,第一个有3000多行(每行代表一个人的家庭情况),第二个有
1800多行,每行代表一个人的其他情况。现在想把两个文件合并起来,第2个文件
里的人都包含在第1个文件里面。合并后的人数和第1个文件一样,有1200人的其
他情况没有数据,就视为缺省值。由于数据非常大,第一行也没有变量名,所以没法用
SAS和R。请问UNIX有没有可以这样合并的命令?谢谢!
o******h
发帖数: 1142
8
igo primo GPS的app
里面有一些数据,比如存储的路线,gpx文件,历史记录等等数据。
在itunes里面,没法传到电脑。只能backup iphone,使得这些数据不丢失。
有没有其他什么办法,能把这些数据文件导出到电脑?
w*****1
发帖数: 473
9
来自主题: Statistics版 - 如何合并两个数据文件 (转载)
我用了perl了,先用小点的数据文件可以合并起来,但是真正用大数据文件作为输入文
件的时候又不行了。你的一行perl能写出来给我看看吗?谢谢!
w*****1
发帖数: 473
10
来自主题: DataSciences版 - 如何合并两个数据文件 (转载)
我用了perl了,先用小点的数据文件可以合并起来,但是真正用大数据文件作为输入文
件的时候又不行了。你的一行perl能写出来给我看看吗?谢谢!
s******a
发帖数: 184
11
我有1000个数据文件存在一个目录里。我现在有一个给定的字符。在R里有什么方法可
以查到哪些文件有这个字符。
w*****1
发帖数: 473
12
来自主题: Statistics版 - Re: 如何合并两个数据文件 (转载)
【 以下文字转载自 DataSciences 讨论区 】
发信人: wz99331 (dotti), 信区: DataSciences
标 题: Re: 如何合并两个数据文件 (转载)
发信站: BBS 未名空间站 (Wed Mar 26 16:57:38 2014, 美东)
我想把这两个文件合并起来。gtriple.txt有3000多行,gws只有1800多行,我
希望合并以后和gtriple一样多行,而且他们的合并以两个文件的第一列(ID)为匹配,
合并好以后的缺省值(missing data)用0表示。我用这样的命令结果不对,出来的有
4000多列,大家能否帮我看看怎么回事?谢谢!
join -a1 -e "0" gtriple.txt gws.txt > gws.ped
E**********e
发帖数: 1736
13
下了版上上传的sas 软件,可是一些数据文件。 可以帮忙给我发几个文件,好让我
play around 来学习sas? 谢谢。
w*****1
发帖数: 473
14
来自主题: Statistics版 - 如何合并两个数据文件 (转载)
但是我拿到这个数据文件的时候就没有变量名啊,可以重新加上变量名吗?问题是有几
万列呢,就是说有几万个变量呢。而且第二个文件非常大,是gwas 的genotype data
,用R光读进去就一直读不完呢。
m**********w
发帖数: 4161
15
【 以下文字转载自 PDA 讨论区 】
发信人: mountainview (山景城), 信区: PDA
标 题: Vista机器重装后还能找回之前的数据文件吗?
发信站: BBS 未名空间站 (Sat Nov 17 21:59:33 2012, 美东)
好像有个重要目录没备份。刚重装完,新数据还没上去。
m**********r
发帖数: 122
16
我有一个数据文件,里边某些cell 包含字符“,”。我用如下的code
test1data<-data.frame(read.table("test1.csv",sep=",",header=FALSE,
stringsAsFactors=FALSE,quote=""),row.names=NULL)
但是读入的数据却从16列变成了18列,这是因为那个包含“,”的cell 被分开了。可
我已经用了quote=""的option.
s****n
发帖数: 700
17
我的数据文件如下,
T1 x11 y11 x12 y12 x13 y13.................x_1n y_1n
T2 x21 y21 x22 y22 x23 y23..... x_2n y_2n
....
Tn xn1 yn1.................................................... x_nn y_nn
我需要一个linux下的工具能把没一行都画成一个图片, 然后把N个图片按照时间顺序做成一个动画。 最好还可以让我自己控制跳转到哪一个时间段.
w*****1
发帖数: 473
18
来自主题: DataSciences版 - 如何合并两个数据文件 (转载)
R 是可以做的,但是有个数据文件有5个G,读很久都读不进去。
a****k
发帖数: 3457
19
一个文本数据文件A.txt,如下格式:
12,34
24,45
21,33
05,44
。,。
每行两个数据,用逗号分开。有N行(N不大于100).
现在要求将A.txt中第一行的两个数据写入文本文件1.txt的第二行和第三行指定位置,
取代原来的数据;将A.txt中第二行两个数据写入文本文件2.txt的第二行和第三行指定
位置,取代原来的数据;以此类推,将A.txt的第N行数据写入n.txt文件的第二行和第
三行指定位置,有N多个文本文件。
被修改的文本文件有相同的格式。如原来的1.txt格式如下:
DataSet=1
low=01
high=05
。。。。。
修改后的1.txt为:
DataSet=1
low=12
high=34
。。。。。
要求写一个VB小程序实现
a******k
发帖数: 1190
20
来自主题: Linux版 - [请教]文件输入 (转载)
【 以下文字转载自 Programming 讨论区 】
发信人: aablackk (black), 信区: Programming
标 题: [请教]文件输入
发信站: BBS 未名空间站 (Fri May 29 16:20:42 2009)
我需要在一个perl程序里面调用一个可执行文件
这个可执行文件使用数据文件作为输入
我有数据,
但是因为我不想把这些数据写到文件里面,再使用文件进行输入,
而想直接把这些数据传递给这个可执行文件
请问有没有什么办法?
l********s
发帖数: 358
21
来自主题: Programming版 - 问C++文件路径的问题
比如我有个叫Project的文件夹,里面有程序的可执行文件exec和数据文件夹data。
当我运行程序 $ ./exec, 程序会从data文件夹的文件比如data0.txt读相应的数据。
我的想法是如果我在source code里面给出相对的路径,比如./data/data0.txt,这样
我直接运行./exec时可以找到data0.txt,因为运行exec的当前文件夹和data相同。但
是如果我用perl来调用程序exec时,./就变成了perl文件所在的路径,就找不到我要的
文件。
但我又不想改成绝对路径,因为我希望我把程序copy到其他机器上也可以运行。我想到
的解决办法是给个environment variable比如叫$MYPATH,在程序运行前把$MYPATH改为
数据文件的绝对路径。
但我还是觉得麻烦,有没有办法在exec运行可以提取到exec运行的绝对路径,不管我是
直接运行或者用script,这样我就有办法得到数据文件的绝对路径?
thx!!!
a******k
发帖数: 1190
22
来自主题: Programming版 - [请教]文件输入
我需要在一个perl程序里面调用一个可执行文件
这个可执行文件使用数据文件作为输入
我有数据,
但是因为我不想把这些数据写到文件里面,再使用文件进行输入,
而想直接把这些数据传递给这个可执行文件
请问有没有什么办法?
x******n
发帖数: 9057
23
但是重写大文件再现实中很少需要的,一般的用户数据文件都比较小,比较大的基本只
有数据库的例子,而数据库是不依赖文件系统自己直接管理磁盘空间的,支持块里有气
泡。大的文件需要重写的例子有,比如sphinx的全文索引,但是很少。
你如果需要经常重写大的数据文件,可以考虑:
1. 使用多个小的数据文件,代替单个大文件
2. 使用一个delta文件,定期和主文件合并
3. 使用SQLite数据库
x******n
发帖数: 9057
24
但是重写大文件再现实中很少需要的,一般的用户数据文件都比较小,比较大的基本只
有数据库的例子,而数据库是不依赖文件系统自己直接管理磁盘空间的,支持块里有气
泡。大的文件需要重写的例子有,比如sphinx的全文索引,但是很少。
你如果需要经常重写大的数据文件,可以考虑:
1. 使用多个小的数据文件,代替单个大文件
2. 使用一个delta文件,定期和主文件合并
3. 使用SQLite数据库
h**o
发帖数: 548
25
来自主题: Software版 - Excel文件回错位吗?
我有一个excel的template文件,是别人作的, 包括”Raw date”, “Figure”, “
Table” 等项。其中 “Figure”, “Table”把”Raw date”中的信息用图表的形式
显示出来。我只要把自己的原始数据文件(myfile.txt) import到这个template 的文件
里去就行了。
问题是当我import我的文件名(myfile.txt)后,选“raw date”项, 我的数据可以正
确显示,格式也是正确的, 但选 “Figure”, 图画的乱七八糟的,选 “Table”,
表格里都是”#REF1”的字样。
请问是什么原因那?是不是那儿错位了?可是 “raw date”项, 我的数据可以正确显
示,格式也是正确的啊?template 本身应该没问题,被人用过 好多遍了。
附:
我打开文件的步骤是这样的:
打开template file,
选中template file 的“raw date”项,
到excel 的Data 菜单, 选:refresh data, 然后 excel 就要我输入我的文件名
myfile.txt, 然后我就应该
c**c
发帖数: 2593
26
或者比较原始而安全的做法,反正要传大文件,就写一个script来做sftp操作
好了,在两台机器上都跑。在每一边程序算完一个timestep都调用这个script,
这个script先进入sftp,把数据文件(比如A)上传到对方机器上,因为数据量
大,要传一段时间,传完后立即用rename命令把对方机器上的文件名改成B,然
后这个script退出sftp,进入循环等待,一直到检测到自己指定目录下出现文
件B,立即再把它改回文件名A,然后script退出,文件A这时就可以作为下一个
timestep的输入文件了。两边都是上传以后等待,来回改文件名算是最原始的
同步方式,呵呵,不过如果没有太复杂的要求的话,实现起来倒是简单方便。
h*********n
发帖数: 256
27
【 以下文字转载自 Database 讨论区 】
发信人: happysansan (happy inside your heart), 信区: Database
标 题: 问个关于数据到SQL数据库的传送和整合问题
发信站: BBS 未名空间站 (Thu Feb 7 12:55:12 2013, 美东)
公司有很多tester,每个tester PC 都自己采集数据,最终会有数据文件,格式是.txt
文件,不同的tester数据的结构并不完全一致,但是比较类似。现在的任务是每个
tester的数据要收集到一台SQL server上,最终的目的是得到每台tester测试的数据然
后可以统一report。而且这一切不要人工的介入,也就是一切靠软件实现。我是主要作
硬件的,对软件只是粗浅了解。
问题比较大,请版上的大侠们指点指点。有什么办法可以实现,用什么programming
tool比较适合用。
谢谢。
l*******g
发帖数: 27064
28
来自主题: Automobile版 - 田托数据三宝
人说是从nhtsa的投诉文件分析来的,
我验证的当然是我计算出来的,focus,corolla,fusion,camry这些
结果一样我当然认为对方数据是完全正确的,什么叫不同来源,明明都是同一个来源,
nhtsa
我还能一个个都验证一遍?那我还引用过屁啊
直接从nhtsa的数据文件自己算好了
尼玛之前我说nhtsa的数据你们诟病说我加工的,屁股里出来的
非要说婊子媒体cr的才是正确的
现在尼玛又说什么nhtsa是官方数据了
变脸之快令人咂舌
就算尼玛kia的数据不对,也改变不了丰田投诉高,整体现在比美国车差的事实
h*********n
发帖数: 256
29
公司有很多tester,每个tester PC 都自己采集数据,最终会有数据文件,格式是.txt
文件,不同的tester数据的结构并不完全一致,但是比较类似。现在的任务是每个
tester的数据要收集到一台SQL server上,最终的目的是得到每台tester测试的数据然
后可以统一report。而且这一切不要人工的介入,也就是一切靠软件实现。我是主要作
硬件的,对软件只是粗浅了解。
问题比较大,请版上的大侠们指点指点。有什么办法可以实现,用什么programming
tool比较适合用。
谢谢。
s*****n
发帖数: 839
30
来自主题: Programming版 - 怎样用Python选一部分数据出来
我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
么大的文件。
想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
这样的工作。 然后把选出来的小块数据读到数据库里去用。
有没有大侠给指点一二?
怎么做啊? 急等。
谢谢!
N******K
发帖数: 10202
31
如果有树形文件结构就好了 : 我说的是一个文件 不是目录
class object
{
member1;
member2;
...
memberN;
}
objest::save(FileName_object)
{
保存这个类的信息:有几个member,每一个是什么类型的, member数据文件的名字
自动生成 FileName_member1, FileName_member2, 。。。,FileName_memberN
//保存各个成员
member1.save(FileName_member1);
member2.save(FileName_member2);
...
memberN.save(FileName_memberN);
}
这样可以递推执行 最后整个类存到了一个树形结构的大文件中
不知道有没有现成的方案?
m**********n
发帖数: 34
32
来自主题: Statistics版 - 如何从sas output里读入数据。
Does the previous example code work for your case?
Do u have PROC REPORT code in your source code or you only know this file
comes from PROC REPORT code.
And what exactly is your format of 列表文件?
怎样从一个.l10列表文件里读入数据成sas数据文件?格式左上有header,右上是page
number,上面有title,下面有footnote,中间一条虚线上是variable labels,虚线下
是变量值,内容是proc report输出,其中左边几列是order variable,所有变量都是
flow的
a****e
发帖数: 7
33
来自主题: BuildingWeb版 - 求助关于Upload 文件的问题
列位.
在下的project 多灾多难. 如今又遇新问题.
目前使用ASP制作网站, 其间夹杂着些ActiveX控制.
由于本人的网站需要客户端上传一个数据文件, 数据量较大,
通常20几兆. 所以我在网上找到的关于Upload文件的例子, 只能传送
4MB左右就因为超时连接失去连接.
有没有象 www.freedrive.com 做的那种上传大文件的方法.
快过年了, 就请各位行个好吧, 扒拉弟兄一把.
r*****e
发帖数: 4611
34
装了一遍国内免费的软件,好像就大智慧能输出实时的日线数据。
不过输出的数据是大智慧dad格式的
网上搜索到的几个软件,什么get advantage到处都是带毒的版本,向日葵转换装了没
法输入大智慧的数据。
还有什么办法么?
L******r
发帖数: 199
35
在一个文本数据文件中
每行数据分5个域,前面4个域用空格分开,最后一个用tab分开,
怎样把文件读取到MySQL中?
谢谢
p*****y
发帖数: 1386
36
【 以下文字转载自 Computation 讨论区 】
发信人: pppiggy (PP小白猪), 信区: Computation
标 题: 问个matlab和IDL数据兼容的问题,包子酬谢!
发信站: BBS 未名空间站 (Thu Nov 29 21:18:31 2007)
就是怎么能在matlab里load在IDL里保存下来的数据文件啊?IDL里面的数据文件只能存
成.sav的格式吗? 谢谢!!!
J*****n
发帖数: 4859
37

因为有些数据操作,统计性很强,需要用其他语言比如C++或者R实现。
这里目标步骤就是:
1。先用SP作些简单的处理,
2。然后调用外部的程序作更加复杂的处理,
3。最后把那些外部文件生成的数据文件,重新倒回到SQL中。
所以希望保证2到3之间是单线程处理。
谢谢。
c******8
发帖数: 3170
38
谢谢大家帮助。
大部分数据文件在ubuntu USB drive启动下,被move到另一台机器上。
遗憾的是,发现一些照片文件不能view了,估计是damaged了,怎么才能恢复?
还有ubuntu到拼音不如google pinyin法好。 有没有类似的linux pinyin法可以安装。
谢谢
p*******9
发帖数: 801
39
来自主题: Computation版 - Matlab 读取文件的问题
MATLAB读取数据的过程中,在数据文件的末尾总是有一个异常的字符,MATLAB无法辨识
,但是在转换过程中总是报错,说是格式不正确,怎么能把它删除啊,手动可以删除,
但是文件多,不能一一手动,请问怎么用MATLAB来自动实现?
谢谢!
p*******9
发帖数: 801
40
来自主题: Computation版 - Matlab 读取文件的问题
MATLAB读取数据的过程中,在数据文件的末尾总是有一个异常的字符,MATLAB无法辨识
,但是在转换过程中总是报错,说是格式不正确,怎么能把它删除啊,手动可以删除,
但是文件多,不能一一手动,请问怎么用MATLAB来自动实现?
谢谢!
q**j
发帖数: 10612
41
来自主题: Statistics版 - 请问如何用R download大数据文件。
以前用R下载一个大的数据from SQL database with RODBC package. 但是下载了一半
就fail了。我以为R不能够干这个事情。可是最近看了一个matlab的code。和R有类似问
题。解决办法就是每次下载一部分,然后再拼起来。请问R可以这样搞吗?如何写code?
我failed的code是这个样的:
library(RODBC)
Connection=odbcConnect("xxx;uid=yyy;pwd=zzz")
S=(c("select *from warehouse..tablex"))
Link=sqlQuery(Connection,S)
这样对小文件可以,大文件就不行。
c*******7
发帖数: 2506
42
比如说有个目录下面有一些文本数据文件(非SAS data file),但是因为系统的原因
,文件后缀是不规则的,比如xxxx.f09这样的。如何在SAS里面产生一个数据,用这些
文件名作为一个变量的records呢?
M*Q
发帖数: 54
43
来自主题: DataSciences版 - 如何合并两个数据文件 (转载)
OP的文件估计是两个文本文件,csv之类的?load进database,然后按照
楼上的办法就可以了。另外,3000行的数据读入到Python, R里面应该也
没有问题的(不知道有多少column)。至于shell下面的工具,我就不知道了……

b.
L*******g
发帖数: 913
44
来自主题: Programming版 - 请教用Mathematica输出mesh数据 (转载)
【 以下文字转载自 Computation 讨论区 】
发信人: LocalKing (Yeah Baby!), 信区: Computation
标 题: 请教用Mathematica输出mesh数据
发信站: BBS 未名空间站 (Thu Aug 21 00:29:20 2008)
Mathematica里有函数f(x,y),请问如何把x, y, f(x,y)的值按列输出到一个数据文件
里。
最后需要用别的软件读此文件画2D mesh图。
最终格式最好是相当于C的
for(i=0; i x=i*dx;
for(j=0; j y=j*dy;
fprintf(fp, "%f\t%f\t%f\n", x,y,f(x,y));
}
}
在线等2小时,多谢。
N******K
发帖数: 10202
45
我有一个数据类 里面很多成员
成员1 是一个矩阵
成员2 是一个图
成员3~10 是 一些数字
我现在是这样保存这个类
dataobject.json 存储这个类的大致信息
有多少个成员啊
每一个是啥类型
每一个成员的简要信息:比如矩阵是 10x10的 double精度
dataobject.member1.data 存贮 矩阵 二进制方式
dataobject.member2.data 存贮 图 二进制方式
dataobject.member3to10.data 存贮 name-value pair 文本方式
这样这个类对应很多数据文件
如果更加复杂 就得变成了dataobject.memberX.memeberY.memeberZ.data
请问还有其他什么办法?
n******e
发帖数: 2
46
来自主题: Computation版 - 数据转化,高手求教!
从计算机模拟得到的数据,包含一个系统从T=0 到 T=100 的演化过陈. 放在一大的XYZ文
件中.
如何生成这演化过程的电影文件? 从源XYZ数据文件?
先谢过!
p*****y
发帖数: 1386
47
就是怎么能在matlab里load在IDL里保存下来的数据文件啊?IDL里面的数据文件只能存
成.sav的格式吗? 谢谢!!!
r***k
发帖数: 13586
48
来自主题: Statistics版 - 如何从sas output里读入数据。
怎样从一个.l10列表文件里读入数据成sas数据文件?格式左上有header,右上是page
number,上面有title,下面有footnote,中间一条虚线上是variable labels,虚线下
是变量值,内容是proc report输出,其中左边几列是order variable,所有变量都是
flow的。
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)