第8页 - 关于数据格式的讨论汇总 - 话题女王

全部话题 - 话题: 数据格式

h****n
发帖数: 4960

来自主题: Hardware版 - 救命啊，500G的移动硬盘变成了RAW格式!!!!

重要数据没备份么?
找一些数据恢复软件试试吧

N****w
发帖数: 21578

来自主题: Hardware版 - 救命啊，500G的移动硬盘变成了RAW格式!!!!

重要数据只有靠备份，别想恢复

F****3
发帖数: 1504

来自主题: Hardware版 - 请问在Win7下怎样买此启动把一个盘格式化成NTFS

我搞的事情主要是磁盘i/o大，所以总共搞了40GB内存。其中25GB作为RAMDisk用。文件
大小是单个5到8GB. 所以FAT32搞不了了。
现在启动机器做下面三个事情。
1. 格式化H盘成NTFS
2. 拷贝数据压缩包data.rar到H盘
3. 解压缩
已经误操作好几次了，估计下次就会把硬盘不小心格式化。那就悲剧了。。。
所以希望搞一个script，每次启动自动做这些事情。因为机器在床边，所以一定要关机
的。
听说要用一个什么叫diskpart的程序。。。

c*****h
发帖数: 14923

来自主题: Hardware版 - NAS NTFS硬盘比Linux ex4格式的更容易恢复吗？

我对linux不熟，也木有linux
所以就windows server了，要坏了接随便家里别的机子就能恢复数据了。

o*h
发帖数: 27

来自主题: Hardware版 - 【求助】硬盘数据全部丢失，有希望恢复吗？

只要别往这个硬盘再写东西，找回来的希望还是很大的。一般的硬盘操作，即使是格式
化，其实也只是把分区表改一下，实际的文件应该都还在的。

y**b
发帖数: 10166

来自主题: Hardware版 - 20TB外置硬盘文件系统格式

没必要用raid0，存储数据嘛我就用jbod，比raid0可靠。买两块20TB，拿出一个做备份。
话说ext4虽说多少年前就号称支持多大多大硬盘，实际上软件工具还有16TB的限制，
还得编译一下文件系统工具，颇折腾了一阵才搞定。要说redhat这点真不如windows，
连个大硬盘文件系统都要用户动手。

b****y
发帖数: 169

来自主题: Java版 - java后端开发

以前没做过java，可能问题有点简单，请不要见笑。
刚去一个小公司，需要做一个简单网站，前端请了一个合同工，
后端实在找不到人了，赶我上架。
现在前端已经有一堆html和jsp了，后端还没开工。
前端已经给了一些需要后端提供json的数据格式。
请问如何开始？
我在eclipse里建一个什么project好，如何倒入前端的代码？
需要用spring，struct这些框架吗？
需要用maven管理吗？
follow 了几个servlet/jsp/spring/struts的tutorial但还是
没有太多感觉。
请问我该如何继续呢？
多谢？

m**********j
发帖数: 8645

来自主题: Java版 - java后端开发

看到这儿，说四句。
1）你们谁写的html和jsp？(炸听起来像是这个写的人已经走了，你们已经找不到了)这
些东西曾经用起来过吗？还是就是一堆从没上过任何服务器经过实际检验过的东西？
2）你说"前端已经给了一些需要后端提供json的数据格式"，是领导/同事/某程序员/项
目经理跟你说的？还是你自己看了那些html和jsp之后自己总结发现或找出的？
3）你现在别想什么mvc。所谓用不用框架或者用哪种管理方式，其实不是你楼主现在需
要关心的主要问题。很烂或很简单的东西也可以用框架，很复杂的东西也可以完全不用
任何框架。这完全，看一，你们现有的这些html和jsp是怎么写的，二，准备接手的这
个人对你们这些现有html/jsp的理解、他自己本人对某框架掌握的熟练程度、他自己开
发的习惯。
类比为吃橘子。人用工具比如刀，猴子就用手，兔子就用牙，鸡就用嘴。但结果是一样
的，都能把橘子吃了。
4）至于jsp，你把你自己的一个最简单的html文件的尾缀改成.jsp取代原有文件的尾缀
.html，你看看这个新文件是否可以在你的服务器上运行出来？它的页面和html的有什
么不同？

z****e
发帖数: 54598

来自主题: Java版 - 分享下多年积累的对JAVA程序员成长之路的总结zt

学习的话
java语言基础在大学里面就要完成
毕业之后再对一些基本的语法犹豫的话，这都属于不太可以的
然后是熟悉web相关的frameworks
spring, hibernate, jdbc, jquery这些
语言可能还需要sql, javascript, xml
数据格式可能还需要json, xml
这样大概一两年之后，觉得差不多可以了，出师了
然后是提高
ant, jvm本身, j2ee里面也有一堆东西
不要求你都懂，但是要看懂猪怎么跑，知道大概怎么回事
出了问题知道怎么google，很多人你让他google他都搞不定
所以只能掏钱去买support
其实还有ui比如swing, javafx, applet, webstart这些
android也算吧，但是这几个作为兴趣了解了解就是了
这几个也就是android有点搞头，其他几个都不成功或未成熟
然后再此基础之上，你再搞一些groovy, scala这些
甚至jruby, jython, rhino engine
现在新一波的框架还在不停地冒出来
hadoop, vert.x, rxjava这些，都是新生事物
但是都是从旧的... 阅读全帖

J*******n
发帖数: 2901

来自主题: Java版 - 要将数据同时生成JSON和XML, 应该先生成哪个，再转换成另一个

同步输出的话就直接serialize成两种格式不行么。。

J*******n
发帖数: 2901

来自主题: Java版 - 要将数据同时生成JSON和XML, 应该先生成哪个，再转换成另一个

同步输出的话就直接serialize成两种格式不行么。。

C********s
发帖数: 120

来自主题: Linux版 - 一行命令找出html中所有img src？

除非你的数据格式有严格控制否则这类问题不适合用正则表达式。找个 html parser
更合适吧。
如果你能确定 tag 全部在一行内，没有换行，tag 内没有比较古怪的字符，没
有 escape 字符，对结果要求不是特别严格，可以试用正则表达式。下面用 perl one
liner:
perl -e "m/

s****n
发帖数: 700

来自主题: Linux版 - 问题：如何打开搜索二进制文件

我有二进制文件，用less打开是这样的，
R<9C>^H^@^C^@^L^AG
7034KR4201E92355007001000000001401036362600085001030006400099004219040003603
5787400036939000990001081000980001534000970001349000960001301000950001280002
0184001000002072001010002040001020001318001030001756001040001455013740032004
20038003500410073600270041003000570044
从第二行的7034开始，数据格式我都是知道的。
我现在要做的是，
1. locate
2. check if the 11th element after is G
if is G go to step 3
if not stop
3. read element 6 bytes after (1st---6

r****t
发帖数: 10904

来自主题: Programming版 - 急! Python 如何从文件读取数据(整数) ~~在线等

scipy 里面的load_data用适当的参数控制格式，很灵活，你这样的txt file直接读成
array，就是一行解决。

k****e
发帖数: 100

来自主题: Programming版 - 请教Matlab和IDL的处理数据能力差异

MATLAB自己的格式mat读写还是很快的。但你说的这个差异，倒是很诡异，太大了，5分
钟这个记录很大，难道你读一个，赋值一个？

gm
发帖数: 189

来自主题: Programming版 - Unix 下文件格式问题

有个数据文件一共4列，想删掉第一列，保留剩下3列。在unix下怎么办。

s******u
发帖数: 179

来自主题: Programming版 - Fortran 90 中稀疏矩阵读取，什么样的数据结构实现最快

在fortran 90中，我将一个稀疏矩阵存成下面的数据格式：
TYPE:: rsm !Real sparse matrix
integer:: numbers !number of nonzero value in the matrix
integer,dimension(:),pointer::rows
integer,dimension(:),pointer::columns
real ,dimension(:),pointer::values
END TYPE rsm
然后用指针读取这个矩阵
TYPE:: rsmptr
type(rsm),pointer::p
END TYPE rsmptr
每次读取都是从第一个到后一个顺序读取。后面的程序中要对这个矩阵多次重复的读取(且是在内存中)
，这样的存法，读取的效率不怎么高。我也试过把一个矩阵中的元素存成一个node的数
据结构：
type:: node
integer :: rows
integer

k***r
发帖数: 4260

来自主题: Programming版 - Command line program如何显示runtime 状态数据

一般情况下是log message向上滚，不能显示表格一样的状态信息。
我想做成top输出那样，固定的格式，表格里面内容可以动态更新，
Java program，最好能在Linux/Windows通用，请问有什么好办法吗？

s****n
发帖数: 700

来自主题: Programming版 - 问题：如何打开搜索二进制文件 (转载)

【以下文字转载自 Linux 讨论区】
发信人: sallen (keep looking), 信区: Linux
标题: 问题：如何打开搜索二进制文件
发信站: BBS 未名空间站 (Wed Aug 18 13:52:06 2010, 美东)
我有二进制文件，用less打开是这样的，
R<9C>^H^@^C^@^L^AG
7034KR4201E92355007001000000001401036362600085001030006400099004219040003603
5787400036939000990001081000980001534000970001349000960001301000950001280002
0184001000002072001010002040001020001318001030001756001040001455013740032004
20038003500410073600270041003000570044
从第二行的7034开始，数据格式我都是知道的。
我现在要做的是，
1. locate
2.

l********a
发帖数: 1154

来自主题: Programming版 - 问个matlab 数据读入的问题

这个只能fopen,fscanf,fclose按照格式读取了

p**o
发帖数: 3409

来自主题: Programming版 - 哪种open source software 可以画这种地理分布图

取决于你的“地理分布图”的数据格式，
如果你有每个闭合区域连接点的坐标，可以用matplotlib来画
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotli
http://matplotlib.sourceforge.net/mpl_examples/pylab_examples/t

x****u
发帖数: 44466

来自主题: Programming版 - 主力程序员离职后怎么办?

我靠，你都觉得notes这种狗屁软件好了，我还不赶紧认输。
我当年用过一小段时间notes，感觉就像踩了一脚屎。这玩意的开发者根本就读不懂邮
件编码的RFC，数据格式错误几年也改不过来。

p*****2
发帖数: 21240

来自主题: Programming版 - 我也来说说web技术吧

顶。现在以javascript为编程语言，json为数据格式，衍生出一大堆web上的流行技术
。

z****e
发帖数: 54598

来自主题: Programming版 - 好虫，看看你的东东有没有问题？

车票肯定不是那么简单的数据格式
车票涉及到线路和座位
而线路就有客运和货运两种
都用同一个线路，这里面有调度的问题
operation research一个经典问题就是搞火车线路的调度

q****l
发帖数: 152

来自主题: Programming版 - 请教一个抓取网页内容的问题

用小猪SEO浏览器，如果数据格式复杂，需要学会用P语言，可以建立自动抓取任务

z*******3
发帖数: 13709

来自主题: Programming版 - 原来这个版是转行 CS 的

我查，看别人代码看晕了不是常事么？
别告诉我逆喜欢看别人代码
看懂了之后总觉得别人很装逼，而且很傻逼
tmd这么简单的东西搞那么复杂做什么？
谁不懂指针这个概念，但是你要看懂别人的指针管理
我艹，那真的是说要多难受就有多难受了
这种东西能托管全部托管掉，就象数据管理交给db
cpu管理交给os一样，有人作出工具来托管，为什么不用？
又不是只有内存被托管了，cpu和硬盘你写php时候有在乎过么？
没有嘛，还不都是随便抓个工具来就搞定了
顺便说一下老程序员的轶事
当初有个客户说数据格式将会是json，然后要求做一个搜索
也就是mapreduce，我当时就建议，用hadoop
结果丫的不同意，后来看它提交的文档
说要用group来做，我艹，我当天晚上就开始投简历了
一个月后就跳槽了，这种猪一样的队友，说什么都没用
与时俱进，与时俱进，你说你天天跟用foxpro的程序员一起干活
能有什么成就感？

z****e
发帖数: 54598

来自主题: Programming版 - 谁看明白这篇文章说的是啥？

如果说web service的话
是不是接近点？
数据格式都是json

P****9
发帖数: 177

来自主题: Programming版 - 各位大牛给分析下，这样转行行不行？

本人无计算机学位，想转行当码工做web和mobile。在本版潜水数月，被各位大牛渊博
的学识和深厚的吵架功力深深折服。在此恳请各位帮忙冷静分析下我的转行计划是否可
行。
%%%本人背景
*专业和学历：刚毕业烂校气象博士。
*身份：马上开始OPT做博后。
*编程经验：Fortran(计算), Shell script(批处理), awk & sed(文本数据格式处理）

%%%我对转行的打算
*方向规划：web development和mobile apps （倾向于ios）。web工作机会多，而且很
多mobile的工作也需要有web的技术，所以打算从web入手，以后再向mobile发展。
*入行策略：做自己想的web小项目攒经验，用时不超过一年（大部分时间可用于自学编
程和做项目），然后找小公司的入门工作。
*核心工具：javascript+html+css+MEAN(或者二爷提出的CANE）stack
多谢各位大牛先！

z****e
发帖数: 54598

来自主题: Programming版 - nodejs cluster和vert.x比较怎么样？

verticle之间一般不share data
如果需要share data，则需要通过msg bus来完成
先将需要share的data转换成json，然后发送给其他的verticle
因为json是所有语言都能接受的这么一个数据格式
那json自然就是immutable的，在发送和接收过程中是无法被更改的
好吧，至少msg bus不会尝试去更改msg，这样就不需要lock了
原理跟fp的多线程原理是一样的
但是vert.x很巧妙滴用这种方式，绕开了immutable这个概念
你不知不觉中就用了fp的多线程的那种方式，就是actor model
但是这种方式呢，有些人会说，太麻烦
ok，那就用map这些来分享data
那这个时候就需要做成immutable的object了
因为actor model之间的share datas必需是immutable的
否则会破坏single threadness
但是这个技能有些高级，一般人可以不用
如果需要用的话，这个就很容易理解
另外，vert.x的lock也有，是Cluster-wide locks
不是threads之间share data... 阅读全帖

s****n
发帖数: 700

来自主题: Programming版 - python数据处理的一个问题

我有数据格式如下，
date time product value1 value2 value3
..
..
..
..
there are 10 different type of product. we call it P1, P2, P3, P4,....P10
I want to calculate Min/Max, mean, std of value1/2/3 for given product
in a range of datetime.
so my input is,
dataset, $product, $begin_datetime, $end_datetime
output is,
min/max, mean, std
Thanks for your help！

g****u
发帖数: 252

来自主题: Programming版 - 有没有人觉得restful被高估了

我一直以为restful就是用JSON作为数据格式，用HTTP作为协议的API。
如果是的话，其实我觉得相比RPC, corba, thrift, gRPC啥的来说是一种简化，适合
快速叠代。
请版上的大牛指正。

b********0
发帖数: 62

来自主题: Programming版 - 有没有人觉得restful被高估了

应该不是数据格式和协议都不是强制的那些更像是common practice

w***g
发帖数: 5958

来自主题: Programming版 - 能用python去51240把笔顺动画下载下来吗？

这个网站的URL编码方式：
http://bihua.51240.com/e59d8f__bihuachaxun/
这是“坏”字的URL，其中e59d8f是坏的UTF编码的１６进制。
如果要查好，把er9d8f变成e5a5bd就行。
上面的图似乎是他们自己的数据格式，然后用HTML画的，不是图片。

srk

y**b
发帖数: 10166

来自主题: Programming版 - C++请教，使用c++ vector iterator后输出vector数据出错

先不管是否伪代码，要用一个东西就按规格来，能省去很多麻烦。三个毛病：
1.向量for循环都有很固定的安全格式，不要随便来。
2.const_iterator.
3.传vector一般应该引用。
把这三个改了估计代码也就正常了。

g****t
发帖数: 31659

来自主题: Programming版 - 面向数据的编程与面向对象的编程

我自己的代码里大量用你写的fp那种格式.
等于就是函数列表.
你最后那种语法是什么意思？in python就是：
fruit=['apple','orange']?
给list或者字典一个名字叫fruit？
这样也对。就是superset.

a******e
发帖数: 132

来自主题: TeX版 - Origin输出eps问题请教 (转载)

【以下文字转载自 Chemistry 讨论区】
发信人: alexorge (Alex), 信区: Chemistry
标题: Origin输出eps问题请教
发信站: BBS 未名空间站 (Tue Feb 6 15:45:28 2007)
请问在origin中作图，export成eps，在laTex中插图时候有什么讲究么？
我输出的eps一部分正常，另一部分却提示：
!Latex Erorr: cannot determine size of graphic in figure1.eps.(no
BoundingBox).
无法正常编译。
问题在于同样的操作export了好几个figure，只有一两个有问题，这些图的数据格式图
片设置都几乎一样。在‘option’的‘page’里面瞎动动，好了一个，还有一个还是不
行。不明白为什么origin有些输出正常有些不正常:-(
郁闷！
高手不吝赐教！

c*****u
发帖数: 357

来自主题: Biology版 - 写了一个较通俗的RT-PCR数据计算的简介

是什么格式的阿？怎么我点了下载出来的都是EXE的？可以发给我不？
c******[email protected]

y***i
发帖数: 11639

来自主题: Biology版 - 求助：老鼠centremere genome position和centremere seqence的数据

今天刚知道我需要找的是人的centromere序列或者位置（那哥们昨天说错了）。
1. 知道怎么找么？
2. 或者有什么地方可以找到？昨天有人给我一段mysql找老鼠的centromere
mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -N -e "show tables;"
mm9 \
| grep _gap | \
while read T; do mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -N
-e "select * from $T" mm9; done \
| sort -k8 | cut -f2- | head -24
我把mmp替换成hg19但没有结果出来，看来格式不同。你知不知道怎么改一下？
多谢。学到了些东西。

t*d
发帖数: 1290

来自主题: Biology版 - cluster不能识别我的芯片数据

十有八九，格式不对。

d***s
发帖数: 1062

来自主题: Biology版 - [求助]RNA-seq data怎么做broad的GSEA分析

做了一个rna-seq，core给了我们一个excel file。里面有一个很长的list of gene，
每个gene有对应的pvale，logFC，和每个sample的raw read counts以及FPKM。
GSEA是用来分析microarray data，但是网站上说也可以分析RNA-seq data。研究了半
天没搞明白。
1.不知道数据格式怎么转换。
2.不懂GSEA Preranked analysis是什么，这个prerank 是必须的嘛？
3.因为是RNA-seq，怎么选chip platform？
4.怎么让我的list里的gene name对应上MsigDB里的gene name？
求大牛帮忙。先谢谢了。

s******s
发帖数: 13035

来自主题: Biology版 - Molecular Index 一般用什么格式存储？

en, 现在PE多数都是两个文件了。
大多数工具align的时候，这些信息都默认丢掉了吧。其实理论上也可以做做
batch effect analysis, 不过可能大家觉得数据量够大了，不需要微调了，做做
bqsr就够了，最近说现在机器质量好，连bqsr可能都不用了。
Broad是BAM的忠实使用者，据说他们的机器读出来以后直接都搞成unaligned
BAM, 根本没有FASTQ这个中间状态。这里有BI的人过来确认一下么？
btw，Stanford好像最近扔了一篇文章出来，说hiseq 4000的新chemistry有问题，
做multiplex有5%-10%的错误率，不知道Illumina会不会跳出来撇清。

d*****w
发帖数: 124

来自主题: Computation版 - 数据转化,高手求教!

自己写一个格式转换程序, 用现成的软件生成动画片.
比方VMD

文

l******n
发帖数: 62

来自主题: Computation版 - 问个matlab和IDL数据兼容的问题，包子酬谢！

用idl保存成fits格式，matlab读fitsread

p*******y
发帖数: 18288

来自主题: Computation版 - 问个matlab和IDL数据兼容的问题，包子酬谢！

有data transfer的软件可以完成不同格式文件之间的转换，不过不知道能不能转.sav
的文件

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天