第3页 - 关于数据格式的讨论汇总 - 话题女王

全部话题 - 话题: 数据格式

w*********r
发帖数: 488

来自主题: Programming版 - 请问怎么用C++ import xls格式的数据？

有没有什么library有写好的function直接用来从EXCEL里面引进xls格式的数据呢？
本人超级初学者一名，各位大侠多指教啦~~~~~ 三伏天捂貂皮大衣略表谢意。

h*********n
发帖数: 256

来自主题: Programming版 - 问个关于数据到SQL数据库的传送和整合问题 (转载)

【以下文字转载自 Database 讨论区】
发信人: happysansan (happy inside your heart), 信区: Database
标题: 问个关于数据到SQL数据库的传送和整合问题
发信站: BBS 未名空间站 (Thu Feb 7 12:55:12 2013, 美东)
公司有很多tester，每个tester PC 都自己采集数据，最终会有数据文件，格式是.txt
文件，不同的tester数据的结构并不完全一致，但是比较类似。现在的任务是每个
tester的数据要收集到一台SQL server上，最终的目的是得到每台tester测试的数据然
后可以统一report。而且这一切不要人工的介入，也就是一切靠软件实现。我是主要作
硬件的，对软件只是粗浅了解。
问题比较大，请版上的大侠们指点指点。有什么办法可以实现，用什么programming
tool比较适合用。
谢谢。

s****y
发帖数: 503

来自主题: Programming版 - JSONP是不是只和浏览器有关？

Java EE 7中有一个标准JSONP-1.0，JSONP是不是也利用JSON的数据格式？
但是JSONP是不是只和浏览器有关？
我如果使用JSON格式通过Restful传输数据，但是不用浏览器访问，是不是用不着JSONP
？

S*******e
发帖数: 525

来自主题: Programming版 - Spark 和 Tensorflow 线性回归问题

刚开始看一些Spark ML和Tensorflow的基本东西，看到下便两个程序的结果很糊涂：
为什么这么大的差异？
https://github.com/backstopmedia/tensorflowbook/blob/master/chapters/04_
machine_learning_basics/linear_regression.py
在以上程序加一行 print("w=", W.eval(), "b=", b.eval())，得到结果是
w= [[ 3.5245235 ]
[ 1.50171268]] b= 1.14499
所以 y=3.5245235x1 + 1.50171268x2 +1.14499
我用同样的数据 (格式附后）
https://github.com/apache/spark/blob/master/examples/src/main/java/org/
apache/spark/examples/ml/JavaLinearRegressionWithElasticNetExample.java
结果是：
Coefficients: [0.3827... 阅读全帖

b*******b
发帖数: 613

来自主题: Software版 - 如何从excel以特定格式导出数据到word?

excel里面的数据如下格式：
A B C D

n***r
发帖数: 93

来自主题: TeX版 - EPS 图片转 matlab的FIG格式

想把EPS图片里的数据保存成MATLAB用FIG格式,方便读取数据.有人知道吗?

t*d
发帖数: 1290

来自主题: Biology版 - 关于16s rRNA sequencing, 请大牛们给扫扫盲.

16s RNA 的序列大概 1.6k 左右吧。如果过只有400左右多序列信息，很难设计探针。
比如说跟据A 菌的序列设计了一个探针 x，而且这个探针和 B 菌的400bp的序列不匹配
。但是我们不能说探针x 和 B 菌不会杂交，因为也许探针x 和B菌的未知序列能匹配
上。所以探针 x 对于 B 菌就没有判读能力了。
测序最后拿到手的数据格式并不重要，因为肯定有方法转换成你想要的数据格式，这个
一点都不难。不过我对 NGS 的 metagenomics 不懂，希望班上牛人可以讲讲这方面的
东东。

m*l
发帖数: 507

来自主题: Environmental版 - about GIS software

GIS是一个非常专业的行业，上几门课，做几个PROJECT只能是知道些皮毛。不象IT，网
上一GOOGLE能找出上万条东西，GIS入门很难，网上资源非常有限。所以上课还是挺重
要的。软件的话，学学ESRI的那些东西就可以了，目前它是垄断地位。
GIS应用很广，可以是偏软件应用，也可以是偏分析。
偏分析的话，要学些地理知识，统计分析。偏软件应用，要学些数据库，编程序的知识。
学校里学GIS主要是分析，在实际应用中，主要是数据格式转换以及地图的绘制。因此
，如果想在工作中很快上手的话，要好好学习一下常用的数据格式，SHAPE FILE，
GEODATABASE， CAD DRAWING之间的转换。另外一定要弄明白地球模型，DATUM，
PROJECTION， COORDINATE SYSTEMS是什么，之间的关系要搞清楚，常用的UTM， STATE
PLANE， WGS坐标系统得知道。
把这些东西弄明白了，就可以编点程序，做些更高级的分析，数据管理之类的应用了。
有果对计算机感兴趣的话，GIS还是挺好玩的。

l***e
发帖数: 108

来自主题: Statistics版 - 苦逼的R，连个数据都读不对！！！

带逗号的数据当然不是常用格式。逗号是美国的用法。很多国家用的是不同的格式，譬
如欧洲国家有用句点的，也有用单引号的。
Eviews SPSS是给不会编程的人用的，需要傻瓜化自动操作。R这种严谨的语言搞太多默
认的自动化会影响程序的稳健性。你想想office有些“智能化”是不是经常让人抓狂？

d******c
发帖数: 2407

来自主题: DataSciences版 - 板上R高手多，包子求R数据输出到CSV方法

现成包处理csv的方法是很多的，不一定能满足你的格式要求。你这样交错着输出，不
一定有现成的方法。
既然你的数据量不大，格式要求又比较特别，就写个for loop，一个个用字符串拼起来
也不会慢吧。

E*********g
发帖数: 185

来自主题: DataSciences版 - 有尝请教关于spark api java coding

思路是对的，格式可以很flexible。List, Vector, Tuple或多个数值做参数都可以
取决于你的score function用什么数据类型
不知道你这个tree function是什么意思
假定你的gbm模型scoring function是 score(Tuple), Tuple= (x1, x2,...)
val data = sc.textFile(data_file)
.map(_.split(","))
.map(x=> (x._1, (x._2, x._3, ...)))
//数据格式RDD(y, (x1,x2,...))。如果x太多的话，先把y split出来，
再split剩下的就好。 Tuple有22个参数限制，如果x多于22个的话，不妨直接用List

val scores = data.map(x=> (x._1, score(x._2))

,v

f**o
发帖数: 12685

来自主题: Military版 - 将军们看看复旦大学这个中国历史地理信息系统

http://chgis.fudan.edu.cn/chgis_1820/
清朝嘉庆二十五年（1820年）的主体数据是根据《中国历史地图集》第八册的地图直接
数字化。该数据编制的目的是为了检验CHGIS项目的数据格式、定义以及数据编制中的
一些技术问题。该数据中部分府界依据最新资料作了调整，同时苏南和浙北的8个府州
依据其他资料作了扩充。目前共有10845个点数据，362个面数据。其中，县以下8661个
点；厅县级1859个点；府州级301个点，320个面；省级24个点，32个面。

s*******u
发帖数: 676

来自主题: Military版 - “五眼联盟”峰会：再次要求科技公司“开后门”，访问加密数据（转）

美国领导的多国情报联盟“五眼联盟”（Five Eyes）7月30日表示，科技公司必须允许
执法机构访问加密数据，以防犯罪分子利用。“五眼联盟”还警告称，数据加密不应以
牺牲公众安全为代价。
据路透社、《卫报》30日报道，由美、英、澳、加拿大和新西兰组成的“五眼联盟”结
束了在伦敦为期两天的会议，会议旨在打击虐待儿童和恐怖主义，并要求移动通讯应用
WhatsApp等加密通信公司提供特殊的后门访问权限。
这两天的会议并没有公开议程，但英国的一些大臣私下表达了对WhatsApp的担忧，因为
该应用是脸书公司（Facebook）旗下很受欢迎的通讯软件，而脸书曾在2017年伦敦桥恐
袭事件中被恐怖分子利用，广泛传播恐怖主义信息。
“五眼联盟”在会后的一份声明中表示，科技公司应该在其加密产品和服务中纳入新机
制，允许政府有适当的合法权限，能够以可读和可用的格式获取数据。
英国内政大臣普丽蒂·帕特尔（Priti Patel）表示，“五眼”成员一致认为，科技公
司不应该开发那些会助长犯罪分子或是危害公众安全的产品或服务，包括端到端加密技
术。
负责电子通讯监听的英国政府通信总部（GCHQ）建议，硅谷公... 阅读全帖

发帖数: 1

来自主题: Military版 - “五眼联盟”：再次要求科技公司“开后门”，访问加密数据

h*********n
发帖数: 256

来自主题: Database版 - 问个关于测试数据到SQL数据库的传送和整合问题

公司有很多tester，每个tester PC 都自己采集数据，最终会有数据文件，格式是.txt
文件，不同的tester数据的结构并不完全一致，但是比较类似。现在的任务是每个
tester的数据要收集到一台SQL server上，最终的目的是得到每台tester测试的数据然
后可以统一report。而且这一切不要人工的介入，也就是一切靠软件实现。我是主要作
硬件的，对软件只是粗浅了解。
问题比较大，请版上的大侠们指点指点。有什么办法可以实现，用什么programming
tool比较适合用。
谢谢。

n****n
发帖数: 11

来自主题: DataSciences版 - 现在的大数据技术的价值和功用有些被夸大了

这不正是第一点讲的需要MAP－REDUCE或类似来做的东西吗？数据结构再复杂，再实时
，过程上也是数据的组织、整理和查询。从功能和意义上来说，和传统的结构式查询组
织是类似的，这不是什么新东西。况且，现在已经有不少的接口／shell 可以做到用
类SQL来调用或间接查询Hadoop，将来也会是最有潜力的一个方向，因为公司往往喜欢
沿用已有的资源、人力。
其次，你说的各种复杂结构的data Acquisition 之后呢？整理抽取数据之后的状态是
什么？需要储存吗？什么样的格式？在哪里？所有这些都是为了进一步建立模型分析做
准备。 Point在于,一旦数据整理好了，后面的建模分析过程就和以往类似了。
关于第2点，KNN已经是很老的东西了。但Point不在这里，是在说ML的弱势。如果这次
建模之后，结果“左拐”了，下一季度换新数据，你的算法告诉你‘右拐’了，你老板
问你为什么？你说不知道，数据就是这样算出来的。那他的STRATEGY怎么延续？
REVENUE怎么预算？

extraction

b***m
发帖数: 5987

来自主题: JobHunting版 - 来来来，实战演练一下：TB级别XML格式log文件分析

一个巨大的文件，XML格式，是一个access log数据库数据倒出来的结果。由于格式问
题，该XML文件不分行。有什么好办法做XML分析，目的是分析XML然后总结出里面某些
字样的出现情况。我现在用的是Perl，目前没找到特别合适的库。如果有C#的方案也可
以。大家集思广益吧。

N******u
发帖数: 11939

来自主题: Reunion版 - 急问关于160表格的存盘打印格式问题

父母在线填160表，遇到存盘格式问题。该表有十多页，每一页填完，页末都提示要“
SAVE”，将已经填写过的申请内容以文件形式保存在电脑硬盘中或U盘里。但是在实际
填写操作时，保存到电脑中的文件却是.DAT形式的文件，而不是示例中所给出的“Text
Document”类型文件。不过，经试验，如果中途退出后再次重新网上填写DS-160时，
这个DAT文件可以作为上次申请数据上传。
另外，由于最后存盘格式为DAT文件，无法拿到外面去彩打。
据说如果照片上传合格的，面试时不用再带照片去了，是这样的吗？
父母很着急，多谢各位：）

c*****t
发帖数: 2691

来自主题: PhotoGear版 - 救命啊，500G的移动硬盘变成了RAW格式!!!! (转载)

【以下文字转载自 Hardware 讨论区】
发信人: shangwangkk (shangwangkk), 信区: Hardware
标题: 救命啊，500G的移动硬盘变成了RAW格式!!!!
发信站: BBS 未名空间站 (Fri Sep 24 13:03:33 2010, 美东)
500G的移动硬盘有N个G的重要数据。现在莫名其妙的变为了RAW格式，无法打开。每次
打开都显示硬盘未格式化。哭死，大侠们救命啊！！！！！

c******e
发帖数: 7

来自主题: BuildingWeb版 - 网页中数据库格式显示问题

要设定数据在网页上的显示格式，就要了解相应语言的输出格式规定，
看看VBScript的Format系列函数吧。

a****a
发帖数: 112

来自主题: Windows版 - Re: [转载] help: 如何用fdsik分成NTFS格式的盘

一种方法是，在命令行下面执行convert.exe命令，可以把FAT分区
在不丢失任何数据的情况下转成NTFS分区。
另外，操作系统是NT,WIN2K的话，可以执行重新安装，在安装时选
择删除原来的分区，并重新格式化成NTFS格式。

l****n
发帖数: 711

来自主题: Chemistry版 - 求指点：关于LCMS数据的mzXML格式

mzxml本身就是xml格式，用tpp可以转换成dta或mgf等文本格式

啊？

m******o
发帖数: 189

来自主题: Faculty版 - 感觉和老板在沟通上有点问题，心里不吐不快，求各位法考题前辈指点

自己现在是理工科博士后，老板是业界超级大牛，另外还有一个小老板具体指导我的工
作。项目有另外2个博士后合作。
自己现在这篇文章处于收官阶段，所有的可行性实验都已经做完，即将进入大批量的数
据采集，老板对这个项目基本还算重视，但是也不算太过用心。也就是说过几天不和他
老人家提一下，他肯定会忘记这个项目进展到哪了。
问题就出来了，最近合作的一个博士后定错了一批样品，结果我们的进度被迫耽搁，我
想我们反正马上会有相当大的数据量，我就着手开始编一个自动处理数据的软件，预期
结果是原本手动处理要花掉几天的数据可以办个上午就能够用软件处理完，而且也很客
观，没有什么人为选择的机制在里面。
然后组会上我就present了这个软件的效果，并且实际展示了一下。然后小老板突然跳
出来说，有现成的软件你不用，你专门自己编一个干什么。然后我说我不知道有现成的
，大老板开始面露不悦。会后，小老板的博士后给我展示了他们说的所谓现成软件，其
实粗制滥造而且还不能直接读取我们实验的数据，我还得手动转换数据格式，然后再用
他们的软件手动处理，非常不方便。但是这个软件里的某些算法还是给我了一些启发，
于是我决定把这些算法... 阅读全帖

z***u
发帖数: 105

来自主题: JobHunting版 - 请教面试中的数据结构的设计题。

面试中遇到的数据结构设计题，请教有没有更好的办法。还有最后一问没有打上来，请
教如何设计最后一题。
问题：有很多不同型号的汽车要测试，每分钟采集一个数据，比如实时的MPG(假设都
是整数), 数据格式如下：["car1", 19], ["car2" 22], ["car3" 21]...
1. 问：设计一个数据结构来存储每个车最新的数据
答： unordered_map
2. 问：如何改进来存一天的数据，并且支持返回某时间段的MPG值，比如get("car1"
, 12：00，13：00）
答： unordered_map 加 map，如unordered_map< string/*car name*/, map time stamp*/, int/*MPG data*/> >.
map 是排好序的，用lower_bound，和upper_bound找出时间的区间返回值
3. 如果需要找出N个车，它们的平均MPG最高。如何改进已有的数据结构。
我给出的答案是multimap阅读全帖

g******n
发帖数: 120

来自主题: JobMarket版 - 招聘-兰州大学西部环境与气候变化研究院,旱区流域科学与水资源研究中心

旱区流域科学与水资源研究中心招聘信息
1. 气候模拟领域（1名）
岗位职责：承担或参与干旱气候特征及变化规律等科学研究；就气候变化对旱区流域过
程和水
资源供需影响进行模型模拟和评估分析研究；集成区域气候模式和流域水文模型，通过
模型模
拟理解区域或大流域尺度水文-气候过程相互作用及影响机制；改变或改进区域气候模
式中物
理参变量构成，提升模型应用于旱区气候-水资源系统研究的适宜性。
工作内容：科研工作应围绕和针对旱区流域科学和水资源典型问题进行，包括气候数值
模拟、
物理模型参数化、模型微结构调整或自主研发建模等；协同构建包括模型输入输出项和
底层数
据在内的地理、水文和气候数据库。
应聘条件：
（1）具有博士学位或等同研究经历的大气模式、气候模型、海陆过程科研工作者；在
上述领
域具有2年以上工作经历；
（2）拥有开发复杂模拟模型的相关证明或软件知识产权；在模型数据试验方面有论著
或发表
过高水平论文；
（3）掌握旱区流域科学及水资源研究领域前沿；熟悉UNIX或Windows操作系统及其界面
程序开
发（NCL, Ferret和IDL）；具备通用气候模型（GCMs）和区域气候模型(... 阅读全帖

g******n
发帖数: 120

来自主题: Returnee版 - 招聘-兰州大学西部环境与气候变化研究院,旱区流域科学与水资源研究中心

l**p
发帖数: 569

来自主题: Stock版 - 免费产生报税Schedule D-1软件，欢迎使用测试

sharebuilder应该在网上有Excel的数据，你再找找，如果找不到，
我帮你问一下另一位网友怎么得到数据的。
sogotrade只能打电话问customer service要数据，而且好像每个人
得到的数据格式不一样。如果你的数据不能处理，再问我吧。

u********e
发帖数: 4950

来自主题: Stock版 - [合集] 给大家推荐一个简单的获得股票daily数据的方法，适合懒人，基本

☆─────────────────────────────────────☆
Inference (桃李不言，下自成蹊) 于 (Sun Apr 24 14:50:48 2011, 美东) 提到:
用新版Mathmatica 8.0的Financial Visualization Package,可以获得免费的数据，很
方便。画图也很容易。。。
☆─────────────────────────────────────☆
aripple (aripple) 于 (Sun Apr 24 14:52:45 2011, 美东) 提到:
using it, many indicators,
but lack of backtesting functionality
☆─────────────────────────────────────☆
Inference (桃李不言，下自成蹊) 于 (Sun Apr 24 14:55:44 2011, 美东) 提到:
实际上，这个package的data基本上就是从xignite和yahoo finance上买的data... 阅读全帖

w********a
发帖数: 114

来自主题: Working版 - 感觉我现在危险了

刚进现在的公司2个月，项目进行的非常不顺。今天manager说把这个项目先suspend，
等过完年以后重新立项再继续。我感觉我要被赶走的趋势了。还有办法挽回吗？
刚进这个组，manager给分派了一个start project，要跟另一个组合作，他们组本来有
个project，从一个data source取数据，他们已经都做好了，现在要求他们组把取数据
的部分修改成从我们组取，中间有数据格式的转化。
我感觉对方组对这个项目非常抵触，要是做完了，他们组的工作量就减少至少一半。这
个项目对我们组有好处，但是对他们组没有啥好处。可能是这个原因吧，他们对这个项
目非常不积极。他们的manager感觉非常aggresive，对我写的代码很不屑一顾。他们组
的人对我的要求能拖就拖，比如要比较我产生的数据跟他们的数据，他们花了2周都没
有提供，只是忙他们自己的事。好在他们组有个中国人，对我帮助很大。当然，因为我
是新人，对公司的很多工具，很多design patter都刚开始接触，非常不熟悉。我本身
肯定有很大的问题。
今天跟manager说了一下我现在的情况，manager说先不做了，等过年后再... 阅读全帖

H***a
发帖数: 735

来自主题: Programming版 - 请教Matlab和IDL的处理数据能力差异

非常感谢各位的回复和帮助，特别感谢thrust和acectl。问题得到很好的解决，俺学习
长进之余来个小小结，也方便以后的参考。
俺土人一枚，之前几乎没用Matlab写过什么程序，一般也就GUI读读数据作图。这次比
较了Matlab和IDL读取大量数据的能力，对Matlab有了新的认识：Matlab在处理大量数
据和多维数组方面并不像“传说”中的那样比IDL差很多，关键是要使用合适的格式，
尽量按vector的思路来操作而避免过多使用for loop。
前面说过，数据是由一堆分散的文件构成，总量500MB。
组里的Share-Memory Linux server, 8个Dual-Core AMD Opteron(tm) Processor 8216
(CPU MHz: 2412.404, Cache size: 1024 KB), Totoal Memory: 66GB
IDL花时6秒，关键在于使用了preloaded的数据template，效率很高。
Matlab方面，一开始我使用了大量的for loop，耗时达5分钟以上！后来优化了内部循
环，速度提高到1分钟；再后来在thrus

d****y
发帖数: 910

来自主题: Programming版 - PHP/JSP/ASP等页面语言应该被慢慢抛弃了吧？

你的假设至少存在2个可能的漏洞：
1. 安全性和效率。安全方面，一个简单的但非常重要的原则是：不要相信客户端；不
暴露、不发送额外的数据给客户端。另外，在效率方面，也要求不把不需要的数据发送
给客户端，这对网络、对服务端、对客户端都是无谓的资源浪费。
2. Json也就是一个近些年才出来的新东西，不超过10来年。你想用一个你觉得比较好
的叫做Json的新东西来一统江湖？说到数据传输，有很多种数据传输方式和数据格式，
Json只是其中一种而已。XML比Json出来早好些年，而且有些很重要的特性，是Json完
全没有的。Json就是一个纯粹的单一的用于数据交换的数据结构，您能期望一种功能单
一的数据结构胜任复杂的现实环境的需求（仅就数据传输和交换而言）？
另外，“唯一需要的可能就是一个http协议用来传送json数据”。别这么小看HTTP好不
好？HTTP协议是比较底层的协议基础，而且将会继续流行很多年；没有HTTP协议，你所
说的client, server, Json在web上都是浮云。

全的

s********k
发帖数: 6180

来自主题: Programming版 - 请教大牛们这个系统怎么设计

系统的初步架构比较简单，有很多site，每个site有几百房间，每个房间有5个sensor
，有1K左右的sensor，每个sensor有定期数据和突发事件两类型数据传到local的一个
服务器，然后再import data到云端的host，并且，某些具有管理权限的人可以通过web
访问每个site到每个sensor的各种信息，和远程操作sensor，现场部署sensor的人可以
通过APP访问. Host cloud端做数据分析，提供web、APP的后台接口，支持多个sites，
并且发相应地notify到email或者其他定制途径
现在想尽快搭建起来系统，用python现成的轮子，现在有几个问题
1. local server，web，mobile和云端host的接口是否都用REST？还是有什么更简单的
办法？
2 .web和APP都不是高并发，哪种轮子最简单最好？后端，web分别用什么轮子？
3. sensor数据用XML还是JSON好？比较倾向于JSON，同时就考虑后台的数据库用SQL还
是NoSQL？我这样的应用适合用哪种？如果数据格式用JSON，单手后台用SQL，转换起来
... 阅读全帖

g*****e
发帖数: 16

来自主题: XML版 - XML到底有什么好处？

这里指广义的数据, 例如文档, 货单等等database不易存储
而Text or Html又无法结构化表示的数据.
如果Html文档转用Xml表述就更容易实现精确检索, 如果email, html, database
等等应用都用Xml表述, 就可以进行更加有效的数据共享
简单得说XML就是数据格式的标准化. 数据大同吧. :)

k*****o
发帖数: 1972

来自主题: Chemistry版 - 跟别人合作，对方只是提供了实验数据，第一作者是谁？ (转载)

数据全部是我处理的，然后文章的内容是我定的，我想写，老板抢去了.
实验呢，我也做过，不过一开始，我以为我的实验结果不够精确，因为别人发了一篇相
同的文章，用了更精确的技术。所以，老板叫我放弃做实验，采用别人的数据来分析。
不过现在我发现，我的结果，在不用那样精确的条件下得来的数据也能算出一样的结果。
就是说，我现在可以用我的方法来处理我以前的实验数据，得出一样的结论。而这个结
论，是我跟他们讨论的时候，灵光一闪的idea，后来计算结果跟我想的一摸一样。然后
用我写给我老板的报告来写文章。其实，我给我老板写的报告就是文章了，只是少了前
言。我还特意发信问我老板，说要不要我把文章按格式写好，他没理我。当然，实验材料要用他们的
再有，这些结论，我没说出来，没给他们发过去我写得报告之前，他们压根不知道这些
结论，还要我做其他的分析。我老板还为他不懂的地方，专门问了我一个下午，搞得我
很不耐烦地解释给他听。
那你觉得我应该第几作者？
我倒觉得他们啥都没做。很简单的结论都要我去模拟给他们看，不相信。实验也不难做。第一作者就参与了实验，文章是我老板些的。数据处理的方法，有我提出的，也有他们提出的，不

k*****o
发帖数: 1972

来自主题: Physics版 - 跟别人合作，对方只是提供了实验数据，第一作者是谁？ (转载)

数据全部是我处理的，然后文章的内容是我定的，我想写，老板抢去了.
实验呢，我也做过，不过一开始，我以为我的实验结果不够精确，因为别人发了一篇相
同的文章，用了更精确的技术。所以，老板叫我放弃做实验，采用别人的数据来分析。
不过现在我发现，我的结果，在不用那样精确的条件下得来的数据也能算出一样的结果。
就是说，我现在可以用我的方法来处理我以前的实验数据，得出一样的结论。而这个结
论，是我跟他们讨论的时候，灵光一闪的idea，后来计算结果跟我想的一摸一样。然后
用我写给我老板的报告来写文章。其实，我给我老板写的报告就是文章了，只是少了前
言。我还特意发信问我老板，说要不要我把文章按格式写好，他没理我。当然，实验材
料要用他们的
再有，这些结论，我没说出来，没给他们发过去我写得报告之前，他们压根不知道这些
结论，还要我做其他的分析。我老板还为他不懂的地方，专门问了我一个下午，搞得我
很不耐烦地解释给他听。
那你觉得我应该第几作者？
我倒觉得他们啥都没做。很简单的结论都要我去模拟给他们看，不相信。实验也不难做
。第一作者就参与了实验，文章是我老板些的。数据处理的方法，有我提出的，也有他
们提出

发帖数: 1

来自主题: DataSciences版 - 讨论，（Big）Data Engineer到底是个什么职位

感觉就是传统的数据库admin补充一些流行的大数据平台技术，主要还是维护数据，和
一些基本的数据格式转换，统计
但是说实话，真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事，这个是hadoop,spark的优势，让管理大量数据智能化（傻瓜化），但
是其实很多时候做数据分析或者机器学习建模，合理的优化设计往往能用（多核）单机
比跑在hadoop上的分布式并行算法还快得多。

b*********n
发帖数: 2975

来自主题: DataSciences版 - 讨论，（Big）Data Engineer到底是个什么职位

more coding work than dba

感觉就是传统的数据库admin补充一些流行的大数据平台技术，主要还是维护数据，和
一些基本的数据格式转换，统计
但是说实话，真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事，这个是hadoop,spark的优势，让管理大量数据智能化（傻瓜化），但
是其实很多时候做数据分析或者机器学习建模，合理的优化设计往往能用（多核）单机
比跑在hadoop上的分布式并行算法还快得多。

s******y
发帖数: 416

来自主题: JobHunting版 - Google上万号码工

^_^ 要真是这么简单，LinkedIn还用得着招这么多人么？用户是活的，行为是不可测的
。推荐系统从最简化的角度说要考虑用户随时注销和新增，因为什么原因被推荐，怎么
排序，能不能被加为联系人，个人信息是不是可见，个人朋友信息是不是可见。这还没
考虑全网搜索和实时更新问题。而且这些数据还要在大数据的基础上考虑：选取什么数
据库，如何设计数据存储，如何查询，怎么设计数据格式。还有使用什么工具开发，要
不要使用开源项目，版本如何控制，安全性怎么保证。这些都没法用HTML解决的。

X****N
发帖数: 376

来自主题: Stock版 - Time and Sales Data Feed

各位好！
我需要9:30 - 9:35 AM的历史Time and Sales。nasdaq.com只提供一天的Time and
Sales数据。
需要的数据格式是：日期，时间，bid, ask, price和volume。时间是每秒一个。比如：
2012/06/24 09:30:00 54.50 54.53 54.52 200 (交易200股)
2012/06/24 09:30:01 54.49 54.51 -- --- (没有交易)
...
由于数据量巨大，只需要20到40个股票的，每天头5分钟的每秒的变化。需要2到5年的
历史数据作分析。请问有没有高人知道什么地方能过提供这样的数据，非常感谢！

r*****e
发帖数: 4611

来自主题: Stock版 - 谁知道大智慧的dad数据文件怎么转换成txt或者excel文件么？

装了一遍国内免费的软件，好像就大智慧能输出实时的日线数据。
不过输出的数据是大智慧dad格式的
网上搜索到的几个软件，什么get advantage到处都是带毒的版本，向日葵转换装了没
法输入大智慧的数据。
还有什么办法么？

w*****n
发帖数: 214

来自主题: Stock版 - 股票免费基本面数据

请具体说一下什么样的基本面数据吧，下载到什么格式，有什么具体要求。
一般的数据，季报里面都有发布的，季报都是可以下的。但如果你只要提取数据的话，
而且要大量的话，看看你的broker里面能不能下载。

h*******e
发帖数: 9

来自主题: Working版 - 【请教】这种情况下我该怎么办?

去年PhD的最后一年, 导师那边没钱发了. 不过导师人还好, 当时给介绍了一个part-
time的活挣点生活费. 这个活是开发一个数据格式转换的软件. 通过聊天, 感觉他们是
希望以后把做的这个软件再加些其它功能, 包装包装去卖钱. 负责这个活的人似乎跟导
师很熟, 他们之间应该也有其它的合作. 我前前后后利用课余时间干了半年多的样子,
对方一共给了大概6000刀.
去年年底的时候做完了, 实现了所要求的转换功能. 然后给对方用测试数据演示了, 提
交源代码, 同时也把对方提供的用于开发的笔记本也还回去了. 我以为这件事就这么结
束了. 结果过了五个多月, 前两天对方又联系我, 说是通过我提交的源代码转换后得到
的数据是corrupted的, 也就是说跟我当时演示时的效果不一样.
看对方的意思, 现在他们得不到正确的转换后的数据了, 所以我需要为此负责, 把这个
问题解决掉. 而且对方还怀疑是不是在转换过程中引入了其它失真, 说最好设计测试案
例一一测试.
说实话, 我也特别不可思议为什么就不一样了. 但是开发用的笔记本已经还回去了, 我
现在也没有开发环境和源代码来检查到底哪出问题... 阅读全帖

d********0
发帖数: 318

来自主题: Immigration版 - 申绿材料：中文文章，如何利用“知网”的分析数据？

对于发表的中文文章，在“知网”检索后，检索后知网会给出一个表格，是中文格式。
请问：该如何阐述这些数据？直接翻译出来吗？还是，需要自己做一个对自己有利的数
据分析？
中文文章的数据分析，在移民官的眼里，究竟起多大的分量？
或者说，移民官不太关心这些中文文章的数据，而只看“SCI”文章的数据？
呵呵，我的这个问题，小儿科啦，毕竟刚刚开始，摸着石头过河，一点点的考古~！
各位大虾见谅~！

D*******l
发帖数: 5462

来自主题: PhotoGear版 - 求教：为啥要用raw格式出片再修而不能直接jpg出片再修？

懂也不给楼主解释，留着干嘛？
raw文件记录的是图形感应器的原始数据。jpg记录的是处理过的数据。
流程大概这样：
原始数据----》raw文件
原始数据----》内置压缩芯片-----》jpg文件
在曝光不足的情况下，raw可以轻松提（减）2档。

h*******e
发帖数: 9

来自主题: WaterWorld版 - 【请教】这种情况下我该怎么办?

a****a
发帖数: 5763

来自主题: Apple版 - OpenCL：图形处理领域的革新【14/23】

http://bbs.weiphone.com/read-htm-tid-527192.html
OpenCL
截至到现在，我们在《Snow Leopard：宝刀已铸成关二爷请砍人(连载8/23)》
中探讨了程序开发者们究竟该如何充分利用现有的硬件资源来进一步提升计算机整体性
能，在《Snow Leopard充满活力的心脏——LLVM和Clang(连载9/23)》中了解了更为新
颖与现代的编译构建，在《持续完善，构建编程友好型环境(连载10/23)》中谈到了
Snow Leopard中新添加的编程语言扩展功能，并且在《Grand Central Dispatch：迎接
挑战(连载12/23)》中认识了基于这些新编译器的更强大更务实的并行API。所有这些都
意在帮助开发者和操作系统本身最大限度地利用已有硬件资源。
然而CPU却不是唯一镶满晶体管的元件。当涉及独立计算引擎时，每一台Mac中
都有另一块硅片无疑是更为显要的，那就是GPU。
引用
图形处理单元(graphics processing unit,GPU)：是一种专门进行图形处理的
处理... 阅读全帖

a***a
发帖数: 149

来自主题: CS版 - 问个编程问题。关于大量数据排序。

硬盘有个文件，1G左右，有千万行数据，每行数据大概格式为：
user id, user name, user age, etc;
现在文件中的数据是按照 user id 排列的，想重新生成一个文件由 user age 排序。
请问该如何实现最好，机器的内存在 1.5G左右。 java 环境。
我感觉最笨的方法放到 Mysql 里面，让 database 帮忙做。

f********o
发帖数: 2181

来自主题: CS版 - 请教一个多维遍历问题

有一个多维向量, 每维上有多个数据
数据格式是多个字母+数字
比如 a1b1c1, b2c6k5, a2c3p8s4
每个数据的长度不固定, 但是字母不重复
在每维上都取一个数据
有什么办法能最快的找出所有有冲突的组合?
冲突指相同的字母, 数字不相同
比如 a1b1和a2b1冲突, 但是a1b1和a1c2不冲突
想了一天没想出个好方法, 请大家指教
多谢了

f*******h
发帖数: 1269

来自主题: Database版 - 请教一个问题，big data入库

你的数据库需要每小时更新保持精确吗?还是每天更新一次就行？
如果是前者, JDBC insert/update非常慢，不可取。
一个办法是，你别insert/update, 把所有数据用数据库的loading tool直接load进去
。然后对某个用户查询的时候写个stored procedure，把这个用户(phone number
primary key)的所有结果后续处理一下，产生tower的时间位置信息。
1000w个记录的loading时间，应该在2-3分钟。查询的时间，应该是1秒内，因为phone
number is the PK. 如果你查询更复杂，那这种办法也许不可行。
如果是后者，所有数据用MapReduce merge后(几分钟或者更快），输出表格需要的数据
格式
到文件，再用load工具导入，如果有24组1000w数据，半小时可以导入完。
另外，有不少loading tool支持并行导入，可以用多个CPU cores.

number

M********y
发帖数: 1964

来自主题: Hardware版 - NAS之数据安全 (转载)

【以下文字转载自 HomeLife 俱乐部】
发信人: MappleCity (石头), 信区: HomeLife
标题: NAS之数据安全
发信站: BBS 未名空间站 (Mon Sep 29 13:08:32 2014, 美东)
水一篇。
这年头，硬盘越来越大，视频越来越高清。家里没个10T、8T的都不好意思
说了。于是俺也跟风搞了个NAS，方案俺先前发帖说过。NAS4Free运行了老
旧的core 2 duo上，挂了4个3TB的硬盘，用ZFS格式raidz1。本来一直挺好。
忽然前阵子，听到机箱里传来嗒嗒的声音。心里一凉，这才2年呐。赶紧查看
一下，果然死掉一块，连BIOS里都见不着了，也不用自己修复坏道了。好在
还有保修。幸好俺还有一块某天deal时买的东芝3T，赶紧先换上应个急。步骤
很简单。新硬盘装上后，开机进系统，如下命令：
root#: zpool replace myraidz old_disk new_disk
然后系统经过漫长的N个小时，用zpool status查看，就发现pool状态由
DEGRADED回到ready了。
没想到，让人心悸的事情在几天后... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天