第8页 - 关于数据源的讨论汇总 - 话题女王

全部话题 - 话题: 数据源

g*****g
发帖数: 34805

这个有啥复杂的？两个数据源表都是不变的，结果表的所有结果也是
互相独立的。对于每一项，起一个Job，扔进Threadpool算就是了，
看机器强弱设定一下线程数即可。
别说supercomputer，整一群台式机都搞定了。

5000
1
[i

l*******s
发帖数: 1258

来自主题: Programming版 - 哪个框架最适合快速开发手机app后台的web service？运算量比较

正在做一个个人的小project，基于地理位置的APP。
基本过程是：用户输入当前的位置，或者某个keyword，服务器接到query后，一通计算
，返回结果给用户。
其中，服务器运算量比较大，涉及到machine learning和NLP。几乎每次query都要run
一次classifier。没办法，数据源通过API得到的，人家不让储存，所以不能预先计算
好放在那里。当然，我会用cache尽量减少些运算量。
现在后台的machine learning和NLP部分已经做好，大部分是research work，model啥
的都已经弄好了。剩下的就是纯粹的engineering work了。
可以的话，打算web，ios，android等客户端一起上。其实客户端就只起个显示作用。
以前没做过这种web service，只知道手机和server用json通信，至于用啥现成的框架
合适，就不知道。
要求：快速开发，并发性能不能差，我已经写好的ML和NLP的java API容易嵌入，支持
cache和扩展，容易服务器迁移（谁知道用哪家的服务器，初期估计要迁移个几次），
免费开源，最好是jav... 阅读全帖

t****a
发帖数: 1212

来自主题: Programming版 - Indiana大学的牛人

刚查了一下这位牛人，他在Friedman，也就是王银曾师从的大牛，scheme的作者手下做
postdoc。和Friedman合著The reasoned scheme。
今天Clojure/West下午的主题多和core.logic有关。我没用过，不过看起来和cascalog
语法有些相似。看起来很像类SQL的查询语言，但是要更加灵活。今天下午的talk中有
个做fraud detection的公司似乎在用这个做data mining。
教主的Datomic好像是值得看的东西。似乎已经把多种数据源比如sql数据库，amazon
dynamo db等接口抽象好了。
这里有懂Datomic的同学能给个介绍吗？

z****e
发帖数: 54598

来自主题: Programming版 - 很多东东要是我来设计，会很不一样

你怎么保证系统在ms级？
我就问你，数据源在哪里？票的数据和钱的数据，这两个往往是分离的
而且是地理位置上的分离，一个在北京，一个在上海，正常
你怎么保证交易在这两个之间进行可以实现ms级？

z****e
发帖数: 54598

来自主题: Programming版 - 好虫，看看你的东东有没有问题？

数据源本身就是分散的
怎么可能做到单机一条龙服务？
钱肯定在银行的，票肯定在铁道部的
这两个一定不会变成一个单机系统
这里面怎么优化都会有这样那样的问题
要正视这些问题，这些都是系统的一部分，都会让系统挂掉
而实际上那次出事让系统挂掉的就是web，而不是什么app server
app server又没事，优化什么？为什么要换楼主来做？
app server很少出事，我就没遇到过有app server撑不住的时候
除了静态页面web server，就数app server最健壮了，除非搞科学计算
否则不需要单独处理app server，机票没有什么太过于复杂的科学计算
而且一般太复杂的科学计算也不会放在app server上做，放到hpc上去算的概率更大
一般都是web或者persistence出事
动态页面server以及db都是常出事的地方
当然这对于楼主来说，那都是别人的事

z****e
发帖数: 54598

来自主题: Programming版 - 魏老师的方案

again
legacy system怎么办？
我不是问你数据源在哪
问的是，当你把这些数据全部读入单机内存之后
其它现有的五六个系统，怎么办？全部跑这台单机上去读内存？
麻烦你professional一点

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

讨论设计方案，必须有个背景才有意义。这个卖春运火车票的网站就是个很不错的例子。
比较方案的时候，可行性是根本，都可行的情况下考虑成本。可行性里面需要考虑到
performance，availability,scalability，工期还有系统的复杂度。这些都是讨论的
基础，你不能简单的说“你这方案比scalability比不上分布式，比响应比不上硬实时
系统”。没有方案是完美的，我们现在只是在给定的案例下面讨论两个不同的实现。如
果背离这个约定，那就又成为毫无意义的口水帖了。
因为有些人根本不仔细看别人帖子，我把2个不同方案的实现，大家提及的疑问及解答
，按照我的理解复述一下，也请魏老师和goodbug指正。当然了，我主要复述一下魏老
师的方案，毕竟分布式的大家多少都了解一点。
主机配置，4个10G/s网卡，全双工80G/s，对CPUS没特殊要求，内存没提，不过现在服
务器上到90+CPUS，36+G内存也就是5万美金，魏老师声称1万的主机还算靠谱。
魏老师在后面的帖子针对availability的问题提到了hot standby server，3zone，多
hot standby ... 阅读全帖

f****4
发帖数: 1359

来自主题: Programming版 - 从工程角度再比较一下春运火车票的2个方案

你自己去看GB回我的帖子。除非他心里想的是通过内存解决上锁问题，都拿到锁之后再
去更新数据库。但这和他讲的不一样。你的这个讲法，相当于他的C*** message queue
和数据源之间，加了一个内存的调度。GB一直说那些东西是数据库提供的，所以没有
实现难度。然后你的这个内存调度需要保存状态吧？这个状态用什么方案？throughput
能支持么？
这就是我一直废话的，你的设计不能不全局考虑，光用每个方案好的地方是不可能的。
或者你说的内存里上锁是指数据库的锁实现是跑在内存里面的？有点不确定。
我私下对TW没什么了解，就是看到他的方案有点意思，推敲了推敲。open source我算
你识白盒的。数据库，我一直按照oracle来的。这算是业界标准了吧？出个问题，只能
等客户支持。这不是白盒。你要是说他上的是开源数据库。行啊，代码是有了，出个问
题，你得等别人fix，还是你认为自己fix就是分分钟钟的事情？
一个高throughput的，查询/订票/退票的状态自动机。GD把峰值的买票请求延迟在C***
*（那个能够处理高throughput的message queue）里面。TW想让那... 阅读全帖

x*******6
发帖数: 262

来自主题: Programming版 - 用spring-data-XXXX来应付各种database，如何？

spring的repository对任何datasource都是一样的，这样就不用特别的去关注如何
query各种数据库了，都统一起来了。对应sql数据库的有spring-data-jpa,mongodb有
spring-data-mongodb，甚至还有spring-data-solr。因为service调用repository，就
算换了数据源也不用改service里面的代码。

s*****t
发帖数: 89

来自主题: Programming版 - C10M 练习2：空TCP 连接，1M per 4G RAM

我以前写网卡驱动的时候是需要分配内存的，没有数据源（不管是物理设备还是虚拟设
备）什么协议栈都是空的。
可以看看这个资料

g*****g
发帖数: 34805

来自主题: Programming版 - ES怎么玩？

不只是全文搜索，各种区段啥的支持都很强。特别适合从多个sql, nosql数据源进行联
合搜索。可以用来解决 RDBMS很多 join产生的性能问题.

d*******r
发帖数: 3299

来自主题: Programming版 - ES怎么玩？

哦，我们可能有这种应用场景，因为我们在用的 DynamoDB 的 indexing/querying 功
能实在有点弱.
我们准备回头把一些数据从 DynamoDB 导入到 ES cluster, 然后做搜索, integration
这些.
不过就是觉得，从 analytic 数据源 --> DynamoDB --> ES cluster, 有点废，
如果这部分数据不需要 real-time 处理的话，回头可能直接就 push 到 ES cluster
里了.

o***e
发帖数: 65

来自主题: Programming版 - ES怎么玩？

有什么通用的好方法来整合不同数据源的多个数据，并且合并成一个大的json file呢
？logstash吗？

z****e
发帖数: 54598

来自主题: Programming版 - 设计一个大计算量的并行架构

需要汇总数据，所以用vert.x比较容易解决这个需求
其他server的话，汇总数据要自己写，bus要自己建，vert.x自己就有bus
可以直接用
然后latency这个需求，这个用异步可以很容易解决
看看rxjava的subscribe，把你需要callback的部分放到subscribe中去就好了
这样一旦建模完成就可以callback回来，然后你要怎么弄就怎么弄了
唯一的问题是这两个刚做出来没多久，可以参考的文档不多
不过本身你这个需求就比较另类，没有太多的轮子可以直接用
所以如果不怕文档少的话，就放手做吧
spark用起来比vertx麻烦不少，而且spark主要是建模容易
跟hdfs等数据源的接口比较容易做
如果你是自己建模的话，不用spark也没啥大不了的
做吧

N

l*y
发帖数: 21010

来自主题: Programming版 - It is better to have 100 functions operate on one data stru

It is better to have 100 functions operate on one data structure
than 10 functions on 10 data structures.
这句话深得我心
FP征服了我
我就讨厌屁大点事建一个类，其实都是map＋list而已，
比如说数据源是json，好好的map，非要转成对象套对象，非要unmarshal，其实直接再
map上操作不就完了？
弄一大堆乱七八糟毫无意义的小类和特定类上的方法，这是导致方法不能重用的罪魁祸首

s****y
发帖数: 503

来自主题: Programming版 - Java中的memory leak常见的原因有哪几种？

GC经常运行的原因可能是memory leak，常见的原因有哪些呢？比如没有释放数据源等
资源，还有其他的吗？

J****R
发帖数: 373

来自主题: Programming版 - 大牛们，请教大数据系统如何架构

基本上就是我们在干的事情。大概架构就是：
数据源->前台 web server收集数据->processing server(data pre aggregation)->
kafka->processing server (data aggregation)->staging data in Hbase or C*
后台web server query Hbase or C* for report.
data aggregation 如果是off line的就用mapreduce, spark什么的，如果是streaming
就用相应的streaming framework.或者干脆自己写。

A***g
发帖数: 1816

来自主题: Programming版 - 简单介绍一下老魏的结构

你们接着吵，我就一个问题，老魏的方案不是单机版吗？最起码是抢票，锁定，数据源
都是一块儿的啊，现在把business logic拉出来变成单独一层，查票也分开，这个和原
来他说的不一样了啊

A***g
发帖数: 1816

来自主题: Programming版 - 简单介绍一下老魏的结构

S*******e
发帖数: 525

来自主题: Programming版 - 一个关于big data 系统架构的设计问题

我们部门的另一个team是用Oracle储存那个数据的，也是那个team用Oracle做的分析（
没多大用--因为只能分析一个市场，还需要这么长时间）。但是我们公司成立了一个
大数据部门，这个部门用Hive存储类似上面提到的那个数据，但更全面。这个hive就是
我提到的400 nodes cluster的一部分。我所在的team用Spark做出了这样的好结果，当
然另外一组不很高兴（我们经理跟大数据部门有“熟人关系“，能够用那个cluster。
）所以，不是我们把ORACLE上所有的数据都倒到HADOOP上，而是公司另外部门没有经
过Oracle这个环节做了这工作（数据源是一样的）。

g***3
发帖数: 2304

来自主题: Programming版 - 求问个C# gc的问题

多谢pker大牛，现在的问题是数据源是两个不同的db，需要两个source 一起做filter/
sort，所以必须全拿出来，sort好了之后，是page后的往UI送。

d******e
发帖数: 2265

来自主题: Programming版 - 再说说react & angular 2

刚看了一遍react的文档。
感觉是阳光地下没有新鲜事。
angular 2很想wpf.
react/flux就是会到window 3.1时代了。
Flux种的派发器确保了系统中一次只会有一个action流。如果一个action还没有处理完
，那么这时再派发一个action将会触发一个错误：
这是使得代码可预测性提高的另一种方式。它促使开发者能够开发出让数据源之间的交
互变得简单的代码。
这简单说就是一个while loop {case WM_event do something.}
当然单线程不一定是坏事，简华问题也很好。但是，也没什么吹的。好用就行。

l******n
发帖数: 9344

来自主题: Programming版 - 怎么设计这个client

是数据源的变动造成的

g****t
发帖数: 31659

来自主题: Programming版 - machine learning, neural network 为啥这几年火？

物理或者更具体更狭小的范围，流体力学之类的小分支的逻辑本身就是非公理化的。
Goog, fb这些面对终端客户的应用的数据源会面临污染问题。现如今web已经很贫乏了
。包括这个bbs

: 最后智能问题的解决，可能还是需要符号系统。

: 逻辑不必要，因为各种各样的逻辑其实就是图遍历的不同模式而已，单一
的逻辑
肯定是

: 不够的，无论多复杂，多么“非公理化”。这是我研究王培的
“非公理逻辑系统
”之后

: 得出的结论。

: 但符号肯定是需要的。从企业应用的角度说，没有以符号为主做出来的系
统是不
能用的

: 。至于为什么，可能没有干过企业和政府项目的人不会理解。简单的说，
就是需
求是任

: 意的，数据是不存在的，所以深度学习是不可能的。Google, Facebook这
些公司
都没有

: 企业应用的需求，老实说，我看他们现在花大钱搞这些深度学习啥的其实
是走入
了歧途。

: 我还是看好混合系统。至于如何混，这就是本事了:)

m****o
发帖数: 182

来自主题: Programming版 - deep learning 的时候要把所有数据都读到内存里？

dataset api可以shuffle数据源

j**********s
发帖数: 132

来自主题: Software版 - 谷歌目前的官方回应

谷歌拼音输入法在实验室发布(2007年4月4日)以来，我们收到了用户大量的反馈和建
议，其中，我们特别注意到了部分用户对谷歌输入法词库的质疑。该词库在试验阶段确实
包含了一些非Google(谷歌)的数据源，我们愿意直面自己的问题。
我们为因此带来的不便表示抱歉的同时，立即采取了行动。本周日(2007年4月8日)的
中午，我们完成了谷歌拼音输入法发布以来的第二次全面升级(谷歌拼音输入法
1.0.17.0版本)。
目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中产生，我们欢迎用户
与业界对我们升级版本给予更多的反馈和监督。最后，谷歌自身、同时也希望同业界共
同努力，为提升输入法的全面升级、功能突破作出长期、踏实的实质性工作，不断的为用
户提供更多、更好的应用体验。
http://tech.sina.com.cn/i/2007-04-08/18351454194.shtml
Sigh - 承认抄袭，但就是不向搜狐道歉。

a**n
发帖数: 3801

来自主题: Software版 - 谷歌就谷歌输入法对用户及搜狐等各方致歉

這次明確向sohu道歉了
http://www.googlechinablog.com/
谷歌就谷歌输入法对用户及搜狐等各方致歉
4/09/2007 11:24:00 上午
发表者：Google（谷歌）公关发言人
谷歌拼音输入法在实验室发布（2007 年 4 月 4 日）以来，我们收到了用户大量的反
馈和建议，其中，我们特别注意到大家对谷歌输入法词库的质疑，该词库在试验阶段确
实包含了一些非 Google 的数据源。我们愿意直面自己的问题，更因此对用户及搜狐公
司等表示歉意。
于此同时我们立即采取了行动，本周日（2007 年 4 月 8 日）的中午，我们完成了谷
歌拼音输入法发布以来的第二次更新（谷歌输入法 1.0.17.0 版本），用两天时间完成
了词库的全面重新升级，目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中
产生，我们欢迎用户与业界对我们升级版本的监督。
谷歌自身、同时也希望同业界共同努力，为提升输入法的全面升级、功能突破作出长期
、踏实的实质性工作，不断的为用户提供更多、更好的应用体验。
最后，再次表示对用户、搜狐等各方的歉意！

O*****c
发帖数: 171

来自主题: Windows版 - ODBC 数据源的设置存在那里？

想挪一下系统，不想费事再设

w*r
发帖数: 2421

来自主题: Windows版 - ODBC 数据源的设置存在那里？

registry table check local_machine\software\microsoft\odbc...

w*****s
发帖数: 122

来自主题: XML版 - XML 教程--11

数据库中的XML应用实例

我们在该例中介绍如何实现数据库和XML结合。您将可以看到，该例中实现对一般
的关系数据库进行查询等操作，并将结果输出到通用的XML。例中还示范结合采用
XSL规范XML的格式，用HTTP和ASP进行网络的通信和处理。您可以在此基础上进行
许多扩充的开发，特别是服务器/客户端架构的Web应用。
下面我们来详细说明该实例及使用方法：
(1)准备工作
打开控制面板，将Northwind.mdb数据库添加至您的用户数据源(DNS)并命名为"
nwind"；
process.asp放在服务器端，第4部分中要用到该文件处理HTTP请求；
用Visual Basic 6.0打开test.vbp项目，引用MS XML Version2.0库。
（2）定义的变量
Dim con As ADODB.Connection
Dim rs As ADODB.Recordset
Dim xmlstr As String
Dim xmldoc As MSXML.DOMDocumen

发帖数: 1

来自主题: Aviation版 - “夸父计划”启动10年仍“暂缓执行”

“夸父计划”启动10年仍“暂缓执行”
作为中国继“嫦娥计划”后又一重要的空间探测计划，“夸父计划”至今已启动10年。
但这些年该计划一直命途多舛，目前仍处于“暂缓执行”阶段——
■本报见习记者倪思洁
今年是“夸父计划”实施的第10个年头。不过，作为中国继“嫦娥计划”后又一重要的
空间探测计划，这些年“夸父”似乎略显低调。
“今年5月，‘夸父计划’已被暂缓执行，主要是由于国际合作形势发生了变化。”“
夸父计划”首席科学家、中科院空间科学中心研究员刘维宁日前告诉《中国科学报》记
者。
2003年1月，在国家自然科学基金委员会地学部“关于推动空间天气研究座谈会”上，
“夸父计划”的科学思想和基本概念被提出。2004年，国家自然科学基金委员会决定以
重点项目形式支持“夸父计划”的预研。10年后的今天，命途多舛的“夸父计划”将何
去何从？
命途多舛
“夸父计划”的“流年不利”，始自2011年。根据最初规划，“夸父计划”由3颗卫星
组成。夸父A设置在距地球150万公里的日地连线L1点（第1拉格朗日点）上，它能每天
24小时面对太阳，观测太阳扰动。此外，在地球轨道上放置夸父B1和夸父B2两颗卫星，... 阅读全帖

S***J
发帖数: 1210

来自主题: Biology版 - 施一公：少年壮志不言愁

声明：本人并不同意施的一些观点，但有些好玩的段子大家还是可以消遣消遣的：
——————————————————————————————————————
——————————————————————————————————————
——————————————————————————————————————
——————————————————————————————————————
——————
各位同学，大家上午好。
很高兴有机会与在座的研究生分享我对一些问题的看法。今天我采用的标题是我5年之
前在和2010年入学的研究生分享体验时用的标题——“少年壮志不言愁”。这是一首电
视剧的主题曲，也是我最喜欢唱的一首歌曲。
我想讲的第一部分是我的成长之路。
以前我在讲这一部分的时候会讲得特别长，而今天这部分只有一张幻灯片。
在座的有些同学可能还没有想明白以后要做什么，会感到焦虑：如果对科研不感兴趣、
没想好未来发展该怎么办？其实我想讲的是当我在你们这个年龄的时候，也就是二十几
年前，我也没有想好，也非常迷茫。这种迷茫一直到1995年，博士后完成之后才隐约知
道自己要做什么，才下定了决心。
当... 阅读全帖

l*****f
发帖数: 2198

来自主题: Biology版 - 施一公在清华2015开学典礼的演讲：少年壮志不言愁 (转载)

【以下文字转载自 Faculty 讨论区】
发信人: lengygf (lengygf), 信区: Faculty
标题: 施一公在清华2015开学典礼的演讲：少年壮志不言愁
发信站: BBS 未名空间站 (Tue Sep 8 12:10:21 2015, 美东)
各位同学，大家上午好。
很高兴有机会与在座的研究生分享我对一些问题的看法。今天我采用的标题是我5
年之前在和2010年入学的研究生分享体验时用的标题——“少年壮志不言愁”。这是一
首电视剧的主题曲，也是我最喜欢唱的一首歌曲。
我想讲的第一部分是我的成长之路。
以前我在讲这一部分的时候会讲得特别长，而今天这部分只有一张幻灯片。
在座的有些同学可能还没有想明白以后要做什么，会感到焦虑：如果对科研不感兴
趣、没想好未来发展该怎么办？其实我想讲的是当我在你们这个年龄的时候，也就是二
十几年前，我也没有想好，也非常迷茫。这种迷茫一直到1995年，博士后完成之后才隐
约知道自己要做什么，才下定了决心。
当时的迷茫来自很多方面，其中就包括大学选择专业。我不像在座的一些人，大学
入学时就知道自己想学什么专业，想学经管、建筑、生命、... 阅读全帖

D*a
发帖数: 6830

来自主题: Biology版 - 11公为什么不喜欢读paper？

你非要觉得是跟领域里面的开创性人物谈论科学是陶瓷，那我也没办法。
11g还说过：
“
当时我又问：不读文章如何养成科学素养？他说科学素养的养成和读最新的文章没
有任何关系。科学方法论的养成和科学史有关，和重大发现的数据源有关，与科学进展
到最前沿的知识没有任何关系。科学知识的最前沿只是在你做研究的时候让你知道，在
领域内你所处在的境地是什么样的，你是否在科学前沿，你是否在做别人已经做过的东
西，仅此而已。所以说好的研究生课程不一定是告诉你科学最前沿的内容。
我在普林斯顿期间，普林斯顿最有意思的课是“人和遗传学”，里面最后一篇文章
是90年代初期的文章，讲整个人和遗传学的发展历史、过程和一些关键的发现是怎么来
的。最新的发现只是你在做研究的时候和你的领域内直接相关，而和你方法论的养成确
实没有关系。我问导师，那你写文章的时候怎么写？”
活生生的历史在你前面。
面对面交流。
他自己的故事他都编不圆，你就不用帮他编了。
你们这些据说敬仰他的人连他说的话都不看。我也就马马虎虎看了一遍，知道的细节比
你们都多。

D*a
发帖数: 6830

来自主题: Biology版 - 11公为什么不喜欢读paper？

我也不知道他说的是什么数据源，不过我觉得科学方法论的养成和了解一些科学哲学有
关，例如库恩，波普尔。

d****b
发帖数: 262

来自主题: Biology版 - 清华副校长施一公致研究生:最不重要的素质就是智商

http://news.sina.com.cn/c/nd/2015-10-30/doc-ifxkhcfn4223717.sht
本文为，2015年8月27日，施一公为清华大学2015级研究生新生做了题为“少年壮志不
言愁”的报告内容，略有删节。
各位同学，大家上午好。
很高兴有机会与在座的研究生分享我对一些问题的看法。今天我采用的标题是我5
年之前在和2010年入学的研究生分享体验时用的标题——“少年壮志不言愁”。这是一
首电视剧的主题曲，也是我最喜欢唱的一首歌曲。
我的成长之路
以前我在讲这一部分的时候会讲得特别长，而今天这部分只有一张幻灯片。
在座的有些同学可能还没有想明白以后要做什么，会感到焦虑：如果对科研不感兴
趣、没想好未来发展该怎么办？其实我想讲的是当我在你们这个年龄的时候，也就是二
十几年前，我也没有想好，也非常迷茫。这种迷茫一直到1995年，博士后完成之后才隐
约知道自己要做什么，才下定了决心。
当时的迷茫来自很多方面，其中就包括大学选择专业。我不像在座的一些人，大学
入学时就知道自己想学什么专业，想学经管、建筑、生命、化学、工程，等等。我当时
保送大学，报名的清华的第... 阅读全帖

d****b
发帖数: 262

来自主题: Biology版 - 清华副校长施一公致研究生:最不重要的素质就是智商

t*******g
发帖数: 373

来自主题: Business版 - 求造船业数据

小弟在写研究报告，想求近几年（5-10）美、日、韩、荷兰这四个国家分别的造船工人
平均年薪数据，或能分开得到平均时薪和平均年工作小时数也可以，乘一下就好了。
请问板上诸位大侠有没有什么关于数据源的建议？

m***e
发帖数: 428

来自主题: China版 - 十三五”国家科技创新规划

来源：中央人民政府网站
“十三五”国家科技创新规划，依据《中华人民共和国国民经济和社会发展第十三
个五年规划纲要》、《国家创新驱动发展战略纲要》和《国家中长期科学和技术发展规
划纲要(2006—2020年)》编制，主要明确“十三五”时期科技创新的总体思路、发展目
标、主要任务和重大举措，是国家在科技创新领域的重点专项规划，是我国迈进创新型
国家行列的行动指南。
第一篇迈进创新型国家行列
“十三五”时期是全面建成小康社会和进入创新型国家行列的决胜阶段，是深入实
施创新驱动发展战略、全面深化科技体制改革的关键时期，必须认真贯彻落实党中央、
国务院决策部署，面向全球、立足全局，深刻认识并准确把握经济发展新常态的新要求
和国内外科技创新的新趋势，系统谋划创新发展新路径，以科技创新为引领开拓发展新
境界，加速迈进创新型国家行列，加快建设世界科技强国。
第一章把握科技创新发展新态势
“十二五”以来特别是党的十八大以来，党中央、国务院高度重视科技创新，作出
深入实施创新驱动发展战略的重大决策部署。我国科技创新步入以跟踪为主转向跟踪和
并跑、领跑并存的新阶段，正处于从量的积累向质的飞跃、... 阅读全帖

A******g
发帖数: 4

来自主题: Economics版 - Shocked: 原来有这么多做empirical的人涉嫌造假

Levitt的文章不应该说是错的吧，
只是结论不会那么显著，并且问题不在他，数据源有问题

p*i
发帖数: 7

来自主题: Engineering版 - 求教一个GIS问题

收到一个.mxd文件，打开之后里面有很多带红色感叹号的图层（应该是经过操作的图层）
点击之后出现新的对话框"set data source"，需要在文件夹中寻找数据源
想让这些图层显示应该怎样操作？是对方给的数据不全吗
谢谢:)

S******9
发帖数: 355

来自主题: Environmental版 - 空气污染对中国北方人口寿命影响（PNAS）

这个模型主要问题是：如何证明空气污染是首要因素，这个就很难；二一个缺陷在于轻
而易举地把寿命 =f（x1,x2,x3,...)变成了寿命=f(空气污染）,三是如何找到对照，就
是假定没有空气污染的情况下，寿命该是多少（算背景值或者正确值）。四是我高度质
疑数据源和其准确性（。。。）。还有很多缺陷。就这些里的其中任何一点就足可以
reject掉这篇文章了。
文章主要优点就是量化了空气污染对寿命影响，算一大创新，研究内容具有深远影响。
基本上，文章是根据大家都知道的一个Common Sense来写。大家都知道“会”，然后内
部估计假定了一个可以接受的年份，然后找点数据，一鼓捣，就出来了。如果结论是20
-50年的话，你看看大家的反应，呵呵呵。。。
国内雾霭在我小时候就那样，现在重了点，但是绝对不是才有的事情。本来可以写篇文
章点评一下。但是没有时间，另外这个结论对国内是个好事，可以引起关注和进一步空
气治理，给亲朋好友们一个好的生活环境。
我和楼上的一样，等的看热闹，呵呵。

p********t
发帖数: 1219

来自主题: GeoSpace版 - 资源卫星前景广阔

中巴地球资源卫星（CBERS）01／02星是我国第一代传输型地球资源卫星，凝聚着中巴
两国航天科技人员十几年的心血，它的成功发射与运行开创了中国与巴西两国合作研制遥
感卫星、应用资源卫星数据的广阔领域，结束了中巴两国长期单纯依赖国外对地观测卫星
数据的历史，被誉为“南南高科技合作的典范”。中国资源卫星应用中心负责资源卫星数
据的接收、处理、归档、查询、分发和应用等业务。
截至2005年上半年，中国资源卫星应用中心已处理、归档CBERS—01／02星遥感数据
75万余景，其中CCD数据32万余景，IRMSS数据32万余景，WFI数据1万余景。CBERS—01／
02不仅成为我国用户也成为我国周边国家与地区的重要的遥感数据源。
CBERS卫星数据已被广泛应用于农业资源调查与作物估产、森林资源调查与监测、区
域地质调查、水资源调查与监测、能源与环境监测（包括石油天然气、煤炭和地下煤层自
燃监测等）、城市规划、灾害调查、工程地质勘察、道路选址、生态环境调查、测绘等诸
多领域。
继CBERS—01／02卫星之后，我国将陆续发射02B星和03／04星。后续星的共同烫臹吖饆6G垴;FoLBIH鞐

w********h
发帖数: 12367

来自主题: Macromolecules版 - 贺德方：正确解读科技论文统计数据至关重要

贺德方：正确解读科技论文统计数据至关重要
科技论文是科学研究产出的一个重要方面，科技论文统计数据是反映国家科技事业
发展和进步的一把尺子。近日有媒体报道称：我国科技人员发表的期刊论文数量，已经
超过美国，位居世界第一，这些科技论文的平均引用率排在世界100名开外。
这些数据是否准确？“十一五”期间我国SCI论文数量和质量究竟如何？如何正确
解读和使用科技论文统计数据？带着上述问题，科技日报记者独家专访了中国科学技术
信息研究所所长贺德方研究员。
科技日报：中国科技人员发表的期刊论文数量已经世界第一了吗？
贺德方：首先，我想说明的是，国际上是用SCI（科学引文索引）数据库评价基础
研究成果、用EI（工程索引）数据库评价工程技术应用成果的。在进行科技论文国家间
比较时，为保证在同一个范畴内的可比性，科研管理领域和科学计量学领域广泛认可和
采用SCI数据库作为统计数据源，科技人员在非SCI收录的期刊上发表的论文，是不列入
统计范围的。
SCI始建于1961年，它收录了经过遴选的世界各国重要科技期刊上发表的论文，也
就是大家常说的“SCI论文”。截至2010年，... 阅读全帖

s*****e
发帖数: 21415

来自主题: Quant版 - Re: 关于金融数据的处理

【以下文字转载自 Working 讨论区】
发信人: skydive (跳跳~~莫言迁客似沙沉), 信区: Working
标题: Re: 关于金融数据的处理
发信站: BBS 未名空间站 (Sun Sep 28 15:23:14 2008), 转信
熟练运用各种数据处理软件，应付各种数据格式，
（必要的话自己写程序开发）是一个分析人员的
基本素质阿。
当然，上面说的只是格式，如果数据本身有错，
那就不是格式能解决的了。一般有公司专门搜集、
纠错、校订各种数据。然后发布到客户的数据库里。
这样的服务一般都价格不菲。一个工作组（5-10人）
的license，一个数据项目大约是1-2万美元的量级。
如果需要十几乃至几十个个不同的数据源，开支是非
常惊人的。
政府是不会管这个闲事的，不然扼杀了多少就业机会啊！

J*****n
发帖数: 4859

来自主题: Quant版 - Spreadsheet 一问

要做一个固定长度的移动chart.
比如，A1-A1000有1000个数字，我只要其中其中的50个数字，起始位置由B1中的数字。
比如B1=10，那么窗口中则显示出A10-A60的数字。
按照公式，我在chart的数据源中输入
offset($A$1,$B$1,0,50,1)
但是当按下回车的时候，则excel自动将其变为：
=A10：A60
这样，当B1的数字变动的时候，图表则无法自动更新。
请问如何解决？
谢谢。

o********n
发帖数: 100

来自主题: Quant版 - 请教实现中高频接受数据，即时储存的系统结构

大家好
我们现在在开发自动交易的程序，有两个数据源，一个是较慢的高频数据，一个月更新
一次，优点是有长时间完整的数据，缺点是无法得到即时数据。
另一个是从bloomberg得到的即时数据，优点是即时性，缺点是可以查询的历史数据有
限。
因此我们希望整合一下两者，并且封装在自动交易程序里面，实现根据最近一百天左右
的高频数据，制定下一天的交易策略。由于涉及大量矩阵运算，我们目前使用的平台是
matlab（见笑了）,以后会过渡到java或者.net
我们目前的想法是写一个专门的数据处理的类，根据情况将最近的数据放在内存中，再
往前的数据写入磁盘里。由于我们非CS背景出身，所以对于写的系统的高效性没有把
握，也不知道是否这样实现恰当。
请问大家这种自动交易程序的一般结构是什么？是否有可以参考的资料？需要考虑哪些
方面的技术细节？另外我们了解到一些高频交易公司使用APAMA等事件处理平台，请问
对于在分钟尺度上的交易模型，是否有必要使用此平台？我们目前模型back-testing在minute by
minute 频率上，可能实盘后会逐渐调整到更高频率上进行交易
谢谢！

L*******t
发帖数: 2385

来自主题: Quant版 - Yahoo Finance数据源一问

请问一下各位大牛，yahoo finance上的期权data是真的closing price吗？还是最后时
刻的交易价格？有些bid-ask数据是NA，有些数据落在Bid-ask区间外，而且数据非常不
规整。
比如strike比较高的期权反而更贵，等等。。

c****y
发帖数: 3592

来自主题: Quant版 - Yahoo Finance数据源一问

很正常，没有liqudity罢了

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天