第2页 - 关于datastore的讨论汇总 - 话题女王

全部话题 - 话题: datastore

z*******3
发帖数: 13709

hoho
忙了一个下午
总算把spring给整合上去了
spring很黑，居然xml配置文件的名字必需是mvc-dispatcher-servlet.xml
我换成spring-config.xml就出异常
而且是很恶心的异常，说少xalan.jar，我去下了之后再试，才出io异常
蛮好玩的，有点意思

DataStore

g*****g
发帖数: 34805

来自主题: Java版 - 本菜对EJB一问

以前GAE的最大问题是不支持完整的JDK，有一些类不让用，貌似现在这个限制去掉了？

DataStore

b***i
发帖数: 3043

来自主题: Java版 - 本菜对EJB一问

我现在就直接用datastore.put来放文件。我做了一个后台文件系统，可以放目录，可
以放版本，可以放文件。不知道spring是不是也是干这个用的？

z*******3
发帖数: 13709

来自主题: Java版 - 本菜对EJB一问

用了session会有私货
appengine会在datastore里面塞_ah_session
要定期清理
官方给的是用cron+servlet来搞
我看看能不能用task来做

b***i
发帖数: 3043

来自主题: Java版 - 本菜对EJB一问

完成了网页servlet的初步设计，现在调入一个网页，从servlet进入到网页render完成
，共3秒多。其中包括2个mp3, 3个jpg/png图片，一些javascript文件，一些文字，共
695KB。这个时间有点多，基本是从datastore/memcache里面读文件内容然后返回。下
面准备从blob直接返回看是否会快。

J*******n
发帖数: 2901

来自主题: Java版 - 想请教一下银行的核心交易系统的实现

this may be not entirely true....
https://developers.google.com/appengine/docs/java/datastore/overview#
Transactions

single

b***i
发帖数: 3043

来自主题: Java版 - hibernate和jdbc的比较。

小学就学习了关系型数据库dBase。但是，现在还是不清楚什么是关系型数据库。
比如，GAE的datastore比关系型的，哪些任务做不了？我现在都是数据库只管存数据，
所有逻辑操作全放外面web servlet里，甚至放在html的javascript里面。

b***i
发帖数: 3043

来自主题: Java版 - play有啥好处？

裸写servlet有优势，datastore/memCache是集成的，不用“配置”，管理，直接用api
存储。没有linux层的管理，没有apache/jboss/tomcat等的管理。自动scale。小量使
用的可以免费，所以适合调试。我已经调试了2年了，没花钱。
这样的话，就需要知道play做动态网页是怎么读写数据库的了。

c*m
发帖数: 836

来自主题: Java版 - 多线程真头疼，但也挺有趣

一些建议：
1. DataStore if I understand correctly is a read only object, 完全没必要
synchronized。做成immutable就行了
2. CPU没有那么smart, 会知道JVM快用完memory而只用一个thread。最可能的是设计有
问题。
3. 任何有non-significant load的地方，都不要简单地用synchronized keyword，用
concurrent collection效率更高。
4. thread 数量完全可以超过core的数量，只要你的程序不是完全CPU bound or IO
bound, 哪怕是单核用multi-threading也有好处。
5. 如果需要Map自动清理entry, 可以考虑WeakReference。用一个thread来确保内存不
增长，没有可预期性，在Production环境太危险。
6. 最后，我最不理解的地方就是，什么数据处理，400M要用3小时，甚至24小时？我
们的计算，用单核CPU，包括大量的Database IO和大量的数学运算，处理20... 阅读全帖

j***f
发帖数: 3610

来自主题: Java版 - 多线程真头疼，但也挺有趣

我也觉得用
do
sleep(1000)
}while(i 这样不够好，应该直接用while true循环，

b*******e
发帖数: 243

来自主题: Java版 - 多线程真头疼，但也挺有趣

Datastore 用 ArrayBlockingQueue 就可以了,设定好size.

l*****o
发帖数: 473

来自主题: Java版 - 多线程真头疼，但也挺有趣

我试着对楼主的方法进行点评一下，好像还有许多地方是可以提高的。
《《（1）将原来的逐行读取，逐行处理，改为先将每个文件的所有行读到一个新建的
DataStore 中。
这步是可以用memory mapped file进行提高的。如果单线程读取所有的文件，那么这部
分工作就变成串行化了。
《《（4）现在由于多线程异步处理，直接输出无法保证顺序。就先把这部分信息存储
到一个新建的 map 中，保存记录 ID -> data 的映射。当一个文件处理完了，才最后
按 ID 从map 有序输出到 XML 中。
为了保证顺序，其实还有其它方式可以处理的。比如，我们可以输出到不同文件中，最
后用脚本把所有东西重新拼成一个新的文件。

r******r
发帖数: 700

来自主题: Java版 - 多线程真头疼，但也挺有趣

谢谢好建议。

说到 immutable，我就想到了 String. DataStore 内部实际上是一个 ArrayList, 按
序保存了数据。immutable? 我再想想
这个确实是我观察到的。当memory 快耗光时，多 core 自动变为使用一个 core,这样
程序还能勉强运行下去。
这个是确是。不过还有个疑问，比如 map, 什么时候不能使用 ConcurrentHashMap
而必须使用 synchronized map 呢？
Good to know.

我了解了一下 WeakHashMap, 我这里好像不适用。需要再看看例子
Sorry! 少 type 了一个 0，是 4G 的数据，不是 400M. 当然，这仍然看上去是很
小的数据量，不过，这个计算确实很 expensive, 并不是这个工具本身，而是它调用其
他系统。
系统里面涉及到 inference, reasoning 等 AI 的一些处理，所以真的很 expensive
.

r******r
发帖数: 700

来自主题: Java版 - 多线程真头疼，但也挺有趣

我当时研究过 ArrayBlockingQueue，好像不适用。回头我再好好看看吧。
也觉得弄一个 synchronized 的 DataStore 不好，应该有现成的 class 可以利用。主
要要求就是能确保多线程下可以从一个结构里有序获得数据，而无需修改。

t*******e
发帖数: 684

来自主题: Java版 - 听说这里big data大拿多, MongoDB和Cassandra,

Machine learning/data mining tools can do the job. Screening spam is another
use case, but much simpler. The challenge lies in the aggregate function.
To make ad hoc queries relying on an aggregate function that touches the
entire datastore real-time is really tough, if not impractical.

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

这么说吧，如果用GAE来上载文件可以自己定义一个类，然后把文件名字作为key，上载
时间，文件大小和文件内容全部放进对象里面，存进datastore。这样我可以生成一个
网页来显示文件列别和下载文件。
实现同样的目的，openshift如何做？需要哪些工具？我要放的是对象，不是简单的字
符串，数字这样的东西。

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

这个可以存对象吗？Spring Data包含很广，是指JPA吗？我现在基本什么都不懂。就会
用GAE来向datastore里面存对象。

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

我感觉cassandra是最象GAE的datastore的，是不是？可以存对象，可以scale。不能
join。
不过自己架设也太麻烦啦吧。

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

这个可以存对象吗？Spring Data包含很广，是指JPA吗？我现在基本什么都不懂。就会
用GAE来向datastore里面存对象。

b***i
发帖数: 3043

来自主题: Java版 - OpenShift怎么上数据库?

我感觉cassandra是最象GAE的datastore的，是不是？可以存对象，可以scale。不能
join。
不过自己架设也太麻烦啦吧。

g**e
发帖数: 6127

来自主题: Java版 - 检讨并分享一下工作中出现的各种错误

migrate老service也是一件很头痛的事。从API到datastore都要重新设计。credit也不
多，
毕竟只是refactoring

b***i
发帖数: 3043

来自主题: Java版 - Damn, love Cassandra

卡桑德拉大桥和GAE的datastore比如何？

c****e
发帖数: 1453

来自主题: Programming版 - D3這server到底有啥難度？這麼不stable？？ (转载)

Scaleout solution is not as easy as creating VMs in EC2. The whole pipeline
has to be designed to work in this way from scatch. It might be realtively
easy to add frontend instances, but the datastore is the hard part. Also,
there are many things consuming lots of effort to make it work in a public
cloud, such as security, throttling, virtual network, Geo distribution...
It might just be waste of resource to migrate to EC2.

g*****g
发帖数: 34805

来自主题: Programming版 - 多研究些问题，比如这个网站的建设问题，大家来讨论一下

通常的做法是Cache，而不是用HashMap。HashMap是strong reference，而做cache，你
更希望soft reference。另一个好处就是现有的一些Cache架构可以让你配置内存和二
级缓存的使用，以及eviction policy。一个很流行的类库是ehCache。貌似现在也支持
GAE了。

DataStore

c*********e
发帖数: 16335

来自主题: Programming版 - 多研究些问题，比如这个网站的建设问题，大家来讨论一下

多少用户的网站?

DataStore

g*****g
发帖数: 34805

来自主题: Programming版 - 借人气问Amazon SimpleDB的事

You should choose based on your usage pattern.
http://aws.amazon.com/running_databases/
I think simpledb is similar to GAE datastore.

b***i
发帖数: 3043

来自主题: Programming版 - 借人气问Amazon SimpleDB的事

simpleDB需要网站后端吗？我用google app engine需要一个网站程序来操作datastore
，这样，这个网站程序必须临时启动，或者交费永久运行。
如果simpleDB只要web service接口就可用，那就好了。我直接用pc程序来存到云上。

g*****g
发帖数: 34805

来自主题: Programming版 - 借人气问Amazon SimpleDB的事

这个还真不太清楚，从没这么用过。

datastore

c******o
发帖数: 1277

来自主题: Programming版 - HOW WE DECIDED TO USE MONGO INSTEAD OF MYSQL

对，不一样的project 用不一样的datastore
我们就是 user/social data 是mongodb
payment 是 mysql
BI 是hadoop

postgres

P********l
发帖数: 452

来自主题: Programming版 - 这次Node把GAE也给干了

二爷只知其一，不知其二。GAE是platform as a service的代表。抛开Google的这个特
殊环境platform,GAE什么也不是。文中介绍了GAE的种种问题。比如，memcached. 这玩
意在GAE里是必须的。为啥？因为GAE里读和写datastore很慢并且都是要钱的。再比如
，在数据管理的时候,很容易需要长时间操作。GAE不允许长时间操作。为啥？因为多用
户的环境下还要保证快的响应速度GAE对长时间操作加以限制。以前还有每个
instance1000个文件的限制呢！你拿这个和nodejs比，合适吗？别跟我说文章是这么比
的。你再念念人家文章的题目 ,是怎么写的。再念念文章的第一句。
最后，把nodejs换成其它的东西在 AWS 上跑 ,一样会成功。nodejs是锦上添花而已。
你的比platform'/infrastructure的说法让我风中凌乱了。

r***y
发帖数: 4379

来自主题: Programming版 - 这次Node把GAE也给干了

just saw your post, sorry for the late.
below is my 2 cents:
It had to do with:
Local development emulation was very slow -- their local server could only
perform at a fraction of the speed as being deployed.
Deploying an application to the google cluster was very slow -- it may take
5-10 minutes per deployment.
I felt that application execution was unreliable -- actions such as reading
and writing to the datastore would fail intermittently for no reason (
nothing related to the developers code)... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - cassandra db design

Cassandra is tunable consistency. You can achieve atomicity on row level,
for most non-financial usage, it's probably workable. Cassandra is the
preferred datastore for all user data because we are doing active-active in
multiple region. And Cassandra supports multiple DC out of box.
http://techblog.netflix.com/2013/12/active-active-for-multi-reg

ACL.

v***e
发帖数: 2108

来自主题: Programming版 - 求推荐带 cluster 模式的类 Redis DB

正以为楼主需要的是redis+mongo之类的，所以couchdb
根本不是楼主需要的，而couchbase才是
couchdb是distributed datastore，全Erlang，不能提供楼主要求
的high performance caching 和 in-memory operation,
Couchbase 是memcached (caching) + Couchdb （只用在persisted db layer)
+ cluster + XDCR
Couchdb在商业上并不成功，只有Cloudant之类的还在围绕it开发，而Couchbase
是和Mongo，Cassandra一起的NoSQL DB market 三驾马车
楼主原帖 “最近在研究 memory database，做 queuing， cache 和简单查询。
Redis 看着真心不错，还支持 transaction, 丫的就是 cluster 模式还没搞出来。”

c********1
发帖数: 421

来自主题: Programming版 - Google Cloud Platform for $500 (转载)

【以下文字转载自 BuildingWeb 讨论区】
发信人: coupondea1 (coupon and deal), 信区: BuildingWeb
标题: Google Cloud Platform for $500
发信站: BBS 未名空间站 (Mon Aug 4 16:19:58 2014, 美东)
$500，Google Cloud Platform Start Pack
https://cloud.google.com/developers/starterpack/
What is Google Cloud Platform?
Google Cloud Platform enables developers to build, test and deploy
applications on Google’s highly-scalable and reliable infrastructure.
Choose from computing, storage and application services for your web, mobile
and ba... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

You should not use it as the primary datastore. If your data is critical,
you should persist in another store and periodically repair the data, which
still works remarkably well if you don't need results to be absolutely real
time and accurate. We are using it for fuzzy search and as an aggregation
caching layer to generate json feeds.

S*******e
发帖数: 525

来自主题: Programming版 - Cassandra 真是狗屎

现在是研讨探索阶段 -- 仅想有个DataStore能跟SPARK工作（IT在扯皮--不让我们自
己装Hadoop,他们又不给装--要钱）。有更重要的东西要proof-concept.

S*******e
发帖数: 525

来自主题: Programming版 - Cassandra 真是狗屎

现在是研讨探索阶段 -- 仅想有个DataStore能跟SPARK工作（IT在扯皮--不让我们自
己装Hadoop,他们又不给装--要钱）。有更重要的东西要proof-concept.

h******b
发帖数: 6055

来自主题: Programming版 - 最完善的js跨平台app速成模板: 应有尽有

网页怎么搞这个就怎么搞啊
https://www.dropbox.com/developers/datastore/tutorial/js
AWS群发email是服务器端提供的service啊，用nodejs。
http://aws.amazon.com/sdk-for-node-js/

s***o
发帖数: 2191

来自主题: Programming版 - 我的团队需要一个做Web前端的

reactjs挺好用的。另外建议选mongodb也要小心，等数据量上去了再换primary
datastore有时会比较麻烦。

g*****g
发帖数: 34805

来自主题: Programming版 - Spark + C*

95%的数据都在C*上。Customer facing部分是primary datastore. 当然Billing啥的还
是RDBMS. Realtime query对我们不是很重要，Analytics主要跑在hadoop上，基于S3，
现在也在往Spark转，我不是做这一块的不是很懂。

x*******1
发帖数: 28835

来自主题: Programming版 - 问二爷一个题外话

早上和我groupon的哥们聊天，说干了1年半，用了5个datastore。天天折腾啊。

g*******o
发帖数: 156

来自主题: Programming版 - 问二爷一个题外话

多熟悉一些datastore，顺带做不同products，挺好玩阿～～

x*******1
发帖数: 28835

来自主题: Programming版 - 问二爷一个题外话

有没有query上很强大，又很scale，同时要比较real－time最好能strong－
consistent的 datastore？我现在就搞这一个东西，头疼啊。

b***i
发帖数: 3043

来自主题: Programming版 - 请教Lambda的问题

local是自己电脑？这个我知道该怎么办。但是我的目的是开发一个一般的公开的网站
，每个人都可以访问主页，然后主页可能通过用户登录显示用户看到的文件。主页需要
动态网页还是静态？如果静态，session如何开始？如果动态放在哪里？动态的文件放
在S3还是instance？我不希望又回到裸机状态。
以前在GAE开发很容易，不用考虑底层。主页是动态的，然后关键的数据都放在
datastore，大文件放在blob里面。就是下载贵。所以想试试AWS,喜欢lambda这种不需
要底层的。但是不清楚是不是就真的不接触底层了，比如公开的主页怎么办？
不行我主页放GAE，然后逻辑放lambda，咋样？session会不会是问题？关于用户的很多
信息都放在session里面。

z***y
发帖数: 7151

来自主题: XML版 - 想写一个XML开发的系列

XML越来越热，大家都想学。刚刚作完了一个XML的项目，准备写一些东西。
XML开发第一要选工具，在一年前市场上的工具不是特别多，我们选的是eXcelon
， from:
http://www.odi.com，作为XML SERVER，编码用ASP，我想把其中的查询子系
统从头到尾和大家走一遍，开发环境：SERVER: WINDOWS NT4 with PACK3,
eXcelon2.0, IIS4.0
CLIENT: notepad
Knowledge Requirements: ASP几个常用对象，XML 初步，
大纲：
1. XML文件的结构，规则
2 ASP 的几个常用对象(想略过)
3 eXcelon 体系结构
4 eXcelon CLIENT API 和 SERVER API
5. 建立DATASTORE的步骤
6. 详细解说查询代码。
大家有兴趣的可以给我email,超过20个人我就写。

S******y
发帖数: 1123

来自主题: Statistics版 - 大数据 Terminology

随着Apache Projects 的层出不穷，大家来复习一下我们经常听到的大数据方面的一
些术语 -
Accumulo
a sorted, distributed key/value store that provides robust, scalable data
storage and retrieval
Ambari
A completely open source management platform for provisioning, managing,
monitoring and securing Apache Hadoop clusters
Atlas
a scalable and extensible set of core foundational governance services –
enabling enterprises to effectively and efficiently meet their compliance
Falcon
a data governance engine that defines, schedules, and ... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天