由买买提看人间百态

topics

全部话题 - 话题: nosql
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
r*******k
发帖数: 44
1
来自主题: Java版 - 请教个ec2 + nosql 的问题
从你的描述来看,你们似乎才到刚刚听说这些popular words 的阶段。:)
如果你只用做数据分析,不需要NoSQL。任何nosql 的use case 都是ad-hoc query, or
scan。你需要一个很强烈的理由来说服自己用一个nosql,比如fb 说自己需要support
huge write,所以他们用hbase, etc
负责任的告诉你,这是个很不靠谱的建议。there are tons of nosql, and each of
them are quite different.
你们需要的是了解这些工具的特点,看他们是否可以帮助解决你们的问题(data
collection/transfer? realtime processing? batch processing? how to query? )
。想好了这些问题,service 放在ec2 or softlayer or Azure or 你家车库都不是问
题。
NoSQL
cluster
s****s
发帖数: 15
2
来自主题: SanFrancisco版 - 说一下nosql和mongodb (转载)
【 以下文字转载自 Stock 讨论区 】
发信人: zuihan (前按摩店忠实股东), 信区: Stock
标 题: 说一下nosql和mongodb
发信站: BBS 未名空间站 (Sun Jan 6 14:22:58 2019, 美东)
之前研究数据库存储引擎的时候,大概了解过mongodb,现在生产环境中也有在用
mongodb,大概100多个instance吧
总的来说,是好产品
产品很solid,是c++写的,处理大数据有很完善的解决方案,集群功能可以直接上生产
环境(oracle,db2基本就是靠这个功能赚钱),但是mongodb不收你一分钱。从3.0开始基
本没有坑,只要用好了,基本不用老夫操心。上线初期老夫踩过一点索引的坑,还有就
是丢数据的坑,调好后基本没再遇过问题。
他们的看家存储引擎(wiredtiger)不是自己写的,是另外一个opensource项目
老夫对他们没有实现wiredtiger的lsm算法十分不爽
现在mongodb之所以亏损,是因为他们没有找到好的盈利点,这点比较类似初期的mysql
那么,nosql中,最好的解决方案是不是mongodb... 阅读全帖
y****9
发帖数: 144
3
Below are two resources about Cloud I find interesting:
1. “The tech jobs that the cloud will eliminate” ( http://www.infoworld.com/d/adventures-in-it/tech-jobs-cloud-will-eliminate-008 ). 2. There is also a two-part article describing Cloud IT roles here: http://open.eucalyptus.com/learn/cloud-it-roles. It indicated a DBA’s skill-set is extendable to assume Cloud Data Architect role.
NoSQL is just a special purpose data model, just like relational data model,
object data model, it may be most s... 阅读全帖
B*****g
发帖数: 34098
4
你说的是cloud,楼上问的是NoSQL。cloud可以用传统的RDMS,也可以用NoSQL
Database。至于NoSQL到底要不要DBA,我也是个猜测。NoSQL就是一堆raw data存在硬
盘上,实在想不出要DBA干什么。java不是必需的,perl/python/ruby...都可以用,但
是和SQL没啥关系。

to
f*******h
发帖数: 1269
r*****l
发帖数: 2859
6
来自主题: Java版 - 哪里用NoSQL比较合适?
NoSQL != NO SQL
NoSQL == Not Only SQL
Amazon check out can use NoSQL. It's ok if you put something in cart and it
became unavailable when checking out. It's ok that some users check out OOS
item. However, the throughput under load of the website is important.
With banking application, NoSQL is tricky. If a user withdraw his only $10,
000 from ATM and within 5 minutes, he is able to withdraw another $10,000
from the counter ...
z*******3
发帖数: 13709
7

哪有这种扯蛋的
nosql (db) vs relational db
从来没听说过sql vs nosql的说法
sql作为脚本语言的份量很重
一般产品无法取代起地位
就是nosql比如c*什么也有类似的ql
比如cql,而且nosql也在逐步增加sql engine
比如spark sql
z****e
发帖数: 54598
8
一般我们说的nosql都不是mongo那种
mongo跟cassandra有比较大的差异
nosql范围太大了,从file system到db中间任何一个都有可能存在
mongo就是最接近db的nosql
没有hdfs或cassandra的经验,nosql光靠mongo那边搞
总有点隔着靴子扰痒的感觉,不过小数据用mongo倒也是没啥错
大网站都把mongo当local cache用,减少nodes之间的io
w***g
发帖数: 5958
9
我当然学过CAP theorem。基础不扎实的是你。
SQL vs NoSQL跟CAP完全是正交的概念。
当年MySQL和SQLite,连transaction都没有,也都是SQL数据库。
BerkeleyDB有transaction,仍然是NoSQL。
我看不上的(不是说你的C*)是很多鸡毛软件连个consistency model都没有
也出来混,更有一批屁都不懂的程序员还当个宝。
Most NoSQL stores lack true ACID transactions。原因不是因为NoSQL和
ACID冲突,而是程序员水平太差,写不出来支持ACID的软件。
g*****g
发帖数: 34805
10
我看你还是再读一遍CAP theorem吧。NoSQL如果完全支持ACID,就跟RDBMS的属性一样
了,那还叫
NoSQL干啥。NoSQL就是跟ACID不兼容的。Berkeley DB能支持ACID本质上是因为是单机
系统,你来个多机的Berkeley DB还能支持ACID我就服。
RDBMS支持ACID,是CA系统,NoSQL可以是CP或者AP,两者在CAP theorem下是互补的,
不是冲突的。
w*****t
发帖数: 130
11
来自主题: JobHunting版 - NoSQL firm hiring a senior software engineer
Senior Software Engineer
Engineering | San Carlos, CA, United States
Senior Software Engineer
San Carlos, CA
Are you itching to be on the vanguard of the database revolution? Do you
want to work with cutting edge NoSQL technology that Global 2000 customers
are using to solve their mission-critical Big Data problems? For more than a
decade, MarkLogic has delivered a powerful and trusted next-generation
Enterprise NoSQL database that enables organizations to turn all data into
valuable and actiona... 阅读全帖
s*a
发帖数: 267
12
来自主题: JobHunting版 - 请问最热的nosql是哪个?
nosql也就是能做个log engine,别的没用。只要搞项目一说就上nosql的,完全就是为
了用技术而用技术,不入流。
nosql能干的RDBMS都可以。更何况现在很多RDBMS也扩展了metadata支持json。
z****n
发帖数: 3189
13
来自主题: Stock版 - 说一下nosql和mongodb
之前研究数据库存储引擎的时候,大概了解过mongodb,现在生产环境中也有在用
mongodb,大概100多个instance吧
总的来说,是好产品
产品很solid,是c++写的,处理大数据有很完善的解决方案,集群功能可以直接上生产
环境(oracle,db2基本就是靠这个功能赚钱),但是mongodb不收你一分钱。从3.0开始基
本没有坑,只要用好了,基本不用老夫操心。上线初期老夫踩过一点索引的坑,还有就
是丢数据的坑,调好后基本没再遇过问题。
他们的看家存储引擎(wiredtiger)不是自己写的,是另外一个opensource项目
老夫对他们没有实现wiredtiger的lsm算法十分不爽
现在mongodb之所以亏损,是因为他们没有找到好的盈利点,这点比较类似初期的mysql
那么,nosql中,最好的解决方案是不是mongodb呢
看应用,就老夫来看,不是
小数据量应用上mysql , mysql 从8.0开始直接对json字段操作,老夫觉得小应用场景
下可以替代monogodb。为什么呢,因为mysql可以当nosql用,也可以不当nosql用,功
能更多啊
大数据量应用... 阅读全帖
r*****s
发帖数: 985
14
来自主题: Java版 - 哪里用NoSQL比较合适?
A topic for discussion:
我了解NoSQL主要用在Key/Val Pairs in large scales,
比如for storing JSON,
可是一般数据库的功能还有模型也能解决吗?
特别是做报表就不可能了,
肯定有一条线between NoSQL and DB,
有些适合NoSQL,
有些还是要Hibernate/JDBC去relational db的,
实际做过project的牛牛们说说看
这条线怎么定的?
b******y
发帖数: 9224
15
来自主题: Java版 - 请教个ec2 + nosql 的问题
nosql其实说白了,底层就是类似于lucene那样的flat file structure. 我读过全部的
lucene的源程序,而且也自己编写了自己的search library. 感觉,存储数据来说,
relational database相当好,没必要改了。
但搜索查询数据来说,类似搜索引擎的软件还是非常powerful的。比如说,我们公司
multi-million dollars的电商平台是我搭建的,就是用的搜索技术,而不是
relational database.
亚麻等也一样。网络公司做到最后,就是一个如何处理大容量数据的问题。各种NoSQL
数据库的速度是不可比拟的。但是牺牲了很多transactional方面的稳定性和灵活性。
Anyway, 都是tade off. 小公司如果是做大容量数据处理的,可以考虑NoSql, 否则传
统数据库足够了。
N*******t
发帖数: 66
16
来自主题: Programming版 - NOSQL排名
情况可能会发生变化,PostgreSQL现在对nosql的支持已经很好了,并且还在提高中。
现在有测试postgresql在nosql上的表现比mongodb要好了。
http://thebuild.com/presentations/pg-as-nosql-pgday-fosdem-2013
http://obartunov.livejournal.com/175235.html
n******7
发帖数: 12463
17
没用过NoSQL,现在遇到两个问题,都需要储存、查询大量的大数据,考虑是不是可以
用上NoSQL
问题大概是这样的,我有很多docs,每个doc有很多words,很多words出现频率很高,
words在一个doc里面出现顺序不重要。docs本身有一些注释
我希望有个database可以
1. 存储这些docs。我琢磨做成 word1 -> {doc1:count,doc2:count2} 这样的
2. 存储一个新doc时,可以update已有的key-> value 列表。如果遇到新的word,就建
立新的key-> value 关联
3. 比较docs。这个比较麻烦。比如给一个doc,我想很快知道哪些docs跟它有一样的
key。如果有必要,我还想查询substring。比如有个文档有mitbbs这个词,可能我想把
mit和bbs这两个key也包括进来
我本来觉得用SQL应该可以搞定,但是这两个问题里面,可能的词汇表都很大(>10^9)
。 问题1稍好点,文档之间很多高频词是差不多的,问题2词汇表更大,文档之间的关
联更弱。这个用NoSQL有戏吗?看了一下Redis,好像就是个只有... 阅读全帖
w***g
发帖数: 5958
18
来自主题: Programming版 - 再晒个我的开源NoSQL项目
读书的时候写了一堆代码一直没整理出来,最近国内东家要用类似的功能,
干脆整理了一下起了个开源项目。我知道这个版的风气是匿名骂人光说不练,
但挡不住mitbbs巨大的影响力,还是希望召到感兴趣的人一起contribute。
按惯例,开源项目本身不来钱,只能抱着兴趣/学习的目的来做。
https://github.com/aaalgo/donkey
功能:
一个做非文本对象相似性搜索的框架,可以用来做以图搜图,以音频搜音频等
基于内容的搜索。可以看成是一个value-key store。传统的key-value
store是按key存取value。我这个正好反过来。如果在value上定义一个相似度,
那么输进去一个value,我可以找出来数据库里最相似的那些value
对应的key。因为最近NoSQL很火,所以我这个系统也做成了NoSQL的形式。
应用1: 以图搜图
用到类似技术的网站
http://image.google.com
http://tineye.com
http://pixolution.de/
还有无穷多类似的鸡毛网站
应用2: 音频搜索
http://www.shaza... 阅读全帖
h*i
发帖数: 3446
19
来自主题: Programming版 - 再晒个我的开源NoSQL项目
我正需要一个能作快速KNN的NoSQL数据库。有几个技术问题:
1. 你说这个是NoSQL,但大家一般想象中的NoSQL数据库都不是单机的,而是
distributed,这样可以横向scale,你这个也是这么打算的么?
2. 你这个技术是基于LSH的,对么?
3. 你对下面这片文章提到,简单的用K-means来实现LSH的办法怎么看?
L. Paulev ́e, H. J ́egou, and L. Amsaleg. Locality sensitive
hashing: a comparison of hash function types and querying
mechanisms. PR Letters, 2010
和这个比起来,你的技术有什么优势?
k**0
发帖数: 19737
20
不能说到exchange就不包括scale out说到Nosql就把所有node加在一起,这种对比没有
意义。
两种系统对象不同,各有各的用处,Netflix Facebook这种前端当然适合用nosql,
exchange系统里其实也有一部分适用nosql,但是核心还是要transaction based low
latency。我只能说right tool for the right job.
[在 goodbug (好虫) 的大作中提到:]
:exchange是不会有每天千万级 active用户的,这个你随便去找个统计就知道。核心
的 match server 也是单机的,靠不同股票分开来达到scale out的目的。小股票可以
几个 symbol合一台机器。这就是为啥不能下个单子,两个 symbol all or nothing的
原因
:。所以没有啥 distributed transaction, 量也差了好几个数量级。当然我不是说这
个东西简单,我说的是优化的对象不同。
:...........
c******t
发帖数: 391
21
来自主题: JobHunting版 - 关于MySQL和NoSQL的一道面试题
今天面了一家做distributed system的公司,其中问到了一个关于Relational
Database和NoSQL Database的问题如下:
How do you choose between relational database such as MySQL and NoSQL such
as MongoDB/HBase in your project?
我答得不好,胡扯了一堆。 请教下版上朋友,这种问题该怎么答?我能想到的比较层
面包括性能、可扩展性(sharding)、schema是否固定和MapReduce等,但困惑的是,如
果根据产品需求选择relational or non-relational database呢?
多谢了!
l**d
发帖数: 746
22
来自主题: JobHunting版 - 请教个ec2 + nosql 的问题 (转载)
【 以下文字转载自 Java 讨论区 】
发信人: load (mitbbs), 信区: Java
标 题: 请教个ec2 + nosql 的问题
发信站: BBS 未名空间站 (Mon Jul 8 02:53:06 2013, 美东)
我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用
ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很
大,这个传输时间不会很长么?然后analytics的结果再传回来?
R*****i
发帖数: 2126
23
来自主题: JobHunting版 - 请问最热的nosql是哪个?
这个家伙了解nosql吗?


: nosql实际上是垃圾。用PostgreSQL。

c*****e
发帖数: 3226
24
来自主题: JobHunting版 - 请问最热的nosql是哪个?
错了, nosql 主要用于很多数据中心的 分布什系统,start up 那么点容量,当然基
本上不需要 nosql
h*******0
发帖数: 270
25
来自主题: JobHunting版 - 请问最热的nosql是哪个?
你对nosql的认识太主观了。。 这么多公司用nosql作为主要数据库,到你这就不行了
。。 你说metadata支持json是个什么东西。 是不是只知道mongo?
M*****r
发帖数: 1536
26
来自主题: Database版 - Digg says yes to NoSQL, bye to MySQL (ZZ)
http://www.unixmen.com/news-today/875-digg-says-yes-to-nosql-and-bye-to-mysql
12 March 2010
Posted in News - News
After twitter, now is Digg who decided to replace MySQL and most of their
infrastructure components and move away from LAMP to another architecture
called NoSQL that is based in Casandra, an opensource project that develops
a highly scalable second-generation distributed database. Cassandra was open
sourced by Facebook in 2008 and is licencied under Apache Licenses..
The reason of
z***y
发帖数: 7151
27
来自主题: Database版 - Digg says yes to NoSQL, bye to MySQL (ZZ)
NoSQL 是很酷的技术。但是,它和很多其他开源数据库方案一样,在可管理上欠缺。在
这一点上,商用数据库作的很好。
amazon 自己的dynamo 和 google 的bigtable,都是NoSQL的实作。国内有一个叫作doubanDB, 也
是同样的产品。开源的有Cassandra, 我现在也在学习当中。
微软和oracle都有类似项目,他们的目的都是要在各自的数据库上实现非关系数据模型。
不过阿,这个方向,个人靠他挣钱还不现实。真正有需求的公司,太少太少。
g***l
发帖数: 18555
28
我对云计算一无所知,就是想知道,我一个CENTRALIZE的OLTP的数据库,云计算NOSQL怎么给
我BENEFIT呢,为什么云计算nosql DBA就能替代传统的DBA呢?
【 在 yusun9 (denis) 的大作中提到: 】
: Can you elaborate a little bit about your question? I did not quite
supposed
application
I
y****w
发帖数: 3747
29
NoSQL多是号称不需要DBA的,比如amazon的simpledb. 我对nosql dbms的印象就是分布
式存储+map/reduce.
个人感觉,这块真正需要的首先是一批适应函数式逻辑的developer, 再逐步进化出些
成型的方法论来,然后再architect。管理方面,目前,更是SA而不是DBA。
W*******e
发帖数: 1268
30
来自主题: Database版 - NoSQL数据库的数据报表和分析
如果底层用NoSQL数据库(比如Riak),能够有办法使用Oracle BI Publisher或者IBM
Cognos生成报表做数据分析吗?
或者问题简单点 - NoSQL数据库一般有没有流行的报表工具?
l**d
发帖数: 746
31
来自主题: Database版 - 请教个ec2 + nosql 的问题 (转载)
【 以下文字转载自 Java 讨论区 】
发信人: load (mitbbs), 信区: Java
标 题: 请教个ec2 + nosql 的问题
发信站: BBS 未名空间站 (Mon Jul 8 02:53:06 2013, 美东)
我一直不太清楚Amazon EC2之类的是怎么提供服务的。比如我看网上说很多小公司用
ec2 + nosql 的解决方案,那数据是放在他们的cloud里?如果我每天采集的数据都很
大,这个传输时间不会很长么?然后analytics的结果再传回来?
r*****s
发帖数: 985
32
来自主题: Java版 - 哪里用NoSQL比较合适?
再看看您的comments好像对NoSQL评价也不高啊,
我也很怕NoSQL下去遇到Dead end,
table by table哪有这个时间?
反而RDB大不了就cluster/L2 cache好了
l**d
发帖数: 746
33
来自主题: Java版 - 请教个ec2 + nosql 的问题
多谢回复!我们现在还在架构阶段,大概是从骨干网路由器直接取数据(说实话我也不
知道具体怎么弄,专门有team负责)。我们主要考虑后台的DB架构。我就是听说NoSQL
+ EC2是个很safe的解决方案。但是不知道如果realtime 数据量很大,往EC2这种
remote cloud里面传不是很慢么?还是说我应该有个local MySQL或者 NoSQL cluster
先把数据clean一下,再送到EC2做分析?
w**z
发帖数: 8232
34
来自主题: Java版 - 请教个ec2 + nosql 的问题
nosql 有很多种,每个都有优劣。需要看你的具体情况。

NoSQL
g*****g
发帖数: 34805
35
来自主题: Java版 - 需求建议,关于NOSQL
NoSQL means not only SQL. Before you jump on what NoSQL is best for you, you
may want to make sure SQL is not good enough for you. Most RDMBS can handle
frequent write, to the upward of 10K writes per second on a good box
without too much hassle, good enough for most applications. Of course if you
have very high availability requirement, that may be a different story.
z****e
发帖数: 54598
36
来自主题: Programming版 - NOSQL排名
11-18除了ibm的informix之外,全是nosql
nosql还年轻,假以时日,必成大器
H*******g
发帖数: 6997
37
说白了都是钱闹的。。。用钱就用关系型数据库,没钱的就用NOSQL,当然NOSQL也不便
宜。。。
A*******e
发帖数: 2419
38
难道SQL的数据库都在单机上?另外对于NoSQL,如果需要join怎么办?
另外NoSQL的storage上也可以套个SQL engine嘛,比如狗家的F1就在spanner之上。
z*******3
发帖数: 13709
39

你搜索cap theorem不就好了
或者nosql vs relational db,或者高级一点,acid vs base
理工学生当然用理工科的词汇搜索
用什么sql vs nosql
这种文科生的对仗方式搜索出来不都是文科生写的文章
z****e
发帖数: 54598
40
有replica丢什么数据,再说那些垃圾数据,丢了也没啥大不了的
维持在一个范围内就都可以接受,互联网公司多的是这种数据
就是钱,账户这些关键信息不敢丢,一点错都不敢有的那种
这种不要弄nosql,都还是放在db里面,其他的nosql没啥问题
d****i
发帖数: 4809
41
大牛果然是明白人,NoSQL不是什么新东西,历史上出现过很多号称要替代SQL的数据库
技术,结果最后不是死了就是最后变成了SQL RDBMS,所以SQL用了五十年被证明是最优
解而且还会永久下去不是没有道理的,现在的NoSQL很多都是吹吹牛骗点钱,搞了半天
最后还要往SQL上面靠。

100
store
w***g
发帖数: 5958
42
NoSQL == non relational
NoSQL数据库的特点是存储的数据不是规则的表格。
后来变成not only sql是因为底气不足了。这种现象叫“backronym”。

Not
b******y
发帖数: 9224
43

我曾经认真研究过历史上的数据库,不过,看来,看去,再看来,看去,还是sql数据
库长久。历史上曾经出现过object database,最后也就是缩到telecom用了。历史上还
出现过file based system, 和今天的no sql差不多的架势,比如ibm的数据库(
universe db?)。其实说白了,就是极端的optimize到某些应用上了。牺牲了某些
transaction特性,当然性能提高了。
NoSQL其实就是历史的产物,硬件性能提升了,网络发达了,这些都给nosql提供了土壤。
其实,分布式系统和一台计算机系统,将来还会此起彼伏的博弈的。。。
w**z
发帖数: 8232
44
把你的use case 拿出来看看, rdms 和 NoSQL 本质上怎么就一样了? SQL 就是一个用
来access data 的 语言而已,和rdms vs NoSQL 有毛关系?
z****e
发帖数: 54598
45
是,nosql本来就是从这些东西发展起来的,实际上很多big data分析工具比如tableau
,palantir这些都可以从xml, spreadsheet中取数据

:其实这个nosql跟db2搞了好多年的xml库也没啥太大不同吧。
w***g
发帖数: 5958
46
没有恨。BBS嘛,大家都是贬低别人来提升自己的逼格。
对方越牛B,贬低它就越显得自己牛B。
所以就老有java和C++互相干的,你有见过java和C++去跟python干的吗?
我一串帖子下来都在骂NoSQL,也是因为事实上这几年NoSQL确实比较牛B。
不说技术,至少银子都花花的在里面。
g*****g
发帖数: 34805
47
看来我老人家逼格最低。虽然这个版上NoSQL比我熟的一只手能数的过来。但我从来说
的就是99%的应用不需要NoSQL。
z****e
发帖数: 54598
48

当然vert.x现在还只是做到了一个file system
你可以再此基础之上做后续的开发,建立index这些
你上算法课不是学了一堆的排序嘛,这个时候就用得到了
上big data就从inverted index table开始学
这个时候也用得到了,看你想做什么,是想做一个精确查找的工作呢
还是一个相似度比较的工具,当然前者更精确,速度也更快
后者更慢,但是普适性更强,现有的nosql file system都是基于hdfs的
你可以考虑根据vert.x的file system来建立nosql,然后一步一步走向db
当然是单机,其实无非那几个东西,index, transaction,similarity
这几个解决了,问题就解决了一大半,db还有write ahead log
那这个就是纯粹为了对付断电这种事搞的,很多时候没有必要
k****i
发帖数: 101
49
Consistency, Availability, Partition-tolerance
RDBMS: favor C over A or P => CP, (CA unlikely if network unreliable)
NoSql: favor P over A or C => AP, (CP sub-optimal w/o normalized join)
NewSql: RDBMS 2.0
Mongo: NoSql-CP
z*******n
发帖数: 1034
50
Facebook Announces Apollo, a New NoSQL Database for On-line Low Latency
Storage
by Charles Humble on Jun 13, 2014 | Discuss

Speaking at QCon New York on Wednesday Jeff Johnson, from the core data
group at Facebook, announced Apollo, Facebook’s Paxos-like NoSQL database.
Written in C++11 on top of the Apache Thrift 2 RPC framework, Apollo is a
hierarchical storage system where all the data is split into shards, very
much analogous to region servers in HBase. The sweet-spot for it, Johnson
expl... 阅读全帖
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)