网站建设高清图,中小企业融资服务平台,网站备案抽查号码,做电影网站需要的服务器配置文章目录一、什么是云计算1. IaaS:基础设施即服务2. SaaS:软件即服务3. PaaS:平台即服务二、大数据与云计算关系三、什么是MongoDB四、大数据与MongoDB五、MongoDB特点六、安装MongoDB七、重要进程介绍7.1 mongod进程7.2 mongo进程7.3 其他进程7.3.1 mongodump重建数据库7.3.2 …
文章目录一、什么是云计算1. IaaS:基础设施即服务2. SaaS:软件即服务3. PaaS:平台即服务二、大数据与云计算关系三、什么是MongoDB四、大数据与MongoDB五、MongoDB特点六、安装MongoDB七、重要进程介绍7.1 mongod进程7.2 mongo进程7.3 其他进程7.3.1 mongodump重建数据库7.3.2 mongoexport导出数据7.3.3 mongoimport导入数据7.3.4 mongos分片操作7.3.5 mongofiles操作分布式文件存储系统7.3.6 mongostat展示运行中mongod实例的状态工具7.3.7 mongotop分析MongoDB实例花在读写数据上时间跟踪方法八、适合业务8.1 Web应用程序8.2 缓存系统8.3 日志分析系统一、什么是云计算
云计算的定义有多种说法对于到底什么是云计算我们至少可以找到100种解释。目前广为接受的是美国国家标准与技术研究院定义:云计算是一种按使用量付费的模式这种模式提供可用的、便捷的、按需的网络访问进入可配置的计算资源共享池资源包括网络、服务器、存储、应用软件、服务)这些资源能够被快速提供只需投入很少的管理工作或与服务供应商进行很少的交互本质上就是虚拟化技术的延伸以服务的形式提供客户。 按照服务的形式目前主要有如下3种形式的云计算:
1. IaaS:基础设施即服务
laaS ( Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet 可以从完善的计算机基础设施获得服务例如硬件服务器租用。
2. SaaS:软件即服务
SaaS ( Software-as-a-Service);软件即服务。它是一种通过Internet提供软件的模式用户无需购买软件而是向提供商租用基于Web 的软件来管理企业经营活动。例如:阳光云服务器。
3. PaaS:平台即服务
PaaS ( Platform-as-a- Service ):平台即服务。PaaS 实际上是指将软件研发的平台作为一种服务以SaaS的模式提交给用户。因此PaaS也是SaaS模式的一种应用。但是PaaS的出现可以加快SaaS 的发展尤其是加快 SaaS应用的开发速度例如软件的个性化定制开发。
二、大数据与云计算关系
从技术上看大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理必须采用分布式计算架构。它的特色在于对海量数据的挖掘但它必须依托云计算的分布式处理也就说大数据就像做饭用的一堆原材料云计算就像做饭用的工具。云计算解决了大数据的运算工具问题而对大数据的存储我们需要相应的云存储工具。云存储是在云计算概念上延伸和发展出来的一个新的概念是指通过集群应用或分布式文件系统等功能,将网络中大量的存储设备通过应用软件集合起来协同工作共同对外提供数据存储和业务访问功能的一个系统。所以云存储是一个以数据存储和管理为核心的云计算系统本书介绍的MongoDB就可以当作一个云存储系统使用。
三、什么是MongoDB
数据库排名
MongoDB是一个可扩展、开源、表结构自由、用C语言编写且面向文档的数据库旨在为Web应用程序提供高性能、高可用性且易扩展的数据存储解决方案。
MongoDB是一个介于关系数据库和非关系数据库之间的产品是非关系数据库当中功能最丰富、最像关系数据库的 NoSQL 数据库;它支持的查询语言非常强大其语法有点类似于面向对象的查询语言可以实现类似关系数据里单表查询的绝大部分功能 而且还支持对数据建立索引。
MongoDB只通过6年时间就将公司市值发展到12亿美元其成果相当于著名开源公司Red Hat 20年的发展。MongoDB的成功之路一大部分归功于Web开发者。作为一个面向文档数据库在许多场景下它都优于RDBMS同时还可以获得非常高的读写性能。此外动态、灵活的模式更可以让用户在商用服务器上轻松地进行横向扩展。
四、大数据与MongoDB
MongoDB这样的数据库可以支撑很多大数据系统它不仅可以作为一个实时的可操作的大数据存储系统也能在离线大数据分析系统中使用。
MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。事实上MongoDB天生就是为云计算而生的其原生的可扩展架构通过启用分片和水平扩展能提供云存储所需的技术;此外它的自动管理被称为“副本集”的冗余服务器,以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商其中包括亚马逊网络服务、微软和SoftLayer等。
MongoDB还支持Google提出的 MapReduce并行编程模式,为大数据的分析提供了强有力的保障。MongoDB同时提供了与Hadoop 的接口与其他第三方数据分析工具完美结合。
MongoDB是一个面向文档的数据库不支持关系数据库中的join操作和事务。MongoDB用集合的概念代替了关系数据库中的表用最小逻辑单元文档代替关系数据库中的行。MongoDB的集合结构是动态的没有必要像关系数据库一样插入数据前先定义表结构而且可以随时增加、修改、删除组成文档的字段。
MongoDB支持当前所有主流编程语言的客户端驱动使用方便应用广泛非常适合文档管理系统的应用、移动APP应用、游戏开发、电子商务应用、分析决策系统、归档和日志系统等应用。MongoDB支持所有主流平台的安装但在32位的平台上部署时会有所限制这是由它采用内存映射数据文件机制决定的生产环境中最好部署在64位平台上。
五、MongoDB特点 关系数据库中最基本的单元是行而MongoDB中最基本存储单元是document典型结构如下所示
{_id : ObjectId(51e0c391820fdb628ad4635a)author : { name : Jordan , email : Jordan123.com ),postcontent : jordan is the god of basketballcomments : [{ user : xiaoming,text :great player },{ user : xiaoliangtext : nice action }]
}MongoDB用集合的概念代替了关系数据库中的表用最小逻辑单元文档代替关系数据库中的行。
它用与JSON格式类似的键值对来存储(在 MongoDB中叫 BSON对象)其中值的数据类型有常见的字符串、数字、日期还可以是BSON对象、数组以及数组的元素也可以是BSON对象通过这种嵌套的方式使 MongoDB的数据类型变得相当丰富。
MongoDB与传统关系数据库还有一个重大区别就是:可扩展的表结构。也就是说collection表)中的document(一行记录)所拥有的字段(列)是可以变化的下面文档对象document(一行记录)比上面列出的文档对象document(一行记录)多一个time字段但它们可以共存在同一个collection(表)中。
MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。MongoDB天生就是为云计算而生的其原生的可扩展架构通过启用分片和水平扩展能提供云存储所需的技术;它的自动管理被称为“副本集”的冗余服务器以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商其中包括亚马逊网络服务、微软和SoftLayer等。
{_id : ObjectId(51e0c391820fdb628ad4635a),author : { name : Jordan , email : Jordan123.com ),postcontent : jordan is the god of basketball,comments : [{ user : xiaoming,text :great player },{ user : xiaoliangtext : nice action }],time:2013-07-13
}MongoDB查询语句不是按照SQL 的标准来开发的它围绕JSON这种特殊格式的文档型存储模型开发了一套自己的查询体系这就是现在非常流行的NoSQL体系。关系数据库中常用的 SQL 语句在 MongoDB中都有对应的解决方案。MongoDB不支持JOIN语句,传统关系数据库中JOIN操作可能会产生笛卡尔积的虚拟表,消耗较多系统资源。MongoDB的文档对象集合collection可以是任何结构我们可以通过设计较好的数据模型尽量避开这样的操作需求。如果真的需要从多个collection(表)中检索数据那我们可以通过多次查询得到。
在关系数据库中经常用到的 group by 等分组聚集函数在 MongoDB中也有而且MongoDB提供了更加强大的 MapReduce方案(GOOGLE提出的并行编程)为海量数据的统计、分析提供了便利。 MongoDB支持日志功能Journaling对数据库的增、删、改操作会记录在日志文件中。MongoDB每100ms将内存中的数据刷到磁盘上如果意外停机在数据库重新启动时MongoDB能通过Journaling日志功能恢复。 MongoDB支持复制集Replset一个复制集在生产环境中最少需要3台独立的机器测试的时候为了方便可能都部署在一台机器上)一台作主节点primary)一台作次节点(secondary)一台作仲裁节点(只负责选出主节点)备份、自动故障转移这些特性都是复制集支持的。 MongoDB支持自动分片sharding,分片的功能实现海量数据的分布式存储,分片通常与复制集配合起来使用实现读写分离、负载均衡当然如何选择片键是实现分片功能的关键。如何实现读写分离我们后面会详细分析。
总之MongoDB 最吸引人的地方应该就是自由的表结构、MapReduce、分片、复制集通过这些功能实现海量数据的存储、高效地读写以及数据的分析。
六、安装MongoDB
一般指的是运行MongoDB服务器端的进程mongod。 解压后在bin目录下我们可以看到一个名为mongod.exe的可执行程序这个就是服务器端进程对应的程序。 下载链接https://www.mongodb.com/try/download/community MongoDB启动时需要指定数据文件所在的目录,所以先要建立一个保存数据文件的目录: D:\mongodb-win32-i386-2.6.3\test_single_instance\data MongoDB启动时也可以指定一个日志文件: D:\mongodb-win32-i386-2.6.3\test_single_instance\logs\123.log MongoDB通过以下命令就可以启动: mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf
七、重要进程介绍
7.1 mongod进程
Mongod.exe为启动此数据库实例进程对应的可执行文件是整个 MongoDB中最核心的内容负责数据库的创建、删除等各项管理工作运行在服务器端为客户端提供监听相当于MySQL数据库中的 mysqld进程。
启动数据库实例会用到以下命令:
mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf
配置文件123.conf内容如下所示:
dbpath E:\MongoDB-win32-i386-2.6.3\test_single_instance\data
logpath E:\MongoDB-win32-i386-2.6.3\test_single_instance\logs\123.log
journal true
port 50000
auth truedbpath 为数据库文件存储路径;logpath 为数据库实例启动、运行、错误日志文件;journal 启动数据库实例的日志功能数据库宕机后重启时依赖它恢复;port 数据库实例的服务监听端口;auth 启动数据库实例的权限控制功能。
其他可选参数可以通过mongod-help查看。
7.2 mongo进程
mongo是一个与mongod进程进行交互的JavaScript Shell进程它提供了一些交互的接口函数用于系统管理员对数据库系统进行管理如下面命令所示:
mongo --port 50000-username xxx-password xxx-authenticationDatabase admin
参数 port 为mongod进程监听的端口参数 username 为连接数据库的用户名参数 password 为连接数据库的密码参数 authenticationDatabase 为要连接的数据库
7.3 其他进程
7.3.1 mongodump重建数据库
mongodump提供了一种从mongod实例上创建 BSON dump文件的方法mongorestore能够利用这些dump文件重建数据库更多可选参数可通过mongodump-help查看。
常用命令格式如下: mongodump --port 50000 --db eshop --out e:\bak
参数:
–port表示mongod实例监听端口–db表示数据库名称–out表示备份文件保存目录
7.3.2 mongoexport导出数据
mongoexport是一个将 MongoDB数据库实例中的数据导出来生产JSON或CSV文件的工具常用命令格式如下:
mongoexport --port 50000 --db eshop --collection goods --out e:\goods.json
7.3.3 mongoimport导入数据
mongoimport是一个将JSON或CSV文件内容导入到MongoDB实例中的工具,常用命令格式如下:
mongoimport --port 50000 --db eshop --collection goods --file e:lgoods.json
7.3.4 mongos分片操作
mongos是一个在分片中用到的进程。所有应用程序端的查询操作都会先由它分析然后将查询定位到具体某一个分片上它的作用与mongod类似客户端的mongo与它连接。
7.3.5 mongofiles操作分布式文件存储系统
mongofiles提供了一个操作MongoDB分布式文件存储系统的命令行接口常用命令如下:
mongofiles --port 40009 --db mydocs --local D:/算法导论学习资料.pdf put algorithm.introduction.pdf
它表示将本地文件 D:\算法导论学习资料.pdf上传到数据库mydoc中保存。
7.3.6 mongostat展示运行中mongod实例的状态工具
mongostat提供了一个展示当前正在运行的 mongod 实例的状态工具,相当于UNIX/Linux上的文件系统工具vmstat,但是它提供的数据只与运行着的mongod或mongos的实例相关。
7.3.7 mongotop分析MongoDB实例花在读写数据上时间跟踪方法
mongotop提供了一个分析 MongoDB 实例花在读写数据上的时间的跟踪方法。它提供的统计数据在每一个collection表)级别上。
八、适合业务
8.1 Web应用程序 Web应用是一种基于BS模式的程序业务的特点是读写请求都比较高早期系统的数据量可能很少但是发展到一定程度后数据量会暴增这就需要数据存储架构能够适应业务的扩展。 传统的关系数据库表结构都是固定的,增加一个业务或者横向扩展数据库都会带来巨大的工作量。MongoDB支持无固定结构的表模型因此很容易增加或减少表中的字段适应业务的变化;
MongoDB本身就支持分片集群很容易实现水平扩展将数据分散到集群中的各个片上,提高了系统的存储容量和读写吞吐量。
Web应用程序还有一个特点就是“热数据”读并发很高也就是说最新的数据被请求的次数会最多。为了提供读的性能在传统的关系数据将中会采用其他的缓存技术来将这部分数据放在内存中而 MongoDB本身就支持这一点它是通过内存映射数据文件来实现的。它会维护一个工作集将最热的数据放在内存中不需要其他技术的协助这为系统开发提供了简便性如图1-3所示。
8.2 缓存系统 MongoDB使用场景是与关系数据库搭配使用作为关系数据库的缓存前端。
目前缓存技术有很多种最常见的就是使用memcached但是这些缓存系统都有个缺点就是支持的数据类型有限查询语句也有限只能保存少量的数据且不能持久化。
8.3 日志分析系统 这类系统的特点是数据量大允许部分数据丢失不会影响整个系统的可靠性。 以前将日志直接保存到操作系统的文件上我们需要用其他工具打开日志文件或编写工具读日志进行分析这样的话对于大量的日志查询会比较困难。
如果用MongoDB 数据库来保存这些日志
一来可以利用分片集群使日志系统的容量海量大二来使用MongoDB特有的查询语句能够快速找到某条日志记录。
最重要的是MongoDB支持聚集分析甚至MapReduce的能力为大数据的分析和决策提供了强有力的支持。