Tag:MongoDB

MongoDB的复制集操作

mongodb支持以实时或接近实时的方式完成数据库的复制与同步,通过复制我们可以将运行在不同机器上的mongodb保持数据同步,实现冗余的配置提升数据库的可靠性。我们也可以使用复制技术来提升...


MongoDB的MapReduce使用简介

第一次接触MapReduce是从单位的一个做数据分析的博士那里得知的,他主要是做hadoop相关的工作,经常要写相关的数据处理函数,一直认为MapReduce是Hadoop的专利。后来自己深入学习了一些相关的知识,才知道原来这是个Google工程师提出的通用的数据处理模型.如果大家感兴趣可以查看这篇原始论文MapReduce: Simplified Data Processing on Large Clusters


使用Python和MongoDB处理CSV数据

有时候我们需要处理excel或者其他的数据源的数据,这些数据可能是保存在csv文件中。我们一般将其转换为JSON数据格式后,导入到数据库,做数据统计分析使用。数据转换的过程,可使用openRefine等工具或者自己写Python程序定义转换,这个过程就是数据的ETL(extract,transform,and load)过程。本节主要是通过一个简单的例子来讲解如何使用MongoDB和Python来处理数据。


MongoDB的日常备份

对于一些MongoDB数据库的日常维护,鉴于数据安全和完整性的考虑,需要定期的执行数据库的备份工作。个人编写了一个shell脚本或许可以帮到你去定时备份数据库,不管是本地的还是远程的。实际环境可能不太相同,所以请加入crontab中之前运行一次确保正常工作。另外针对远程的数据库未设置安全认证,如需要自行修改代码。