最近在我的技术群里,有位小伙伴问了大家一个问题:如何保证Mongodb和数据库双写的数据一致性?
群友们针对这个技术点讨论的内容,引起了我的兴趣。
其实我在实际工作中的有些业务场景,也在使用Mongodb
,也遇到过双写的数据一致性问题。
今天跟大家一起分享一下,这类问题的解决办法,希望对你会有所帮助。
很多小伙伴看到双写数据一致性问题,首先会想到的是Redis
和数据库
的数据双写一致性问题。
有些小伙伴认为,Redis
和数据库
的数据双写一致性问题,跟Mongodb
和数据库
的数据双写一致性问题,是同一个问题。
但如果你仔细想想它们的使用场景,就会发现有一些差异。
Redis缓存能提升我们系统的性能。
一般情况下,如果有用户请求过来,先查缓存,如果缓存中存在数据,则直接返回。如果缓存中不存在,则再查数据库,如果数据库中存在,则将数据放入缓存,然后返回。如果数据库中也不存在,则直接返回失败。
流程图如下: 有了缓存之后,能够减轻数据库的压力,提升系统性能。
通常情况下,保证缓存和数据双写数据一致性,最常用的技术方案是:延迟双删
。
MongoDB
是一个高可用、分布式的文档数据库
,用于大容量数据存储。文档存储一般用类似json
的格式存储,存储的内容是文档型的。
通常情况下,我们用来存储大数据或者json格式的数据。
用户写数据的请求,核心数据
会被写入数据库,json格式的非核心数据
,可能会写入MongoDB。
流程图如下:
此外,在数据库的表中,保存了MongoDB相关文档的id。
用户读数据的请求,会先读数据库中的数据,然后通过文档的id,读取MongoDB中的数据。
流程图如下: 这样可以保证核心属性不会丢失,同时存储用户传入的较大的数据,两全其美。
Redis和MongoDB在我们实际工作中的用途不一样,导致了它们双写数据一致性问题的解决方案是不一样的。
接下来我们一起看看,如何保证MongoDB和数据库的双写的数据一致性?
目前双写MongoDB和数据库的数据,用的最多的就是下面这两种方案。
该方案最简单,先在数据库中写入核心数据,再在MongoDB中写入非核心数据。
流程图如下:
如果有些业务场景,对数据的完整性要求不高,即非核心数据可有可无,使用该方案也是可以的。
但如果有些业务场景,对数据完整性要求比较高,用这套方案可能会有问题。
当数据库刚保存了核心数据,此时网络出现异常,程序保存MongoDB的非核心数据时失败了。
但MongoDB并没有抛出异常,数据库中已经保存的数据没法回滚,这样会出现数据库中保存了数据,而MongoDB中没保存数据的情况,从而导致MongoDB中的非核心数据丢失的问题。
所以这套方案,在实际工作中使用不多。
在该方案中,先在MongoDB中写入非核心数据,再在数据库中写入核心数据。
流程图如下:
关键问题来了:如果MongoDB中非核心数据写入成功了,但数据库中的核心数据写入失败了怎么办?
这时候MongoDB中非核心数据不会回滚,可能存在MongoDB中保存了数据,而数据库中没保存数据的问题,同样会出现数据不一致的问题。
答:我们忘了一个前提,查询MongoDB文档中的数据,必须通过数据库的表中保存的mongo id
。但如果这个mongo id
在数据库中都没有保存成功,那么,在MongoDB文档中的数据是永远都查询不到的。
也就是说,这种情况下MongoDB文档中保存的是垃圾数据,但对实际业务并没有影响。
这套方案可以解决双写数据一致性问题,但它同时也带来了两个新问题:
我之前聊的先写MongoDB,再写数据库,这套方案中的流程图,其实主要说的是新增数据的场景。
但如果在用户修改数据的操作中,用户先修改MongoDB文档中的数据,再修改数据库表中的数据。
流程图如下:
如果出现MongoDB文档中的数据修改成功了,但数据库表中的数据修改失败了,不也出现问题了?
那么,用户修改操作时如何保存数据呢?
这就需要把流程调整一下,在修改MongoDB文档时,还是新增一条数据,不直接修改,生成一个新的mongo id。然后在修改数据库表中的数据时,同时更新mongo id字段为这个新值。
流程图如下:
这样如果新增MongoDB文档中的数据成功了,但修改数据库表中的数据失败了,也没有关系,因为数据库中老的数据,保存的是老的mongo id。通过该id,依然能从MongoDB文档中查询出数据。
使用该方案能够解决修改数据时,数据一致性问题,但同样会存在垃圾数据。
其实这个垃圾数据是可以即使删除的,具体流程图如下:
在之前的流程中,修改完数据库,更新了mongo id为新值,接下来,就把MongoDB文档中的那条老数据直接删了。
该方案可以解决用户修改操作中,99%的的垃圾数据,但还有那1%的情况,即如果最后删除失败该怎么办?
答:这就需要加重试机制
了。
我们可以使用job
或者mq
进行重试,优先推荐使用mq增加重试功能。特别是想RocketMQ
,自带了失败重试机制,有专门的重试队列
,我们可以设置重试次数
。
流程图优化如下:
将之前删除MongoDB文档中的数据操作,改成发送mq消息,有个专门的mq消费者,负责删除数据工作,可以做成共用的功能。它包含了失败重试机制,如果删除5次还是失败,则会把该消息保存到死信队列
中。
然后专门有个程序监控死信队列中的数据,如果发现有数据,则发报警邮件
。
这样基本可以解决修改删除垃圾数据失败的问题。
还有一种垃圾数据还没处理,即在用户新增数据时,如果写入MongoDB文档成功了,但写入数据库表失败了。由于MongoDB不会回滚数据,这时候MongoDB文档就保存了垃圾数据,那么这种数据该如何清理呢?
我们可以使用job定时扫描,比如:每天
扫描一次MongoDB文档,将mongo id取出来,到数据库查询数据,如果能查出数据,则保留MongoDB文档中的数据。
如果在数据库中该mongo id不存在,则删除MongoDB文档中的数据。
如果MongoDB文档中的数据量不多,是可以这样处理的。但如果数据量太大,这样处理会有性能问题。
这就需要做优化,常见的做法是:缩小扫描数据的范围
。
比如:扫描MongoDB文档数据时,根据创建时间,只查最近24小时的数据,查出来之后,用mongo id去数据库查询数据。
如果直接查最近24小时的数据,会有问题,会把刚写入MongoDB文档,但还没来得及写入数据库的数据也查出来,这种数据可能会被误删。
可以把时间再整体提前一小时,例如:
in_time < 当前时间-1 and in_time >= 当前时间-25
获取25小时前到1小时前的数据。
这样可以解决大部分系统中,因为数据量过多,在一个定时任务的执行周期内,job处理不完的问题。
但如果根据时间缩小范围之后,数据量还是太大,job还是处理不完该怎么办?
答:我们可以在job用多线程
删除数据。
当然我们还可以将job的执行时间缩短,根据实际情况而定,比如每隔12小时,查询创建时间是13小时前到1小时前的数据。
或者每隔6小时,查询创建时间是7小时前到1小时前的数据。
或者每隔1小时,查询创建时间是2小时前到1小时前的数据等等。
其实删除垃圾数据还有另外一种思路。
不知道你了解过Redis
删除数据的策略
吗?它在处理大批量数据时,为了防止使用过多的CPU资源,用了一种随机删除
的策略。
我们在这里可以借鉴一下。
有另外一个job,每隔500ms随机
获取10条数据进行批量处理,当然获取的数据也是根据时间缩小范围的。
本文由哈喽比特于1年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/Ros08QyrwyIXjc15-VEO_w
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。