图像技术在上亿规模实拍图片中的应用(算法好文)

发表于 3年以前  | 总阅读数:246 次

背景

闲鱼作为一个自由的商品和内容分发市场,每天有上百万的用户图片上传,其中不乏图片重复,图片描述内容不明确、图文不符等低质量的商品;也有各种搞笑、抖机灵等倒流的内容;还有色情、黑产等违规或违法灰色地带。如果让这些低质的商品和内容都正常流入每天日常的商品展示中,不但会影响用户的交易效率,还会降低产品在市场中的口碑和价值,甚至增加被监管治理和叫停的风险,其中较为典型的问题包括:

  • 图片内容重复:在闲鱼日常的发布内容中,有些卖家为了增加自己商品的曝光机会用不同的描述和图片创建多个相同商品进行投放,这时文本的表述可能完全不同,但商品图片看上去基本一样如图1所示:

图1.相同商品图片

  • 图文内容不一致:部分图片内容与所售商品描述不一致,在排序时这些商品与其他一致的商品混排在一起时会影响整体搜索的体感和效果,如图2所示;

图2.商品图片和文本描述差异

  • 图片内容质量:用户上传的图片不是所有图片都适合做商品图片展示的,例如商品包装,商品局部,非商品图片,发票单据,商品描述图等,如图3;

图3.不适合的商品图片- 违规:

一些卖家为了吸引买家的注意,会把一些如美女、性感和搞笑等违规图片作为商品主图导流,严重影响闲鱼的品牌价值和公平优良的交易环境,如图4。

图4.美女首图商品

上述问题都可以归结为和视觉技术所涉及的范围,实际上互联网公司已经大规模的应用相关技术解决实际问题,例如阿里、百度、腾讯等头部公司都有自己的视觉算法团队,每年各大顶会也都是常客。大家不但探索相关的前沿技术,同时将其转化应用到实际的产品中,如图像特征在拍立淘、百度识图中的应用,图像检测直接运用在自动驾驶和工业质检中,图像识别相关技术分别在审核、短视频、广告等业务得到广泛的应用。本文针对闲鱼产品中涉及的部分问题介绍如何利用视觉技术解决,例如图片内容本身非商品或是色情等违规的物料都是可以利用图像分类,图像特征等方法去解决,以下主要从以下几个部分介绍:

  1. 构建大规模图片分类模型,学习闲鱼产品中的图片分布特征;
  2. 基于分类模型学习图像比对特征;
  3. 组合图像分类和图像特征解决实际问题;

构建大规模图片分类模型

图像分类模型是视觉模型的基础,检测,分割等视觉问题都依赖基础的图像的分类模型。在闲鱼场景构建图像分类模型存在以下几个难点:

  1. 图片大部分是用户上传,图像质量偏低,增加识别难度;
  2. 图片内容不限于商品类目本身,涵盖很多和商品不相关其他类别,整体类别定义困难;
  3. 闲鱼商品的title是由用户自己填写的,结构化信息参差不齐,同时还包含很多口语化的噪声;
  4. 同类的商品包含的噪声图片很大,不能直接训练
  5. 数据标注成本高,短时间内不能有效覆盖大部分数据;

我们这里要求不直接识别出众多的具体商品类目名称,只要可以区分彼此即可,对于需要重点识别的类别,我们采用训练好的特征进行样本挖掘,整体流程如图5所示,包括基础图像特征学习,聚类样本构建,和分类模型的训练:

图5.半自动图像分类识别

基础图像特征学习

基础图像模型主要是为了学习数据的整体分布,在尽可能提高样本覆盖的情况下发掘较简单的样本使得模型可以冷启动。首先根据线上的query请求的展示结果,收集高频query下的点击商品作为候选集合,因为有用户误点击和高点击导流样本存在,所以需要过滤掉点击率偏低和偏高的商品样本,同时需要语义相近的query进行去重,经过上述几步就构成了图像分类的基础数据。模型训练采用resnet101模型,对比了softmax和arcface[5]两种损失的效果,结果softmax好于arcface,原因可能是因为样本不纯arcface很难收敛到较好的目标。

聚类样本构建

有了基础模型后,接下来需要收集闲鱼类目样本。首先收集闲鱼每个类目下商品样本,这步可以把语义概念控制在一定的范围内,接下来根据title中的中心词的命中率把该类目下下样本划分为不同的子类目,每个子类目下的样本都有明确的语义含义,但是图片存在较大变化如上图8-1所示“詹姆斯”这个子类目下的样本存在多个品类的情况,这类样本无法直接训练。这时我们可以利用上面得到的基础图像特征对子类目下的样本提纯,即在每个子类目类做聚类,把互为图像特征余弦距离最近的样本聚合成新的类别,过滤掉样本较少的类目,最终就得到了我们训练闲鱼场景下的图像分类样本,针对不同的距离阈值,我们分别选取了4.6K,7.4K,12K三组类目细分类,人工评估效果7.4K较为理想,其他两个对样本的划分要么太粗要么太细。

分类模型的训练

基于之前的分类模型参数,训练新的类目标签,采用batchsize=256, centercorp=224, 加入随机crop,镜像,cutout预处理,学习率采用cos学习率同时在一定轮数加入热重启,使模型在后期还能进一步提升准确率,最终验证集合top@1准确率74%,基本达到了应用要求。为了能识别票据,文字图,建筑物,人物等特定类别,我们需要对这些类别做定制的样本挖掘:通过已经训练好的模型抽取特征搭建商品库的检索系统,收集需要特殊处理的样本进行最紧邻查找,对查找后的结果卡阈值并再次进行检索继续扩充需要的样本集合如图6,最终合并这些类目与原有类目一起训练。

图6.特定类目样本挖掘

基于分类模型学习图像比对特征

比对特征主要是用来判断商品是否同款,过滤掉或打散图片重复的商品。由于系统里每个商品已经单独定义,所以这里采用deepid[1][2]][3]方案,训练同款特征,但直接用每个商品的图片训练存在两个问题:1.每个id类别存在变化较大的多张图片并不能直接使用所有图片;2.每个id类目的样本稀少,直接训练很难收敛。

针对上述问题1我们有个先验的假设即用户上传的多张图片中与商品主要意图相关的图片占大多数,所以我们可以借鉴之前聚类的思路,在同一个商品的多张图片中进行聚类,选取样本最多的类别为我们的候选集合,如果类别间的样本相差不大则认为该商品不适合做训练应丢弃。

为了每个类别都可以尽可能挖掘到同款样本,我们选取在线上同一个query下有交易行为的商品和点击率较高的商品作为候选集合同时对每个商品内部进行聚类保证样本纯度,在实验时我们发现品牌类query或品类query下的样本存在较大的多样性,如“安踏”、“华为手机”、“电动车”,即使点击行为较为稠密,但可能属于不同sku的商品,所以我们需要对query进行限制,尽量保证query到单独sku粒度消除歧义性,如“华为p40 pro”、“极米投影仪h3”、“小牛电动车G2”。

有了上述的样本我们就可以训练deepid模型,这里采用人脸常用的arcface loss[5], backbone选择之前的分类模型和初始化参数,开始阶段先用较小margin参数,然后遍历scale参数,经过选取合适的margin和scale后训练模型到饱和,接下来增大margin参数同样选取合适的scale参数训练,经过3次这样的迭代使模型在不过拟合的情况下训练,最终相款识别准确率95%, 商品sku内召回79%。

基于同款特征也可以用于在相同识别的场景中,即利用同款特征做召回再利用sift特征做最后的几何校验,可以实现对旋转、部分裁剪和遮挡的相同图识别。

组合图像分类和图像特征解决相关性和多样性问题

闲鱼搜索相关性问题

针对用户提交商品图片多样性的特点,为了提升搜索体感,采用首图相关性聚类的方式重排检索结果如下图7-1示例,以“锐鲨”搜索query为例:图7.1 举例对照组检索结果,可以看出整体队列都是和便携工具相关的商品,但也存在包装(坑位1,6)和歧义(坑位3)的体验不好的case,通过上述的商品图像分类模型对商品多张图片进行预测并聚类,我们可以得到每个商品的主要的top3类别,随后统计整个队列的top类别做为该队列置信类别,最后根据置信度分档重排,结果参考图7.2看到top商品都是移动工具相关。另一个case如图8.1所示query为“詹姆斯”经过图像特征重排球鞋这个主要类别被重排到前排如图8.2,其他一些不太相关的类别被降权。线上的case中,也会有badcase,例如有些query如“华为”,“苹果”存在多类别是否需要重排需要根据用户反馈进行优化,重排的实验结果如下,点击率还是有明显的提升。

图7.1.query="锐鲨" 对照组top6结果 图7.2.query="锐鲨"图像特征重拍实验组top6结果 图8.1.query="詹姆斯" 对照组top6结果 图8.2.query="詹姆斯"图像特征重拍实验组top6结果

闲鱼Feed多样性问题

多样性是推荐效果的一个重要的指标,相关结果太集中会影响用户的体验。闲鱼用户定义的商品特殊性,在多样性问题上很难用一种方法解决,需要利用类目,文本描述,商品图片等多维度共同解决,其中商品图片多样性问题解法与上面搜索一致性问题有些相似。如下图9.1所示,同为“华为mate Xs”一款商品,用户定义类目可能属于不同类别,所以直接用户定义类目无法做多样性处理,但从图片维度我们可以发现这些商品有相同的元素即商品包装图片, 所以可以利用图像分类模型分别对每个商品图片进行预测类目实现打散。 图9.1 视觉同类但提交类目不同的case举例

首先需要过滤掉人物和文字类目这些图像表示一致但语义变化很大的商品不做处理,之后对商品的多张商品图进行类目预测并对预测后的置信度top1的类目进行聚合,具有相同类目的商品即为将要去重的候选集合,实际中发现有些相同商品的top1类目并不相同,可能是在top3中,但直接使用top3去重影响面会很大,会带来不少badcase,所以这里采用迭代两次方式即对top1聚合后的结果top3类目投票,选取具有非共现但投票过半的类目进行第二次去重如9.2所示,经过两次去重后可对文本和类目不好去重的case有效的补充。 图9.2 图像多样性去重逻辑上线后各项指标都有提升

相同商品图片去重

闲鱼商品中有的卖家为了增加自己的曝光会创建多个商品并采用相似的描述和视觉上变化很小的商品图片,另外还有一些卖家会使用相同原始的商品图片,这类商品如果出现在同一个搜索结果页会带来不好的用户体验,也会降低商品的交易效率。这里利用之前图像对比特征搭建图像搜索引擎,索引方式采用通用的乘积量化的方法构建1.2亿商品库,整体流程如下图10.1。

每天实时的商品相对全库比例较小,我们不需要做到实时精准去重,所以我们采用离线的去重方案:首先每天新增商品会以增量的方式入库,在构建索引的同时会同步当前的商品在架、是否有效等状态过滤掉无效的商品,然后利用乘积量化的方法构建离线去重检索引擎,每天新增的商品会经过去重检索引擎找到与库里相同的商品并更新到线上的KV存储中,由于原有库中的商品和新商品产生了新链接关系,所以还需要根据新的链接匹配关系去更新KV存储中原有库中该商品的相同商品列表。线上的请求在完成召回后,会根据召回的商品id去KV存储中实时查询对应的相同商品,最后打散逻辑会对当前页中命中的相同商品进行分页打散完成去重。

10.1 商品离在线去重方案

不合规商品过滤

闲鱼中的不合规商品主要包括美女首图,性感首图,搞笑图片,人体局部等,但实际出售的商品和这些商品图片没有任何关系,卖家使用这类图片主要是为了吸引用户的注意骗取流量。采用普遍使用的审核模型、OCR识别可以过滤掉大多数色情、涉黄、涉政和暴恐等非法内容。然后还有些违规类的商品如图11.2和搞笑、段子类的内容如图11.3影响正常的交易市场,这类问题无法直接用审核等模型过滤掉。

11.1 违规商品识别流程

针对与上述问题,我们设计了违规商品识别的方案如图11.1所示,因为涉及到线上业务策略这里不做详细描述,新增商品会经过两个逻辑判断是否违规:

  1. 首先识别和人相关的主图,利用通用分类给所有商品图片打标签,然后过滤掉语义不一致的商品,但这是会有一定的badcase如图11.4,这里的用户晒单是正常的商品,所以我在过滤后还需判断是否有同款的商品,如果识别同款,则会通过该商品;
  2. 搞笑、段子类的图片一般都为热门图片,虽然会有可能再编辑,但主题内容是没变化的,这类图片通过建立违规内容库利用相同识别可以得到解决,如图11.1中的相同图识别分支;

11.2 违规商品示例 11.3 非商品搞笑、段子等示例 11.4 人物首图正常商品示例

总结

本文主要介绍了利用视觉技术中的分类,特征学习解决实际用户分发商品中的应用,然而闲鱼用户自定义的商品和内容的多样性使得在审核、治理和结构方面给我们带来了很多挑战,单纯利用一种模态和内容很难把所有问题都解决,所以在实际应用中会综合多种方案和技术组合求解,例如在识别类目问题上,不但需要利用文本、图像内容提升识别精度,还在产品侧引导用户帮助完成商品结构化;对于样本提纯不但可以标注,还可以充分合理利用用户的反馈行为帮助我们;另外检索系统、数据加工流程和同步管理等工程化是最终模型体现价值的关键,光只有单纯几个模型并不能直接解决线上问题;在违规治理问题上正所谓“魔高一尺,道高一丈”,有些不合规用户总钻平台的漏洞为自己牟利,与他们的斗智斗勇是个长期的过程,也需要技术不断迭代和超越。感谢合作团队:闲鱼结构化团队,闲鱼架构团队,达摩院、审核部分等兄弟团队给与的人力和技术支持。

本文由哈喽比特于3年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/AQqaxvok9N6PWd83GZ_wpA

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »
 相关文章
Android插件化方案 5年以前  |  237231次阅读
vscode超好用的代码书签插件Bookmarks 2年以前  |  8065次阅读
 目录