• 注册
  • 查看作者
  • 原来,知识图谱是“找关系”的摇钱树?

    本文来自微信公众号 “亲爱的数据”(微信号:deardata),作者:谭婧,泽酷网经授权发布。

    原来,知识图谱是“找关系”的摇钱树?

    图文原创:谭婧

    全文审核专家:朱小坤

    知识图谱,英文名Knowledge Graph,是一种非结构化数据,属于图数据。

    这里被称为“图”的东西,不是图画的图,而是图论的图。知识图谱数据模型的数学基础源于“图论”。

    简单说,是把零散的信息有效地组织起来,把纷繁复杂的数据变成有用的知识,这是知识图谱的意义。

    下图为,中文医学知识图谱示意。

    原来,知识图谱是“找关系”的摇钱树?

    知识图谱有顶点(Vertex)和边(Edge),是关联数据的高度抽象。

    顶点和边可以带有属性,能表示出不同的“关系”。

    原来,知识图谱是“找关系”的摇钱树?

    (一)如何“建”知识图谱?

    建大型知识图谱,可是个系统工程。

    人类学知识也是从词汇开始,机器也一样,词汇本身也是比较简单的“知识”。

    从信息中“抽取”知识,一定得是一个自动化技术,靠人工太累了。

    原来,知识图谱是“找关系”的摇钱树?

    原来,知识图谱是“找关系”的摇钱树?

    从文本中抽取,用自然语言处理技术(NLP)。

    为了提高性能,技术能力强的厂商,会用到NLP大杀器——“预训练大模型”。

    而除了文本之外,企业有很多数据,图片,音频,视频,交易记录等,会用多模态技术,这种技术的能力更强一些,技术难度也更高。

    简单讲,计算机视角下,图片和文本,都是不同的“模态”,所以是“多模态”。

    原来,知识图谱是“找关系”的摇钱树?

    从多模态信息中得到一批非结构化数据(文本、图像、视频、语音)中包含的信息,自动抽取并建立关系,形成知识图谱。

    知识图谱上阵后,机器认识了“全面屏”手机,也能认识“曲面屏”手机。

    机器能在电影的上下文里认出《长津湖》是影片名,在歌手李健的上下文里理解《贝加尔湖畔》是歌名,虽然这两个词又都是地名。

    这时候,机器学会了举一反三。

    (二)电商公司,怎么干活?

    原来,知识图谱是“找关系”的摇钱树?

    电商痛点之一是商品,用户等关系刻画不准确。

    巧了,知识图谱能精准刻画属性和关系,令运营和管理精细化。

    电商建知识图谱先得“看懂”“商品,锅碗瓢盆都分不清,很尴尬。

    为了看懂商品,引入“商品标签”。

    原来,知识图谱是“找关系”的摇钱树?

    商品标签是“知识理解”后的产物,也是对上面说到的多模态数据的提炼和抽象。

    标签是商品知识的一部分,标签为商品之间“建立关系”贡献了力量。

    那些有相同标签的商品就能连起来了,也就有了“关系”。商品标签越多,知识越丰富。

    除了标签之外,商品之间会有一种天然的关系,是“品类”,而且商品类别会有多级。

    原来,知识图谱是“找关系”的摇钱树?

    举一个真实的例子,京东商城的品类太多了,会用到一种黑科技:用热门品类的标注数据,迁移到冷门品类。

    黑科技背后会有顶级学术会议的论文来支持。也就是说机器理解了一些常见热门商品品类,接着,又“有如神助”般地多学会了一些少见的商品品类。

    这样,机器成为了认识“商品品类”的小能手。

    看懂商品名称是基本功,若连商品标签都不够准确和精细,后续的电商运营策略和方法很难做好,成了“拔错萝卜,带错泥”。

    日后会被电商运营同学吐槽:我厂AI技术水平有待提高。

    其实,算法工程师没闲着,一日复一日,年复一年,都在用算法提高准确度,尽量把模型设计的“聪明点”。

    原来,知识图谱是“找关系”的摇钱树?

    (三)知识图谱+深度学习技术,什么原理?

    知识图谱离不了数学方法。

    通过图表示学习的方法,把顶点和边都用数值化的向量来表示,映射到欧式空间里面计算距离。

    用距离衡量“关系”,

    距离近,关系近。

    距离远,关系远。

    这样,可以把一些隐藏关系给找出来。

    头部国内电商企业对知识图谱的应用大约五六年前起步,均在2021年左右建成超大规模电商知识图谱。阿里巴巴有“藏经阁知识引擎”,京东有“知识大脑”。

    如今,国内头部电商动不动好几亿用户,50亿以上商品相关实体,知识图谱能够达到非常大的规模,能做到覆盖零售全站商品和用户。

    连这个研究方向博士也惊叹:“之前,没处理过这么大的图”。

    原来,知识图谱是“找关系”的摇钱树?

    构建大规模、高精度的知识图谱,需要投入很大的人力物力财力,但是用好了能创造很大的商业价值。

    假如一个电商收入一百亿,利用知识图谱提升1%的收入,就是多赚一个亿,摇钱树,非他莫属。

    最后补一点,其实,知识图谱技术,很多人天天在用。

    因为搜索引擎早已离不开知识图谱了,当你轻点鼠标,查找某个问题,搜索会结合知识图谱技术。

    原来,知识图谱是“找关系”的摇钱树?

    有两本好书推荐:

    1.《知识图谱:概念与技术》(肖仰华等著)一书,多位专家推荐给我。

    2.《图深度学习:从理论到实践》(颜伟鹏,包勇军,朱小坤,姚普主编)。

    这本书中的作者们,会在我之前一篇文章中《京东零售:北极星永远指北》见到他们。

    原来,知识图谱是“找关系”的摇钱树?

    (完)

    原来,知识图谱是“找关系”的摇钱树?

    原来,知识图谱是“找关系”的摇钱树?


    原来,知识图谱是“找关系”的摇钱树?

    分享、在看、点赞、打赏 ,都是爱

    广东·广州
  • 0
  • 0
  • 0
  • 150
  • 请登录之后再进行评论

    登录
  • 做任务
  • 实时动态
  • 主题偏好
  • 单栏布局 侧栏位置: