什么是POI数据?

内容纲要

    POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”。POI数据会包含各种信息,如前面提到的名称、别名等信息,可以将这些信息看成一个个的标签(tag),而分类是其中最重要的一个tag,在OSM中 “An OSM element should represent a single on-the-ground feature once and only once”作为一个基本规则,一般来说POI数据可以进行一级和二级分类,每个分类都有对应的行业和名称,这些分类在数据采集和应用中都是十分重要的信息,通常在OSM展示中依靠分类进行信息展示,而名称、地址、坐标在OSM展示和检索作为基础信息来使用。而兴趣是一个非常主观性非常强的词语,在特定的情况下例如用户想发一封电子邮件的时候,电话远远没有邮箱地址有趣。所以POI在不同使用场景下,对POI数据有不同需求,当一个POI数据平台提供一系列接口和数据输出的时候必须考虑不同场景下用户的需求和数据特点。

    通常我们将POI的信息划分为基础信息和详情信息,随着社会的发展,LBS、O2O服务相继出现,用户的需求也在不断演化:

    以前我们在网上搜索全聚德在北京有几个店,那个离自己最近,如何换乘地铁或公交,这时候地图是用来寻址规划路线的;

    现在我们直接搜索某个区域有什么店铺,那个评分更高服务更好,招牌菜是否符合口味,甚至直接团购下单,现在地图是为了生活服务的;

    这时候我们发现POI包含的信息演化包含了三个部分:

        1. 基础信息:名称、地址、坐标、别名、电话、分类等

        2. 详情信息:评分、菜单、价格、评论、团购信息、营业时间、图片等垂直行业信息。

        3. 挖掘信息:营业状态、可信度等挖掘产生的数据

    有了第1部分我们可以提供基础的检索服务,可以根据用户输入的名称或者当前位置检索到需要的特定类型的POI信息,完成用户的搜索需求;而第2部分可以优化一定场景下的用户体验或者提供高附加值的服务;第3部分数据优化用户体验,避免用户流失。    

    当然,在地图上POI可能不是一个点,而地图上点也未必是一个POI,如一个步行街、一片海滩又或者两条铁路的交叉口。通常人们会将步行街或者海滩这些区域简化为一个点也就是POI,而铁路的交叉口在地图上可能呈现一个点,可实际上并非一个POI或者有价值的POI,因此,地图上的点和POI实际并非一个概念,虽然我们通常将POI映射为一个点。

    地图数据的最终愿景是复刻这个世界,而POI则是这个愿景的基石。

以上来源: POI数据介绍

POI数据处理流程

POI数据根据数据源不同,接入数据获取的信息会有所不同,但无非是基础数据和详情数据。

  数据接入后处理流程也可以统一为: 

    数据接入 => 数据标准化 => 数据判重 => 数据融合 => 数据发布 => 持续更新

    不同的数据在步骤中操作可能会有所差异,但是基本上都会遵循上述步骤,下面将逐一介绍每个步骤

    1. 数据接入:根据数据来源的不同接入方式也是多种多样,如图商的数据最为标准,通常为mid/mif的文件提供,此时转化为流程可处理的数据格式即可;互联网抓取的数据内容丰富但是遵循的规范多种多样,此时进行初步判断是否符合接入的条件以向下流转;合作方的数据相对标准,但业务侧重不同,而通常合作方的数据需要进行反馈数据接入时做好对账和反馈查询接口;ugc数据相对较少但是需要给与及时处理和反馈…。不同数据源数据重要性和数量级会所有不同,针对数据较大但是重要性相对较低的数据需要做好数据准入验证;对数据量少、但是重要的数据要有通用的对账和反馈机制,这会减少后期业务展开时的工作量。

    2. 数据标准化:数据标准化一般包含三部分内容:1)字段对齐,对于某些数据源相同内容字段名称可能不一致,此时将其转换为统一的名称和路径;计算分类、状态等字段值补全到数据中;2)数据正确性验证,例如根据坐标校验地址的省市区划是否一致,3)剔除部分分类的数据或者触发黑名单数据,如涉黑涉恐等违法数据类型。标准化的过程不复杂但会随着接入数据源的增加而变得繁琐,因此一个健壮的可配置的标准化服务可以使得后续工作事半功倍。

    3. 数据判重:数据源接入后如何判断新接入数据是否与原有的数据重复,也就说新接入的了某个数据源的POI如果当前已经有了这个POI那么应该将新增的POI与原有的POI融合并更新原有的POI信息,如果当前没有该POI,那么应使用新接入的POI独立新增一个POI数据到自己的系统。判重流程比较负责,在这里暂不详述,简单说是将已有的POI的关键信息建立倒排索引,根据新增的POI的信息查询倒排索引,根据倒排索引返回的POI列表计算相似度,如果有相似度达到阈值的那么判断为重复。

    4. 数据融合:是将不同来源标识相同的POI的数据融合为一条数据,这条数据在各个源中的数据选择最可靠的基础数据,和不同业务的详情数生成一条POI。这条POI可以满足不同的业务需求。

    5. 数据发布:数据发布指数据融合得到的POI数据推送到各个业务方进行线上操作。同数据接入一样,发布对接多个业务方,根据不同的业务进行数据适配和校验,一个通用的发布模式是十分必要。

    6. 数据更新:数据生成是一个持续交付过程,数据不断采集和融合,数据也会不断更新,数据发布的交付也是一个持续的过程。

以上来源: POI数据处理流程