纯真网络ip地址查询(纯真ip数据库怎么使用)

小多多 • 2021年12月13日下午7:42 • 杂谈

在移动互联网的应用中，经常需要根据用户的位置信息等做一些用户侧信息的统计分析。而要拿到用户的位置信息，一般有两个方法： GPS 定位的信息和用户 IP 地址。由于每个手机都不一定会打开 GPS，而且有时并不太需要太精确的位置（到城市这个级别即可），所以根据 IP 地址入手来分析用户位置是个不错的选择。要做到这个功能得需要一个 IP 和地理位置的映射关系库，并依赖这个库启动一个 IP 转地理位置的服务。本文从需求入手，结合 Github 上拥有 8.4k 星的 ip2region 来分析映射关系库的设计以及 IP 如何快速转换成地理位置。

介绍

IP 定位服务很常见，而且很多公司都提供了类似的付费服务，比如阿里，高德，百度等，当然也有公开的免费服务，像 GeoIP，纯真IP等。这些服务要么通过 HTML 页面解析，要么通过接口请求，但不管怎样都离不开一次 http 请求，更不用说大部分服务都对 QPS 作了限制。下表枚举了一些常见的通过 IP 获取地址的方式。

ip2region 的 Github 仓库中提供了 ip2region.db 的生成过程，是用 JAVA 写的，其类图如下所示：

通过熟悉生成 ip2region.db 的源码，简述一下其生成过程如下：

通过 RandomAccessFile 在文件中预留 8 bytes 的 super 块和 2048*8 bytes 的 header 索引区
扫描 ip.merge.txt 文件，对每一条记录作如下处理：依据每一条记录的起始IP, 结束IP 和数据，生成一个索引块，前四个字节存储起始IP, 中间四个字节存储结束IP, 后四个字节存储已经计算出的数据地址（通过 RandomAccessFile 写入，这里维护一个位置信息到文件位置的字典，保证同一个位置信息只写入一次。），并将索引块暂存在 indexPool 链表中。这一步会将数据区的所有位置信息确定。
扫描完 ip.merge.txt 中所有的记录，将 indexPool 中所有的索引块写到数据区后面。在此过程中将 int(1024*8/12-1)= 681 个索引块组成一个索引分区，并记录下每个索引分区第一个索引块的起始IP和地址信息（header块），并暂存在 headerPool 链表中。此外还会将索引区的起始位置和结束位置记录下来。
调整 RandomAccessFile 指向文件开头，写入索引区的起始位置存储到 super 块的前四个字节，结束位置存储到 super 块的后四个字节。
继续将 headerPool 中的 header 块写入到 header 区。
调整 RandomAccessFile 指向文件结尾，写入时间戳和版权信息。

TIPS: ip2region 仓库中还使用了 global_region.csv 数据，该文件有5列（行号，，区域，，邮政编码），对应着区域的具体信息，可以往数据区每个位置信息中填充。

快速搜索

ip2region 提供三种查询算法，最差的查询耗时都是ms级别的。分别是内存二分搜索，b+tree搜索，二分查找。耗时依次增加。其搜索结构图如下：

二分搜索

通过 super 块可以拿到索引区的起始位置和结束位置，而且每个索引块都是 12 bytes，其中的 IP 地址都是递增的，所以可以使用二分搜索来快速获取位置信息。其步骤如下：

把 IP 值通过 ip2long 方法转为整型
读取 super 块获取索引区的起始位置和结束位置，二者相减 +1 可得索引块的总个数
采用二分法直接求解，比较索引块中起始IP，结尾IP 和当前 IP 的大小，即可找到该 IP 对应的索引块，根据索引块后面四个字节得到数据地址和数据长度，从而拿到位置信息。

b+tree搜索

b+tree 搜索用到了 header 索引区，第一步先在 header 索引区中使用二分搜索，定位到某个索引分区后，再在对应的索引分区中使用二分搜索。相比较二分搜索而言，它的速度更快，原因是读磁盘的次数远低于二分搜索。其步骤如下：

把 IP 值通过 ip2long 转为整型
使用二分法在 header 索引区中搜索，比较得到对应的 header 索引块以及其对应的索引分区。
读取对应索引分区，再通过二分法定位到对应的索引块，从而获得位置信息。

基于内存的二分搜索

该方法和二分搜索方法类似，区别就是前者将 ip2region.db 全部读进内存中，后者则是通过不断读取 ip2region.db 文件。

总结

ip2region 库只解决了一个非常常见的 IP 定位问题，但将这个服务做到了又小又快（当然还提供了多语言的客户端），从而在 Github 上获得了 8.4k 的 star。

占用内存小

相邻 IP 的位置信息相同，通过 IP 段来解决相邻 IP 对应相同位置信息，避免位置信息被重复存储
IP 转换成 INT，像字符串 111.111.111.111 被转换成int（1869573999），从 15Byte 缩小到 4Byte
不同的 IP 段也有相同的位置信息，通过指针来指向特定的位置信息，保证位置信息只保存一次（全量扫描存储进字典中）

搜索速度快

IP 有序，使用二分搜索将时间复杂度降到 O(logN)
二级索引 header 索引区的使用，降低磁盘读写频率，先确定索引分区，再从索引分区确定索引位置，在确定位置信息数据。

多语言客户端支持

支持 java、C#、php、c、python、nodejs、php扩展(php5和php7)、golang、rust、lua、lua_c, nginx。

参考文献

ip2region 数据库文件结构及原理
ip2region源码
ipv4的维基百科
各国IPv4地址分配列表
高德地图api
百度地图api

小多多创始人

0 0

主流视频格式有哪些（手机视频剪辑软件推荐）

视频信号是我们接触最多的显格式及示信号，但您并不一定对各种视频信号有所了解。因为国内用到的视频信号格式和端子非常有限，一般就是复合视频和S端子，稍高级一些的就是色差及VGA。对于那…

小多多
杂谈 2021年12月13日
麦片的功效与作用麦片是由什么制成的

麦片可以很好的抑制身体里的胆固醇，还有很多的蛋白质和碳水化合物，对于老年人而言，对于心脑血管疾病有一定的预防作用，也可以改善血液循环，改善生活的压力。麦片的功效与作用 1、减肥好…

季候
杂谈 2022年4月6日
macbook系统更新在哪里设置（macbook系统更新设置）

每次Mac系统有更新Mac电脑都会提醒用户，但更新要占用大量的网络和时间，所以有些用户不是很喜欢。下面我们分享如何关闭苹果电脑Mac系统自动更新升级提醒。 1.首先点击屏幕左上角的…

小多多
2021年12月13日 • 杂谈
英雄联盟空格名字怎么打出来的（游戏id打空格的方法）

相信有一定游戏经验的玩家应该都知道快捷键的使用了，此贴针对那些刚入门的新手。相信会对你有所帮助的，也相信有某个你是不知道的。耐心看看吧。 LOL英雄联盟新手须知：游戏里快捷键的详…

小多多
杂谈 2021年12月13日
文本对齐方式怎么设置（列举word文本对齐方式）

WPS文字/Word中和对齐相关的按钮有如下8个，可以设置的对齐效果有10种，虽然大家每天都在用，可都了解这些对齐方式的用法和区别吗？对齐设置方法很简单，选中文字，点击相应的按钮…

小多多
2021年12月13日 • 杂谈
云企业邮箱是什么（阿里云企业邮箱收费标准）

现在比较热点的就是企业数字化转型，很多企业在使用“上云”服务的时候，都会有很多担心。例如，企业与客户之间很多是通过邮件来沟通的，那么将企业邮件放在云端安全吗？所以在‘上云’之前都会…

小多多
杂谈 2021年12月13日
杂谈

为什么会有人说ZEEKR 001的卡片钥匙不好？

提起传统的汽车钥匙，你会想到什么？是“丑大重集于一身”？还是“难以承受的出门包袱”？传统的机械钥匙十分不便于携带，不过随着汽车行业整体向着轻量化的方向发展，汽车钥匙也逐渐“轻量化”…

小多多
2021年12月13日
杂谈

ubuntu安装gcc编译器出错（linux在线安装gcc命令步骤）

配置终端的C开发环境在Ubuntu 终端系统中开发，需要依赖一些命令行工具，对比使用Windows 下的IDE集成开发环境会有一些不同之处。在Linux 下一般使用gcc 编译…

小多多
2021年12月13日
药品质量与安全专升本升学率高吗

药品质量与安全专升本升学率还是比较高的，这个专业比较适合女生报考，工作稳定，福利待遇方面也非常不错，工作也比较清闲，没有太多的事情要做。药品质量与安全专升本升学率高吗药品质量与…

季候
杂谈 2022年4月6日
iOS 15.4新增“男妈妈”等表情符号引争议！网络吵翻了

上周，苹果举办了发布会，新品的推出引起不小的轰动。而就在昨天，苹果又宣布iOS升级到iOS15.4版本。其中新增了戴口罩可以通过面容ID解锁的功能，对于疫情期间时常要佩戴好口罩的…

季候
2022年4月8日 • 杂谈
品牌查询网官网查询(中国品牌护肤品有哪些)

国货护肤品现在可谓是越来越受大家的欢迎了，尤其是在近几年来越来越多的国货品牌出现在大家的视野，从而让大家对于以前的国货护肤品牌有了全新的认知，可能在这之前很多人都认为国货护肤品便宜…

小多多
2021年12月13日 • 杂谈
跟网恋对象半夜聊污的话题有哪些？100个污的聊天话题分享

　　如果你和女生已经比较熟悉了，那就可以试着和女生聊一些比较污的聊天话题，可以增加你们之间的暧昧气氛。但污的话题不是低俗下流的语言，还是得讲究下语言和用词，不然你可能会吓到女生。下…

季候
杂谈 2022年4月6日
上海小区排名（全国高端小区排名）

内容来自：@一房一万公众号：fangdis上海年成交套数排行榜TOP100，我们没有做，因为我们觉得不科学，上榜的多是500W以内的小区（见下图），但是分摊到每个区成交套数的榜单还…

小多多
2021年12月10日 • 杂谈
十元店货源批发（开十元店进货渠道）

在生活中，相信有很多人都喜欢逛十元店，它里边的商品新颖价格又便宜，因此它的销量也是很不错的，最近有小伙伴也想开个10元店，但是不知道从哪里进货好?那么接下来，我们就来给大家讲解一下…

小多多
杂谈 2021年12月10日
mac熄屏时间怎么设置（mac使用中突然黑屏解决方法）

我们在使用Mac电脑的过程中，会发现在一段时间内没有操作电脑，电脑屏幕就会锁屏。但是有很多小伙伴会使用电脑观看小说，因此不喜欢屏幕总是锁屏，这时候就可以将电脑设置成不锁屏的状态。那…

小多多
杂谈 2021年12月13日

发表回复

登录后才能评论