idoser(loser)

近期可能很多人都在关注idoser相关的内容,今日小编也是在网上找了很多关于 idoser 相关信息并整理如下,希望对大家有所帮助 背景说明: 有些作弊用户用模拟器生成的ssid会是乱码,对ssid中的乱码进行检测不仅可以为作弊检测提供依据,其核心方法也可以进一步泛化到邮箱、imei等字符串数据的乱码检测,具有重要意义。 数据 正常的ssid: 一方面通过正常用户的ssid获得;另一方面收集网络上常用的用户名;总共万 乱码的ssid:通过程序自己生成随机的ssid,长度分布与正常ssid的分布相同 举个例子: | 正常的ssid | 乱码的ssid | | MERCURY_FBA | ZMPQmDVCHWH | | FAST_ | idOsErHEmg | | TPLINK_ | UelDtrwu | 特征 根据观察到的数据,可以做一个进一步的定一下特征:字符串的熵,长度,大写字符长度,数字个数,大小写字符个数,元音字母个数,重复字母个数,字符串ngram的相关数据(占已有的统计结果,类似方差,均值,排名等),还有其他的一些潜在特征比如(常用词汇的bag of words , 是否包含手机名称 , 是否包含中文姓名 , 是否包含中等长度的英文词汇 , 是否包含常用缩写)等。 训练 使用的模型是lr和random forest(颗树,深度)。 训练时注意的两点: a) 做好归一化,其实lr需要做详细的特征处理,但是rf其实是不需要的; b) 是否包含特殊字符串这个特征,尽量选用一些比较有代表性较长的字符串,选的太多太短则会失去判别性。 结果 在测试集上的precison-recall曲线如下,上面两个时LR的,下面两个时Random Forest的: LR可以达到%recall,%precison RandomForest可以达到%recall,%precision 总结&TODO 目前预计在scene上的日命中量约条; 在线上数据上精度估计约%左右(可通过调节阈值提高精度,但降低召回率); 有继续提高的空间 下一步要 a) 统计一下rf模型的重要特征,观察一下哪些特征起到作用。 b) 加入bag of words 做第二版 c) 泛化到其他字段的乱码识别上 d) 现在的gibberish detection是在英文样本上训练的,需要改成中文拼音和英文结合的。 e)使用gbdt做一下预测,与rf做一下对比 参考文献 []bobao..cn/learning/detail/ []Ma J, Saul L K, Savage S, et al. Beyond blacklists learning to detect malicious web sites from suspicious URLs[C]Proceedings of the th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, . []Yadav S, Reddy A K K, Reddy A L, et al. Detecting algorithmically generated malicious domain names[C]Proceedings of the th ACM SIGCOMM conference on Internet measurement. ACM, . []Wang W, Shirley K E. Breaking Bad Detecting malicious domains using word segmentation[C]. IEEE Web . Security and Privacy Workshop}}, . 以上就是关于idoser 相关问题啦,如需了解更多关于idoser问题,关注我们的下次更新哦