首页 > 高中作文

idoser(loser)

近期可能很多人都在关注idoser相关的内容,今日小编也是在网上找了很多关于 idoser 相关信息并整理如下,希望对大家有所帮助背景说明：有些作弊用户用模拟器生成的ssid会是乱码，对ssid中的乱码进行检测不仅可以为作弊检测提供依据，其核心方法也可以进一步泛化到邮箱、imei等字符串数据的乱码检测，具有重要意义。数据正常的ssid：一方面通过正常用户的ssid获得；另一方面收集网络上常用的用户名；总共万乱码的ssid：通过程序自己生成随机的ssid，长度分布与正常ssid的分布相同举个例子： | 正常的ssid | 乱码的ssid | | MERCURY_FBA | ZMPQmDVCHWH | | FAST_ | idOsErHEmg | | TPLINK_ | UelDtrwu | 特征根据观察到的数据，可以做一个进一步的定一下特征：字符串的熵，长度，大写字符长度，数字个数，大小写字符个数，元音字母个数，重复字母个数，字符串ngram的相关数据（占已有的统计结果，类似方差，均值，排名等），还有其他的一些潜在特征比如（常用词汇的bag of words ，是否包含手机名称，是否包含中文姓名，是否包含中等长度的英文词汇，是否包含常用缩写）等。训练使用的模型是lr和random forest（颗树，深度）。训练时注意的两点： a) 做好归一化，其实lr需要做详细的特征处理，但是rf其实是不需要的； b) 是否包含特殊字符串这个特征，尽量选用一些比较有代表性较长的字符串，选的太多太短则会失去判别性。结果在测试集上的precison－recall曲线如下，上面两个时LR的，下面两个时Random Forest的： LR可以达到%recall，%precison RandomForest可以达到%recall，%precision 总结&TODO 目前预计在scene上的日命中量约条；在线上数据上精度估计约%左右（可通过调节阈值提高精度，但降低召回率）；有继续提高的空间下一步要 a) 统计一下rf模型的重要特征，观察一下哪些特征起到作用。 b) 加入bag of words 做第二版 c) 泛化到其他字段的乱码识别上 d) 现在的gibberish detection是在英文样本上训练的，需要改成中文拼音和英文结合的。 e)使用gbdt做一下预测，与rf做一下对比参考文献［］bobao..cn/learning/detail/ ［］Ma J, Saul L K, Savage S, et al. Beyond blacklists learning to detect malicious web sites from suspicious URLs[C]Proceedings of the th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, . ［］Yadav S, Reddy A K K, Reddy A L, et al. Detecting algorithmically generated malicious domain names[C]Proceedings of the th ACM SIGCOMM conference on Internet measurement. ACM, . ［］Wang W, Shirley K E. Breaking Bad Detecting malicious domains using word segmentation[C]. IEEE Web . Security and Privacy Workshop}}, . 以上就是关于idoser 相关问题啦,如需了解更多关于idoser问题,关注我们的下次更新哦