比赛链接:摸我
-
因为数据序列有点长,每个pid最长有5000个调用序列,所以一开始接触赛题的时候还是想用TF-IDF这种比较传统比较快的特征提取做法来试一下。
-
特征主要包括三部分:① 一些手动的统计特征,比如最常出现的api名字的调用比例和数量、不同返回值的数量比例等。②TF-IDF特征,将调用序列看成文本,计算词频逆词频。③Doc2Vec特征,用训练好的doc2vec向量进行聚类,统计不同类别的数量及特则。
-
由于只花了一个星期来做这道题,而这一个星期也是心不在焉....所以很多东西没有时间去试一下,比如FB的fasttext。深度模型也是简单做一个RNN....
-
最后是传统模型+RNN取平均,B榜排名是38/622....还得继续努力