第三届阿里云安全算法挑战赛 Rank 38th 代码

比赛链接：摸我

因为数据序列有点长，每个pid最长有5000个调用序列，所以一开始接触赛题的时候还是想用TF-IDF这种比较传统比较快的特征提取做法来试一下。
特征主要包括三部分：① 一些手动的统计特征，比如最常出现的api名字的调用比例和数量、不同返回值的数量比例等。②TF-IDF特征，将调用序列看成文本，计算词频逆词频。③Doc2Vec特征，用训练好的doc2vec向量进行聚类，统计不同类别的数量及特则。
由于只花了一个星期来做这道题，而这一个星期也是心不在焉....所以很多东西没有时间去试一下，比如FB的fasttext。深度模型也是简单做一个RNN....
最后是传统模型+RNN取平均，B榜排名是38/622....还得继续努力

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md
RNN.ipynb		RNN.ipynb
TF-IDF+LGB.ipynb		TF-IDF+LGB.ipynb

Provide feedback