TF-IDF 기반 벡터 변환 및 데이터 분석 장치 및 방법

    公开(公告)号:KR102246405B1

    公开(公告)日:2021-04-30

    申请号:KR1020190090032

    申请日:2019-07-25

    发明人: 이태진 하지희

    摘要: 본발명은 TF-IDF 기반벡터변환및 데이터분석장치및 방법에관한것으로, 특히추출된문자열을다른데이터와의관계를고려한 TF-IDF 기법을통해가중치를부여함으로써, 악의적인행위특징을특성화시키고가공된벡터를통해데이터를분석하는 TF-IDF 기반벡터변환및 데이터분석장치및 방법에관한것 이다. 또한, 본발명에따르면, 훈련데이터세트에서문자열을추출한뒤, 문자열의빈도를고려해선별된문자열집합으로단어장을구성하고, 단어장기반으로참조단어빈도-역문서빈도벡터를산출하는참조벡터생성모듈; 분석대상테스트파일에서문자열을추출하고, 상기참조벡터생성모듈에서사전에생성된단어장을기준으로테스트단어빈도-역문서빈도벡터(TF-IDF Vector)를산출하는테스트벡터생성모듈; 및상기테스트단어빈도-역문서빈도벡터와사전에구성된훈련데이터세트의참조단어빈도-역문서빈도벡터들을비교하고악성코드탐지및 변종분석을제공하는악성코드탐지모듈을포함하는 TF-IDF 기반벡터변환및 데이터분석장치및 방법이제공된다.