基于机器学习的大数据处理方法
摘要:
本发明提供了一种基于机器学习的大数据处理方法,包括:给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;使用语义块模型对词汇进行语义向量表示;在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词,作为扩展检索词;使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。本发明改进了MAPRUDUCE的并行框架,更好地适应文本数据挖掘的需要;并且针对社交文本的不规范特点,利用语义向量对文本数据进行有效表示和分析,适用于各种规模的社交文本挖掘分析和计算。
公开/授权文献
0/0