提取关键字改进协同过滤算法的研究与应用
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Research and Application of Improved Collaborative Filtering Algorithm of Keyword Extraction
  • 作者:李吉祺 ; 黄刚
  • 英文作者:LI Ji-qi;HUANG Gang;School of Computer,Nanjing University of Posts and Telecommunications;
  • 关键词:推荐系统 ; 协同过滤 ; 稀疏矩阵 ; 词频与逆文本频率指数 ; 混合推荐
  • 英文关键词:recommendation system;;collaborative filtering;;sparse matrix;;TF-IDF;;mixed recommendation
  • 中文刊名:WJFZ
  • 英文刊名:Computer Technology and Development
  • 机构:南京邮电大学计算机学院;
  • 出版日期:2019-03-06 10:29
  • 出版单位:计算机技术与发展
  • 年:2019
  • 期:v.29;No.266
  • 基金:国家自然科学基金(61171053);; 南京邮电大学基金(SG1107)
  • 语种:中文;
  • 页:WJFZ201906032
  • 页数:5
  • CN:06
  • ISSN:61-1450/TP
  • 分类号:160-164
摘要
协同过滤算法在遇到数据稀疏性问题时,其相似度计算过程会受到很大的影响,导致推荐结果不准确,影响推荐系统用户体验。而影评网站的影评往往很好地概括了电影的特征,从影评网站的影评文字中可以使用关键字提取算法提取特征来进行电影间的相似性计算。TF-IDF是一种高效而常用的关键词提取技术,其通过特定文档中词的相对频率和整个文档语料库中该词的反比例进行比较,最终得出该篇文章的关键字。利用文本信息提取关键字,进而通过文章的关键字词进行文章的相似度计算,可以有效地改进评价矩阵稀疏的问题。通过爬取电影的评价文字来进行关键字提取,改进评分矩阵较稀疏的电影的相似度计算,可以弥补稀疏矩阵的缺陷。实验结果表明,该算法有效提高了准确率、召回率和覆盖率,证明了算法的可行性。
        When the collaborative filtering algorithm is influenced by data sparsity,its similarity calculation process will be greatly affected,resulting in inaccurate recommendation and affecting the user experience of the recommendation system. The movie reviews on movie review websites often summarize the characteristics of movie,where keyword extraction algorithm can be used to extract features to calculate the similarity between movies. The TF-IDF is an efficient and commonly used keyword extraction technique,which compares the relative frequency of words in a specific document with the inverse proportion of the words in the entire document,and finally derives the keywords of the article. Using text information to extract keywords and then calculating the similarity of articles through the keyword words of the article can effectively improve the sparse evaluation matrix. To make up for the defects of the sparse matrix,the keyword can be extracted by crawling the movie reviews of the movie. Experiment shows that the proposed algorithm,which is proved to be feasible,can effectively improve the accuracy,recall rate and coverage.
引文
[1] 项亮.推荐系统实践[M].北京:人民邮电出版社,2012:51-58.
    [2] 张朝恒,何小卫,陈勇兵.基于社交网络信息的协同过滤推荐算法[J].计算机技术与发展,2017,27(12):28-34.
    [3] 陈小礼.基于最大团的协同过滤算法的研究与改进[D].武汉:武汉邮电科学研究院,2018.
    [4] 张应辉,司彩霞.基于用户偏好和项目特征的协同过滤推荐算法[J].计算机技术与发展,2017,27(1):16-19.
    [5] 许征征.个性化推荐系统中基于用户的协同过滤算法与系统架构的研究与优化[D].济南:山东大学,2017.
    [6] 吕成戍.基于用户项目属性偏好的协同过滤推荐算法[J].计算机技术与发展,2018,28(4):152-156,160.
    [7] 李玲,王移芝.融合信息熵和加权相似度的协同过滤算法研究[J].计算机技术与发展,2018,28(5):23-26,31.
    [8] 李民.基于智慧推荐的高校智慧图书馆服务模式研究[D].天津:天津理工大学,2017.
    [9] 刘涛,刘佐.一种面向新文章的个性化推荐算法研究[J].控制工程,2018,25(6):999-1006.
    [10] 黄震华,张佳雯,田春岐,等.基于排序学习的推荐算法研究综述[J].软件学报,2016,27(3):691-713.
    [11] 谭昶,刘淇,吴乐,等.推荐系统中典型用户群组的发现和应用[J].模式识别与人工智能,2015,28(5):462-471.
    [12] 李慧.社会网络环境下的个性化推荐算法研究[D].徐州:中国矿业大学,2016.
    [13] RICCI F,ROKACH L,SHAPIRA B.Recommender systems:introduction and challenges[M]//Recommender systems handbook.Boston,MA:Springer,2015.
    [14] 刘文佳,张骏.改进的协同过滤算法在电影推荐系统中的应用[J].现代商贸工业,2018(17):59-62.
    [15] MANOGARAN G,VARATHARAJAN R,PRIYAN M K.Hybrid recommendation system for heart disease diagnosis based on multiple kernel learning with adaptive neuro-fuzzy inference system[J].Multimedia Tools and Applications,2018,77(4):4379-4399.
    [16] WANG Zhibo,LIAO Jilong,CAO Qing,et al.Friendbook:a semantic-based friend recommendation system for social networks[J].IEEE Transactions on Mobile Computing,2015,14(3):538-551.
    [17] 石俊涛.中文文本分类中卡方特征提取和对TF-IDF权重改进[D].成都:西华大学,2017.
    [18] 李原.中文文本分类中分词和特征选择方法研究[D].长春:吉林大学,2011.
    [19] 杨文龙.基于BP神经网络的协同过滤推荐算法的研究与应用[D].武汉:武汉邮电科学研究院,2018.
    [20] 刘小慧,李长玲,冯志刚.基于改进的TF*IDF方法分析学科研究热点——以情报学为例[J].情报科学,2017,35(7):82-87.