采集百度知道问答方法就不说了。看了以前的博客肯定都会。就是几个脚本和火车头设置的交叉使用
模式仿的爱福窝的。主域名+community/detail/12713840/
采集百度知道后生成问答聚合详情页的流程初期思路篇
1、文章分词
2、分出来的词有核心词的建立标签页
3、有同样标签的问答放在一个页面里
4、标题使用第一个问答的标题
这里有几个问题:
1、标签页名称
2、标题怎么写
3、怎么知道同样标签的问答内容和标题是相关的?
4、分词的步骤是否可以简化
解决方案:
分词使用火车头内置分词方法,消去html后分词。(感谢唔知大神)
分好词后整理进倒排索引表
标签与标签之间组合成为标题,组合完成后匹配倒排索引表筛选出文章,组合的关键词作为标题的核心词。
每个标签都可以建立个标签页,标签页里放的文章就是包含这个标签的文章
倒排索引表的建立与使用:将词分解完后,取前10,然后做倒排索引表,做好倒排索引表后。将分的词组合成为新标题(新标题所含关键词使用凤巢筛选),新标题里面含有的关键词在进行并集匹配。这时候出来的就是可以和这个标题相配的问答了。
小进展:简化倒排索引表步骤,可以使用excel的分类汇总,将少于4的词筛去。省不少时间。
和群里的人又聊了下,发现某些步骤不利于以后数据量大的时候的使用,所以改进下,改进的方法就是先生成标题列表,然后直接分词后跟倒排索引表匹配。大于或等于3个就放在一起。
kk提了下,如果使用倒排索引表的方式,会极大的降低效率,他采用的方法是Levenshtein.ratio检测标题相似度,将于关键词相似度高的放在一起,而且内容采用的是部分展示,非全展示。下面是聊天记录。
Itseo-Kk
直接 针对标题 Levenshtein.ratio
悄悄告诉你,百度对单页的相关推荐,看标题的权重明显更高
至于内容嘛 合并的方法,不如提取部分详情 组合成列表,又合理又不违规,
当然,你要是心灵鸡汤,段子,笑话,名人名言除外
乐透
我用了闯哥的方法,5600页面,收录5200多
Itseo-Kk
啥方法
乐透
提取,增益,
转载自:http://www.woquxuexi.com/463.html