要想实现机器生成文章。
需要以下几点:
必须以句子为单位进行文章的构建,那么首先需要的功能:
1、将文章分割成为以句子为单位的形式。
2、必须对句子进行主题归类,即当前的句子说的是什么主题.
3、必须对句子在文章中出现的位置进行归类。
中文的范式一般是:
以什么的精神(要求)下,如何做(how),我们要达到什么目的。
所以我们可以将句子也归为这三类,另外还有一些成语、短句之类,什么奋发图强,砥砺前行之类,可以随机插入到文章当中。
4、对句子进行分类
对于知名的人名、地名、书名,可以作为论据插入到我们的文章当中:
比如:
据说拿破伦第一在九岁的时候,就对他的姑母发生了爱情
爱情和封建门阀制度的矛盾,是《西厢记》的主要矛盾。
这两句就可以作为论据。
包含人名的句子 剔除或者替换人名
包含地名的句子 剔除或者替换人名
包含数字的句子 剔除
比如:
有趣的是,人们用爱情为主题的歌曲来庆祝这两个宗教节日。
这样的就不适合放到爱情的文章当中。
5、对标题进行处理
比如一篇文章的标题是《爱情》,那么这篇文章当中出现的爱情的句子就应该被赋予更大的权重。
,
其实现阶段对词语的许多研究成果可以直接作用于句子。