自然语言(NPL)处理入门之单词计数

1.软件基础：python 3.7pandas库excel(选用)2.思路分析：读文本→拆分文本→单词计数→归纳整合→最终效果展示3.代码：#coding=utf-8#designed by liuxiawei1996@outlook.comimport pandasdef readcontext(inputpath):f=open(in...

Harold_96_lxw

48106人浏览 · 2018-08-11 10:54:33

Harold_96_lxw · 2018-08-11 10:54:33 发布

1.软件基础：
python 3.7
pandas库
excel(选用)

2.思路分析：
读文本→拆分文本→单词计数→归纳整合→最终效果展示

3.代码：

#coding=utf-8
#designed by liuxiawei1996@outlook.com
import pandas

def readcontext(inputpath):
    f=open(inputpath,'r')
    # 按行读取存入列表，列表中子元素为一行文字
    text=f.readlines()
    return text

def splitwords(text):
    re=[]
    # 将列表中的每行文字按空格拆分，去掉换行，大写转成小写
    for i in text:
        re.extend(str(i).strip('.\n').lower().split(' '))
    return re

def create_and_calucatedict(re):
    #因为是单词计数，字典比较适合
    worddict={}
    for i in re:
        #每读入单词判断在字典key中是否存在，不存在创建该单词key，vulue默认=1
        if i not in worddict:
            worddict[i]=1
        #读入单词在字典key存在，value+1
        else:
            worddict[i]+=1
    return worddict

def output_txt(outputpath,worddict):
    #将结果输出到txt
    f=open(outputpath,'w',encoding='utf-8')
    string=str(worddict).lstrip("{'").rstrip("}").replace(',','\n').replace("'",'').replace(' ','')
    f.write(string)
    f.closed

def output_html(worddict):
    #将结果利用pandas输出到html
    df = pandas.DataFrame(worddict, index=[0])
    df_T = df.T#因为结果横向显示太长，转为转置矩阵
    #我试了一下好像html不能转，只有excel能转，尴尬......
    df.to_html('wordcount.html')

def output_excel(worddict):
    # 将结果利用pandas输出到excel
    df = pandas.DataFrame(worddict, index=True)
    df_T = df.T#因为结果横向显示太长，转为转置矩阵,
    df_T.to_excel('wordcount.xlsx')

def main():
    text = readcontext('article.txt')
    re = splitwords(text)
    worddict = create_and_calucatedict(re)
    output_excel(worddict)

if __name__ == '__main__':
    main()

4.结果展示：
Excel结果展示
Html结果展示
Txt结果展示

AI大模型社区

聚焦前沿AI与大模型技术探索，汇聚开发者及爱好者，共享开源项目、学习资源与行业资讯。

更多推荐

AI代码怎么转换为图片

AI大模型社区

iOS应用安全：代码混淆与反编译防护最佳实践

文章详细解析了iOS应用安全的12个方面，如IPA包加壳、代码混淆、接口双向加密等，提供了实用建议和代码示例，增强应用 against 反编译和数据泄露。

AI大模型社区

ooderAgent 0.6.3 版本新特性深度解析

ooderAgent 0.6.3 版本更新了，这个A2UI的预览版曾经，带来不少的围观。今天0.6.3中确实让引入了，A2UI 但官方更新中，却轻描淡写的，初步整合。我们结合AI强大的分析整理能力为 0.6.3 做一个完整的解读吧。ooderAgent 0.6.3 版本在 A2UI（AI 生成 UI 代码）功能上实现了质的飞跃。新版本不仅提升了图生代码的准确性，更重要的是提供了前所未有的灵活性和扩