Jieba分词器

概述

Python Jieba是优秀的中文分词器,因为比较受欢迎,所以陆续出现了多种“移植版”或“封装版”;其中有php版、c++版、Go语言版、Node.js版等;但Python原版是功能最全、最稳定、词典更新最及时的版本,因此推荐使用。

Python vs PHP

Jieba在分词时首先需要初始化加载词典,词典有几十上百MB,加载需要耗时几百毫秒。 php不是常驻内存语言,所以每次处理请求都要加载字典,这对内存带宽是极大的浪费,也会拖慢请求处理速度、降低服务器吞吐量,因此不建议使用。Python是常驻内存语言,因此只须在进程启动时加载词典,后续请求在分词时直接使用词典,无须重复加载,因此性能高。


综上:假设同时处理10个请求;Python需要启动10个进程,每个进程在启动时已经加载了词典,因此后续请求直接使用词典,无须再重复加载。php也需要启动10个进程来处理请求,但php要在每次请求时加载,因此性能低。 从内存消耗上来看,两者需要的内存大概是相同的;因为都是10个进程,每个进程也同样都要加载词典;区别在于python只加载一次,而php在每次请求时都要加载,所以php性能低;

举报

© 著作权归作者所有


1