两个大规模中文语料库介绍以及处理

目前进行的工作需要大规模的语料库来生成中文文本图像,因此查找资料,找了一些中文语料库。本文介绍其中的两个最大的语料库,THUCNews 语料库和中文维基百科语料库以及如何对原始语料库文件进行简单预处理。

我的 2018 阅读清单

2018 年对于我来说,是变化很大的一年,我很高兴自己能够下定决心做一些决定。 这一年读书的数量并不多,因为有几部比较大部头,读完花费了相当多的时间。年初寒假的时候, 买了最新款的 Kindle Oasis2,替换了几年前买的 Kindle Paper White1。最值得高兴的事情是现在可以完全无压力阅读英文原版书籍,没有阅读的障碍。

在 Listary 中调用 GoldenDict 或欧路词典查词

GoldenDict 是一款开源字典应用,功能强大,支持多种字典格式,同时也支持网络资源。 [欧路词典]() 是一款国产的查词软件,产品做得也很不错,同样支持多种字典格式。本文介绍 GoldenDict 以及欧路词典的配置, 以及如何在 Listary 中调用它们实现查词功能。

Reading and Writing Text Files on Windows

If you are using Python 3 on Windows, you may have seen a Unicode decoding error when opening files in UTF-8 format:

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 5: illegal multibyte sequence

If you read the same file on Linux or MacOS, you will find that this file can be opened without any error. Why is there a difference? It has something to do with the default encoding Python chooses to use on different platforms.

一些在线字体识别工具

英文字体识别 由于英文字符较少,所以英文字体远多于中文字体,而且很多字体之间的差异非常细微,所以查找英文字体比 中文字体要困难。有两个网站可以试

The Meaning of Commonly-used Options and Variables When Building Packages from Source

On Linux system, if we do not have root priviledge, we can not use package managers to install a package to its default location (usually under /usr). Besides, the packages installed by the package managers are often too old to have the latest features. Or, even if we have root priviledge, we do not want to mess up with the system-wide packages and just want to experiment with a package locally. On these ocassions, we may want to install the package to a custom location.