ルアで日本語のボキャブラリーを処理したい(LuaTeXを具体的にする)。ボキャブラリは、読み込まれるテキストファイルに格納されます。単語が正規表現にマッチしなければならないファイルの各行の読み取り中(: | がくせい | student |
ラインが同様に書かれている):ルアの日本語の正規表現
function readFile(fn)
local file = assert(io.open(fn, "r"))
local contents = file:read("*a")
file:close()
return contents
end
function processTest(contents)
for line in contents:gmatch("%a+") do
print(line)
end
end
a = readFile("vocabulary.org")
processTest(a)
今だけ英語の単語が印刷されてしまうという問題:
student
私はLuaとLuaTeXを初めて使っていると言わざるを得ないので、もっと良いアプローチがあれば分かりました。
とにかく、日本語の単語を取得する可能性はありますか?
string.gsubを使用してCJK文字を照合するにはどうすればよいですか? – northtree