ASF JIRAで、NGramTokenizerで検索すると、いくつか引っ掛かってきます。
- #LUCENE-1227 NGramTokenizer to handle more than 1024 chars - ASF JIRA
1024文字以降が扱われないといった問題。大きな文章を扱う場合に痛すぎますね。
- #LUCENE-1225 NGramTokenizer creates bad TokenStream - ASF JIRA
Summaryからしか判断できないのですが、、変なTokenが作られるということでしょうか。(後で、patchの中身みる)
あとは、下記の問題は既に対処されているのかな、、