メッセージ。 -
#
僕も昔ニューロとかやってたので、ふじさわさんの話は一般論としてはよくわかります。
しかし僕の言うような空白の処理に関しては基本的に「ファジーな」処理は要求しません。計算機言語でもマークアップ言語でも空白の正規化は規格化されています。僕が言う「賢い」処理というのはその延長線上にあるもので、形態素解析まで要求するような賢さではありません。要するに計算機言語で演算子の前後の空白は無視できる(「1 + 1」と「1+1」は等価)というのと同じで、正規表現の置換で十分なレベルです(Unicodeの文字種を識別できる今時の正規表現になりますが)。
「そもそもどっちがいいのか」については、プレーンテキストデータの和欧文間の空白に「厳密に二分アキの意味を持たせる」か「特に組版上の意味は持たせない」か、どっちがいいかと言われれば後者だと思います。前者を主張する人は稀なのでは? ていうか Quark で空白削る人はそう思って削るわけですし。。。
しかし僕の言うような空白の処理に関しては基本的に「ファジーな」処理は要求しません。計算機言語でもマークアップ言語でも空白の正規化は規格化されています。僕が言う「賢い」処理というのはその延長線上にあるもので、形態素解析まで要求するような賢さではありません。要するに計算機言語で演算子の前後の空白は無視できる(「1 + 1」と「1+1」は等価)というのと同じで、正規表現の置換で十分なレベルです(Unicodeの文字種を識別できる今時の正規表現になりますが)。
「そもそもどっちがいいのか」については、プレーンテキストデータの和欧文間の空白に「厳密に二分アキの意味を持たせる」か「特に組版上の意味は持たせない」か、どっちがいいかと言われれば後者だと思います。前者を主張する人は稀なのでは? ていうか Quark で空白削る人はそう思って削るわけですし。。。
Comment
Trackback