苏剑林的回答
直觉上是tokenizer问题。
但如果将这个问题转嫁给tokenizer,你会发现问题会没完没了。比如,你如果通过数字独立切分解决了数学运算问题,那么下一个用户要吐槽的问题就是“8里边有多少个洞”没法解决,那你怎么办,将数字再拆细一点?还是用图形来表示token?类似的问题可以无穷无尽的。
所以,不如归根结底认为这是训练语料不充分问题。