Tokenizer Training

##Data:
https://huggingface.co/blog/Pclanglais/two-trillion-tokens-open
[[FILL WITH INDIC LANGUAGE SET]](https://huggingface.co/datasets/ai4bharat/sangraha)
[[Code Dataset]](https://huggingface.co/datasets/bigcode/starcoderdata)


[Tokeniser Training](https://github.com/google/sentencepiece)