Tokenizers
Content:
public class HuggingFaceTokenizer : ITokenizer
Language: C#
Токенизатор на основе HuggingFace Tokenizers library.
В данной реализации используется эвристика (без Python runtime).
public class SentencePieceTokenizer : ITokenizer
Language: C#
Простой токенизатор на основе SentencePiece для моделей типа LLaMA.
Реализация использует эвристику без native библиотеки.
public class SimpleTokenizer : ITokenizer
Language: C#
Простой токенизатор по пробелам (минимальная рабочая реализация).
public class TikTokenTokenizer : ITokenizer
Language: C#
Токенизатор на основе TikToken (используется OpenAI).
Требует установки NuGet пакета: TiktokenSharp