avante.nvim/lua/avante/tokenizers.lua

local Utils = require("avante.utils")

---@class AvanteTokenizer
---@field from_pretrained fun(model: string): nil
---@field encode fun(string): integer[]
local tokenizers = nil

---@type "gpt-4o" | string
local current_model = "gpt-4o"

local M = {}

---@param model "gpt-4o" | string
---@return AvanteTokenizer|nil
M._init_tokenizers_lib = function(model)
  if tokenizers ~= nil then return tokenizers end

  local ok, core = pcall(require, "avante_tokenizers")
  if not ok then return nil end

  ---@cast core AvanteTokenizer
  tokenizers = core

  core.from_pretrained(model)

  return tokenizers
end

---@param model "gpt-4o" | string
---@param warning? boolean
M.setup = function(model, warning)
  current_model = model
  warning = warning or true
  vim.defer_fn(function() M._init_tokenizers_lib(model) end, 1000)

  if warning then
    local HF_TOKEN = os.getenv("HF_TOKEN")
    if HF_TOKEN == nil and model ~= "gpt-4o" then
      Utils.warn(
        "Please set HF_TOKEN environment variable to use HuggingFace tokenizer if " .. model .. " is gated",
        { once = true }
      )
    end
  end
end

M.available = function() return M._init_tokenizers_lib(current_model) ~= nil end

---@param prompt string
M.encode = function(prompt)
  if not M.available() then return nil end
  if not prompt or prompt == "" then return nil end
  if type(prompt) ~= "string" then error("Prompt is not type string", 2) end

  return tokenizers.encode(prompt)
end

---@param prompt string
M.count = function(prompt)
  if not M.available() then return math.ceil(#prompt * 0.5) end

  local tokens = M.encode(prompt)
  if not tokens then return 0 end
  return #tokens
end

return M
fix(style): add parentheses (#471) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-09-03 05:12:07 -04:00			`local Utils = require("avante.utils")`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00
			`---@class AvanteTokenizer`
			`---@field from_pretrained fun(model: string): nil`
			`---@field encode fun(string): integer[]`
			`local tokenizers = nil`

refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`---@type "gpt-4o" \| string`
			`local current_model = "gpt-4o"`

feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00			`local M = {}`

refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`---@param model "gpt-4o" \| string`
			`---@return AvanteTokenizer\|nil`
			`M._init_tokenizers_lib = function(model)`
fix(ci): lua style (#948) 2024-12-13 23:24:29 +08:00			`if tokenizers ~= nil then return tokenizers end`
refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00
			`local ok, core = pcall(require, "avante_tokenizers")`
fix(ci): lua style (#948) 2024-12-13 23:24:29 +08:00			`if not ok then return nil end`
refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00
			`---@cast core AvanteTokenizer`
			`tokenizers = core`

			`core.from_pretrained(model)`

			`return tokenizers`
			`end`

feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00			`---@param model "gpt-4o" \| string`
feat(tokenizers): support parsing from public URL (#765) 2024-10-27 02:17:35 -04:00			`---@param warning? boolean`
			`M.setup = function(model, warning)`
refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`current_model = model`
feat(tokenizers): support parsing from public URL (#765) 2024-10-27 02:17:35 -04:00			`warning = warning or true`
fix(ci): lua style (#948) 2024-12-13 23:24:29 +08:00			`vim.defer_fn(function() M._init_tokenizers_lib(model) end, 1000)`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00
feat(tokenizers): support parsing from public URL (#765) 2024-10-27 02:17:35 -04:00			`if warning then`
			`local HF_TOKEN = os.getenv("HF_TOKEN")`
			`if HF_TOKEN == nil and model ~= "gpt-4o" then`
			`Utils.warn(`
			`"Please set HF_TOKEN environment variable to use HuggingFace tokenizer if " .. model .. " is gated",`
			`{ once = true }`
			`)`
			`end`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00			`end`
			`end`

refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`M.available = function() return M._init_tokenizers_lib(current_model) ~= nil end`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00
			`---@param prompt string`
			`M.encode = function(prompt)`
refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`if not M.available() then return nil end`
chore: run stylua [generated] (#460) * chore: add stylua Signed-off-by: Aaron Pham <contact@aarnphm.xyz> * chore: running stylua Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-09-03 04:19:54 -04:00			`if not prompt or prompt == "" then return nil end`
			`if type(prompt) ~= "string" then error("Prompt is not type string", 2) end`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00
			`return tokenizers.encode(prompt)`
			`end`

			`---@param prompt string`
			`M.count = function(prompt)`
refactor & fix: improve libraries initialization (#921) * refactor(libs): extract libraries initialization Extract initialization logic into separate functions for better error handling and reusability. * fix(libs): improve core libraries init This change helps prevent runtime errors from uninitialized libraries. 2024-12-13 20:00:43 +05:00			`if not M.available() then return math.ceil(#prompt * 0.5) end`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00
			`local tokens = M.encode(prompt)`
chore: run stylua [generated] (#460) * chore: add stylua Signed-off-by: Aaron Pham <contact@aarnphm.xyz> * chore: running stylua Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-09-03 04:19:54 -04:00			`if not tokens then return 0 end`
feat: tokenizers (#429) * feat: tokenizers This reverts commit d5a4db8321d232a1b9c0d86fc38e8dd516d15776. * fix(inputs): #422 Signed-off-by: Aaron Pham <contact@aarnphm.xyz> --------- Signed-off-by: Aaron Pham <contact@aarnphm.xyz> 2024-08-31 13:39:50 -04:00			`return #tokens`
			`end`

			`return M`