Merge pull request #6727 from menloresearch/fix/prompt-token

fix: prompt token
2025-10-03 20:12:12 +07:00 · 2025-10-03 20:12:12 +07:00 · 61c3fd4b5a
commit 61c3fd4b5a
parent 816d60b22a
3 changed files with 31 additions and 9 deletions
--- a/extensions/llamacpp-extension/src/index.ts
+++ b/extensions/llamacpp-extension/src/index.ts
@ -332,12 +332,14 @@ export default class llamacpp_extension extends AIEngine {
          )
          // Clear the invalid stored preference
          this.clearStoredBackendType()
-          bestAvailableBackendString =
+          bestAvailableBackendString = await this.determineBestBackend(
-            await this.determineBestBackend(version_backends)
+            version_backends
          )
        }
      } else {
-        bestAvailableBackendString =
+        bestAvailableBackendString = await this.determineBestBackend(
-          await this.determineBestBackend(version_backends)
+          version_backends
        )
      }
      let settings = structuredClone(SETTINGS)
@ -2151,7 +2153,12 @@ export default class llamacpp_extension extends AIEngine {
    if (mmprojPath && !this.isAbsolutePath(mmprojPath))
      mmprojPath = await joinPath([await getJanDataFolderPath(), path])
    try {
-      const result = await planModelLoadInternal(path, this.memoryMode, mmprojPath, requestedCtx)
+      const result = await planModelLoadInternal(
        path,
        this.memoryMode,
        mmprojPath,
        requestedCtx
      )
      return result
    } catch (e) {
      throw new Error(String(e))
@ -2279,12 +2286,18 @@ export default class llamacpp_extension extends AIEngine {
    }
    // Calculate text tokens
-    const messages = JSON.stringify({ messages: opts.messages })
+    // Use chat_template_kwargs from opts if provided, otherwise default to disable enable_thinking
    const tokenizeRequest = {
      messages: opts.messages,
      chat_template_kwargs: opts.chat_template_kwargs || {
        enable_thinking: false,
      },
    }
    let parseResponse = await fetch(`${baseUrl}/apply-template`, {
      method: 'POST',
      headers: headers,
-      body: messages,
+      body: JSON.stringify(tokenizeRequest),
    })
    if (!parseResponse.ok) {
--- a/web-app/src/containers/ChatInput.tsx
+++ b/web-app/src/containers/ChatInput.tsx
@ -132,7 +132,10 @@ const ChatInput = ({
        const activeModels = await serviceHub
          .models()
          .getActiveModels('llamacpp')
-        setHasActiveModels(activeModels.length > 0)
+        const hasMatchingActiveModel = activeModels.some(
          (model) => String(model) === selectedModel?.id
        )
        setHasActiveModels(activeModels.length > 0 && hasMatchingActiveModel)
      } catch (error) {
        console.error('Failed to get active models:', error)
        setHasActiveModels(false)
@ -145,7 +148,7 @@ const ChatInput = ({
    const intervalId = setInterval(checkActiveModels, 3000)
    return () => clearInterval(intervalId)
-  }, [serviceHub])
+  }, [serviceHub, selectedModel?.id])
  // Check for mmproj existence or vision capability when model changes
  useEffect(() => {
--- a/web-app/src/services/models/default.ts
+++ b/web-app/src/services/models/default.ts
@ -578,6 +578,9 @@ export class DefaultModelsService implements ModelsService {
                  }
                }>
          }>
          chat_template_kwargs?: {
            enable_thinking: boolean
          }
        }) => Promise<number>
      }
@ -654,6 +657,9 @@ export class DefaultModelsService implements ModelsService {
        return await engine.getTokensCount({
          model: modelId,
          messages: transformedMessages,
          chat_template_kwargs: {
            enable_thinking: false,
          },
        })
      }