Merge pull request #6727 from menloresearch/fix/prompt-token

fix: prompt token
2025-10-03 20:12:12 +07:00 · 2025-10-03 20:12:12 +07:00 · c378d765fc
commit c378d765fc
parent 404f40cc23 fdf239352a
3 changed files with 31 additions and 9 deletions
--- a/extensions/llamacpp-extension/src/index.ts
+++ b/extensions/llamacpp-extension/src/index.ts
@ -332,12 +332,14 @@ export default class llamacpp_extension extends AIEngine {
          )
          // Clear the invalid stored preference
          this.clearStoredBackendType()
-          bestAvailableBackendString =
-            await this.determineBestBackend(version_backends)
+          bestAvailableBackendString = await this.determineBestBackend(
+            version_backends
+          )
        }
      } else {
-        bestAvailableBackendString =
-          await this.determineBestBackend(version_backends)
+        bestAvailableBackendString = await this.determineBestBackend(
+          version_backends
+        )
      }

      let settings = structuredClone(SETTINGS)
@ -2151,7 +2153,12 @@ export default class llamacpp_extension extends AIEngine {
    if (mmprojPath && !this.isAbsolutePath(mmprojPath))
      mmprojPath = await joinPath([await getJanDataFolderPath(), path])
    try {
-      const result = await planModelLoadInternal(path, this.memoryMode, mmprojPath, requestedCtx)
+      const result = await planModelLoadInternal(
+        path,
+        this.memoryMode,
+        mmprojPath,
+        requestedCtx
+      )
      return result
    } catch (e) {
      throw new Error(String(e))
@ -2279,12 +2286,18 @@ export default class llamacpp_extension extends AIEngine {
    }

    // Calculate text tokens
-    const messages = JSON.stringify({ messages: opts.messages })
+    // Use chat_template_kwargs from opts if provided, otherwise default to disable enable_thinking
+    const tokenizeRequest = {
+      messages: opts.messages,
+      chat_template_kwargs: opts.chat_template_kwargs || {
+        enable_thinking: false,
+      },
+    }

    let parseResponse = await fetch(`${baseUrl}/apply-template`, {
      method: 'POST',
      headers: headers,
-      body: messages,
+      body: JSON.stringify(tokenizeRequest),
    })

    if (!parseResponse.ok) {
--- a/web-app/src/containers/ChatInput.tsx
+++ b/web-app/src/containers/ChatInput.tsx
@ -129,7 +129,10 @@ const ChatInput = ({
        const activeModels = await serviceHub
          .models()
          .getActiveModels('llamacpp')
-        setHasActiveModels(activeModels.length > 0)
+        const hasMatchingActiveModel = activeModels.some(
+          (model) => String(model) === selectedModel?.id
+        )
+        setHasActiveModels(activeModels.length > 0 && hasMatchingActiveModel)
      } catch (error) {
        console.error('Failed to get active models:', error)
        setHasActiveModels(false)
@ -142,7 +145,7 @@ const ChatInput = ({
    const intervalId = setInterval(checkActiveModels, 3000)

    return () => clearInterval(intervalId)
-  }, [serviceHub])
+  }, [serviceHub, selectedModel?.id])

  // Check for mmproj existence or vision capability when model changes
  useEffect(() => {
--- a/web-app/src/services/models/default.ts
+++ b/web-app/src/services/models/default.ts
@ -578,6 +578,9 @@ export class DefaultModelsService implements ModelsService {
                  }
                }>
          }>
+          chat_template_kwargs?: {
+            enable_thinking: boolean
+          }
        }) => Promise<number>
      }

@ -654,6 +657,9 @@ export class DefaultModelsService implements ModelsService {
        return await engine.getTokensCount({
          model: modelId,
          messages: transformedMessages,
+          chat_template_kwargs: {
+            enable_thinking: false,
+          },
        })
      }