Merge branch 'dev' of github.com:m5stack/StackFlow into dev

dianjixz · dianjixz · commit 8d53896cea27 · 2025-03-12T11:42:59.000+08:00
diff --git a/projects/llm_framework/main_kws/src/main.cpp b/projects/llm_framework/main_kws/src/main.cpp
@@ -178,7 +178,7 @@ class llm_task {
             if (file_exists("/opt/m5stack/scripts/text2token.py"))
                 awake_key_compile_cmd << "/usr/bin/python3 /opt/m5stack/scripts/text2token.py ";
             else if (file_exists("/opt/m5stack/scripts/llm-kws_text2token.py"))
-                awake_key_compile_cmd << "/bin/bash /opt/m5stack/scripts/llm-kws_text2token.py ";
+                awake_key_compile_cmd << "/usr/bin/python3 /opt/m5stack/scripts/llm-kws_text2token.py ";
             else {
                 SLOGE("text2token.py or llm-kws_text2token.py not found!");
             }
diff --git a/projects/llm_framework/main_llm/mode_deepseek-r1-1.5B-ax630c.json b/projects/llm_framework/main_llm/mode_deepseek-r1-1.5B-ax630c.json
@@ -24,11 +24,11 @@
         "b_use_topk":false,
         "b_bos":false,
         "b_eos":false,
-        "axmodel_num":24,
+        "axmodel_num":28,
         "tokens_embed_num":151936,
-        "tokens_embed_size":896,
+        "tokens_embed_size":1536,
         "b_use_mmap_load_embed":true,
         "b_dynamic_load_axmodel_layer":false,
-        "ext_scripts":["tokenizer_qwen2.5-1.5B-ax630c.py"]
+        "ext_scripts":["tokenizer_deepseek-r1-1.5B-ax630c.py"]
     }
 }
diff --git a/projects/llm_framework/main_llm/tokenizer_deepseek-r1-1.5B-ax630c.py b/projects/llm_framework/main_llm/tokenizer_deepseek-r1-1.5B-ax630c.py
@@ -0,0 +1,131 @@
+from transformers import AutoTokenizer, PreTrainedTokenizerFast
+from http.server import HTTPServer, BaseHTTPRequestHandler
+import json
+import argparse
+
+class Tokenizer_Http():
+
+    def __init__(self, model_id):
+        self.tokenizer = AutoTokenizer.from_pretrained(model_id)
+
+    def encode(self, prompt, content):
+        messages = [
+            {"role": "system", "content": content},
+            {"role": "user", "content": prompt}
+        ]
+        text = self.tokenizer.apply_chat_template(
+            messages,
+            tokenize=False,
+            add_generation_prompt=True
+        )
+        print(text)
+        token_ids = self.tokenizer.encode(text)
+        return token_ids
+
+    def decode(self, token_ids):
+        return self.tokenizer.decode(token_ids)
+
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+    
+    @property
+    def bos_token(self):
+        return self.tokenizer.bos_token
+
+    @property
+    def eos_token(self):
+        return self.tokenizer.eos_token
+
+class Request(BaseHTTPRequestHandler):
+    #通过类继承，新定义类
+    timeout = 5
+    server_version = 'Apache'
+
+    def do_GET(self):
+        print(self.path)
+        #在新类中定义get的内容（当客户端向该服务端使用get请求时，本服务端将如下运行）
+        self.send_response(200)
+        self.send_header("type", "get")  #设置响应头，可省略或设置多个
+        self.end_headers()
+
+        if self.path == '/bos_id':
+            bos_id = tokenizer.bos_id
+            # print(bos_id)
+            # to json
+            if bos_id is None:
+                msg = json.dumps({'bos_id': -1})
+            else:
+                msg = json.dumps({'bos_id': bos_id})
+        elif self.path == '/eos_id':
+            eos_id = tokenizer.eos_id
+            if eos_id is None:
+                msg = json.dumps({'eos_id': -1})
+            else:
+                msg = json.dumps({'eos_id': eos_id})
+        else:
+            msg = 'error'
+
+        print(msg)
+        msg = str(msg).encode()  #转为str再转为byte格式
+
+        self.wfile.write(msg)  #将byte格式的信息返回给客户端
+
+    def do_POST(self):
+        #在新类中定义post的内容（当客户端向该服务端使用post请求时，本服务端将如下运行）
+        data = self.rfile.read(int(
+            self.headers['content-length']))  #获取从客户端传入的参数（byte格式）
+        data = data.decode()  #将byte格式转为str格式
+
+        self.send_response(200)
+        self.send_header("type", "post")  #设置响应头，可省略或设置多个
+        self.end_headers()
+
+        if self.path == '/encode':
+            req = json.loads(data)
+            prompt = req['text']
+
+            token_ids = tokenizer.encode(prompt, args.content)
+            if token_ids is None:
+                msg = json.dumps({'token_ids': -1})
+            else:
+                msg = json.dumps({'token_ids': token_ids})
+
+        elif self.path == '/decode':
+            req = json.loads(data)
+            token_ids = req['token_ids']
+            text = tokenizer.decode(token_ids)
+            if text is None:
+                msg = json.dumps({'text': ""})
+            else:
+                msg = json.dumps({'text': text})
+        else:
+            msg = 'error'
+        print(msg)
+        msg = str(msg).encode()  #转为str再转为byte格式
+
+        self.wfile.write(msg)  #将byte格式的信息返回给客户端
+
+
+if __name__ == "__main__":
+
+    args = argparse.ArgumentParser()
+    args.add_argument('--host', type=str, default='localhost')
+    args.add_argument('--port', type=int, default=8080)
+    args.add_argument('--model_id', type=str, default='deepseek_tokenizer')
+    args.add_argument('--content', type=str, default='You are a helpful assistant.')
+    args = args.parse_args()
+
+    tokenizer = Tokenizer_Http(args.model_id)
+
+    # print(tokenizer.bos_id, tokenizer.bos_token, tokenizer.eos_id, tokenizer.eos_token)
+    # print(tokenizer.encode("hello world", args.content))
+
+    host = (args.host, args.port)  #设定地址与端口号，'localhost'等价于'127.0.0.1'
+    print('http://%s:%s' % host)
+    server = HTTPServer(host, Request)  #根据地址端口号和新定义的类，创建服务器实例
+    server.serve_forever()  #开启服务
diff --git a/projects/llm_framework/main_vlm/mode_internvl2.5-1B-ax630c.json b/projects/llm_framework/main_vlm/mode_internvl2.5-1B-ax630c.json
@@ -18,7 +18,7 @@
         "filename_tokenizer_model":"http://localhost:8080",
         "filename_tokens_embed":"model.embed_tokens.weight.bfloat16.bin",
         "filename_post_axmodel":"qwen2_post.axmodel",
-        "template_filename_axmodel":"qwen2_p128_l%d_together.axmodel",
+        "template_filename_axmodel":"qwen2_p256_l%d_together.axmodel",
         "filename_vpm_resampler_axmodedl":"intervl_vision_part_224.axmodel",
         "b_use_topk":false,
         "b_bos":false,
diff --git a/projects/llm_framework/tools/llm_pack.py b/projects/llm_framework/tools/llm_pack.py
@@ -286,6 +286,7 @@ def create_bin_deb(package_name, version, src_folder, revision = 'm5stack1'):
     create_lib = True
     create_bin = True
     create_data = True
+    create_llm_data = True
     if len(sys.argv) > 1:
         src_folder = sys.argv[1]
     cpu_count = os.cpu_count()
@@ -320,24 +321,25 @@ def create_bin_deb(package_name, version, src_folder, revision = 'm5stack1'):
             futures.append(executor.submit(create_data_deb,'llm-sherpa-ncnn-streaming-zipformer-zh-14M-2023-02-23', data_version, src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-sherpa-onnx-kws-zipformer-gigaspeech-3.3M-2024-01-01', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-sherpa-onnx-kws-zipformer-wenetspeech-3.3M-2024-01-01', '0.3', src_folder, revision))
-            # futures.append(executor.submit(create_data_deb,'llm-qwen2-0.5B-prefill-20e', data_version, src_folder, revision))
-            # futures.append(executor.submit(create_data_deb,'llm-qwen2-1.5B-prefill-20e', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-0.5B-prefill-20e', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-1.5B-ax630c', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-single-speaker-english-fast', data_version, src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-single-speaker-fast', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-melotts-zh-cn', '0.3', src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-melotts-zh-cn', '0.4', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-yolo11n', data_version, src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-yolo11n-pose', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-yolo11n-hand-pose', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-yolo11n-seg', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-coder-0.5B-ax630c', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-llama3.2-1B-prefill-ax630c', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-openbuddy-llama3.2-1B-ax630c', data_version, src_folder, revision))
-            futures.append(executor.submit(create_data_deb,'llm-internvl2.5-1B-ax630c', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-depth-anything-ax630c', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-whisper-tiny', '0.3', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-silero-vad', '0.3', src_folder, revision))
+        if (create_llm_data):
+            # futures.append(executor.submit(create_data_deb,'llm-qwen2-0.5B-prefill-20e', data_version, src_folder, revision))
+            # futures.append(executor.submit(create_data_deb,'llm-qwen2-1.5B-prefill-20e', data_version, src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-0.5B-prefill-20e', data_version, src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-1.5B-ax630c', '0.3', src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-qwen2.5-coder-0.5B-ax630c', data_version, src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-llama3.2-1B-prefill-ax630c', data_version, src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-openbuddy-llama3.2-1B-ax630c', data_version, src_folder, revision))
+            futures.append(executor.submit(create_data_deb,'llm-internvl2.5-1B-ax630c', '0.4', src_folder, revision))
             futures.append(executor.submit(create_data_deb,'llm-deepseek-r1-1.5B-ax630c', '0.3', src_folder, revision))
         for future in concurrent.futures.as_completed(futures):
             result = future.result()

Original file line number	Diff line number	Diff line change
`@@ -178,7 +178,7 @@ class llm_task {`
`178`	`178`	`if (file_exists("/opt/m5stack/scripts/text2token.py"))`
`179`	`179`	`awake_key_compile_cmd << "/usr/bin/python3 /opt/m5stack/scripts/text2token.py ";`
`180`	`180`	`else if (file_exists("/opt/m5stack/scripts/llm-kws_text2token.py"))`
`181`		`- awake_key_compile_cmd << "/bin/bash /opt/m5stack/scripts/llm-kws_text2token.py ";`
	`181`	`+ awake_key_compile_cmd << "/usr/bin/python3 /opt/m5stack/scripts/llm-kws_text2token.py ";`
`182`	`182`	`else {`
`183`	`183`	`SLOGE("text2token.py or llm-kws_text2token.py not found!");`
`184`	`184`	`}`