[add] add mode_internvl2.5, mode_yolo11n-hand-pose.

Abandon-ht · Abandon-ht · commit 125038e28e03 · 2025-01-06T14:27:05.000+08:00
diff --git a/projects/llm_framework/main_vlm/internvl2.5-1B-ax630c_tokenizer.py b/projects/llm_framework/main_vlm/internvl2.5-1B-ax630c_tokenizer.py
@@ -0,0 +1,138 @@
+from transformers import AutoTokenizer, PreTrainedTokenizerFast
+from http.server import HTTPServer, BaseHTTPRequestHandler
+import json
+import argparse
+
+
+class Tokenizer_Http:
+
+    def __init__(self, model_id):
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            model_id, trust_remote_code=True, use_fast=False
+        )
+
+    def encode(self, prompt, content):
+        prompt = f"<|im_start|>system\n{content}<|im_end|><|im_start|>user\n{prompt}<|im_end|><|im_start|>assistant\n"
+        input_ids = self.tokenizer.encode(prompt)
+        return input_ids
+
+    def encode_vpm(self, prompt, content="Please describe the image shortly."):
+        prompt = f"<|im_start|>system\n{content}<|im_end|><|im_start|>user\n<img><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT><IMG_CONTEXT></img>\n{prompt}<|im_end|><|im_start|>assistant\n"
+        input_ids = self.tokenizer.encode(prompt)
+        return input_ids
+
+    def decode(self, token_ids):
+        return self.tokenizer.decode(token_ids, clean_up_tokenization_spaces=False)
+
+    @property
+    def bos_id(self):
+        return self.tokenizer.bos_token_id
+
+    @property
+    def eos_id(self):
+        return self.tokenizer.eos_token_id
+
+    @property
+    def bos_token(self):
+        return self.tokenizer.bos_token
+
+    @property
+    def eos_token(self):
+        return self.tokenizer.eos_token
+
+class Request(BaseHTTPRequestHandler):
+    # 通过类继承，新定义类
+    timeout = 5
+    server_version = "Apache"
+
+    def do_GET(self):
+        print(self.path)
+        # 在新类中定义get的内容（当客户端向该服务端使用get请求时，本服务端将如下运行）
+        self.send_response(200)
+        self.send_header("type", "get")  # 设置响应头，可省略或设置多个
+        self.end_headers()
+
+        if self.path == "/bos_id":
+            bos_id = tokenizer.bos_id
+            # print(bos_id)
+            # to json
+            if bos_id is None:
+                msg = json.dumps({"bos_id": -1})
+            else:
+                msg = json.dumps({"bos_id": bos_id})
+        elif self.path == "/eos_id":
+            eos_id = tokenizer.eos_id
+            if eos_id is None:
+                msg = json.dumps({"eos_id": -1})
+            else:
+                msg = json.dumps({"eos_id": eos_id})
+        else:
+            msg = "error"
+
+        print(msg)
+        msg = str(msg).encode()  # 转为str再转为byte格式
+
+        self.wfile.write(msg)  # 将byte格式的信息返回给客户端
+
+    def do_POST(self):
+        # 在新类中定义post的内容（当客户端向该服务端使用post请求时，本服务端将如下运行）
+        data = self.rfile.read(
+            int(self.headers["content-length"])
+        )  # 获取从客户端传入的参数（byte格式）
+        data = data.decode()  # 将byte格式转为str格式
+
+        self.send_response(200)
+        self.send_header("type", "post")  # 设置响应头，可省略或设置多个
+        self.end_headers()
+
+        if self.path == "/encode":
+            req = json.loads(data)
+            print(req)
+            prompt = req["text"]
+            b_img_prompt = False
+            if "img_prompt" in req:
+                b_img_prompt = req["img_prompt"]
+            if b_img_prompt:
+                token_ids = tokenizer.encode_vpm(prompt)
+            else:
+                token_ids = tokenizer.encode(prompt, args.content)
+            if token_ids is None:
+                msg = json.dumps({"token_ids": -1})
+            else:
+                msg = json.dumps({"token_ids": token_ids})
+
+        elif self.path == "/decode":
+            req = json.loads(data)
+            token_ids = req["token_ids"]
+            text = tokenizer.decode(token_ids)
+            if text is None:
+                msg = json.dumps({"text": ""})
+            else:
+                msg = json.dumps({"text": text})
+        else:
+            msg = "error"
+        print(msg)
+        msg = str(msg).encode()  # 转为str再转为byte格式
+
+        self.wfile.write(msg)  # 将byte格式的信息返回给客户端
+
+
+if __name__ == "__main__":
+
+    args = argparse.ArgumentParser()
+    args.add_argument("--host", type=str, default="localhost")
+    args.add_argument("--port", type=int, default=8080)
+    args.add_argument('--model_id', type=str, default='internvl2_tokenizer')
+    args.add_argument('--content', type=str, default='你是由上海人工智能实验室联合商汤科技开发的书生多模态大模型，英文名叫InternVL, 是一个有用无害的人工智能助手。')
+    args = args.parse_args()
+
+    tokenizer = Tokenizer_Http(args.model_id)
+
+
+    # print(tokenizer.bos_id, tokenizer.bos_token, tokenizer.eos_id, tokenizer.eos_token)
+    # print(tokenizer.encode("hello world", args.content))
+
+    host = (args.host, args.port)  # 设定地址与端口号，'localhost'等价于'127.0.0.1'
+    print("http://%s:%s" % host)
+    server = HTTPServer(host, Request)  # 根据地址端口号和新定义的类，创建服务器实例
+    server.serve_forever()  # 开启服务
diff --git a/projects/llm_framework/main_vlm/mode_internvl2.5-1B-ax630c.json b/projects/llm_framework/main_vlm/mode_internvl2.5-1B-ax630c.json
@@ -0,0 +1,32 @@
+{
+    "mode":"internvl2.5-1B-ax630c",
+    "type":"vlm",
+    "capabilities":[
+        "text_generation",
+        "chat"
+    ],
+    "input_type":[
+        "vlm.chat_completion",
+        "vlm.chat_completion.stream"
+    ],
+    "output_type":[
+        "vlm.utf-8",
+        "vlm.utf-8.stream"
+    ],
+    "mode_param":{
+        "tokenizer_type":2,
+        "filename_tokenizer_model":"http://localhost:8080",
+        "filename_tokens_embed":"model.embed_tokens.weight.bfloat16.bin",
+        "filename_post_axmodel":"qwen2_post.axmodel",
+        "template_filename_axmodel":"qwen2_p128_l%d_together.axmodel",
+        "filename_vpm_resampler_axmodedl":"intervl_vision_part_224.axmodel",
+        "b_use_topk":false,
+        "b_bos":false,
+        "b_eos":false,
+        "axmodel_num":24,
+        "tokens_embed_num":151674,
+        "tokens_embed_size":896,
+        "b_use_mmap_load_embed":true,
+        "b_dynamic_load_axmodel_layer":false
+    }
+}
diff --git a/projects/llm_framework/main_yolo/mode_yolo11n-hand-pose.json b/projects/llm_framework/main_yolo/mode_yolo11n-hand-pose.json
@@ -0,0 +1,28 @@
+{
+    "mode":"yolo11n-hand-pose",
+    "type":"cv",
+    "capabilities":[
+        "Pose"
+    ],
+    "input_type":[
+        "yolo.jpeg.base64"
+    ],
+    "output_type":[
+        "yolo.yolobox"
+    ],
+    "mode_param":{
+        "yolo_model":"yolo11n-hand-pose.axmodel",
+        "model_type":"pose",
+        "img_h":320,
+        "img_w":320,
+        "cls_num":1,
+        "point_num":21,
+        "pron_threshold":0.45,
+        "nms_threshold":0.45,
+        "cls_name":[
+            "hand"
+        ]
+    },
+    "mode_param_bak":{
+    }
+}
diff --git a/projects/llm_framework/main_yolo/mode_yolo11n-pose.json b/projects/llm_framework/main_yolo/mode_yolo11n-pose.json
@@ -16,89 +16,11 @@
         "img_h":320,
         "img_w":320,
         "cls_num":1,
+        "point_num":17,
         "pron_threshold":0.45,
         "nms_threshold":0.45,
         "cls_name":[
-            "person",
-            "bicycle",
-            "car",
-            "motorcycle",
-            "airplane",
-            "bus",
-            "train",
-            "truck",
-            "boat",
-            "traffic light",
-            "fire hydrant",
-            "stop sign",
-            "parking meter",
-            "bench",
-            "bird",
-            "cat",
-            "dog",
-            "horse",
-            "sheep",
-            "cow",
-            "elephant",
-            "bear",
-            "zebra",
-            "giraffe",
-            "backpack",
-            "umbrella",
-            "handbag",
-            "tie",
-            "suitcase",
-            "frisbee",
-            "skis",
-            "snowboard",
-            "sports ball",
-            "kite",
-            "baseball bat",
-            "baseball glove",
-            "skateboard",
-            "surfboard",
-            "tennis racket",
-            "bottle",
-            "wine glass",
-            "cup",
-            "fork",
-            "knife",
-            "spoon",
-            "bowl",
-            "banana",
-            "apple",
-            "sandwich",
-            "orange",
-            "broccoli",
-            "carrot",
-            "hot dog",
-            "pizza",
-            "donut",
-            "cake",
-            "chair",
-            "couch",
-            "potted plant",
-            "bed",
-            "dining table",
-            "toilet",
-            "tv",
-            "laptop",
-            "mouse",
-            "remote",
-            "keyboard",
-            "cell phone",
-            "microwave",
-            "oven",
-            "toaster",
-            "sink",
-            "refrigerator",
-            "book",
-            "clock",
-            "vase",
-            "scissors",
-            "teddy bear",
-            "hair drier",
-            "toothbrush"
+            "person"
         ]
     },
     "mode_param_bak":{