m5stack
diff --git a/‎projects/llm_framework/main_llm/src/main.cpp‎
Lines changed: 29 additions & 0 deletions b/‎projects/llm_framework/main_llm/src/main.cpp‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎projects/llm_framework/main_llm/src/runner/LLM.hpp‎
Lines changed: 5 additions & 3 deletions b/‎projects/llm_framework/main_llm/src/runner/LLM.hpp‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎projects/llm_framework/main_melotts/src/main.cpp‎
Lines changed: 25 additions & 8 deletions b/‎projects/llm_framework/main_melotts/src/main.cpp‎
Lines changed: 25 additions & 8 deletions
diff --git a/‎projects/llm_framework/main_sys/src/event_loop.cpp‎
Lines changed: 65 additions & 1 deletion b/‎projects/llm_framework/main_sys/src/event_loop.cpp‎
Lines changed: 65 additions & 1 deletion
diff --git a/‎projects/llm_framework/main_vlm/src/main.cpp‎
Lines changed: 52 additions & 12 deletions b/‎projects/llm_framework/main_vlm/src/main.cpp‎
Lines changed: 52 additions & 12 deletions
@@ -119,6 +119,8 @@ class llm_task {
             CONFIG_AUTO_SET(file_body["mode_param"], b_use_mmap_load_embed);
             CONFIG_AUTO_SET(file_body["mode_param"], b_dynamic_load_axmodel_layer);
             CONFIG_AUTO_SET(file_body["mode_param"], max_token_len);
+            CONFIG_AUTO_SET(file_body["mode_param"], temperature);
+            CONFIG_AUTO_SET(file_body["mode_param"], top_p);
 
             if (mode_config_.filename_tokenizer_model.find("http:") != std::string::npos) {
                 std::string tokenizer_file;
@@ -279,6 +281,33 @@ class llm_llm : public StackFlow {
         }
     }
 
+    void task_pause(const std::weak_ptr<llm_task> llm_task_obj_weak,
+                const std::weak_ptr<llm_channel_obj> llm_channel_weak)
+    {
+        auto llm_task_obj = llm_task_obj_weak.lock();
+        auto llm_channel  = llm_channel_weak.lock();
+        if (!(llm_task_obj && llm_channel)) {
+            return;
+        }
+        llm_task_obj->lLaMa_->Stop();
+    }
+
+    void pause(const std::string &work_id, const std::string &object, const std::string &data) override
+    {
+        SLOGI("llm_asr::work:%s", data.c_str());
+
+        nlohmann::json error_body;
+        int work_id_num = sample_get_work_id_num(work_id);
+        if (llm_task_.find(work_id_num) == llm_task_.end()) {
+            error_body["code"]    = -6;
+            error_body["message"] = "Unit Does Not Exist";
+            send("None", "None", error_body, work_id);
+            return;
+        }
+        task_pause(llm_task_[work_id_num], get_channel(work_id_num));
+        send("None", "None", LLM_NO_ERROR, work_id);
+    }
+
     void task_user_data(const std::weak_ptr<llm_task> llm_task_obj_weak,
                         const std::weak_ptr<llm_channel_obj> llm_channel_weak, const std::string &object,
                         const std::string &data)
 
@@ -48,6 +48,8 @@ struct LLMAttrType
     int kv_cache_num = 1024; // auto calc
     int kv_cache_size = 256; // auto calc
 
+    float temperature = 0.7f;
+    float top_p = 0.9f;
     bool b_use_mmap_load_embed = false;
     bool b_dynamic_load_axmodel_layer = false;
 
@@ -86,7 +88,7 @@ class LLM
 
     bool b_stop = false;
 
-    static int post_process(unsigned short *p, int n, std::vector<int> &history, float *val = 0)
+    int post_process(unsigned short *p, int n, std::vector<int> &history, float *val = 0)
     {
         std::vector<float> logits(n);
         for (int i = 0; i < n; i++)
@@ -95,10 +97,10 @@ class LLM
             logits[i] = *reinterpret_cast<float *>(&proc);
         }
         LLMPostprocess postprocess;
-        postprocess.set_temperature(true, 0.8f);
+        postprocess.set_temperature(true, _attr.temperature);
         postprocess.set_repetition_penalty(true, 1.2f);
         // postprocess.set_top_k_sampling(true, 40);
-        postprocess.set_top_p_sampling(true, 0.9f);
+        postprocess.set_top_p_sampling(true, _attr.top_p);
 
         return postprocess.apply(logits, history);
 
 
@@ -233,9 +233,20 @@ class llm_task {
         src_delete(src_state);
     }
 
-    bool TTS(const std::string &msg_str)
+    bool TTS(const std::string &msg_str, bool finish)
     {
         try {
+            std::vector<int16_t> wav_pcm_data;
+            if (msg_str.empty()) {
+                SLOGI("empty");
+                if (out_callback_) {
+                    std::string output = wav_pcm_data.empty() ? 
+                        std::string() : 
+                        std::string((char *)wav_pcm_data.data(), wav_pcm_data.size() * sizeof(int16_t));
+                    out_callback_(output, finish);
+                }
+                return false;
+            }
             std::vector<int> phones_bef, tones_bef;
             lexicon_->convert(msg_str, phones_bef, tones_bef);
             // Add blank between words
@@ -284,11 +295,10 @@ class llm_task {
             std::vector<float> tmp_pcm((pcmlist.size() * src_ratio + 1));
             int len;
             resample_audio(pcmlist.data(), pcmlist.size(), tmp_pcm.data(), &len, src_ratio);
-            std::vector<int16_t> wav_pcm_data;
             std::transform(tmp_pcm.begin(), tmp_pcm.begin() + len, std::back_inserter(wav_pcm_data),
                            [](const auto val) { return (int16_t)(val * INT16_MAX); });
             if (out_callback_)
-                out_callback_(std::string((char *)wav_pcm_data.data(), wav_pcm_data.size() * sizeof(int16_t)), true);
+                out_callback_(std::string((char *)wav_pcm_data.data(), wav_pcm_data.size() * sizeof(int16_t)), finish);
         } catch (...) {
             return true;
         }
@@ -342,6 +352,9 @@ class llm_task {
 
     ~llm_task()
     {
+        if (decoder_) {
+            decoder_->Release();
+        }
         _ax_deinit();
     }
 };
@@ -368,15 +381,17 @@ class llm_tts : public StackFlow {
             return;
         }
         std::string base64_data;
-        int len = encode_base64(data, base64_data);
+        if (!data.empty()) {
+            int len = encode_base64(data, base64_data);
+        }
         if (llm_channel->enstream_) {
             static int count = 0;
             nlohmann::json data_body;
             data_body["index"] = count++;
-            if (!finish)
+            if (!data.empty())
                 data_body["delta"] = base64_data;
             else
-                data_body["delta"] = std::string("");
+                data_body["delta"] = "";
             data_body["finish"] = finish;
             if (finish) count = 0;
             llm_channel->send(llm_task_obj->response_format_, data_body, LLM_NO_ERROR);
@@ -433,7 +448,7 @@ class llm_tts : public StackFlow {
         for (auto cutf8 : tmp_data) {
             if (is_breakpoint(cutf8)) {
                 llm_task_obj->tts_string_stream_buff += cutf8;
-                ret = llm_task_obj->TTS(llm_task_obj->tts_string_stream_buff);
+                ret = llm_task_obj->TTS(llm_task_obj->tts_string_stream_buff, false);
                 llm_task_obj->tts_string_stream_buff.clear();
                 if (ret) {
                     error_body["code"]    = -11;
@@ -447,13 +462,15 @@ class llm_tts : public StackFlow {
         if (finish_flage) {
             if (!llm_task_obj->tts_string_stream_buff.empty()) {
                 llm_task_obj->tts_string_stream_buff.push_back('.');
-                ret = llm_task_obj->TTS(llm_task_obj->tts_string_stream_buff);
+                ret = llm_task_obj->TTS(llm_task_obj->tts_string_stream_buff, true);
                 llm_task_obj->tts_string_stream_buff.clear();
                 if (ret) {
                     error_body["code"]    = -11;
                     error_body["message"] = "Model run failed.";
                     llm_channel->send("None", "None", error_body, llm_channel->work_id_);
                 }
+            } else {
+                llm_task_obj->TTS("", true);
             }
         }
     }
 
@@ -1,4 +1,3 @@
-
 /*
  * SPDX-FileCopyrightText: 2024 M5Stack Technology CO LTD
  *
@@ -227,6 +226,70 @@ int sys_unit_call(int com_id, const nlohmann::json &json_obj)
     return out;
 }
 
+void get_mem_cmm_info(unsigned long *total_size, unsigned long *used, unsigned long *remain)
+{
+    std::ifstream file("/proc/ax_proc/mem_cmm_info");
+    std::vector<std::string> lines;
+    std::string line;
+
+    while (std::getline(file, line)) {
+        lines.push_back(line);
+    }
+
+    if (!lines.empty()) {
+        std::string last_line = lines.back();
+
+        size_t pos = last_line.find("total size=");
+        if (pos != std::string::npos) {
+            pos += 11;
+            size_t end  = last_line.find('K', pos);
+            *total_size = std::stoul(last_line.substr(pos, end - pos));
+        }
+
+        pos = last_line.find("used=");
+        if (pos != std::string::npos) {
+            pos += 5;
+            size_t end = last_line.find('K', pos);
+            *used      = std::stoul(last_line.substr(pos, end - pos));
+        }
+
+        pos = last_line.find("remain=");
+        if (pos != std::string::npos) {
+            pos += 7;
+            size_t end = last_line.find('K', pos);
+            *remain    = std::stoul(last_line.substr(pos, end - pos));
+        }
+    }
+}
+
+void _sys_cmminfo(int com_id, const nlohmann::json &json_obj)
+{
+    unsigned long total_size, used, remain;
+    get_mem_cmm_info(&total_size, &used, &remain);
+
+    nlohmann::json out_body;
+    nlohmann::json data_body;
+    out_body["request_id"] = json_obj["request_id"];
+    out_body["work_id"]    = std::string("sys");
+    out_body["created"]    = time(NULL);
+    out_body["error"]      = nlohmann::json::parse("{\"code\":0, \"message\":\"\"}");
+    out_body["object"]     = std::string("sys.cmminfo");
+    data_body["total"]     = total_size;
+    data_body["used"]      = used;
+    data_body["remain"]    = remain;
+    out_body["data"]       = data_body;
+    std::string out        = out_body.dump();
+    zmq_com_send(com_id, out);
+}
+
+int sys_cmminfo(int com_id, const nlohmann::json &json_obj)
+{
+    int out = 0;
+    std::thread t(_sys_cmminfo, com_id, json_obj);
+    t.detach();
+    return out;
+}
+
 int sys_lsmode(int com_id, const nlohmann::json &json_obj)
 {
     int out;
@@ -675,6 +738,7 @@ void server_work()
     key_sql["sys.version"]   = sys_version;
     key_sql["sys.rmmode"]    = sys_rmmode;
     key_sql["sys.unit_call"] = sys_unit_call;
+    key_sql["sys.cmminfo"]   = sys_cmminfo;
 }
 
 void server_stop_work()
 
@@ -44,8 +44,8 @@ class llm_task {
     std::string response_format_;
     std::vector<std::string> inputs_;
     std::vector<unsigned short> prompt_data_;
-    std::vector<unsigned char> image_data_;
-    std::vector<unsigned short> img_embed;
+    std::vector<std::vector<unsigned char>> image_datas_;
+    std::vector<std::vector<unsigned short>> img_embeds;
     std::string prompt_;
     task_callback_t out_callback_;
     bool enoutput_;
@@ -125,6 +125,8 @@ class llm_task {
             CONFIG_AUTO_SET(file_body["mode_param"], b_use_mmap_load_embed);
             CONFIG_AUTO_SET(file_body["mode_param"], b_dynamic_load_axmodel_layer);
             CONFIG_AUTO_SET(file_body["mode_param"], max_token_len);
+            CONFIG_AUTO_SET(file_body["mode_param"], temperature);
+            CONFIG_AUTO_SET(file_body["mode_param"], top_p);
 
             if (mode_config_.filename_tokenizer_model.find("http:") != std::string::npos) {
                 std::string tokenizer_file;
@@ -171,7 +173,11 @@ class llm_task {
                 }
             };
             lLaMa_ = std::make_unique<LLM>();
-            if (!lLaMa_->Init(mode_config_)) return -2;
+            if (!lLaMa_->Init(mode_config_)) {
+                lLaMa_->Deinit();
+                lLaMa_.reset();
+                return -2;
+            }
 
         } catch (...) {
             SLOGE("config false");
@@ -209,18 +215,25 @@ class llm_task {
     void inference(const std::string &msg)
     {
         try {
-            if (image_data_.empty()) {
+            if (image_datas_.empty()) {
                 lLaMa_->Encode(prompt_data_, prompt_complete(msg));
                 std::string out = lLaMa_->Run(prompt_data_);
                 if (out_callback_) out_callback_(out, true);
             } else {
-                cv::Mat src = cv::imdecode(image_data_, cv::IMREAD_COLOR);
-                if (src.empty()) return;
-                image_data_.clear();
-                lLaMa_->Encode(src, img_embed);
-                lLaMa_->Encode(img_embed, prompt_data_, prompt_complete(msg));
-                std::string out = lLaMa_->Run(prompt_data_);
-                if (out_callback_) out_callback_(out, true);
+                img_embeds.clear();
+                for (auto &img_data : image_datas_) {
+                    cv::Mat src = cv::imdecode(img_data, cv::IMREAD_COLOR);
+                    if (src.empty()) continue;
+                    std::vector<unsigned short> embed;
+                    lLaMa_->Encode(src, embed);
+                    img_embeds.push_back(embed);
+                }
+                image_datas_.clear();
+                if (!img_embeds.empty()) {
+                    lLaMa_->Encode(img_embeds, prompt_data_, prompt_complete(msg));
+                    std::string out = lLaMa_->Run(prompt_data_);
+                    if (out_callback_) out_callback_(out, true);
+                }
             }
         } catch (...) {
             SLOGW("lLaMa_->Run have error!");
@@ -293,6 +306,33 @@ class llm_llm : public StackFlow {
         }
     }
 
+    void task_pause(const std::weak_ptr<llm_task> llm_task_obj_weak,
+                    const std::weak_ptr<llm_channel_obj> llm_channel_weak)
+    {
+        auto llm_task_obj = llm_task_obj_weak.lock();
+        auto llm_channel  = llm_channel_weak.lock();
+        if (!(llm_task_obj && llm_channel)) {
+            return;
+        }
+        llm_task_obj->lLaMa_->Stop();
+    }
+
+    void pause(const std::string &work_id, const std::string &object, const std::string &data) override
+    {
+        SLOGI("llm_asr::work:%s", data.c_str());
+
+        nlohmann::json error_body;
+        int work_id_num = sample_get_work_id_num(work_id);
+        if (llm_task_.find(work_id_num) == llm_task_.end()) {
+            error_body["code"]    = -6;
+            error_body["message"] = "Unit Does Not Exist";
+            send("None", "None", error_body, work_id);
+            return;
+        }
+        task_pause(llm_task_[work_id_num], get_channel(work_id_num));
+        send("None", "None", LLM_NO_ERROR, work_id);
+    }
+
     void task_user_data(const std::weak_ptr<llm_task> llm_task_obj_weak,
                         const std::weak_ptr<llm_channel_obj> llm_channel_weak, const std::string &object,
                         const std::string &data)
@@ -336,7 +376,7 @@ class llm_llm : public StackFlow {
             next_data = &tmp_msg2;
         }
         if (object.find("jpeg") != std::string::npos) {
-            llm_task_obj->image_data_.assign(next_data->begin(), next_data->end());
+            llm_task_obj->image_datas_.emplace_back(next_data->begin(), next_data->end());
             return;
         }
         llm_task_obj->inference((*next_data));