">
Mise & Nasazení // MISE-005

Vlastní Specializovaná AI

Identifikátor MISE-005
Typ AI
Zahájeno 11/2025
Status Ve vývoji
Python RAG FastAPI LoRA
// Postup mise 22%
Screenshot projektu
WIP
// AKTUÁLNÍ STAV PROJEKTU
Detail 1
// DETAIL 01
Detail 2
// DETAIL 02
Detail 3
// DETAIL 03
Popis mise

Napadlo mě, že by bylo zajímavé mít AI, která by se specializovala na lokální zákony a podobné legální texty. Takový soukromý AI právník.

Aktuálně je hotový skript na formátování sesbíraných dat (upravil jsem starší Python skript co jsem napsal když jsem dělal webové stránky na procvičování písemných prací ve škole). Sběr dat a jejich validace stále probíhá. Cílová velikost dat je alespoň 30 GB textu.

Ukázka kódu
# Processing stránky def page_detect_highlight_boxes(page, dpi=150) -> Tuple[np.ndarray, List[Tuple[int,int,int,int]]]: img = render_page_image(page, dpi) mask = make_yellow_mask(img) # najde obrysy zvýraznění v masce contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) boxes = contours_to_bboxes(contours) return mask, boxes
Známé problémy
Aktuálně není Python skript na sběr dat stoprocentně přesný, potřebuje občasné manuální zásahy.
Další kroky
01 // Další na řadě je vytvoření datasetu. K tomu pravděpodobně využiju HuggingFace datasety.
02 // Druhý plánovaný krok je výběr base modelu a jeho finetuning. Preferuji multilinguistické modely a finetuning přes LoRA.
03 // Projekt bude považován za hotový, až bude vyzkoušen odborníky, a obstojí.
04 // Čtení uživatelem vložených souborů by byla hezká funkce, ale není nutná.