">
Napadlo mě, že by bylo zajímavé mít AI, která by se specializovala na lokální zákony a podobné legální texty. Takový soukromý AI právník.
Aktuálně je hotový skript na formátování sesbíraných dat (upravil jsem starší Python skript co jsem napsal když jsem dělal webové stránky na procvičování písemných prací ve škole). Sběr dat a jejich validace stále probíhá. Cílová velikost dat je alespoň 30 GB textu.
# Processing stránky
def page_detect_highlight_boxes(page, dpi=150) -> Tuple[np.ndarray, List[Tuple[int,int,int,int]]]:
img = render_page_image(page, dpi)
mask = make_yellow_mask(img)
# najde obrysy zvýraznění v masce
contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
boxes = contours_to_bboxes(contours)
return mask, boxes