Cách trích xuất văn bản từ các trang web

Trích xuất văn bản từ một trang web có thể được thực hiện theo nhiều cách. Phương pháp bạn chọn phải phụ thuộc vào mục đích bạn có trong đầu cho văn bản. Nếu tất cả các nhu cầu kinh doanh của bạn là in ra văn bản để sử dụng làm hướng dẫn hoặc hướng dẫn, bạn chỉ có thể trích xuất văn bản dưới dạng HTML. Nếu có hình ảnh và văn bản trên trang Web và bạn muốn giữ trang đó ở dạng ban đầu, bạn nên trích xuất toàn bộ trang Web. Có ba cách để trích xuất văn bản, và có hai cách để trích xuất văn bản và hình ảnh với nhau.

Chỉ trích xuất văn bản

1.

Mở trang Web mà bạn muốn trích xuất văn bản. Nhấp vào menu của File File và nhấp vào tùy chọn Lưu lại dưới dạng hay hoặc Lưu vào trang Lưu lại dưới dạng. Chọn Trang web của Wikipedia, chỉ HTML trên menu từ trình đơn thả xuống Lưu dưới dạng, nhập tên cho tệp và nhấp vào Lưu Lưu. Văn bản sẽ được trích xuất và lưu dưới dạng tệp HTML với các tùy chọn định dạng trang gốc còn nguyên vẹn. Tập tin có thể được xem trong các trình duyệt Web và nó có thể được chỉnh sửa trong các trình soạn thảo văn bản như Notepad.

2.

Nhấp vào tùy chọn Lưu Lưu dưới dạng hay hoặc Lưu vào Trang Lưu dưới dạng và chọn Tập tin văn bản trên mạng từ menu thả xuống Lưu dưới dạng. Nhập tên cho tệp văn bản và nhấp vào Lưu Lưu. Văn bản từ trang Web sẽ được trích xuất và lưu dưới dạng tệp văn bản có thể được xem trong trình chỉnh sửa văn bản và chương trình tài liệu như Microsoft Word.

3.

Nhấp và kéo để chọn văn bản trên trang Web bạn muốn trích xuất và nhấn CƠM Ctrl-C Danh để sao chép văn bản. Mở trình soạn thảo văn bản hoặc chương trình tài liệu và nhấn nút Ctrl Ctrl-V để dán văn bản từ trang Web vào tệp văn bản hoặc cửa sổ tài liệu. Lưu tệp văn bản hoặc tài liệu vào máy tính của bạn.

Trích xuất văn bản và hình ảnh

1.

Nhấp vào menu của File File cứng trong trình duyệt Web của bạn và nhấp vào tùy chọn Lưu Save dưới dạng hay hoặc Lưu trên trang Lưu dưới dạng. Chọn Trang web của Nhật Bản, Hoàn thành các mục từ menu thả xuống Lưu dưới dạng và nhập tên cho tệp. Nhấp vào Lưu Lưu. Các văn bản và hình ảnh từ trang Web sẽ được trích xuất và lưu lại. Văn bản sẽ được đặt trong tệp HTML và hình ảnh sẽ được đặt trong thư mục ở cùng vị trí với tệp HTML.

2.

Nhấp đúp vào tệp HTML để xem văn bản và hình ảnh được trích xuất. Chúng sẽ mở ra trong trình duyệt Web của bạn. Phương pháp khác để trích xuất văn bản và hình ảnh chỉ có sẵn trong trình duyệt Internet Explorer. Mở trang Web mong muốn trong Internet Explorer trước khi tiếp tục bước tiếp theo.

3.

Nhấp vào tùy chọn Lưu Lưu dưới dạng từ trong menu Tệp và chọn Lưu trữ Web, tệp duy nhất (* .mht) từ menu thả xuống Lưu dưới dạng. Nhập tên cho tệp và nhấp vào nút Lưu Lưu. Văn bản và hình ảnh sẽ được trích xuất từ ​​trang Web vào tệp. Nhấp đúp vào tệp để xem văn bản và hình ảnh được trích xuất trong trình duyệt Web của bạn.

Bài ViếT Phổ BiếN