Apache poi что это
Перейти к содержимому

Apache poi что это

Apache POI — the Java API for Microsoft Documents

The Apache POI team is pleased to announce the release of 5.2.2. Several dependencies were updated to their latest versions to pick up security fixes and other improvements.

A summary of changes is available in the Release Notes. A full list of changes is available in the change log. People interested should also follow the dev list to track progress.

See the downloads page for more details.

POI requires Java 8 or newer since version 4.0.1.

4 March 2022 — CVE-2022-26336 — A carefully crafted TNEF file can cause an out of memory exception in Apache POI poi-scratchpad versions prior to 5.2.0

Description:
A shortcoming in the HMEF package of poi-scratchpad (Apache POI) allows an attacker to cause an Out of Memory exception. This package is used to read TNEF files (Microsoft Outlook and Microsoft Exchange Server). If an application uses poi-scratchpad to parse TNEF files and the application allows untrusted users to supply them, then a carefully crafted file can cause an Out of Memory exception.

Mitigation:
Affected users are advised to update to poi-scratchpad 5.2.1 or above which fixes this vulnerability. It is recommended that you use the same versions of all POI jars.

10+16+18 December 2021- Log4j vulnerabilities CVE-2021-44228, CVE-2021-45046 and CVE-2021-45105

The Apache POI PMC has evaluated the security vulnerabilities reported for Apache Log4j.

POI 5.1.0 and XMLBeans 5.0.2 only have dependencies on log4j-api 2.14.1. The security vulnerabilities are not in log4j-api — they are in log4j-core.

If any POI or XMLBeans user uses log4j-core to control their logging of their application, we strongly recommend that they upgrade all their log4j dependencies to the latest version (currently v2.17.1) — including log4j-api.

13 January 2021 — CVE-2021-23926 — XML External Entity (XXE) Processing in Apache XMLBeans versions prior to 3.0.0

Description:
When parsing XML files using XMLBeans 2.6.0 or below, the underlying parser created by XMLBeans could be susceptible to XML External Entity (XXE) attacks.

This issue was fixed a few years ago but on review, we decided we should have a CVE to raise awareness of the issue.

Mitigation:
Affected users are advised to update to Apache XMLBeans 3.0.0 or above which fixes this vulnerability. XMLBeans 4.0.0 or above is preferable.

20 October 2019 — CVE-2019-12415 — XML External Entity (XXE) Processing in Apache POI versions prior to 4.1.1

Description:
When using the tool XSSFExportToXml to convert user-provided Microsoft Excel documents, a specially crafted document can allow an attacker to read files from the local filesystem or from internal network resources via XML External Entity (XXE) Processing.

Mitigation:
Apache POI 4.1.0 and before: users who do not use the tool XSSFExportToXml are not affected. Affected users are advised to update to Apache POI 4.1.1 which fixes this vulnerability.

Credit: This issue was discovered by Artem Smotrakov from SAP

26 March 2019 — XMLBeans 3.1.0 available

The Apache POI team is pleased to announce the release of XMLBeans 3.1.0. Featured are a handful of bug fixes.

The Apache POI project has unretired the XMLBeans codebase and is maintaining it as a sub-project, due to its importance in the poi-ooxml codebase.

A summary of changes is available in the Release Notes. People interested should also follow the POI dev list to track progress.

The XMLBeans JIRA project has been reopened and feel free to open issues.

POI 4.1.0 uses XMLBeans 3.1.0.

XMLBeans requires Java 6 or newer since version 3.0.2.

11 January 2019 — Initial support for JDK 11

We did some work to verify that compilation with Java 11 is working and that all unit-tests pass.

See the details in the FAQ entry.

Mission Statement

The Apache POI Project’s mission is to create and maintain Java APIs for manipulating various file formats based upon the Office Open XML standards (OOXML) and Microsoft’s OLE 2 Compound Document format (OLE2). In short, you can read and write MS Excel files using Java. In addition, you can read and write MS Word and MS PowerPoint files using Java. Apache POI is your Java Excel solution (for Excel 97-2008). We have a complete API for porting other OOXML and OLE2 formats and welcome others to participate.

OLE2 files include most Microsoft Office files such as XLS, DOC, and PPT as well as MFC serialization API based file formats. The project provides APIs for the OLE2 Filesystem (POIFS) and OLE2 Document Properties (HPSF).

Office OpenXML Format is the new standards based XML file format found in Microsoft Office 2007 and 2008. This includes XLSX, DOCX and PPTX. The project provides a low level API to support the Open Packaging Conventions using openxml4j.

For each MS Office application there exists a component module that attempts to provide a common high level Java api to both OLE2 and OOXML document formats. This is most developed for Excel workbooks (SS=HSSF+XSSF). Work is progressing for Word documents (WP=HWPF+XWPF) and PowerPoint presentations (SL=HSLF+XSLF).

The project has some support for Outlook (HSMF). Microsoft opened the specifications to this format in October 2007. We would welcome contributions.

As a general policy we collaborate as much as possible with other projects to provide this functionality. Examples include: Cocoon for which there are serializers for HSSF; Open Office.org with whom we collaborate in documenting the XLS format; and Tika / Lucene, for which we provide format interpretors. When practical, we donate components directly to those projects for POI-enabling them.

Why should I use Apache POI?

A major use of the Apache POI api is for Text Extraction applications such as web spiders, index builders, and content management systems.

So why should you use POIFS, HSSF or XSSF?

You’d use POIFS if you had a document written in OLE 2 Compound Document Format, probably written using MFC, that you needed to read in Java. Alternatively, you’d use POIFS to write OLE 2 Compound Document Format if you needed to inter-operate with software running on the Windows platform. We are not just bragging when we say that POIFS is the most complete and correct implementation of this file format to date!

You’d use HSSF if you needed to read or write an Excel file using Java (XLS). You’d use XSSF if you need to read or write an OOXML Excel file using Java (XLSX). The combined SS interface allows you to easily read and write all kinds of Excel files (XLS and XLSX) using Java. Additionally there is a specialized SXSSF implementation which allows to write very large Excel (XLSX) files in a memory optimized way.

Components

The Apache POI Project provides several component modules some of which may not be of interest to you. Use the information on our Components page to determine which jar files to include in your classpath.

Contributing

So you’d like to contribute to the project? Great! We need enthusiastic, hard-working, talented folks to help us on the project, no matter your background. So if you’re motivated, ready, and have the time: Download the source from the Subversion Repository, build the code, join the mailing lists, and we’ll be happy to help you get started on the project!

Please read our Contribution Guidelines. When your contribution is ready submit a patch to our Bug Database.

Генерация файлов Word в Apache POI

Для языка Java (как, впрочем, и для любого другого языка программирования) всё еще не придумали более простого и действенного способа генерации документов docx, чем библиотека Apache POI. В конце нулевых появился сей высокоуровнеый API, позволящий говорить с формируемым документом не на языке разметки XML, а с помощью удобных полей и выводов.

Судя по моим Google-запросам на протяжении более чем года сообщество пользователей этой библиотеки продержалось года этак до 2012, в то время как новые версии библиотеки всё еще появляются на главной странице проекта. Не на все вопросы, касающиеся формирования самого примитивного документа, есть ответы в документации или stackoverflow, не говоря уже о текстах на русском языке. Постараемся компенсировать этот недостаток данных для тех, кому это может понадобиться.

Основные классы API

XWPFDocument — целостное представление Word документа. В нём не только содержится xml-код, интерпретируемый редакторами (Word, LibreOffice), но также содержатся и методы для определения метаданных отображения — набора стилей, сносок и т.п. В этой статье поговорим о первом, так как работа с метаданными не так явно задокументирована, к тому же многие редакторы успешно справляются с отображением документа и без подсказок.

Итак, предположим, у вас на руках есть (ненужный) файл docx. Преобразуем его в файл zip (осторожно, обратное преобразование путем переименования zip -> docx может сделать файл недоступным для вашего редактора(!)), в получившемся архиве откроем папку word, а в ней — файл document.xml. Перед нами xml-представление word-файла, которое также можно было бы получить через Apache POI, с меньшими трудностями.

Для того, чтобы поближе познакомиться с содержимым документа, придется вооружиться еще двумя классами API: XWPFParagraph и XWPFTable.

XWPFParagraph — как следует из названия, представляет собой параграф документа. Расположен он может быть как внутри XWPFDocument,

так и внутри таблицы (если точнее — внутри ячейки таблицы, вложенной в ряд таблицы, вложенного непосредственно в таблицу).

Параграф предоставляет изрядный набор информации для вёрстки и размещения текста. Официальная документация на этот счёт достаточно красноречива: отступы слева и справа, сверху и снизу, в том числе и между строками, добавление гиперссылок и границ для параграфа.

XWPFTable — класс, олицетворяющий таблицу. Также как и в XWPFParagraph, XWPFTable можно добавлять к самому документу и к ячейке таблицы (создавая, тем самым, таблицу внутри таблицы). Семантика в таком случае чуточку усложняется.

XWPFRun — набор данных о выводе текста внутри параграфа. Находится может только внутри параграфа, создается через вызов метода параграфа-родителя:

Из нескольких «ранов», как я предпочитаю их называть, и состоит целый параграф текста в Word. Каждый «ран» имеет свою настройку шрифта, его цвета и размера, а также стилизации. Через добавление различных «ранов», подчиняющихся разметке параграфа, можно выводить тексты с совершенно разной стилизацией.

Как становится видно из обзора классов, перенос, скажем, css-стиля в документ будет связан с дополнительной сложностью: часть свойств необходимо будет применить к параграфу docx, часть — к объекту класса XWPFRun.

Итак, библиотека легла в External Libraries/jar лежит под рукой, пора творить.

Создадим документ, добавим таблицу 2х2 и параграф.

Заполним параграф, добавив ран для вывода текста. После перевода строки стилизация параграфа будет потеряна, и в Word новый параграф будет выведен без красной строки.

Теперь займёмся заполнением таблицы. Мы можем обращаться не только к уже созданным элементам, но и вызвать у сформированной таблицы метод для добавления рядов или колонок.

Опускаемся глубже, на уровень ряда таблицы. Именно в таком порядке предстаёт разбор таблицы в Apache POI — сначала ряды, потом клетки. Напрямую из таблицы можно получить лишь количество колонок в таблице:

Оказавшись в ячейке двигаться глубже уже некуда, поэтому можно снова вызвать наш дуболомный метод по заполнению параграфа, предварительно создав его в таблице.

Итак, можно легко уловить суть структуры документа в Word: вкладывай одно в другое и предоставляй доступ (в том числе и к созданию новых экземпляров). К сожалению, далеко не всегда есть возможность получить последний элемент во вложенной коллекции. Чаще всего приходится пользоваться такими вот ухищрениями:

Хорошо, с содержимым таблицы разобрались. Что если нам нужно явно уточнить ширину таблицы, а не оставлять её для волной интерпретации редактора?

Для некоторых на первый взгляд числовых значений, например, ширины таблицы, в Apache POI существуют целые классы.

С помощью типа укажем, какая именно ширина нам нужна: auto, pct или dxa. В первом случае таблицы займёт всю предоставленную ей ширину, во втором — процент от всей ширины, указанный позже методом setW. В нашем же случае вмешиватеся специальная единица измерения — dxa, равная 1/20 точки.

Классы, подобные CTTblWidth, используются повсеместно: для определения ширины страницы (PgSize), ширины ячейки и др.

Единцы измерения в Apache POI

В хорошем документе всё выверенно и расчерчено идеально, вплоть до самого пикселя. Возможно, в теории можно сделать всё средствами Apache POI и без углубления в тему единиц измерения, но лучше уделить им внимание сразу, чтобы избежать недопониманий в духе «почему это схлопнулось» и «когда переместил картинку в word на один сантиметр».

О поддержке сантиметров и остальной метрической системы тут остается только мечтать. Это резонно (каждый шрифт уникален, у каждого редактора своя специфика), но дико неудобно. Придется прибегнуть ко множеству конвертаций, если вы хотите задавать отступы (ведь именно в сантиметрах мы привыкли видеть их в word) в сантиметрах. Итак, указав тип измерения dxa для некоторой ширины, как описно в параграфе выше, мы получаем в распоряжение некоторое точное значение, но абсолютно не представляем как им воспользоваться. Для перевода в сантиметры на stackoverflow есть формула. Для всего остального существует класс Units. В нем определены как методы для перевода единиц измерения, так и сами соотношения между значениями.

Запись готового документа

Для записи в конечный файл есть удобный метод XWPFDocument — write. На вход принимается поток, в который пойдёт запись.

Если готовый документ нужно куда-то передать можно подать в качестве аргумента не File-, а ByteArrayOutputStream.

Информация об элементе отображения в формате xml

Имея документ, отображающийся корректно в определенном редакторе, полезно было бы узнать как именно представлен необходимый параграф или другой элемент. Для этого определенны специальные методы, возвращающие объекты классов пакета org.openxmlformats.schemas.wordprocessingml.x2006.main. Из названия (wordprocessingml) видно, что данный набор классов используется только для работы с документами word. Например, для xlsx документов есть пакет spreadsheetml, некоторые классы которого очень и очень похожи на классы wordprocessingml, поэтому конвертация между форматами достаточно затруднена.

Так, пустой параграф будет иметь скромное представление

Пустая таблица покажет больше интересного.

Что здесь интересного? Свойства tblPr — всевозможные свойства таблицы. Внутри уже описанная ширина таблицы (установлена 0, но свойство «auto» все равно выведет таблицу в приемлимой, автоматической ширине). Также tblBorders — набор информации о границах таблицы. Далее идёт явно выраженное представление внутренностей таблицы. tr — ряд таблицы, внутри вложенны tc. Внутри tc оказался бы набор вложенный параграфов, если бы мы добавили хотя бы один.
Попробуем пополнить параграф информацией и посмотреть что из этого получится.

Здесь ситуация ровно такая же: объект с мета-информацией (в него добавлена информация об отступе красной строки, который мы вложили в коде), а так же само содержимое: там размещается список «ранов». В первый и единственный мы добавили текст и информацию о шрифте. Эта информация также разделилась внутри «рана» — информация о шрифте попала в rPr, сам текст — в элемент t.

Apache POI

POIFS (Poor Obfuscation Implementation File System) — базовый управляющий компонент для всех POI элементов. Он используется для явного чтения различных файлов.

HSSF (Horrible Spreadsheet Format) — компонент, который используется для чтения и записи формата .xls MS-Excel файлов. [3.9]

XSSF (XML Spreadsheet Format) — компонент, который используется для чтения и записи формата .xlsx MS-Excel файлов. [3.9]

HPSF (Horrible Property Set Format) — компонент, который используется для извлечения пропертей из MS-Office файлов. [3.9]

HWPF (Horrible Word Processor Format) — компонент, который используется для чтения и записи формата .doc MS-Word файлов. [3.9]

XWPF (XML Word Processor Format) — компонент, который используется для чтения и записи формата .docx MS-Word файлов. [3.9]

HSLF (Horrible Slide Layout Format) — компонент, который используется для чтения и записи MS-PowerPoint файлов. [3.9]

HDGF (Horrible DiaGram Format) — компонент, который используется для чтения и записи MS-Visio файлов. [3.9]

HPBF (Horrible PuBlisher Format) — компонент, который используется для чтения и записи MS-Publisher файлов. [3.9]

3. Классы и интерфейсы

Workbook — базовый интерфейс для всех классов, которые создают или обрабатывают Excel документы.

  • Он находится в org.apache.poi.ss.usermodel пакете. [3.9]
  • Его реализуют следующие классы:
    • HSSFWorkbook — класс для чтения и записи файлов .xls формата. Поддерживает 1997-2003 версии MS-Office. Он находится в org.apache.poi.hssf.usermodel пакете.
    • XSSFWorkbook — класс для чтения и записи файлов .xlsx формата. Поддерживает 2007+ версии MS-Office. Он находится в org.apache.poi.xssf.usermodel пакете.

    Sheet — базовый интерфейс для всех классов, которые создают таблицы произвольного типа. Наиболее распространенной таблицей является worksheet, которая представлена сеткой ячеек. [3.9]

    • Он находится в org.apache.poi.ss.usermodel пакете.
    • Его реализуют следующие классы:
      • HSSFSheet — класс для создания excel таблиц и редактирования данных и стилей этих таблиц. Он находится в org.apache.poi.hssf.usermodel пакете.
      • XSSFSheet — класс для создания excel таблиц и редактирования данных и стилей этих таблиц. Он находится в org.apache.poi.xssf.usermodel пакете.

      Row — базовый интерфейс для всех классов, которые представляют строку таблицы. [3.9]

      • Он находится в org.apache.poi.ss.usermodel пакете.
      • Его реализуют следующие классы:
        • XSSFRow — класс для представления строк в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.

        Cell — базовый интерфейс для всех классов, которые представляют ячейки в строках таблицы. [3.9]

        • Он находится в org.apache.poi.ss.usermodel пакете.
        • Его реализуют следующие классы:
          • XSSFCell — класс для представления ячеек в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.
          • XSSFCell — класс для представления ячеек в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.

          CellStyle — базовый интерфейс для всех классов, которые представляют собой стиль ячейки. [3.9]

          • Он находится в org.apache.poi.ss.usermodel пакете.
          • Его реализуют следующие классы:
            • HSSFCellStyle — класс для представления ячеек в таблице. Он находится в org.apache.poi.hssf.usermodel пакете.
            • XSSFCellStyle — класс для представления ячеек в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.

            Color — базовый интерфейс для всех классов, которые представляют цвет ячейки. [3.9]

            • Он находится в org.apache.poi.ss.usermodel пакете.
            • Его реализуют следующие классы:
              • HSSFColor — класс для регулирования цвета ячеек в таблице. Он находится в org.apache.poi.hssf.usermodel пакете.
              • XSSFColor — класс для регулирования цвета ячеек в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.

              Font — базовый интерфейс для всех классов, которые представляют шрифт текста ячейки. [3.9]

              • Он находится в org.apache.poi.ss.usermodel пакете.
              • Его реализуют следующие классы:
                • HSSFColor — класс для регулирования шрифта текста ячеек в таблице. Он находится в org.apache.poi.hssf.usermodel пакете.
                • XSSFColor — класс для регулирования шрифта текста ячеек в таблице. Он находится в org.apache.poi.xssf.usermodel пакете.

                Hyperlink — базовый интерфейс для всех классов, которые представляют гиперссылку. [3.9]

                • Он находится в org.apache.poi.ss.usermodel пакете.
                • Его реализуют следующие классы:
                  • HSSFColor — класс для представления гиперссылки. Он находится в org.apache.poi.hssf.usermodel пакете.
                  • XSSFColor — класс для представления гиперссылки. Он находится в org.apache.poi.xssf.usermodel пакете.

                  CreationHelper — базовый интерфейс для всех классов, которые являются используются при вычислении формулы ячейки и для создания гиперссылок. [3.9]

                  • Он находится в org.apache.poi.ss.usermodel пакете.
                  • Его реализуют следующие классы:
                    • HSSFCreationHelper — класс для вычисления формулы ячейки и для создания гиперссылок. Он находится в org.apache.poi.hssf.usermodel пакете.
                    • XSSFCreationHelper — класс для вычисления формулы ячейки и для создания гиперссылок. Он находится в org.apache.poi.xssf.usermodel пакете.

                    PrintSetup — базовый интерфейс для всех классов, которые регулируют размер, область, параметры распечатываемой страницы. [3.9]

Добавить комментарий

Ваш адрес email не будет опубликован.