Import data daripada PDF ke Excel melalui Power Query

Tugas memindahkan data daripada hamparan dalam fail PDF ke helaian Microsoft Excel sentiasa "menyenangkan". Terutama jika anda tidak mempunyai perisian pengecaman yang mahal seperti FineReader atau sesuatu seperti itu. Penyalinan langsung biasanya tidak membawa kepada sesuatu yang baik, kerana. selepas menampal data yang disalin pada helaian, mereka kemungkinan besar akan "melekat bersama" ke dalam satu lajur. Oleh itu, mereka perlu diasingkan dengan teliti menggunakan alat Teks mengikut lajur daripada tab Tarikh (Data — Teks ke Lajur).

Dan sudah tentu, penyalinan hanya boleh dilakukan untuk fail PDF yang terdapat lapisan teks, iaitu dengan dokumen yang baru sahaja diimbas dari kertas ke PDF, ini tidak akan berfungsi pada dasarnya.

Tetapi ia tidak begitu menyedihkan, sebenarnya 🙂

Jika anda mempunyai Office 2013 atau 2016, maka dalam beberapa minit, tanpa program tambahan, agak mungkin untuk memindahkan data dari PDF ke Microsoft Excel. Dan Word and Power Query akan membantu kami dalam hal ini.

Sebagai contoh, mari ambil laporan PDF ini dengan sekumpulan teks, formula dan jadual daripada tapak web Suruhanjaya Ekonomi untuk Eropah:

Import data daripada PDF ke Excel melalui Power Query

… dan cuba tarik keluar daripadanya dalam Excel, sebut jadual pertama:

Import data daripada PDF ke Excel melalui Power Query

Jom!

Langkah 1. Buka PDF dalam Word

Atas sebab tertentu, hanya sedikit orang yang tahu, tetapi sejak 2013 Microsoft Word telah belajar membuka dan mengenali fail PDF (walaupun yang diimbas, iaitu, tanpa lapisan teks!). Ini dilakukan dengan cara standard sepenuhnya: buka Word, klik Fail – Buka (Fail — Buka) dan tentukan format PDF dalam senarai juntai bawah di sudut kanan bawah tetingkap.

Kemudian pilih fail PDF yang kami perlukan dan klik Buka (Buka). Word memberitahu kami bahawa ia akan menjalankan OCR pada dokumen ini kepada teks:

Import data daripada PDF ke Excel melalui Power Query

Kami bersetuju dan dalam beberapa saat kami akan melihat PDF kami telah dibuka untuk diedit dalam Word:

Import data daripada PDF ke Excel melalui Power Query

Sudah tentu, reka bentuk, gaya, fon, pengepala dan pengaki, dsb. akan sebahagiannya keluar dari dokumen, tetapi ini tidak penting bagi kami – kami hanya memerlukan data daripada jadual. Pada dasarnya, pada peringkat ini, sudah pun menggoda untuk hanya menyalin jadual daripada dokumen yang diiktiraf ke dalam Word dan hanya menampalnya ke dalam Excel. Kadang-kadang ia berfungsi, tetapi lebih kerap ia membawa kepada semua jenis herotan data – contohnya, nombor boleh bertukar menjadi tarikh atau kekal sebagai teks, seperti dalam kes kami, kerana. PDF menggunakan bukan pemisah:

Import data daripada PDF ke Excel melalui Power Query

Jadi mari kita tidak memotong sudut, tetapi membuat segala-galanya sedikit lebih rumit, tetapi betul.

Langkah 2: Simpan Dokumen sebagai Halaman Web

Untuk kemudian memuatkan data yang diterima ke dalam Excel (melalui Power Query), dokumen kami dalam Word perlu disimpan dalam format halaman web – format ini, dalam kes ini, sejenis penyebut biasa antara Word dan Excel.

Untuk melakukan ini, pergi ke menu Fail – Simpan Sebagai (Fail — Simpan Sebagai) atau tekan kekunci F12 pada papan kekunci dan dalam tetingkap yang terbuka, pilih jenis fail Laman web dalam satu fail (Laman web — Fail tunggal):

Import data daripada PDF ke Excel melalui Power Query

Selepas menyimpan, anda harus mendapatkan fail dengan sambungan mhtml (jika anda melihat sambungan fail dalam Explorer).

Peringkat 3. Memuat naik fail ke Excel melalui Power Query

Anda boleh membuka fail MHTML yang dibuat dalam Excel secara langsung, tetapi kemudian kami akan mendapat, pertama sekali, semua kandungan PDF sekaligus, bersama-sama dengan teks dan sekumpulan jadual yang tidak perlu, dan, kedua, kami akan kehilangan data sekali lagi kerana salah pemisah. Oleh itu, kami akan melakukan import ke dalam Excel melalui tambahan Power Query. Ini adalah alat tambah percuma yang membolehkan anda memuat naik data ke Excel daripada hampir mana-mana sumber (fail, folder, pangkalan data, sistem ERP) dan kemudian mengubah data yang diterima dalam setiap cara yang mungkin, memberikannya bentuk yang diingini.

Jika anda mempunyai Excel 2010-2013, maka anda boleh memuat turun Power Query dari tapak web rasmi Microsoft – selepas pemasangan anda akan melihat tab Kuasa Kuasa. Jika anda mempunyai Excel 2016 atau lebih baharu, maka anda tidak perlu memuat turun apa-apa – semua fungsi sudah terbina dalam Excel secara lalai dan terletak pada tab Tarikh (Tarikh) dalam kumpulan Muat turun dan Tukar (Dapatkan & Ubah).

Jadi kita pergi sama ada ke tab Tarikh, atau pada tab Kuasa Kuasa dan pilih pasukan Untuk mendapatkan data or Cipta Pertanyaan – Daripada Fail – Daripada XML. Untuk menjadikan fail XML bukan sahaja kelihatan, tukar penapis dalam senarai juntai bawah di sudut kanan bawah tetingkap kepada Semua fail (Semua fail) dan nyatakan fail MHTML kami:

Import data daripada PDF ke Excel melalui Power Query

Sila ambil perhatian bahawa import tidak akan berjaya diselesaikan, kerana. Power Query mengharapkan XML daripada kami, tetapi kami sebenarnya mempunyai format HTML. Oleh itu, dalam tetingkap seterusnya yang muncul, anda perlu klik kanan pada fail yang tidak dapat difahami oleh Power Query dan tentukan formatnya:

Import data daripada PDF ke Excel melalui Power Query

Selepas itu, fail itu akan dikenali dengan betul dan kami akan melihat senarai semua jadual yang terkandung di dalamnya:

Import data daripada PDF ke Excel melalui Power Query

Anda boleh melihat kandungan jadual dengan mengklik butang kiri tetikus dalam latar belakang putih (bukan dalam perkataan Jadual!) sel dalam lajur Data.

Apabila jadual yang dikehendaki ditentukan, klik pada perkataan hijau Jadual – dan anda “jatuh” ke dalam kandungannya:

Import data daripada PDF ke Excel melalui Power Query

Ia tetap melakukan beberapa langkah mudah untuk "menyikat" kandungannya, iaitu:

  1. padam lajur yang tidak diperlukan (klik kanan pada pengepala lajur – Batalkan)
  2. gantikan titik dengan koma (pilih lajur, klik kanan – Menggantikan nilai)
  3. alih keluar tanda sama dalam pengepala (pilih lajur, klik kanan – Menggantikan nilai)
  4. keluarkan baris atas (Laman Utama – Padam baris – Padam baris atas)
  5. keluarkan garisan kosong (Laman Utama – Padam baris – Padam baris kosong)
  6. naikkan baris pertama ke pengepala jadual (Laman Utama – Gunakan baris pertama sebagai tajuk)
  7. menapis data yang tidak diperlukan menggunakan penapis

Apabila jadual dibawa ke bentuk biasa, ia boleh dipunggah ke helaian dengan arahan tutup dan muat turun (Tutup & Muatkan) on Utama tab. Dan kita akan mendapat keindahan seperti yang kita sudah boleh bekerja:

Import data daripada PDF ke Excel melalui Power Query

  • Mengubah Lajur kepada Jadual dengan Power Query
  • Memisahkan teks melekit ke dalam lajur

Sila tinggalkan balasan anda