Obtener información de un archivo html
Publicado: 2013-10-25 11:14 @509
¡Hola a todos! ¿Alguien me podría ayudar? Tengo esta tarea.
Tengo un archivo en formato HTML de este tipo:
De este archivo necesito capturar hacia una base de datos los campos siguientes:
El pais que está en esta etiqueta:
Luego viene un párrafo en donde se describen nombres de personas y lo que son, es decir, presidente, vicepresidente, ministro de esto, ministro de aquello, etc. Esos datos son los que necesito capturar, es decir, capturo todos los nombres de las personas con su descripción política y lo apunto hacia una base de datos.
La conexion ya la tengo hecha. Ya tengo tres variables dentro de un "foreach" esperando para insertar a la base. Realmente ese no es el problema.
El problema real es cómo recorrer todo el archivo y definir que cuando encuentre un nombre de país tome como datos para ese país el parrafo que abarca desde el nombre del país hasta el dato del siguiente país.
¿Me pueden ayudar? Agradecería mucho su ayuda. Éxitos.
Tengo un archivo en formato HTML de este tipo:
Using html4strict Syntax Highlighting
- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><HTML>
- <HEAD>
- <TITLE></TITLE>
- </HEAD>
- <BODY>
- <A name=1></a>I n f o r m a t i o n a s o f 2 4 S e p t e m b e r 2 0 1 3 h a s b e e n u s e d i n p r e p a r a t i o n o f t h i s d i r e c t o r y . <br>
- <hr>
- <A name=2></a>PREFACE<br>
- The Central Intelligence Agency publishes and updates the online directory of<i> Chiefs of State and Cabinet Members of<br>Foreign Governments </i>weekly. The directory is intended to be used primarily as a reference aid and includes as many<br>governments of the world as is considered practical, some of them not officially recognized by the United States.<br>Regimes with which the United States has no diplomatic exchanges are indicated by the initials NDE.<br>
- G o v e r n m e n t s a r e l i s t e d i n a l p h a b e t i c a l o r d e r a c c o r d i n g t o t h e m o s t c o m m o n l y u s e d v e r s i o n o f e a c h c o u n t r y ' s n a m e .<br>The spelling of the personal names in this directory follows transliteration systems generally agreed upon by US<br>Government agencies, except in the cases in which officials have stated a preference for alternate spellings of their<br>n a m e s .<br>
- <br>
- <b>NOTE: Although the head of the central bank is listed for each country, in most cases he or she is not a Cabinet<br>member. Ambassadors to the United States and Permanent Representatives to the UN, New York, have also been<br>included.</b><br>
- <b>P a g e 2 o f 2 1 2</b><br>
- <hr>
- <A name=3></a>Key to Abbreviations<br>
- A d m .<br>
- A d m i r a l<br>
- A d m i n .<br>
- A d m i n i s t r a t i v e , A d m i n i s t r a t i o n<br>
- A s s t .<br>
- A s s i s t a n t<br>
- Brig.<br>
- Brigadier<br>
- C a p t .<br>
- C a p t a i n<br>
- C d r .<br>
- C o m m a n d e r<br>
- C d t e .<br>
- C o m a n d a n t e<br>
- C h m n .<br>
- C h a i r m a n , C h a i r w o m a n<br>
- Col.<br>
- Colonel<br>
- Ctte.<br>
- C o m m i t t e e<br>
- Del.<br>
- Delegate<br>
- D e p .<br>
- D e p u t y<br>
- D e p t .<br>
- D e p a r t m e n t<br>
- Dir.<br>
- D i r e c t o r<br>
- Div.<br>
- Division<br>
- Dr.<br>
- D o c t o r<br>
- Eng.<br>
- Engineer<br>
- Fd. Mar.<br>
- Field Marshal<br>
- Fed.<br>
- F e d e r a l<br>
- Gen.<br>
- G e n e r a l<br>
- Govt.<br>
- G o v e r n m e n t<br>
- Intl.<br>
- I n t e r n a t i o n a l<br>
- Lt.<br>
- L i e u t e n a n t<br>
- Maj.<br>
- Major<br>
- Mar.<br>
- M a r s h a l<br>
- Mbr.<br>
- M e m b e r<br>
- Min.<br>
- Minister, Ministry<br>
- NDE<br>
- No Diplomatic Exchange<br>
- Org.<br>
- O r g a n i z a t i o n<br>
- Pres.<br>
- P r e s i d e n t<br>
- Prof.<br>
- P r o f e s s o r<br>
- RAdm.<br>
- Rear Admiral<br>
- Ret.<br>
- R e t i r e d<br>
- Sec.<br>
- Secretary<br>
- VAdm.<br>
- Vice Admiral<br>
- VMar.<br>
- Vice Marshal<br>
- <b>P a g e 3 o f 2 1 2</b><br>
- <hr>
- <A name=4></a><b> </b><br>
- <b>Afghanistan </b><br>
- Last Updated: 6 Sep 2013 <br>
- Pres. <br>
- Hamid KARZAI<br>
- First Vice Pres. <br>
- Mohammad FAHIM Khan<br>
- Second Vice Pres. <br>
- Abdul Karim KHALILI<br>
- Min. of Agriculture, Irrigation, & Livestock <br>
- Mohammad Asif RAHIMI<br>
- Min. of Border & Tribal Affairs <br>
- <br>
- Min. of Commerce & Industry <br>
- Anwar Ul-Haq AHADY<br>
- Min. of Communications <br>
- Amirzai SANGIN<br>
- Min. of Counternarcotics <br>
- Zarar Ahmad Moqbel OSMANI<br>
- Min. of Defense <br>
- BISMULLAH Muhammadi Khan<br>
- Min. of Economy <br>
- Abdul Hadi ARGHANDIWAL<br>
- Min. of Education <br>
- Faruq WARDAK<br>
- Min. of Energy & Water <br>
- Ismail KHAN<br>
- Min. of Finance <br>
- Omar ZAKHILWAL<br>
- Min. of Foreign Affairs <br>
- Zalmay RASSOUL<i>, Dr.</i><br>
- Min. of Hajj & Islamic Affairs <br>
- Mohammad Yusuf NIAZI<br>
- Min. of Health <br>
- Suraya DALIL<i>, Dr.</i><br>
- Min. of Higher Education <br>
- Obaidullah OBAID<br>
- Min. of Information & Culture <br>
- Sayed Makhdum RAHIN<br>
- Min. of Interior (Acting) <br>
- Mohammad Umer DAUDZAI<br>
- Min. of Justice <br>
- Habibullah GHALEB<br>
- Min. of Martyred, Disabled, Labor, & Social Affairs <br>
- Amena AFZALI<br>
- Min. of Mines & Petroleum <br>
- Wahidullah SHAHRANI<br>
- Min. of Public Works <br>
- Najibullah AOUDJAN<br>
- Min. of Refugees & Repatriation <br>
- Jamahir ANWARI<br>
- Min. of Rural Rehabilitation & Development <br>
- Wais BARMACK<br>
- Min. of Transportation & Civil Aviation <br>
- Daoud Ali NAJAFI<i>, Dr.</i><br>
- Min. of Urban Development <br>
- Hassan ABDULHAI<br>
- Min. of Women's Affairs <br>
- Hasan Bano GHAZANFAR<br>
- National Security Adviser <br>
- Rangin Dadfar SPANTA<br>
- Dir. Gen. (Acting), National Directorate of Security <br>
- Rahmatullah NABIL<br>
- Governor, Da Afghanistan Bank <br>
- Noorullah DELAWARI<br>
- A m b a s s a d o r t o t h e U S <br>
- Eklil Ahmad HAKIMI<br>
- Permanent Representative to the UN, New York <br>
- Zahir TANIN<br>
- <b>P a g e 4 o f 2 1 2</b><br>
- <hr>
- <A name=5></a><b> </b><br>
- <b>Albania </b><br>
- Last Updated: 17 Sep 2013 <br>
- Pres. <br>
- Bujar NISHANI<br>
- Prime Min. <br>
- Edi RAMA<br>
- Dep. Prime Min. <br>
- Niko PELESHI<br>
- Min. of Agriculture, Food, & Consumer Protection <br>
- Edmond PANARITI<br>
- Min. of Culture <br>
- Mirela KUMBARO<br>
- Min. of Defense <br>
- Mrike "Mimi" KODHELI<br>
- Min. of Economic Development, Trade, & Entrepreneurship <br>
- Arben AHMETAJ<br>
- Min. of Education & Sports <br>
- Lindita NIKOLLI<br>
- Min. of Energy & Industry <br>
- Damian GJIKNURI<br>
- Min. of Environment <br>
- Lefter KOKA<br>
- Min. of Finance <br>
- Shkelqim CANI<br>
- Min. of Foreign Affairs <br>
- Ditmir BUSHATI<br>
- Min. of Health <br>
- Ilir BEQJA<br>
- Min. of Innovation & Public Admin. <br>
- Milena HARITO<br>
- Min. of Integration <br>
- Klajda GJOSHA<br>
- Min. of Interior <br>
- Sajmir TAHIRI<br>
- Min. of Justice <br>
- Nasip NACO<br>
- Min. of Local Govt. Affairs <br>
- Bled CUCI<br>
- Min. of Relations With Parliament <br>
- Ilirjan CELIBASHI<br>
- Min. of Social Welfare & Youth <br>
- Erion VELIAJ<br>
- Min. of Transport & Infrastructure <br>
- Edmond HAXHINASTO<br>
- Min. of Urban Development & Tourism <br>
- Englantina GJERMENI<br>
- Governor, Bank of Albania <br>
- Ardian FULLANI<br>
- A m b a s s a d o r t o t h e U S <br>
- Gilbert GALANXHI<br>
- Permanent Representative to the UN, New York <br>
- Ferit HOXHA<br>
- <b>P a g e 5 o f 2 1 2</b><br>
- <hr>
- <A name=6></a><b> </b><br>
- <b>Algeria </b><br>
- Last Updated: 20 Sep 2013 <br>
- Pres. <br>
Coloreado en 0.005 segundos, usando GeSHi 1.0.8.4
De este archivo necesito capturar hacia una base de datos los campos siguientes:
El pais que está en esta etiqueta:
Using html4strict Syntax Highlighting
- <A name=6></a><b> </b><br>
- <b>Algeria </b><br>
Coloreado en 0.001 segundos, usando GeSHi 1.0.8.4
Luego viene un párrafo en donde se describen nombres de personas y lo que son, es decir, presidente, vicepresidente, ministro de esto, ministro de aquello, etc. Esos datos son los que necesito capturar, es decir, capturo todos los nombres de las personas con su descripción política y lo apunto hacia una base de datos.
La conexion ya la tengo hecha. Ya tengo tres variables dentro de un "foreach" esperando para insertar a la base. Realmente ese no es el problema.
El problema real es cómo recorrer todo el archivo y definir que cuando encuentre un nombre de país tome como datos para ese país el parrafo que abarca desde el nombre del país hasta el dato del siguiente país.
¿Me pueden ayudar? Agradecería mucho su ayuda. Éxitos.