عنوان انگلیسی مقاله: Integration of the extracted data to produce a consistent and coherent database
عنوان فارسی مقاله: یکپارچه سازی داده های استخراجی به منظور ایجاد پایگاه داده منسجم و پایدار
طبقه بندی:
فناوری اطلاعات و
کامپیوترفرمت فایل ترجمه شده: فایل Word ورد 2007 یا 2003 (Docx یا Doc) قابل ویرایش
تعداد صفحات فایل ترجمه شده: 40
_______________________________________
چکیدهما به بررسی استخراج داده از صفحات وب می پردازیم. داده های استخراج شده در جداول قرار داده می شود. برای کاربرد، به هر حال، برای کاربرد آن، کافی نیست تا داده ها را تنها از یک سایت خاص استخراج کنیم. درعوض داده های حاصل شده از تعداد زیادی از سایت ها به منظور ایجاد خدمات ارزش افزوده گرداوری می گردد. در چنین مواردی استخراج تنها بخشی از داستان می باشد. بخش دیگر یکپارچه سازی داده استخراج شده به منظور ایجاد پایگاه داده منسجم و پایدار می باشد، زیرا سایت های مختلف معمولا از فرمت های دادهای متفاوتی استفاده می کند. به طور تجربی، یکپارچه سازی به معنی انطباق ستون ها در جداول داده مختلف می باشد که حاوی انواع مشابهی از اطلاعات اند (به عنوان مثال نام محصول) و منطبق با ارزش هایی می باشند که از نقطه نظر معنایی مشابه بوده اما در وب سایت های مختلف به طور متفاوتی نشان داده می شوند (برای نمونه کوک و کوکاکولا). متاسفانه پژوهش های یکپارچه محدودی تا به حال در این زمینه خاص انجام شده است. بسیاری از تحقیقات مربوط به یکپارچه سازی داده های وب تمرکزش را نبر روی یکپارچه سازی رابط های پرس و جوی وب قرار داده است. این مقاله دارای چندین بخش در مورد با یکپارچگی داده می باشد. به هر حال بسیاری از ایده های توسعه یافته برای یکپارچه سازی داده های استخراجی کاربردی می باشند زیرا مسائل مشابه می باشند.
رابط پرس و جو وب برای تنظیم جستجوها به منظور بازیابی داده مورد نیاز از پایگاه داده وب مورد استفاده قرار می گیرد (که به نام مرکز وب می باشد) شکل 10.1، دو رابط جستجوگر را از دو سایت مسافرتی expedia.com و vacation.com نشان می دهد. کاربری که قصد خرید بلیط هواپیما را دارد معمولا به سایت های زیادی سر می زند تا ارزان ترین بلیط را پیدا کند. با توجه به تعداد زیادی از سایت های پیشنهادی، فرد می بایست به هر کدام بطور جداگانه دسترسی داشته تا بهترین قیمت را پیدا کند، که کار خسته کننده ای می باشد. برای کاهش دادن تلاش
فیزیکی، می توانیم رابط های جستجوگر جهانی را ایجاد کنیم که دسترسی یکپارچه ای را به منابع وابسته مختلف امکان پذیر می کند. به این ترتیب کاربر می تواند نیازمندی های خود را در این رابط سراسری مجزا تکمیل کرده و تمام منابع مورد نظر پایگاه داده ای) به صورت اتوماتیک پر شده و جستجو می گردد. نتایج حاصل شده از منابع مختلف همچنین نیاز به یکپارچه سازی دارند. اما مشکلات یکپارچه سازی، یعنی، یکپارچه سازی رابط جستجوگر و یکپارچه سازی نتایج حاصله، به دلیل غیریکنواختی وب سایت ها چالش انگیز می باشد. به طور مشخص، یکپارچه سازی تنها مختص به وب نمی باشد. این درواقع، ابتدا در زمینه پایگاه داده مرتبط و انبارهای داده مورد بررسی قرار می گیرد. از این رو، این فصل در ابتدا به معرفی اکثر مفاهیم یکپارچه مرتبط با استفاده از مدل های داده سنتی (برای نمونه، رابطه ای) پرداخته و سپس نشان می دهد چگونه این مفاهیم متناسب با کاربردهای وب بوده و چگونه مشکلات خاص وب مدیریت می گردد.
ادامه مطلب ...