مهندسی اینترنت و شبکه کاربرد وب 3 برای گزینش اخبار تجاری مورد علاقه کار
مهندسی اینترنت و شبکه کاربرد وب 3 برای گزینش اخبار تجاری مورد علاقه کار
وب 3 که توسط تیم برنرزلی معرفی شد ارکان گوناگونی مانند RDF و آنتولوژی را داراست . RDF زمانی برای شرح منابع است و بخوبی توانایی معرفی انواع فرداده ها را داراست . اگر بخواهیم مفهوم برابری از کلمات با معنی یکسان دریافت شود ، از آنتولوژی یا هستی شناسی استفاده کنیم ...
مقدمه
وب 3 که توسط تیم برنرزلی معرفی شد ارکان گوناگونی مانند RDF و آنتولوژی را داراست . RDFزمانی برای شرح منابع است و بخوبی توانایی معرفی انواع فرداده ها راداراست . اگر بخواهیم مفهوم برابری از کلمات با معنی یکسان دریافت شود ،از آنتولوژی یا هستی شناسی استفاده کنیم . همان گونه که در جهان هستی بیناشیا روابط معناداری برقرار است در وب نیز همین روابط بین اشیا با مختصرتفاوتی وجود دارد . نرم افزار پروتگه برای پیاده سازی آنتولوژی اخبار مالیبه کار گرفته شده که توانایی بالایی را دارد و انواع خروجی های OWL را داراست . استوک واچر نمونه ای از کاربرد خبر معنایی در تجارت الکترونیک است .
بر خلاف مطبوعات چاپی سنتی و برنامه های تلویزیونی ، اخبار وب ، به محضظهور ، در معرض عموم قرار می گیرند و علاوه بر آن ، پوشش کامل وب به صورتمداوم و پیوسته در حال افزایش است .
وب سایت های خبری ، RSS-FEEDS، را جهت به روز ماندن عموم مردم با توجه به علایق ایشان فراهم می کنند .یکی از حوزه هایی که دسترسی به اطلاعات و اخبار مفهومی نقش مهمی را ایفامی کند ، بازارهای مالی است . با معرفی کالاهای جدید مثل click fundsسطح اشتغال عموم مردم در فعالیت های مالی و سرمایه ای نیز رو به افزایشنهاده است . این اشتغال فزاینده ، نیاز دسترسی به رسانه هایی که بتواننداخبار اقتصادی قابل اعتماد و مرتبط را در مدت زمان کم فراهم کنند ، مطرح می سازد . وب ، به این نیاز پاسخ می دهد و در آن واحد ، کاربرانرا با مقادیر زیادی اطلاعات روبهرو می سازد . سوالاتی مانند از چه جاهاییاخبار سریع تر دریافت می گردد ؟ یا چه وب سایت های خبری قابل اعتمادترند ؟در حال افزایش است .
با حضور وب معنایی زبان هایی مثل OWL ، RDF، به این سوالات پاسخ می دهند . هدف ما ایجاد برنامه ای است که به غیرکاربران غیر حرفه ای اینترنت در اشتغال و یافتن اخبار بازارهای تجاری کمککند تا بتوانند به راحتی به اخبار مرتبط یا پرت فولیو خود دست یابند . اینتلاش منتهی به استوک واچر شده است یعنی برنامه ای که دید کلی و سفارشیشده از اخبار طبقه بندی شده را مقدور ساخته و در عین حال این اخبار را براساس ارتباط شان با هم درجه بندی می کند .
در این مقاله ابتدا بر روی پروژه های مربوطه قبلی تمرکز کرده ایم . سپس برنامه stock watcherارایه شده است . در این بخش ساختار برنامه و بر هم کنش های کاربر با آنمطرح شده است . خروجی این برنامه و نتایج به دست آمده در قسمت بعدی مطرحشده است در پایان با ارایه ایده هایی برای پژوهش های آتی ، نتیجه گیری میکنیم .
پیشینه تحقیق
در این قسمت هدف شناسایی برنامه های کاربردی پیشین و تکنیک های مورداستفاده آن ها است . پروژه آرتکواکت یکی از شناخته شده ترین پروژه های وبمعنایی است . یکی از عوامل مهمی که در محبوبیت آن نقش داشته ، همزیستی بینبرنامه کاربردی و تکنولوژی های وب معنایی است . هدف آرتکواکت یافتناطلاعاتی در اینترنت راجع به هنرمندان و نقاشی ها است که از منابع مختلفاطلاعاتی را گردآوری می نماید و به کاربران متفاوت ارایه می کند .مهم ترین نکته قابل توجه مرحله استخراج اطلاعات است . در این مرحلهآرتکواکت به سرعت داده ها را از روی وب جستجو می کند و پایگاه دانش را باآن تکمیل می نماید . برای این منظور زبان GATE بهکار گرفته می شود ، که دارای چارچوب طبیعی زبان مهندسی محسوب می شود . ولیداده های مورد نیاز استوک واچر بر روی وب سایت هایی به شکل فراداده دردسترس هستند . استوک واچر می تواند فرمت html داشته باشد . برنامه دیگری که هدفی شبیه استوک واچر دارد ، تحلیل گر اخبار تجاری است (MMA ) بر خلاف نامش این برنامه اخبار را تحلیل نمی کند و فقط اطلاعات را از RSS-FEEDSهای مختلف مثل امور مالی یاهو استخراج می کند و قطعه های خبری ویژه ای رابرای کاربر نمایش می دهد . این برنامه کمپانی های زیادی را در بر می گیردکه شخص می تواند اخبار را از آن ها دریافت کند همچنین مقدار زیادی اطلاعاتآماری در مورد اخبار سرمایه که به وسیله شاخص های مختلفی قابل طبقه بندیهستند در اختیار ما قرار می دهد .
استوک واچر :
استوک واچر برنامه مبتنی به وب است که به کاربران اجازه می دهد اخبار را از منابع RSSاستخراج کنند . این اخبار مربوط به پرت فولیو آن ها است این برنامه بهکمپانی های فعال در نزدگ توجه دارد و به کاربر امکان می دهد تا پرت فولیوخود را با استفاده از شاخص هایی Nasdag-100 بسازند که در آن شرکت های بزرگی مانند گوگل ، میکروسافت و دل یافت میشوند . خلاصه بودن احتیاجات باعث می شود ، گزینه های قابل انتخاباین برنامه به این شرکت ها محدود باشد که از مزایای این طرح است . هر چندتوسعه پذیر بودن سیستم کنونی سبب می گردد طراحی به آسانی صورت پذیرد .یعنی شامل شرکت های بزرگ دیگر هم به شود . یک پوشش html که قابل سفارشی شدن را داراست در hoovers.com استفاده شده است که برای استخراج اطلاعات از شرکت های Nasdag-100 به کار گرفته می شود . از اطلاعات این وب سایت در حدود 00400 کمپانی خصوصی و غیر خصوصی استفاده می کنند . هستی شناسی OWL مورد استفاده در این سیستم شود توسط نرم افزار پروتگه ایجاد شده است . به کمک OWL قابلیت تفسیر ماشین بیشتر از تکنیک های دیگری مانند XML یا RDF می شود .
استوک واچر از پایگاه داده ی مایکروسافت اکسس استفاده می کند تا اطلاعاتمربوطه را ذخیره سازد . علت اصلی انتخاب اکسس سهولت استفاده از رابطگرافیکی آن است . اگر چه یک ابزار تمام شی گرا نیست اما می تواند برایاستوک واچر به خوبی کار کند .
1-ساختار استوک واچر :
در شکل 1 خلاصه ای از سیستم بصورت الگویی مفهومی (CM) نمایش داده شده این الگو به سه قسمت تقسیم شده است در قسمت Aداده ها و اطلاعات از شرکت های مخصوصی استخراج می شوند و در پایگاه دادهاکسس ذخیره می گردند . هنگامی که پایگاه داده پر شود کاربران می توانندپرت فولیو خود را از اطلاعات شرکت های داخل پایگاه داده بسازند . با ایجاداین پرت فولیو یک هستی شناسی متناظر با آن به طور خودکار تولید می گرددپیدایش هستی شناسی در بخش B رخ می دهند . در بخش C برنامه به دنبال منابع Feeds گوناگون برای اخبار سفارشی مرتبط با هستی شناسی پرت فولیو سفارشی شده است .
1-1-استخراج داده ها
اولین مرحله استفاده از سیستم استوک واچر استخراج اطلاعات مرتبط است . هر بار که کاربر وارد می شود اطلاعات به صورت Realtime از Nasdag-100 استخراج می شود . به خاطر مسایلی مانند زمان بارگزاری و Uptimeبرای وب سایت های مختلف است به نظر می رسد که اطلاعات فقط یک بار سریع تر ومطمئن تر استخراج می گردند و در پایگاه داده ذخیره شوند .
ماژول Nasdaq2Databse . مسئول استخراج اطلاعات و ذخیره داده ها است . این ماژول ملزومات استخراج نام تجاری کمپانی را از 100 NASDAQفراهم می کند . این اطلاعات به همراه نام کامل کمپانی در پایگاه دادهذخیره می شود . ملزومات دیگر نیز مربوط به استخراج باقی اطلاعات از H OOVERS.COM است . این اطلاعات دربردارنده افراد مهم در کمپانی رقابت کنندگان و صنعت مورد فعالیت آن است .
1-2-ایجاد آنتولوژی
برای ساخت آنتولوژی از نرم افزار پروتگه به خاطر محبوبیت وسادگی استفاده می شود . یکی از مهم ترین کلاس های موجود در آنتولوژی مالیاستوک واچر کلاس شرکت است . علاوه بر آن تفکیکی بین شرکت هایی که در پرتفولیو کاربر وجود دارد و رقبای آن ها باید بوجود آید . که باعث به وجودآمدن دو Subclasses در کلاس اصلی Company می شود . علاوه Industry Class را نیز تعریف می کنیم که در برگیرنده تمام شرکت هاست . هنگامی که از ابزار پرس و جوی SPARQ استفاده شود گروه بندی کمپانی های خاص باعث سهولت شناسایی رقبا می شود . در نهایت Class Person افراد مهم در کمپانی مشخصی را نیز می نماید . به منظور فعال سازی استنتاج در آنتولوژی بوجود آمده یک استنتاجگر (DIG ) همراه با Protege نصب می گردد . بهترین انتخاب Racerpro است مهم ترین مورد مربوط به محبوبیت استنتاچ کننده در ترکیب با Protege می باشد و روش ساده پیکر بندی آن است . Protege تست های متفاوتی را ارایه کرده که می توان آن ها را بر روی آنتولوژی بکار برد . مهم ترین آن هاست (Classify Taxonomy ) با اجرای این تست استنتاچ کننده به بررسی درستی ساخت کلاس ها و کلاس های فرعی می پردازد . داده ها از Nasdag-100 و OOVERS.COMاستخراج شده در پایگاه داده قرار گرفتن می گیرند ، سپس برای استفاده رویخط آماده می شوند . به محض این که کاربر با سایت ارتباط برقرار کرد و پرتفولیو خود را ساخت قسمت B برنامه نیز فعال می شود . استفاده از تکنیک های متفاوت که توسط Jena framework فراهم شده باعث می شود که استوک واچر بتواند آنتولوژی مالی را به خوبی ادره کند .
1-3 جستجوی خبری
پس از کامل شدن آنتولوژی و بازیابی اطلاعات از RSS-feedsجستجو برای خبرهای مرتبط شروع می شود . در مراحل اولیه توسعه ی برنامهموتور جستجو فقط این مطلب را در نظر می گیرد که آیا عنوان یا مشروح اخبارواقع بر RSS-feeds هرگونه لغت یا کلماتی را که درآنتولوژی ظاهر ظاهر می شوند در برگرفته است یا خیر این روش روش خوبی نیزبه نظر می رسد مطابقت های جزئی یا کلمات خیلی رایج موضوعات خبری نامربوطیرا گزینش کرده و الگوریتم جستجو نیز به اصلاحات بیشتری نیاز داشت کلماتمشابهی مثل سیستم ها و شرکت های ثبت شده فیلتر شده تا هرگونه عدم مطابقترا ایجاد نکند علاوه بر آن کمترین طول برای لغات و کلمات به 3 حرف محدودشده است تمامی کلمات از هم مجزا می شوند و فقط هنگامی به عنوان یک تطبیقشمرده می شوند که مانند هم باشند تطبیق های جزئی مثل dell در modelingشمرده نمی شوند و به حساب نمی آیند . این موارد نتایج جستجو را کمی بهبودمی دهند حتی اگر تقریبا همه کلمات جستجو شده مربو ط باشند باز هم کلماتنامربوط در نتایج به دست آمده دیده می شوند . سناریو زیر را مشاهده کنیددر جستجو برای خبری راجع به Adobe برنامه به آیتم های خبری با نام مشابه کمپانی هایی مثل کرل ، ماکروسافت Adobeبر می خورد برای حل این مشکل سیستم نمره گذاری اجرا شده است تطبیق برعناوین 2 امتیاز و در متن 1 امتیاز دریافت می کند یک آیتم خبری باید براینمایش در صفحه نتایج حداقل 2 امتیاز داشته باشد اکنون برنامه می تواندموضوعات خبری را درجه بندی کند از بقیه اخبار چشم پوشی می کنیم یعنی آنهاییکه کمتر از 2 نمره کسر کرده اند بدین ترتیب ارتباط نتایج به صورت معناداری تقویت و بهبود می یابد با استفاده از نام کمپانی های شناخته شد همانند دل و گوگل این نمره افزایش می یابد . این اسامی اغلب به عنوان منبع یا مثالی در مقالات با کمترین ارتباط به خود کمپانی مورد استفاده قرارگرفته است . علاوه بر آن سیستم نمره گذاری را می توان به عنوان چارچوبیبرای اصلاحات بعدی مورد استفاده قرار داد . هم چنین می توان از الگوریتمهای جستجو گر هوشمندی استفاده کرد که ارتباط بین اخبار مختلف را تقویت کند. مثال هایی از این گونه روش ها متضمن محاسبه فواصل بین کلمات است ( یایافتن معانی کلمات موجود در متن ) برای جستجوی RSS-feeds از informa و sparql استفاده می کنیم . informa در قالب جاوا است که عبارتند از HOTsheet وRisotto . مهمترین خصوصیت Informa متضمن توانایی باز یابی همه ی newsfeed های موجود در اینترنت است . برنامه ها سند سازی خوبی را ارائه می کند که کاربرد آن را در برنامه اصلی ساده تر می سازد . LQRAPS زبان پرس و جو و پروتکل دسترسی به داده ها برای وب معنایی محسوب می شود . مهمترین کاربرد آن استخراج اطلاعات از آنتو لوژی های RDF یا OWL است.
2- رابطه کاربری
یکی از مهمترین جنبه های در تکوین رابطه کاربری برای یک وب سایت کابر پسندبودن آن است عواملی مثل قابلیت استفاده ،طراحی ،هماهنگی ،هدایت وسادگینقش بزرگی در چگونگی کاربر پسند بودن آن است با درنظر داشتن این مطلب،رابطه کاربری برنامه را بر پایه اسدگی و کارآیی طراحی میکنیم.
استوک اچرا با استفاده از ساختن حساب کابری یا بدون آن به کار گرفته می شود :بازدید کندگان سایت می توانند بین LOG INکردن با چشم پوشی از این مرحله و ساختن مستقیم پرت فولیو حق انتخاب داشتهباشند اشکال انتخاب دوم مربوط به این است که سیستم ، ترجیحات کاربر ( یعنیکمپانی که کاربر به آن علاقه دارد ) را به خاطر نخواهد آورد .
پس از ایجاد حساب کاربری ، سند تجاری پرت فولیو در پایگاه داده ذخیره میشود و هر موقعی که کاربر در سیستم لاگسن نماید دردسترس و قابل بارگذاریاست . هنگامی که کاربر وارد وب سایت می شود ،یک منو شامل چهار مرحله ظاهرخواهد شد.
مرحله اول کمپانی هایی از 100-NASDAQرانشان می دهد در این جا، کاربر می تواند پرت فولیو خود را تشکیل دهد .کاربر های موجود می توانند کمپانی های جدید تری را به فولیو اضافه کنند یااین که می یتواندد موارد موجود را حذف کنند ، این عمل به راحتی PROFILEکاربررا در پایگاه داده تغییر خواهد داد .در مرحله دوم ، کاربر در میاناطلاعات و داده هایمورد علاقه اش موردی را انتخاب کند .رقبا در شرکت هایانتخاب شده ،اشخاص مهم واخبار مورد فعالیت های مرتبط با صتنعتی که شرکت هادر آن مورد فعالایت دارند وارزش سهامNASDAQ که داده های عددی را شکل 3 دید کلی از خروجی سیستم را رایه می کند هنگامیکه پرت فولیو تناه شامل یک کمپانی ،مثلا گوگل اشد . اولین ستون آیتم هایخبری تولید شده توسط RSS-FEEDS برای نام کمپانی ، ارایه می شود کنارستون ، خبری که در بردارنده رقبای کمپانی هستند،نمایش داده شده است و درادامه خبر راجع به افراد مهم است . دوستون آخر ، خلاطه ای از پیام هایخبری را جه به صنعتی که کمپانی در ان فعال است و آخرین ارزش سهام آن شرکتاست . آیتم های خبری بر حسب تاریخ دریافت ذخیره می شوند نوار time line، معیار زمانی در مورد خبرهای گزینششده را می دهد . این نوار به کاربران توانایی تشخیص آخرین خبر را میدهد .و می تواند زیر بنای عملیات بعدی محسوب شود .
راجع به توانایی های فعلی کمپانی های انتخاب شده اریاه می کند .
سه انتخاب اول اثر مستقیم بر آنتولوژی دارند . در حالی که مورد چهارم در مرحله سوم ، کاربران می توانند از منبع RSS-FEEDS استفاده کرده وداده ها را استخراج کنند همچنیم کاربران می توانند لیست استاندارد RSS-FEEDS را سفارشی سازند استوک واچر بیشتر RSS-FEEDS اقتصادی پشتیبانی میکند.
2- نمایش خروجی :
برای نمایش نتیج استوکر واچر، از ابزاری به نام time line استفاده می کنند. این ابزار برای نمایش مناسب حوادث مربوط به زمان طراحی شاخته می شود .
TIME LINE به مراحل نصب نیاز ندارد ( نا ازجانب سرور ، نه از جانب مشتری ) و رویداد های مربوط به ان به راحتی در فایل XML ذخیره می گردد.
4- نتیجه گیری و تحقیقات بیشتر
مهم ترین هدف ای برنامه تشریح برنامه استوک واچر است . در بخش های قبلی،معماری آن بیان شد و جزییاتی راجع به ابزر برنامه نویسی ارایه گردید باضمیم کردن یک سیستم درجه بندی الگو ریتم های ارائه شده قادر به درجه بندیخبر بر حسب قابلیت اطمینان و ارتباط آن ها ( با موضوع جاری ) شدیم . اینبرنامه آیتم های خبری مربوط به پرت فولیو کابر را بر حسب موضوع مرتبطنمایش می دهد.
مهمترین هدف زبان آنتولوژی وب owl ساخت دادهایقابل فهم برای ماشین های تحت وب است . استوک .اچر ، زیر بنای پیشرفت هیآینده در این را فراهم کرده است . از آنجاکه برنامه خصوصیاتش برا اساسهستی شناسی و تکنیک های به کار گرفته شده است تحلیل مفهومی اخبار امکان پذیر است به کمک اییت روش به تحلیل مفهومی اخبار در مورد قیمت مشترک داشته باشیم . ابزار دیگر مثل LINE TIMEقدرتنرم افزار را درمتن اضافه میکند(قراردادن پیشگویی در مفاهیم موقتی ) بنابراین تحلیل اثرات دقیق آیتم های خبری بر ارزش سهام خواهد شد .
مزیت دیگر این برنامه به استخراج دادها از شرکت مربوطه است . استخراج داد ها از صفحه HTML طول میکشد واین امر نباید در زمان جستجوی کاربر اتفاق افتد کل پایگاه به صورت دو را ای با داده های HOOVERS.COM بروز میش ود . با استفاده از پایگاه داده به روز شده به جای HOOVERS.COM ،برایبازیابی اطلاعات ، بازدهی برنامه بیشتر می شود این پایگاه داده همهکمپانی های قرار گرفته در 100 جایگاه اول رابر می گرداند و اطلاعاتی درمورد رقبای آن ، افراد مهم و بازرا رائه می دهد . با استفاده از چنینپایگاه داد ه ای برنامه همیشه اطلاعات را به روز استفاده میکند .
منبع : ماهنامه تخصصی IT ( عصر فناوری اطلاعات ) شماره 41
مقالات مرتبط به طراحی سایت :
استفاده مؤثر از گروه های خبری
مهندسی اینترنت و شبکه کاربرد وب 3 برای گزینش اخبار تجاری مورد علاقه کار