با سلام
من روی موضوع سیستم های توصیه گر در پرتال های خبری کار می کنم. این گونه پرتال های خبری در ایران چندان فعال نسیت و از اونجایی که ماژول عضویت گیری و پزوفایل برای هر کاربر تعریف نمی شه مورد های مناسبی برای داده کاوی نیستند.

بسیاری از مقالات این حوزه روی داده های پرتال news.google.com کار کردند و یا وب سایت های مشابه . من برای دسترسی به این دیتاست ها خیلی در اینترنت گشتم، ولی چیزی نیافتم! حالا چند سوال دارم.
آیا قانونی وجود نداره که نویسندگان باید دیتاست خودشون منتشر کنند؟ اگه نه پس چجوری ثابت می کنند نتایجشون عدد سازی نیست؟در کل چجوری به دیتاست یک مقاله می شه دسترسی یافت؟
چه راهنمایی برای به دست آوردن این دیتاست( شامل اطلاعات مقالات خبری پرتال و همچنین پروفایل کاربری اعضای اونها ) پیشنهاد می کنید؟