پردازش سیگنال مالی - قسمت 1

ساخت وبلاگ

رسیدگی به داده های مالی برای تجزیه و تحلیل آماری و یادگیری ماشین

تجارت الگوریتمی سخت است. شما فقط نمی توانید ده ها سیگنال تجزیه و تحلیل فنی را به یک شبکه عصبی بچسبانید و انتظار دارید که ماه آینده میلیونر شوید. این امر به این دلیل است که پردازش داده های مالی همه چیز در مورد جزئیات است. کنار گذاشتن تمام تعصبات و اشتباهات احتمالی که مبتدیان می توانند مرتکب شوند ، بیشتر یادگیری ماشین های مالی و پروژه های معاملاتی ALGO شکست می خورند زیرا آنها فرضیات ظریف را در یک زمینه مالی نادیده می گیرند.

برای این منظور ، امروز برمی گردم و در مورد اصول پردازش سیگنال مالی بحث خواهم کرد. من خصوصیات مختلف داده های مالی را بررسی خواهم کرد ، چه موقع و چگونه می توان آنها را به روشی خاص پردازش کرد و چگونه آنها را از طریق تکنیک های یادگیری ماشین تجزیه و تحلیل کنم.

1. نیاز به ثابت بودن

تکنیک های یادگیری ماشین MOST فرضیه در داده ها را فرض می کنند. با این حال ، ثابت بودن به ندرت در امور مالی یافت می شود ، که می تواند چندین مسئله را ایجاد کند.

قبل از غواصی به سیگنال های مالی ، ذکر مفهوم ثابت بودن مهم است ، زیرا این فرض اساسی در پشت ترین تکنیک های مدرن یادگیری ماشین است.

1. 1ثابت بودن چیست

کنار گذاشتن تعریف دقیق ریاضی ، آنچه که ثابت بودن دلالت دارد این است که آمار (به عنوان مثال میانگین و واریانس) سیگنال های زیرین با گذشت زمان ثابت است.

به عنوان مثال ، مشکلات ML مربوط به طبقه بندی گربه ها و سگ ها را در نظر بگیرید ، جایی که زیست شناسی اساسی حیوانات با اختلافات شدید هر روز تغییر نمی کند. ثابت بودن ویژگی های بیولوژیکی به مدلهای ML اجازه می دهد تا الگوهای خود را انتخاب کنند که به مرور زمان صحیح باقی می مانند ، که به مدل ها اجازه می دهد تا به خوبی خارج از نمونه تعمیم دهند.

1. 1ثابت بودن در امور مالی و مسائل بالقوه

با این حال ، در امور مالی ، ثابت بودن مسئله بزرگی است. به عنوان مثال سیگنال قیمت اپل را در شکل زیر در نظر بگیرید. این آزمایشات آماری دقیق انجام نمی شود تا ببینیم که قیمت متوسط به مرور زمان ثابت نمی ماند.

یک چارچوب تقسیم آزمون قطار را با داده های فوق در نظر بگیرید ، جایی که از سیگنال قیمت قبل از سال 2019 برای آموزش و باقی مانده برای آزمایش استفاده می شود. اگر کسی به صورت ساده لوحانه دامنه قیمت را از [100 ، 400] تا [0 ، 1] مقیاس کند ، منجر به تعصب نگاه می شود (نشت اطلاعات مجموعه آزمون به مجموعه آموزش). این امر منجر به عملکرد غیر واقعی بهتر می شود ، زیرا مدل ML به طور ضمنی می داند که قیمت حداکثر در آینده از مقیاس بندی چه خواهد بود.

به طور شهودی ، اگر در سال 2019 این مدل ML را اجرا می کردید ، به هیچ وجه نمی توانید بدانید که قیمت AAPL در سال 2020 به حدود 400 نفر خواهد رسید (و اگر می دانستید ، در وهله اول به ML احتیاج ندارید)بشر

اگر ما با استفاده از مجموعه آموزش ، دامنه قیمت را مقیاس کنیم ، چه می شود؟مقیاس بندی قیمت از [100 ، 250] تا [0،1] منجر به تعصب نگاه نمی شود ، اما تمام قیمت های بیشتر از 250 در مجموعه آزمایش اندازه گیری می شود تا بیشتر از 1 باشد. مدل های ML که نیاز به ویژگی ها دارند تا در یک محدوده مقیاس خاص مانند شبکه های عصبی قرار بگیرند.

یک راه حل بسیار بهتر ، پردازش سیگنال فوق از طریق اختلاف نظر ، همانطور که در زیر بحث شده است.

2. اختلاف نظر و ورود به سیستم

تغییر بخش داده های قیمت می تواند سیگنال های ثابت را برای تکنیک های یادگیری ماشین ایجاد کند ، که اغلب بهتر از سیگنال های قیمت خام است.

2. 1خواص برگشتی ورود به سیستم

اختلاف نظر ، تفاوت بین مقادیر ورود به سیستم در زمان T-1 و T را محاسبه می کند که اغلب به عنوان بازده ورود به سیستم گفته می شود ، همانطور که در شکل زیر نشان داده شده است.

یک سیگنال قیمت که از طریق ورود به سیستم پردازش می شود ، دارای مزایای بسیاری است: (1) همانطور که در شکل زیر نشان داده شده است ، سیگنال اصلی را ثابت می کند. با یک بازرسی ساده ، می بینیم که سیگنال جدید دارای میانگین ثابت در حدود 0 و همچنین واریانس ثابت تر است.(2) بازده های ورود به سیستم به طور عادی بیشتر از داده های قیمت توزیع می شوند ، که برای مدلهای آماری کلاسیک که به فرض عادی متکی هستند ، عالی است.(3) برگه های ورود به سیستم از زمان افزودنی زمان هستند ، که به ما امکان می دهد تا از طریق افزودنیهای ساده ، آزمایش های پشتی را محاسبه کنیم (برای توضیح دقیق تر مقاله را در اینجا ببینید).

2. 2در صورت عدم استفاده از ورود به سیستم

نتیجه اصلی بازگشت به ورود به سیستم این است که مؤلفه حافظه را حذف می کند ، که اطلاعات قیمت گذاری را از بین می برد. در بیشتر برنامه ها ، این معمولاً مسئله ای نیست. به عنوان مثال ، بسیاری از ادبیات مالی کمی در بهینه سازی نمونه کارها ، استراتژی های حرکت ، استراتژی های معناداری و غیره به میزان تغییر قیمت دارایی با هم متکی هستند. از این رو مقایسه برگه های ورود به سیستم از مقایسه قیمت ها معنی دار تر است.

با این حال ، برای سایر ابزارهای مالی ، مانند معاملات آینده کالا ، ارزش دقیق قیمت ممکن است تأثیر واقعی زندگی بر صنایعی داشته باشد که به آن کالاها متکی هستند. بنابراین در این حالت ، اطلاعات قیمت گذاری می تواند معنادارتر از بازپرداخت های ورود به سیستم باشد.

سرانجام ، می توان برخی از ظرافت های اضافی را در محاسبه بازپرداختهای ورود به سیستم وجود داشت ، که می توانند از طریق نمونه گیری مبتنی بر حجم و تفاوت کسری تنظیم شوند. این تکنیک ها در یک پست آینده مورد بحث قرار خواهد گرفت.

3. پردازش برگه های ورود به سیستم

آمار olling از بازده های ورود به سیستم می تواند از طریق روشهای یادگیری ماشین پردازش شود و بینش بازار را ارائه دهد.

3. 1آمار نورد

همانطور که قبلاً مورد بحث قرار گرفت ، بازده های ورود به سیستم تمایل به توزیع بهتر دارند. برای یک پنجره کوتاه مدت ، اغلب مطلوب است که آمارهای مختلف مرتبط با آن توزیع را تجزیه و تحلیل کنید ، مانند میانگین ، انحراف استاندارد ، SKEW و Kurtosis که تمایل به ثابت بودن دارند.

در پایتون ، اینها را می توان به راحتی از طریق عملکرد نورد در پاندا محاسبه کرد:

W = 22 # تعداد روزهای معاملاتی در یک ماهS1 = Rs. Rolling (W) . Mean () # میانگین متحرکS2 = Rs. Rolling (W) . std () # انحراف استاندارد متحرکs3 = rs. rolling (w) . skew () # skewness متحرکS4 = Rs. Rolling (W) . Kurt () # Kurtosis در حال حرکتسیگنال = pd. concat ([S1 ، S2 ، S3 ، S4] ، محور = 1)سیگنال هاسیگنال ها. Plot (زیرمجموعه = درست ، figsize = (10،7) ، افسانه = درست) ؛

به طور خاص ، محاسبه نورد انحراف استاندارد می تواند در تجزیه و تحلیل نوسانات بازار بسیار مفید باشد.

3. 1نوسانات و رژیم های بازار

نوسانات نقش ویژه ای در یادگیری ماشین مالی دارد. به طور شهودی ، نوسانات میزان عدم اطمینان/حرکت/هرج و مرج در بازار را اندازه گیری می کند. علاوه بر این ، می توان از آن برای اندازه گیری میزان "ریسک" موجود در بازار استفاده کرد (اگرچه تعاریف جایگزین/بهتری از ریسک وجود دارد ، مانند "قرار گرفتن در معرض").

مفهوم نوسانات نیز کاملاً با ایده رژیم های بازار مرتبط است که می تواند برای شناسایی شرایط مختلف بازار مورد استفاده قرار گیرد. به عنوان مثال ، ما می توانیم یک الگوریتم خوشه بندی را در سطح نوسانات SP500 در زمان های مختلف اجرا کنیم:

از sklea. mixture واردات gaussianmixtureW = 22جلد = rs. rolling (w) . std ()جلد = vol. dropna ()برچسب ها = GaussianMixture (2) . fit_predict (vol. values. reshape (-1،1))قیمت = قیمت. reindex (vol. index)قیمت ها [برچسب ها == 0] . plot (سبک = 'bo' ، alpha = 0. 2)قیمت ها [برچسب ها == 1] . plot (سبک = 'ro' ، alpha = 0. 2)plt. title ("جاسوسی رژیم های نوسانات")

با قرار دادن مخلوط گاوسی در سطح نوسانات مشاهده شده ، مدل ML به طور خودکار رژیم های بازارهای صعودی و نزولی را استنباط می کند. این بصری است زیرا فروش های بازار اغلب با تصمیمات فروش وحشت هدایت می شوند ، که می تواند منجر به کاهش شدید شود که باعث افزایش هرج و مرج در بازار می شود و در نتیجه نوسانات بیشتری به همراه دارد. در مقابل ، بازارهای صعودی با افزایش ثابت تر ارزش مشخص می شوند که منجر به نوسانات پایین تر می شود.

شناسایی رژیم های بازار به ویژه برای یادگیری ماشین های مالی از اهمیت ویژه ای برخوردار است ، زیرا مدلی که در طی یک بازار صعودی آموزش دیده است بعید است که در یک نزولی و برعکس به خوبی انجام دهد.

توجه داشته باشید از ویرایشگران Data Science: در حالی که ما به نویسندگان مستقل اجازه می دهیم مقالات را مطابق با قوانین و دستورالعمل های خود منتشر کنند ، ما سهم هر نویسنده را تأیید نمی کنیم. شما نباید بدون اینکه به دنبال مشاوره حرفه ای باشید ، به آثار نویسنده اعتماد کنید. برای جزئیات بیشتر به اصطلاحات خواننده ما مراجعه کنید.

امیدوارم از مقاله لذت برده باشید! اگر می خواهید مطالب بیشتری مانند این را ببینید ، مرا دنبال کنید.

همچنین ، برای کد کامل و منابع اضافی به وب سایت من مراجعه کنید.

فارکس وکسب درامد...
ما را در سایت فارکس وکسب درامد دنبال می کنید

برچسب : نویسنده : احمد قانع پور بازدید : 30 تاريخ : چهارشنبه 18 مرداد 1402 ساعت: :